|
КОРПУС ТЕКСТІВ З КОМП’ЮТЕРНОЇ ЛІНГВІСТИКИ

Обсяг
| 500 тис слів англійською, українською та російською мовами
| Розмітка та можливості пошуку
| Морфологічна розмітка, лематизація. Пошук слова в підкорпусі за словоформою, лемою та граматичним кодом. Пошук англійського терміна, переглядання його дефініції англійською мовою й усіх прикладів вживань в англійському підкорпусі текстів.
| Призначення
| Корпус використовується в лінгвістичних дослідженнях: статистичні дослідження функціонування слова, граматичних форм і словосполучень в наукових текстах.
| ЧЕСЬКИЙ НАЦІОНАЛЬНИЙ КОРПУС (ČESKÝ NÁRODNÍ KORPUS)

Обсяг
| 100 млн слів
| Структура
| Корпус письмових текстів (синхроний);корпус усного мовлення (синхронний); діахронічний корпус; корпус текстів іноземними мовами (сербською, німецькою, французькою, англійською, італійською); паралельний корпус;
| Заснування
| 1994р. Університетом ім.Карла у Празі
| Розмітка і можливості пошуку
| Корпус має метарозмітку, що дозволяє отримувати інформацію про вживання мовних одиниць за окремими жанрами, періодам і т.п. Також є морфологічна розмітка. Можливий пошук як по словоформах, так і по лемах, а також за граматичною інформацією. Доступна інформація про частотний розподіл мовних одиниць, а також інформація про сполучення слів.
| КОРПУС ПОЛЬСЬКОЇ МОВИ (KORPUS JĘZYKA POLSKIEGO PWN)
Обсяг
| 40 млн слів
Корпус доступий в Інтернеті у двох варіантах: демонстраційна і повна версія, що відрізняються кількістю зразків і часткою вихідного тексту.
| Склад
| Корпус складається з 386 творів різних книг, 977 номерів, 185 різних газет і журналів, 84 записаних розмов, 207 веб-сайтів і сотні листівок.
| Тематична класифікація
| філософія, релігія 7%; історія, географія (у тому числі спогади) 17%; література, лінгвістика (у тому числі есе) 9%; математика та природничі науки 9%; політика, економіка 14%; соціальні науки 5%; прикладні науки 8%; мистецтво 5,5 %; інше 25,5%.
| Будова
| Основний текст містить теги, які вказутью на структуру тексту, незвичайні або помилкові слова і конструкції, а також характеризують авторів та учасників розмови. Набір тегів в тексті дозволяє пошук імен, наприклад, людей, місць і слів, спільних для тієї чи іншої функції, такі, як у назві або в заявах особам певної статі або віку.
| Розмітка і можливості пошуку
| Граматична розмітка відсутня. Можливий пошук по слову або словосполученню.
| СЛОВАЦЬКИЙ НАЦІОНАЛЬНИЙ КОРПУС(SLOVENSKÝ NÁRODNÝ KORPUS)

Обсяг
| 200 млн слів
Тексти сучасної словацької мови 1955-2005р.
| Розмітка
| Лінгвістична розмітка (морфо-синтаксична, лематизація)
| Можливості
| Пошук слова, фрази, регулярних виразів, пошук по лемі, тегом, частотний аналіз, сполученні слів(колокації), елементи структурної розмітки.
| Структура
| Одномовний корпус письмових текстів: Паралельний корпус (комп'ютерних термінів, словацько-французький,словацько-російський, словацько-чеський, словацько-англійський, словацько-латинський, словацько-болгарський); Веб-корпус; Термінологічна база даних; Корпус правових законів; Словацький розмовний корпус; Історичний корпус; Корпус кримсько-татарської мови.
| 
ІРЛАНДСЬКИЙ КОРПУС ЕЛЕКТРОННИХ ТЕКСТІВ

Обсяг
| 16 млн слів
1336 сучасних та історичних документів з багатьох областей, в тому числі літератури та мистецтва.
| Структура
| Ірландсько-англійські тексти, французькі тексти, ірландські тексти, тексти латинською мовою, а також переклад текстів (з ірландської на англійську, з ірландської на французьку, з ірландської на німецьку, з французької на англійську, з середно-англійської на сучасну англійську, з латинської на англійську, з італійської на англійську, з іспанської на англійську, з німецької на англійську)
| Призначення
| Для академічних учених, викладачів, студентів та широкої громадськості по всьому світу.
| Можливості
| Тексти можна шукати, читати на екрані, скачати для подальшого використання, або роздрукувати.
|
АМЕРИКАНСЬКИЙ НАЦІОНАЛЬНИЙ КОРПУС (ANC)

Заснування
| 1990р.
| Обсяг
| 22 млн слів
| Склад
| Письмова та усна частини.
| Структура
| Відкритий Американський Національний Корпус (OANC), що складається з близько 15 мільйонів слів американського варіанту англійської мови, автоматично.
Вручну розмічений підкорпус (MASC), 500 000 слів американського варіанту англійської мови здебільшого взяті з OANC, з ручною розміткою.
ANC Second Release, розширений набір OANC в тому числі 800 000 додаткових слів.
MASC Корпус речень складається з приблизно 110 000 речень взятих з MASC і OANC, які були вручну розмічені.
| Розмітка і можливості пошуку
| Корпус оснащений метатекстовую, частиномовної розміткою. Підкорпус, 11 млн слів, має часткову синтаксичну розмітку. Є також розмітка власних назв для людей, організацій і географічних об'єктів.
Розмітка Відкритого Американського Національного Корпуса (OANC) складається з: структурної розмітки (розділи, глави і т.д.), межі речень, сліва з частиною мови та лемою, семантично значущі об'єкти (особи, місце розташування, організації, дати).
|
БРИТАНСЬКИЙ НАЦІОНАЛЬНИЙ КОРПУС (BNC)
Обсяг
| 100 мл слів
| Заснування
| 1991-1994р.
| Склад
| Письмова частина – 90% (тексти з регіональних та національних газет, опублікувані дослідження, журнали або періодичні видання, художні та науково-популярні книги, опубліковані та неопубліковані матеріали, листівки, брошури, листи, нариси, студентські твори, виступи, скрипти та багато інших типів текстів).
Усна частина – 10% (представлена у вигляді орфографічної транскрипції)
| Розмітка та можливості пошуку
| Морфологічна розмітка. Можна шукати конкретну словоформу; всі форми однієї лексеми по лемі; словосполучення, включаючи розривні; вибрані граматичні форми лексеми; здійснювати більш складний пошук з використанням спеціальної мови (CQL - мова запиту до корпусу); шукати більш складні конструкції з використанням спеціального конструктора запитів; отримувати інформацію про джерела прикладів, інформацію про відносну частоту, інформацію про частоту сполучень.
| Лінгвістична інформація
| Лексична, семантична / прагматична, синтаксична, морфологічна, графологічна, орфографічна.
| Призначення
| Може будти використаний для видань довідників, академічних і лінгвістичних досліджень, під час навчання мов, для створення штучного інтелекту, для обробки природної мови, для обробки мови та систем пошуку інформації.
|
|