ВІКІСТОРІНКА
Навигация:
Інформатика
Історія
Автоматизація
Адміністрування
Антропологія
Архітектура
Біологія
Будівництво
Бухгалтерія
Військова наука
Виробництво
Географія
Геологія
Господарство
Демографія
Екологія
Економіка
Електроніка
Енергетика
Журналістика
Кінематографія
Комп'ютеризація
Креслення
Кулінарія
Культура
Культура
Лінгвістика
Література
Лексикологія
Логіка
Маркетинг
Математика
Медицина
Менеджмент
Металургія
Метрологія
Мистецтво
Музика
Наукознавство
Освіта
Охорона Праці
Підприємництво
Педагогіка
Поліграфія
Право
Приладобудування
Програмування
Психологія
Радіозв'язок
Релігія
Риторика
Соціологія
Спорт
Стандартизація
Статистика
Технології
Торгівля
Транспорт
Фізіологія
Фізика
Філософія
Фінанси
Фармакологія


КОРПУС ТЕКСТІВ З КОМП’ЮТЕРНОЇ ЛІНГВІСТИКИ

 

Обсяг 500 тис слів англійською, українською та російською мовами
Розмітка та можливості пошуку Морфологічна розмітка, лематизація. Пошук слова в підкорпусі за словоформою, лемою та граматичним кодом. Пошук англійського терміна, переглядання його дефініції англійською мовою й усіх прикладів вживань в англійському підкорпусі текстів.
Призначення Корпус використовується в лінгвістичних дослідженнях: статистичні дослідження функціонування слова, граматичних форм і словосполучень в наукових текстах.

ЧЕСЬКИЙ НАЦІОНАЛЬНИЙ КОРПУС (ČESKÝ NÁRODNÍ KORPUS)

Обсяг 100 млн слів
Структура Корпус письмових текстів (синхроний);корпус усного мовлення (синхронний); діахронічний корпус; корпус текстів іноземними мовами (сербською, німецькою, французькою, англійською, італійською); паралельний корпус;
Заснування 1994р. Університетом ім.Карла у Празі
Розмітка і можливості пошуку Корпус має метарозмітку, що дозволяє отримувати інформацію про вживання мовних одиниць за окремими жанрами, періодам і т.п. Також є морфологічна розмітка. Можливий пошук як по словоформах, так і по лемах, а також за граматичною інформацією. Доступна інформація про частотний розподіл мовних одиниць, а також інформація про сполучення слів.

КОРПУС ПОЛЬСЬКОЇ МОВИ (KORPUS JĘZYKA POLSKIEGO PWN)

Обсяг 40 млн слів Корпус доступий в Інтернеті у двох варіантах: демонстраційна і повна версія, що відрізняються кількістю зразків і часткою вихідного тексту.
Склад Корпус складається з 386 творів різних книг, 977 номерів, 185 різних газет і журналів, 84 записаних розмов, 207 веб-сайтів і сотні листівок.
Тематична класифікація філософія, релігія 7%; історія, географія (у тому числі спогади) 17%; література, лінгвістика (у тому числі есе) 9%; математика та природничі науки 9%; політика, економіка 14%; соціальні науки 5%; прикладні науки 8%; мистецтво 5,5 %; інше 25,5%.
Будова Основний текст містить теги, які вказутью на структуру тексту, незвичайні або помилкові слова і конструкції, а також характеризують авторів та учасників розмови. Набір тегів в тексті дозволяє пошук імен, наприклад, людей, місць і слів, спільних для тієї чи іншої функції, такі, як у назві або в заявах особам певної статі або віку.
Розмітка і можливості пошуку Граматична розмітка відсутня. Можливий пошук по слову або словосполученню.

СЛОВАЦЬКИЙ НАЦІОНАЛЬНИЙ КОРПУС(SLOVENSKÝ NÁRODNÝ KORPUS)

Обсяг 200 млн слів Тексти сучасної словацької мови 1955-2005р.
Розмітка Лінгвістична розмітка (морфо-синтаксична, лематизація)
Можливості Пошук слова, фрази, регулярних виразів, пошук по лемі, тегом, частотний аналіз, сполученні слів(колокації), елементи структурної розмітки.
Структура Одномовний корпус письмових текстів: Паралельний корпус (комп'ютерних термінів, словацько-французький,словацько-російський, словацько-чеський, словацько-англійський, словацько-латинський, словацько-болгарський); Веб-корпус; Термінологічна база даних; Корпус правових законів; Словацький розмовний корпус; Історичний корпус; Корпус кримсько-татарської мови.


ІРЛАНДСЬКИЙ КОРПУС ЕЛЕКТРОННИХ ТЕКСТІВ

Обсяг 16 млн слів 1336 сучасних та історичних документів з багатьох областей, в тому числі літератури та мистецтва.
Структура Ірландсько-англійські тексти, французькі тексти, ірландські тексти, тексти латинською мовою, а також переклад текстів (з ірландської на англійську, з ірландської на французьку, з ірландської на німецьку, з французької на англійську, з середно-англійської на сучасну англійську, з латинської на англійську, з італійської на англійську, з іспанської на англійську, з німецької на англійську)
Призначення Для академічних учених, викладачів, студентів та широкої громадськості по всьому світу.
Можливості Тексти можна шукати, читати на екрані, скачати для подальшого використання, або роздрукувати.

 

 


АМЕРИКАНСЬКИЙ НАЦІОНАЛЬНИЙ КОРПУС (ANC)

Заснування 1990р.
Обсяг 22 млн слів
Склад Письмова та усна частини.
Структура Відкритий Американський Національний Корпус (OANC), що складається з близько 15 мільйонів слів американського варіанту англійської мови, автоматично. Вручну розмічений підкорпус (MASC), 500 000 слів американського варіанту англійської мови здебільшого взяті з OANC, з ручною розміткою. ANC Second Release, розширений набір OANC в тому числі 800 000 додаткових слів. MASC Корпус речень складається з приблизно 110 000 речень взятих з MASC і OANC, які були вручну розмічені.
Розмітка і можливості пошуку Корпус оснащений метатекстовую, частиномовної розміткою. Підкорпус, 11 млн слів, має часткову синтаксичну розмітку. Є також розмітка власних назв для людей, організацій і географічних об'єктів. Розмітка Відкритого Американського Національного Корпуса (OANC) складається з: структурної розмітки (розділи, глави і т.д.), межі речень, сліва з частиною мови та лемою, семантично значущі об'єкти (особи, місце розташування, організації, дати).

БРИТАНСЬКИЙ НАЦІОНАЛЬНИЙ КОРПУС (BNC)

Обсяг 100 мл слів
Заснування 1991-1994р.
Склад Письмова частина – 90% (тексти з регіональних та національних газет, опублікувані дослідження, журнали або періодичні видання, художні та науково-популярні книги, опубліковані та неопубліковані матеріали, листівки, брошури, листи, нариси, студентські твори, виступи, скрипти та багато інших типів текстів). Усна частина – 10% (представлена у вигляді орфографічної транскрипції)
Розмітка та можливості пошуку Морфологічна розмітка. Можна шукати конкретну словоформу; всі форми однієї лексеми по лемі; словосполучення, включаючи розривні; вибрані граматичні форми лексеми; здійснювати більш складний пошук з використанням спеціальної мови (CQL - мова запиту до корпусу); шукати більш складні конструкції з використанням спеціального конструктора запитів; отримувати інформацію про джерела прикладів, інформацію про відносну частоту, інформацію про частоту сполучень.
Лінгвістична інформація Лексична, семантична / прагматична, синтаксична, морфологічна, графологічна, орфографічна.
Призначення Може будти використаний для видань довідників, академічних і лінгвістичних досліджень, під час навчання мов, для створення штучного інтелекту, для обробки природної мови, для обробки мови та систем пошуку інформації.

© 2013 wikipage.com.ua - Дякуємо за посилання на wikipage.com.ua | Контакти