ВІКІСТОРІНКА
Навигация:
Інформатика
Історія
Автоматизація
Адміністрування
Антропологія
Архітектура
Біологія
Будівництво
Бухгалтерія
Військова наука
Виробництво
Географія
Геологія
Господарство
Демографія
Екологія
Економіка
Електроніка
Енергетика
Журналістика
Кінематографія
Комп'ютеризація
Креслення
Кулінарія
Культура
Культура
Лінгвістика
Література
Лексикологія
Логіка
Маркетинг
Математика
Медицина
Менеджмент
Металургія
Метрологія
Мистецтво
Музика
Наукознавство
Освіта
Охорона Праці
Підприємництво
Педагогіка
Поліграфія
Право
Приладобудування
Програмування
Психологія
Радіозв'язок
Релігія
Риторика
Соціологія
Спорт
Стандартизація
Статистика
Технології
Торгівля
Транспорт
Фізіологія
Фізика
Філософія
Фінанси
Фармакологія


Основні етапи: сканування, сегментування тексту, безпосереднє розпізнавання.

Якість розпізнавання багато в чому залежить від якості вихідного зображення. Як правильно відсканувати доку­мент, як відкрити й розпізнати вже наявні на комп'ютері зображення, як можна обробити зображення й усунути де­які його дефекти (наприклад, різного роду непотрібні зна­ки, таблиці, лінії, що виникли при скануванні) і т.д.?

Перш ніж розпочати розпізнавання, програма має зна­ти, які ділянки зображення треба розпізнавати. Для цього проводиться аналіз макета сторінки, під час якого виділя­ються блоки з текстом, картинки, таблиці та штрих-коди.

Завдання розпізнавання полягає в тому, щоб перетвори­ти відскановане зображення в текст, зберігши при цьому оформлення сторінки. Перед розпізнаванням тексту необ­хідно встановити основні параметри: язык распознавания, тип печати распознанного текста и тип страницы.

Після завершення розпізнавання результат з'являється у вікні Текст. Вікно Текст — це вбудований редактор програми Finereader; у ньому можна перевірити результа­ти розпізнавання та відредагувати розпізнаний текст.

У списку Рівень виділення помилок можна вибрати такі значення:

Немає — помилки розпізнавання не виділяються.

Стандартний — кольорами виділяються нерозпізнані й непевно розпізнані символи.

Максимальний — крім нерозпізнаних і непевно роз­пізнаних символів, кольорами виділяються слова, яких немає в словнику мови розпізнавання.

Зауваження. Кількість показуваних у вікні Текст поми­лок буде змінено після повторного розпізнавання документа.

Зупинятися на непевно розпізнаних словах. Система при перевірці орфографії зупинятиметься на словах, у яких були непевно розпізнані які-небудь літери Зупинятися на несловникових словах. Ця опція дає змогу перевірити слова, яких немає в словнику і які могли бути розпізнані програмою неправильно.

Зупинятися на складних словах. При перевірці орфографії система зупиняється на словах, яких немає у словнику, але які можуть бути побудовані за наявними морфологічними моделями або складені з наявних у словнику слів.

Ігнорувати слова із цифрами й іншими неалфавітними символами. При перевірці орфографії слів, всередині яких чіпляються цифри або які-небудь інші символи, що не входять в алфавіт мови розпізнавання, не вважаються помилковими, якщо вони не містять непевно розпізнані символи.

Результати розпізнавання можна зберегти у файл, передати у зовнішній додаток, не зберігаючи на диску, скопіювати в буфер обміну або відправити електронною поштою в кожному з підтримуваних програмою Finereader форматів збереження. Зберегти можна всі сторінки або тільки вибрані.

Питання для самоперевірки:

1. Розповісти про можливості програми Finereader.

2. Який порядок розпізнавання текстових документів у програмі Finereader?

3. Охарактеризуйте основні етапи: сканування, сегментування тексту, безпосереднє розпізнавання.

Лекція 18. Автоматичний переклад документів.

18.1. Загальні знання про автоматичний переклад.

18.2. Засоби та види автоматичного перекладу.

18.3. Комп’ютерна лексикографія.

 

 

Загальні знання про автоматичний переклад.

Багато суспільних і економічних міжнародних органі­зацій ведуть діловодство і технічну документацію різними мовами. Тому раніше досить часто доводилося звертатися за допомогою до перекладачів. На сучасному етапі набув широкого розповсюдження машинний переклад — один із напрямів автоматичної обробки мови, що займається створенням автоматичних або автоматизованих систем перекладу науково-технічної та ділової прози. У ході ме­ханічного перекладу виконується два завдання:

· одержати на виході текст, придатний для редагування;

· одержати текст, що має інформаційну користь для
споживача.

Водночас, практика машинного перекладу показує, що 20 % речень вихідного тексту перекладається неправиль­но. Причинами такого явища є недоліки словника і спе­цифіка утворення синтаксичних структур у різних мовах. Для подолання цих недоліків потрібні серйозні зміни н лінгвістичному забезпеченні шляхом збільшення лексич­них одиниць словника, постійного вдосконалення лінгвіс­тичних описів синтаксичних конструкцій і правил коду­вання та перекодування.

Порівнювати текст можна за декількома лінгвістичними рівнями: кількість правильних/неправильних перекладе­них слів, синтаксичних структур, стилістичних прийомів.

Редакторське виправлення такого тексту передбачає два етапи:

· усунення лексичних і граматичних помилок за допомогою порівняння перекладу з оригіналом;

· редагування отриманого правильного за змістом тек­сту на морфологічному рівні та внесення необхідних сти­лістичних змін.

Оцінювання якості перекладу традиційно уявляється як процедура порівняння перекладу з оригіналом, у результаті чого можемо встановити ступінь точності: адекватний переклад, підрядковий, вільний, нормативний, ненормативний.

 

Засоби та види автоматичного перекладу.

Письмовий переклад поділяється:

· послівний — текст подається як послідовність слів, кожне з яких має свою цінність. Слова в перекладі зберігаються в порядку розміщення їх в оригіналі;

· буквальний — розглядає текст не як послідовність
окремих слів, а як послідовність речень;

· філологічний — потребує максимального наближення читача до автора. Сферою застосування цього типу перекладу є правильність і точність передачі художніх особливостей стилю автора;

· адаптивний — передбачає скорочення оригіналу і витяг з нього найважливішої інформації та створення реферату, анотації на іншій мові.

На сьогодні широко відомі такі пакети сучасних російсько- українських перекладачів, що задовольняють потреби користувачів: Duet, Рута-Плай, Language Master, РУМП.. Ці системи призначені для полегшення лінгвістичної обробки українських текстів (усі системи мають двосторонній переклад, а програма Language Master — тристоронній (російська, українська, англійська мови)).

Граматичний контроль українських текстів здійснюється майже за 100 правилами граматики. Переноси можуть бути виставлені автоматично відповідно до правил.

Як свідчать показники оцінювання швидкості перекладу й обсягу його виправлення, найбільш успішно це завдання виконує програма Language Master,, потім система Рута-Плай,

Рута-Плай складається з двох лінгвістичних програм

Рута (програма лінгвістичної обробки українських текстів) і Плай (система перекладу текстів з російської мови на українську та навпаки), а також програми індексації текстів і російсько-українсько-російського словника.

Разом з тим з'ясовано, що критичними моментами для машинних перекладачів є такі показники: зміна керуван­ня зв'язку (зміна прийменника і відповідно наступного за ним іменника); зміна відмінка, роду і числа іменників та їхніх означень; переклад активних словників і зміна по рядку слів у реченні; переклад ідіом.

РRОМТ — це єдиний перекладач (англо-німецький), н якому можна не тільки перекладати, а також і редагувати переклад, працювати зі словниками для всіх мовних на­правлень одночасно. Ця програма дає змогу виконувати як простий і швидкий, так і складний професійний пере­клади тексту, і водночас виконувати лінгвістичний аналіз перекладу.

Комп’ютерна лексикографія.

Лексикографія — розділ науки про мову та її словнико­вий склад. Трудомістке завдання, що виникає перед на­укою, — зібрати й інвентаризувати, по можливості, всю лексику, з'ясувати й описати значення кожної лексичної одиниці.

Предметом комп'ютерної лексикографії є вивчення способів побудови і використання машинних словників природної мови. У комп'ютерній лексикографії розрізняють механізований та машинний словники.

Основне завдання механізованого словника — створення інформаційного тексту у вигляді довідкового матеріалу. Мета текстів — подавати дані вихідного матеріалу без інформаційних помилок щодо точності їхнього відтворення. Функція роботи механізованих словників нічим не відрізняється від звичайних, за винятком їхнього фізичного подання.

Для машинних словників загальним методом укладання є використання мови-еталона для опису значення слів.

Особливості укладання машинних словників:

· реєстрація наявного стану щодо певного слова;

· нормативність уживання;

· сталість складу;

· мета словника;

· вихідний матеріал для набору машинного словника.

Машинні словники можуть виконувати одну з трьох можливих функцій: 1) збереження інформації; 2) маніпуляція нею; 3) трансляція.Критерії організації машинних словників

· Алгоритм автоматичного пошуку слів.

· Типологія машинних словників на рівні субмов і спеціалізації.

· Створення машинного словника як багаторівневової
системи, основним призначенням якої є комунікація.

· Будь-який обсяг лексичних одиниць і швидкий пошук слів.

Машинні словники класифікують:

1. За характером структури лексичних одиниць:

· словник основ;

· словник словоформ;

· словник зворотів.

2. За способом організації:

· частотні;

· алфавітні (прямі та зворотні);

· словники-тезауруси;

· словники конкорданси;

· спеціальні (для перекладу багатозначних слів).

Питання для самоперевірки:

1. ІЦо означає термін «машинний переклад»?

2. Які напрями машинного перекладу найбільш швидко розвиваються в сучасному суспільстві?

3. Назвіть відмінні риси друкованих і машинних словників.

4. Назвіть основні типи словників, що використовуються в системі машинного перекладу?

5. Назвіть відомі вам машинні словники і перекладачі та їх особливості.

 

 

© 2013 wikipage.com.ua - Дякуємо за посилання на wikipage.com.ua | Контакти