![]() |
Основні етапи: сканування, сегментування тексту, безпосереднє розпізнавання.
Якість розпізнавання багато в чому залежить від якості вихідного зображення. Як правильно відсканувати документ, як відкрити й розпізнати вже наявні на комп'ютері зображення, як можна обробити зображення й усунути деякі його дефекти (наприклад, різного роду непотрібні знаки, таблиці, лінії, що виникли при скануванні) і т.д.? Перш ніж розпочати розпізнавання, програма має знати, які ділянки зображення треба розпізнавати. Для цього проводиться аналіз макета сторінки, під час якого виділяються блоки з текстом, картинки, таблиці та штрих-коди. Завдання розпізнавання полягає в тому, щоб перетворити відскановане зображення в текст, зберігши при цьому оформлення сторінки. Перед розпізнаванням тексту необхідно встановити основні параметри: язык распознавания, тип печати распознанного текста и тип страницы. Після завершення розпізнавання результат з'являється у вікні Текст. Вікно Текст — це вбудований редактор програми Finereader; у ньому можна перевірити результати розпізнавання та відредагувати розпізнаний текст. У списку Рівень виділення помилок можна вибрати такі значення: Немає — помилки розпізнавання не виділяються. Стандартний — кольорами виділяються нерозпізнані й непевно розпізнані символи. Максимальний — крім нерозпізнаних і непевно розпізнаних символів, кольорами виділяються слова, яких немає в словнику мови розпізнавання. Зауваження. Кількість показуваних у вікні Текст помилок буде змінено після повторного розпізнавання документа. Зупинятися на непевно розпізнаних словах. Система при перевірці орфографії зупинятиметься на словах, у яких були непевно розпізнані які-небудь літери Зупинятися на несловникових словах. Ця опція дає змогу перевірити слова, яких немає в словнику і які могли бути розпізнані програмою неправильно. Зупинятися на складних словах. При перевірці орфографії система зупиняється на словах, яких немає у словнику, але які можуть бути побудовані за наявними морфологічними моделями або складені з наявних у словнику слів. Ігнорувати слова із цифрами й іншими неалфавітними символами. При перевірці орфографії слів, всередині яких чіпляються цифри або які-небудь інші символи, що не входять в алфавіт мови розпізнавання, не вважаються помилковими, якщо вони не містять непевно розпізнані символи. Результати розпізнавання можна зберегти у файл, передати у зовнішній додаток, не зберігаючи на диску, скопіювати в буфер обміну або відправити електронною поштою в кожному з підтримуваних програмою Finereader форматів збереження. Зберегти можна всі сторінки або тільки вибрані. Питання для самоперевірки: 1. Розповісти про можливості програми Finereader. 2. Який порядок розпізнавання текстових документів у програмі Finereader? 3. Охарактеризуйте основні етапи: сканування, сегментування тексту, безпосереднє розпізнавання. Лекція 18. Автоматичний переклад документів. 18.1. Загальні знання про автоматичний переклад. 18.2. Засоби та види автоматичного перекладу. 18.3. Комп’ютерна лексикографія.
Загальні знання про автоматичний переклад. Багато суспільних і економічних міжнародних організацій ведуть діловодство і технічну документацію різними мовами. Тому раніше досить часто доводилося звертатися за допомогою до перекладачів. На сучасному етапі набув широкого розповсюдження машинний переклад — один із напрямів автоматичної обробки мови, що займається створенням автоматичних або автоматизованих систем перекладу науково-технічної та ділової прози. У ході механічного перекладу виконується два завдання: · одержати на виході текст, придатний для редагування; · одержати текст, що має інформаційну користь для Водночас, практика машинного перекладу показує, що 20 % речень вихідного тексту перекладається неправильно. Причинами такого явища є недоліки словника і специфіка утворення синтаксичних структур у різних мовах. Для подолання цих недоліків потрібні серйозні зміни н лінгвістичному забезпеченні шляхом збільшення лексичних одиниць словника, постійного вдосконалення лінгвістичних описів синтаксичних конструкцій і правил кодування та перекодування. Порівнювати текст можна за декількома лінгвістичними рівнями: кількість правильних/неправильних перекладених слів, синтаксичних структур, стилістичних прийомів. Редакторське виправлення такого тексту передбачає два етапи: · усунення лексичних і граматичних помилок за допомогою порівняння перекладу з оригіналом; · редагування отриманого правильного за змістом тексту на морфологічному рівні та внесення необхідних стилістичних змін. Оцінювання якості перекладу традиційно уявляється як процедура порівняння перекладу з оригіналом, у результаті чого можемо встановити ступінь точності: адекватний переклад, підрядковий, вільний, нормативний, ненормативний.
Засоби та види автоматичного перекладу. Письмовий переклад поділяється: · послівний — текст подається як послідовність слів, кожне з яких має свою цінність. Слова в перекладі зберігаються в порядку розміщення їх в оригіналі; · буквальний — розглядає текст не як послідовність · філологічний — потребує максимального наближення читача до автора. Сферою застосування цього типу перекладу є правильність і точність передачі художніх особливостей стилю автора; · адаптивний — передбачає скорочення оригіналу і витяг з нього найважливішої інформації та створення реферату, анотації на іншій мові. На сьогодні широко відомі такі пакети сучасних російсько- українських перекладачів, що задовольняють потреби користувачів: Duet, Рута-Плай, Language Master, РУМП.. Ці системи призначені для полегшення лінгвістичної обробки українських текстів (усі системи мають двосторонній переклад, а програма Language Master — тристоронній (російська, українська, англійська мови)). Граматичний контроль українських текстів здійснюється майже за 100 правилами граматики. Переноси можуть бути виставлені автоматично відповідно до правил. Як свідчать показники оцінювання швидкості перекладу й обсягу його виправлення, найбільш успішно це завдання виконує програма Language Master,, потім система Рута-Плай, Рута-Плай складається з двох лінгвістичних програм — Рута (програма лінгвістичної обробки українських текстів) і Плай (система перекладу текстів з російської мови на українську та навпаки), а також програми індексації текстів і російсько-українсько-російського словника. Разом з тим з'ясовано, що критичними моментами для машинних перекладачів є такі показники: зміна керування зв'язку (зміна прийменника і відповідно наступного за ним іменника); зміна відмінка, роду і числа іменників та їхніх означень; переклад активних словників і зміна по рядку слів у реченні; переклад ідіом. РRОМТ — це єдиний перекладач (англо-німецький), н якому можна не тільки перекладати, а також і редагувати переклад, працювати зі словниками для всіх мовних направлень одночасно. Ця програма дає змогу виконувати як простий і швидкий, так і складний професійний переклади тексту, і водночас виконувати лінгвістичний аналіз перекладу. Комп’ютерна лексикографія. Лексикографія — розділ науки про мову та її словниковий склад. Трудомістке завдання, що виникає перед наукою, — зібрати й інвентаризувати, по можливості, всю лексику, з'ясувати й описати значення кожної лексичної одиниці. Предметом комп'ютерної лексикографії є вивчення способів побудови і використання машинних словників природної мови. У комп'ютерній лексикографії розрізняють механізований та машинний словники. Основне завдання механізованого словника — створення інформаційного тексту у вигляді довідкового матеріалу. Мета текстів — подавати дані вихідного матеріалу без інформаційних помилок щодо точності їхнього відтворення. Функція роботи механізованих словників нічим не відрізняється від звичайних, за винятком їхнього фізичного подання. Для машинних словників загальним методом укладання є використання мови-еталона для опису значення слів. Особливості укладання машинних словників: · реєстрація наявного стану щодо певного слова; · нормативність уживання; · сталість складу; · мета словника; · вихідний матеріал для набору машинного словника. Машинні словники можуть виконувати одну з трьох можливих функцій: 1) збереження інформації; 2) маніпуляція нею; 3) трансляція.Критерії організації машинних словників · Алгоритм автоматичного пошуку слів. · Типологія машинних словників на рівні субмов і спеціалізації. · Створення машинного словника як багаторівневової · Будь-який обсяг лексичних одиниць і швидкий пошук слів. Машинні словники класифікують: 1. За характером структури лексичних одиниць: · словник основ; · словник словоформ; · словник зворотів. 2. За способом організації: · частотні; · алфавітні (прямі та зворотні); · словники-тезауруси; · словники конкорданси; · спеціальні (для перекладу багатозначних слів). Питання для самоперевірки: 1. ІЦо означає термін «машинний переклад»? 2. Які напрями машинного перекладу найбільш швидко розвиваються в сучасному суспільстві? 3. Назвіть відмінні риси друкованих і машинних словників. 4. Назвіть основні типи словників, що використовуються в системі машинного перекладу? 5. Назвіть відомі вам машинні словники і перекладачі та їх особливості.
|
|
|