ВІКІСТОРІНКА
Навигация:
Інформатика
Історія
Автоматизація
Адміністрування
Антропологія
Архітектура
Біологія
Будівництво
Бухгалтерія
Військова наука
Виробництво
Географія
Геологія
Господарство
Демографія
Екологія
Економіка
Електроніка
Енергетика
Журналістика
Кінематографія
Комп'ютеризація
Креслення
Кулінарія
Культура
Культура
Лінгвістика
Література
Лексикологія
Логіка
Маркетинг
Математика
Медицина
Менеджмент
Металургія
Метрологія
Мистецтво
Музика
Наукознавство
Освіта
Охорона Праці
Підприємництво
Педагогіка
Поліграфія
Право
Приладобудування
Програмування
Психологія
Радіозв'язок
Релігія
Риторика
Соціологія
Спорт
Стандартизація
Статистика
Технології
Торгівля
Транспорт
Фізіологія
Фізика
Філософія
Фінанси
Фармакологія


Порядок розпізнавання текстових документів

Загрузка...

Оскільки потреба в розпізнаванні тексту відсканованих документів достатньо велика, тому є значне число програм, призначених для цієї цілі. Різні наукові методи розпізнавання тексту розвивалися незалежно один від одного, багато які з цих програм використовують цілком різні алгоритми. Ці алгоритми можуть давати різні результати на різних документах. Наприклад, якщо системи OCR спроможні розпізнавати тільки стандартний спеціально підготовлений шрифт і дають на цьому шрифті найкращі результати, що не може перевершити жодна з більш універсальних програм. Сучасні алгоритми розпізнавання тексту не орієнтуються ні на конкретний шрифт, ні на конкретний алфавіт. Більшість програм здатні розпізнавати текст кількома мовами. Ті самі алгоритми можна використовувати для розпізнавання латинського, російського, українських, арабського й інших алфавітів і навіть змішаних текстів. Зрозуміло, програма повинна знати, про який алфавіт мова йде.

Найбільше широко відомі і поширені програми FineReader і CuneiForm. Ми докладно зупинимося на програмі FineReader, що забезпечує високу якість розпізнавання і зручність застосування. З моменту виходу FineReader 4.0 StdPro завоював 26 нагород за точність і простоту використання.

ПРОГРАМА FINEREADER

Програма FineReader — продукт групи компаній ABBYY.

ABBYY — один із головних виробників програмного забезпечення в області лінгвістики, семантики, опрацювання текстів і систем оптичного розпізнавання символів. Група компаній ABBYY складається зі штаб-квартири ABBYY у Москві, ABBYY України Київ, ABBYY США Фримонт, Каліфорнія, ABBYY Європи Мюнхен, Німеччина.

Програмні продукти ABBYY :
сімейство систем розпізнавання FINE READER, що дозволяють автоматизувати введення в компютер текстів, таблиць, форм анкет і бланків;

FINE READER РУКОПИС забезпечує розпізнавання форм, заповнених друкованими літера від руки;

система FINE READER БАНК автоматизує введення платіжних доручень;

ABBYY Retrieval & Morphology Engine — інструментарій розроблювача для інтеграції повнотекстового пошуку і лінгвістичних технологій у зовнішні додатки

система електронних англо-російських і російсько-англійських словників LINGVO.

Програма FineReader призначена для розпізнавання текстів на російському, англійському, німецьких, українських, французькому і багатьох інших мовах, а також для розпізнавання змішаних двомовних текстів.

Програма має ряд зручних можливостей. Вона дозволяє обєднувати сканування і розпізнавання в одну операцію, працювати з пакетами документів або з Багатосторінковими документами і з бланками. Програму можна навчати для підвищення якості розпізнавання погано надрукованих текстів або складних шрифтів. Вона дозволяє редагувати розпізнаний текст і перевіряти його орфографію. FineReader працює з різними моделями сканерів і підтримує стандарт TWAIN.

Перетворення паперового документа в електронний відбувається в три етапи.

1. Перший етап — сканування. Сканер під керуванням драйвера, що підтримує протокол TWAIN, перетворить документ у сукупність графічних файлів по числу сторінок. При необхідності користувач може переустановити параметри сканування.

Зображення з листа паперу може бути перетворене в цифрову форму і за допомогою інших засобів, таких, наприклад, як цифрові фотоапарати і цифрової відеокамери.

2. Другий етап — сегментація тексту. Сегментація це процес виділення в документі однорідних фрагментів блоків зображення — тексту, малюнків, таблиць. Блоки опрацьовуються і включаються в документ у порядку нумерації блоків. Сегментація може виконуватися в автоматичному режимі. Якщо вихідний документ має складну структуру — містити ілюстрації, підписи до них, текст розміщається в декількох колонках, то сегментація робить у ручному режимі. У результаті сегментації утворяться файли, що бережуть опис блоків кожної сторінки.

3. Останній третій етап роботи програми — безпосередньо розпізнавання. Він стосується тільки блоків, що містять текст і таблиці. Графічні блоки просто пересилаються у формований файл. Розпізнаний текст відображається в окремому вікні у виді форматованного текстового документа. Програма виділяє цвітом ті символи, що вона сама розглядає як неоднозначно пізнані. Це спрощує пошук помилок. Цей етап звичайно не потребує втручання користувача, за винятком тих випадків, коли текст неякісно відбитий або набраний невідомим шрифтом. Тоді користувач може навчити програму розпізнавати даний текст.

Створений текстовий файл утрачає звязок із вихідним зображенням і може редагуватися і форматувати незалежно від нього. Засобами програми в отриманому тексті можна також провести перевірку граматики.

Кожний із цих етапів програма FineReader може виконувати як автоматично, так і під контролем користувача. Існує режим, коли всі три етапи виконуються автоматично під керуванням майстра. У цьому випадку перетворення документа відбувається за один прийом.

Отриманий текст можна зберегти у виді форматованного або неформатованного документа. Передбачено також можливість прямої передачі отриманого тексту в програми Word або Excel, а також у буфер обміну Windows.

Процес сканування, сегментування і розпізнавання багатосторінкового текстового документа достатньо тривалий і не завжди може бути закінчений за один прийом. . FineReader надає можливість розбити цей процес на частині.

Робота з перетворення документа може бути передерта на будь-якому етапі. При цьому вся поточна інформація з опрацювання документа — графічні файли, сегментні файли, формований текстовий файл і службові файли записуються в папку з назвою Пакет. При поновленні роботи всі необхідні файли зчиуються із папки Пакет і процес перетворення документа продовжується з перерваного місця.
-

41. Правила скорочень у текстах документів
-

У документах системи ОРД застосовують різні типи скорочень. Однак усі скорочення повинні відповідати вимогам затверджених у ГОСТах.
-

Скорочення виправдані, оскільки вони скорочують час на складання тексту, зменшується його обсяг та виготовлення документа. Принято розрізняти скорочення кількох типів:
-

Буквені ініціальні скорочення абривіатури, які утворені з початкових літер кожного слова, наприклад: ДУМ, ЛТЕК, МВС і т. д. Майже всі ініціальні скорочення пишуться з великої літери.
-

2. Складно скорочені слова змішаного утворення складаються з абревіатур та усічених слів. Пишуться вони по-різному, наприклад: ВНДІ вугілля, райвно та інші.
-

3. Складно скорочені слова складного типу наприклад, колгосп, радгосп, теплохід, Ростсільмаш, Гловморшлях і так далі.
-

Окремі частково скорочені слова, що складаються з частини основ і повного слова, відрізняються певними особливостями у розшифровці, у категорії роду, відмінювані, наприклад, завкадрами, зам директора, голов пошта і так далі.
-

Запозичені з інших мов, наприклад: Бі-Бі-Сі, АПН, лавсан .
- Умовні графічні скорочення на позначення посади, географічних понять, відрізки часу, кількісні визначення, назви міст, сіл, селищ, областей, районів, вулиць, проспектів.
- Особливість графічних скорочень у тому, що вони не виправляються усною мовою. Після такого скорочення обовязково ставиться крапка, наприклад: м.місто, с.село, обл., р-н і т. п. Графічне скорочення завжди пишеться малими літерами.
- В ОРД не скорочуються реквізити заголовок, автор документа, підпис.
-

42 Причини різноманіття дефініцій тексту в науці
-

Аж до теперішнього часу існує проблема визначення поняття тексту. Дійсно, текст як лінгвістичний феномен надзвичайно багатопланове явище, і це зумовлює множинність його дефініцій [2].
-

Так, із позицій структурно-семантичного підходу текст виступає як упорядкована структурно-змістова єдність, що обєднана різними типами лексичного, логічного, лексико-граматичного звязку. З позицій комунікативного напрямку текст характеризується як деяка система комунікативних елементів, функційно тобто для конкретних цілей обєднаних загальною концепцією або комунікативною інтенцією в єдину замкнуту ієрархічну структуру. З урахуванням параметрів комунікативної ситуації: адресат, адресант, код, повідомлення, обставини, будь-який текст — це смислове ціле, таке, що є організованою єдністю складових його елементів; повідомлення автора адресанта читачеві адресатові [3, с. 87].
-

Немає й не може бути таких текстів, які не фіксували б який-небудь фрагмент людського досвіду і його осмислення. Це робить текст можливим обєктом концептуального й когнітивного аналізу, тобто дозволяє встановити, з яким баченням миру ми зштовхнулися в даному тексті, що й з якої причини привернуло увагу людини, які саме фрагменти знання й оцінок у ньому закріплені й т.д.

-

Але немає таких текстів, які не зявилися б також кінцевим підсумком дискурсивної, тобто соціально орієнтованої й соціально обумовленої комунікативної діяльності. Як би анонімним не здавався текст, у нього є автор або автори, а виходить, текст відбиває їх мово розумовий акт. Із сказаного випливає, між іншим, що, хоча поняття тексту й дискурсу й варто розрізняти, поняття ці аж ніяк не протипоставлені один одному, тобто не є взаємовиключними.

- 43 Речення і висловлювання.
- Поняття висловлювання

У процесі спілкування люди не просто будують речення, а використовують ці речення для виконання таких дій, як інформування, прохання, порада, питання, наказ, попередження, обіцянка, вираження вдячності і т.ін. Все це — мовленнєві акти. В мовленнєвих актах використовуються речення; але мовленнєві акти і реченнями — різні поняття .
-

Теорія мовленнєвих актів розглядає мовленнєве спілкування як один із різновидів цілеспрямованої поведінки, яка підпорядковується певним правилам. У будь-якому висловлюванні тобто в мовленнєвому акті висловлювання розрізняються 3 аспекти; інакше кажучи, в ньому розрізняються принаймні 3 різні акти, що здійснюються мовцем:
- а акт власне виголошення речення локутивний акт

- б пропозиційний акт що містить акт референції, тобто залучення в зону розглядання певних обєктів, і акт предикації, тобто приписування властивостей цим обєктам

- в іллокутивний акт, наприклад, вираження ствердження, обіцянки, прохання, вдячності; подача наказу, поради, ставлення питання — взагалі, реалізація комунікативного наміру мовця.
-

Речення — граматична конструкція, побудована з одного чи кількох слів певної мови, яка становить окрему, відносно незалежну думку; це значеннєве, граматичне і інтонаційне ціле, що виражає якусь думку в відношенні її до дійсності предикативність, створена категоріями модальності, часу й особи одним словом чи сполукою слів.
-

В українській мові основою типового речення є підмет у його звязку з присудком Учень читає, так зване непоширене речення, навколо яких згуртовуються у поширеному реченні його другорядні члени: означення й прикладки в групі підмета, та додатки і обставини в групі присудка Білявий учень-шестикласник уважно читає при столі книжку. На вираз синтаксичних і значеннєвих стосунків слова речення перебувають поміж собою у зовнішньо-формальних звязках підрядності за традицією шкільної граматики, так звані погодження, — узгодження, керування, прилягання й тяжіння або сурядності поміж однорідними членами речення: Учні й студенти читають і вчаться.
-

Між реченням та висловлюванням є такі відмінності:
- Речення має іллокутивне призначення — виражене за допомогою способу, типу речення за метою висловлювання й лексично, наприклад модальними словами. В мовленнєвому акті мовець використовує речення з тією чи іншою іллокутивною метою для вираження свого комунікативного наміру, тобто для побудови висловлювання з тією чи іншою іллокутивною функцією.
- Змістом речення зазвичай є пропозиційна форма від так званих прагматичних змінних. У висловлюванні прагматичні змінні набувають конкретних значень, у результаті чого пропозиційна форма перетворюється в замкнуту пропозицію.
- Речення зазвичай містить конкретно-референтні предметні терми, тобто вирази, призначені для позначення індивідуалізованих обєктів. У висловлюванні ці терми дійсно вступають у референцію з індивідуалізованими обєктами з загальної точки зору чи фонду знань учасників мовленнєвого акту.
- Аналогічно, пропозиції, виражені в реченні, вступають у співвідношення з ситуаціями, подіями, фактами реального світу.
-

Іноді до параметрів, які відрізняють висловлювання від речення, відносять комунікативну структуру актуальне членування, яка виражається порядком слів та інтонацією.
-

Одне із призначень мови полягає в тому, щоб виражати пропозиції. Однак речення саме по собі не виражає ніякої замкнутої пропозиції: тільки в контексті мовленнєвого акту, в якому вживається дане речення, фіксуються значення всіх прагматичних змінних, які входять у зміст речення. Таким чином, залучення речення в мовленнєвий акт не лише надає пропозиції іллокутивну функцію, але й формує саму пропозицію з тієї пропозиціональної форми, якою в більшості випадків є зміст речення.
-

Цілий набір змін, які відбуваються при переході від речення до висловлювання, можна назвати, використовуючи термін Ш. Баллі 1955, актуалізацією речення. Актуалізація речення ні в якому разі не є процесом, що реально здійснюється мовцями в їхній мовленнєвій діяльності: не існує такого моменту, коли речення, вже побудоване, включається в мовленнєвий акт й актуалізується навпаки, речення, з якими має справу лінгвіст, як правило, вилучені з якогось мовленнєвого акту. Актуалізація розуміється як узагальнене позначення всієї сукупності відмінностей між реченням та висловлюванням.
-

44. Речення як складова тексту документа.
- особливості вживання речень

- — правила викладання тексту документа

-

Діловий папір має, як правило, розповідний характер; тому питальні, а особливо окличні речення зустрічаються в документах досить рідко.
-

Текст документа викладається в основному простими реченнями. Однак просте речення не завжди може відобразити складність взаємозвязків між фактами, їх ієрархічну послідовність; тоді доводить вдаватися до складних частіше складнопідрядних речень; звертаються до них і у випадках, коли потрібно помякшити відмову, усебічно аргументуючи її тощо.
-

Розташування простих речень у межах складного в ділових текстах таке: означальні підрядні речення звичайно ставляться поряд із тим іменником, до якого вони належать; додаткові підрядні речення найчастіше стоять поряд із присудком. Обставинне підрядне речення розміщується перед головним або слідом за ним, залежно від призначення: якщо треба наголосити обставини реалізації дії, тоді підрядне речення ставиться попереду; якщо ж підрядне речення лише пояснює, посилює головну думку, то його можна ставити й після головного.
-

Тенденція до крайньої стислості при викладі фактів насамперед у діловому листуванні помітно впливає на будову складного речення, зокрема на кількість слів у ньому. Все частіше можна зустріти такі рекомендації у спеціальній літературі з цього питання: слід віддавати перевагу простим реченням; при вживанні складних треба намагатися, щоб вони були короткими — мали не більше одного підрядного речення; скорочення складного речення здійснювати за рахунок дієприкметникових і дієприслівникових зворотів.
-

Ускладнення викладу в документі не завжди пояснюється тим, що в ньому складні речення переважають над простими. І в межах простого речення укладачі ділових паперів, підпорядковуючись академічній традиції, часом непотрібно ускладнюють думку, наприклад:
- При експлуатації атракціону забороняється виносити за габарити кабіни руки й ноги відвідувача
- Відвідувачі настільного тенісу столами обслуговують себе самі
- У цьому році вирішено частину площі засіяти переобладнаними сівалками за методом херсонських переробників.

-

Як видно на прикладах, зайві слова, неточність у доборі слів, незграбність синтаксичної будови можуть і просте речення зробити важким для сприймання.

45. Рід і особливості вживання назв осіб за професією, посадою, званням
1. Багато іменників чоловічого роду, що є назвами осіб за професією, посадою, званням тощо, не мають паралельних форм жіночого роду, наприклад, такі, як адвокат, гід, маркетолог, менеджер, мер, муляр, міністр, нотаріус, прокурор, тренер, хірург, мікробіолог, педіатр. Ці слова вживаються для позначення і чоловіків, і жінок: Нараду провела декан факультету Мулинська О. І.; Декан факультету Кудін С. О. ознайомив викладачів з новими правилами вступу до інституту.
-

Відсутні відповідники жіночого роду у всіх складених назв посад, звань: головний бухгалтер, змінний майстер, молодший державний інспектор, старший викладач, провідний технолог, гід-переклад ач, статист-дослідник тощо.
-

2. Значна кількість назв осіб утворює паралельні форми чоловічого і жіночого роду: дипломник — дипломниця, журналіст — журналістка, касир — касирка, кравець — кравчиня, лікар — лікарка, льотчик -льотчиця, офіціант — офіціантка, перекладач — перекладачка, баскетболіст — баскетболістка, продавець — продавщиця, штампувальник — штампувальниця і т. ін. Наведені слова жіночого роду належать до стилістично обмеженої лексики. Для позначення осіб жіночої статі у художньому, публіцистичному, розмовному стилях саме їм віддається перевага. В офіційно-діловій мові посади, професії, звання жінок позначаються тільки іменниками чоловічого роду: Ухвалили виділити оздоровчі путівки продавцям Морозовій Т. М. і Кон-дратовській І. І.; Веселова М. Р. отримала диплом викладача біології.
-

Деякі назви жіночого роду із суфіксом -ка не відповідають нормі літературної мови: завучка, фізичка, математичка, керівничка тощо. Вони належать до сфери розмовної мови.
-

3. Стилістично зниженими є назви осіб жіночої статі, утворені за допомогою суфіксів -иха, -ша: сторожиха, ткачиха, двірничиха, адміністраторша, дячиха, барменша, білетерша, бригадирша, редак-торша, дикторша. Ці іменники використовуються тільки в розмовно-просторічній мові. Обмежене вживання утворень із суфіксами -иха, -ша зумовлене також тим, що ці форми директорша, про-фесорша, деканша, лісничиха, інспекторша означають посаду жінки і назву дружини за професією посадою чоловіка, а двозначність слів може призвести до змістової неясності.
-

4. Кілька іменників жіночого роду, що позначають традиційно жіночі професії і заняття, не мають відповідників чоловічого роду, як-от: домогосподарка, кастелянша, манікюрниця, покоївка, праля, рукодільниця. Родову пару можуть утворювати іменник і описовий зворот: балерина — артист балету.
-

5. Іноді лексичні значення спільнокореневих назв осіб чоловічої та жіночої статі не збігаються, порівняйте: друкар — працівник друкарської справи, поліграфічної промисловості і друкарка — жінка, що працює на друкарській машинці; стюард — 1 офіціант на пасажирському морському судні, літаку; 2 в Англії — управитель великого господарства і стюардеса — бортпровідниця на літаках.
-

6. Якщо іменник чоловічого роду вживається на позначення жінки й імя особи при цьому не називається, то узгоджене означення і присудок ставляться у формі чоловічого роду: Мій опонент захворів; Доповідач навів цікаві факти. Сполучення на зразок доцент Максимишина, терапевт Соколова вимагають, щоб присудок мав форму жіночого роду. Що ж стосується означення, то воно в таких випадках узгоджується з назвою особи граматично, тобто має форму чоловічого роду: Мій шеф Василевська Ірина першою поздоровила мене з днем народження; Мій терапевт Соколова щойно повернулась із відпустки. Вирази моя стоматолог, наша бухгалтер мають розмовний характер.
-

7. У деяких назв осіб за професією або місцем проживання відзначаються паралельні словотвірні форми. Як взаємозамінні вживаються, наприклад, такі іменники: арфіст і арфяр, вальцювальник і валь-цівник, зварник і зварювач, розкрійник і розкроювальник, полтавець і полтавчанин, полтавчанка і полтавка, жашковець і жашківчанин, жашківка і жашківчанка, черкасець і черкащанин, черкаска і черкащанка, уманець і уманчанин, у манка і уманчанка.
-

8. Частина простих однослівних назв осіб за ознакою місця проживання або місця роботи належить до розмовних форм: сільчани, городяни, кримчани, освітяни, звязківці, річковики, консерваторці, циркачі, естрадники і под. Як їх нейтральні відповідники в офіційно-діловій мові вживаються складені найменування: мешканці села, мешканці міста, мешканці Криму, працівники навчальних закладів, працівники відділень зв язку, працівники річкового транспорту, студенти консерваторії, артисти цирку, артисти естради.
-

9. Деякі професії позначаються в українській мові словами і перифразами описовими зворотами: педагоги — майстри педагогічної ниви, геологи — розвідники надр, залізничники — господарі сталевих магістралей, гумористи — майстри веселого цеху. Перифрастичні назви осіб використовуються у публіцистичному і художньому стилях. Хоча слід мати на увазі, що вони швидко втрачають образність і перетворюються у штампи.
-

10. В українській мові поширені назви осіб, які мають значення спільного роду. Іменники на -а виступають як слова чоловічого і жіночого роду залежно від статі особи, яку вони називають: Десятки разів я обіцяв цьому бідоласі Корецькому завітати до нього в гості і завжди підводив Ю. Прокопенко; Де вона тепер, бідолаха — задумався Григорій М. Стельмах; Узяв та посватав таку ж сироту, як і сам — Мотрю, що служила у тому ж таки дворі за доярку М. Ле-вицький; А цього сироту, Левка, узявши на свої руки, [Горпина] кріпко жалувала… Г. Квітка-Основяненко.
-

До іменників спільного роду належать і деякі назви осіб на -о: агакало ч. і а, доробало ч. і а, ледащо ч. і а, базікало ч. і ж., сонько ч. і ж., чванько ч. і ж.. У формі середнього роду іменники вживаються стосовно осіб двох статей: він вона — велике ледащо, страшенне доробало. Іменники спільного роду використовуються в розмовно-побутовій мові.
-

Як слова жіночого і середнього роду функціонують назви осіб жіночої статі, утворені за допомогою суфікса -ище на означення згрубілості: така таке бабище, відьмище, дівчище, свекрушище. Ці іменники також належать до стилістично зниженої лексики, вживаної лише у розмовному стилі.
-

46. Робота з таблицями у Word-документі.

Мішані дані, зведені у колонки, що розділяються лініями. Таблиці в тексті розміщуються якнайближче до того місця, де про них ідеться в тексті. У звязку з цим на кожну таблицю має бути посилання в тексті. Якщо в тексті більше ніж одна таблиця, усі таблиці мають бути пронумеровані наскрізною нумерацією в межах тексту. Елементи таблиці пишуть з великої букви. В середені складного текстового елемента ставимо ті розділові знаки, яких потребує структура речення.У таблицях не допускається незаповнені графи або графи з даними, що повторюються.Таблиці бувають двох видів 1. Прості, які складаються максимально з чотирьох рядків і пяти стовпчиків . 2. Складні, які можуть мати стільки стовпчиків та рядків скільки потрібно користувачеві.

Загрузка...

© 2013 wikipage.com.ua - Дякуємо за посилання на wikipage.com.ua | Контакти