Лекція 1 "введення у дисципліну"

Вид материалаЛекція

Содержание


Сегментація документа
Розпізнавання тексту документа.
Подобный материал:
1   ...   9   10   11   12   13   14   15   16   17

СЕГМЕНТАЦІЯ ДОКУМЕНТА


Під природним порядком розпізнавання тексту розуміється послідовне розпізнавання рядків зліва направо. Проте, якщо текст розбитий на декілька колонок (стовпчиків) або містить урізання, підмалюнкові підписи, примітки, таблиці й інші елементи форматування, його розпізнавання в природному порядку неможливо. У таких випадках програма розбиває текст на блоки, кожний із який являє собою суцільний фрагмент тексту, що розпізнається у природному порядку. Така розбивка документа називається сегментацією.

Автоматична сегментація - не проста задача для програми. Програма розшукує проміжки між рядками, а також зони початку і кінця рядків. Якщо послідовність рядків, що йдуть підряд, має однакові зони початку і кінця, то програма розглядає таку область як текстовий блок.

Якщо проміжки між рядками взагалі відсутні, то, ймовірно, мова йде про ілюстрацію. Якщо виявляється велике число вертикальних і горизонтальних фрагментів, що утворюють правильну структуру, то, мабуть, у текст включена таблиця.

Сегментування можливо в трьох варіантах:
  • сегментування активної сторінки (видимої у вікні "Зображення");
  • сегментування виділених сторінок у вікні "Пакет" (для групового виділення використовуються клавіші Ctrl, Shift);
  • сегментування несегментованних сторінок, що залишилися в пакеті.

Обравши режим сегментування і клацнувши на кнопці "сегментувати", запускаємо процес сегментування. Після закінчення сегментування на зображенні сторінки видні виділені блоки у виді прямокутників (багатокутників) різноманітного кольору, що залежить від типу блока.

Програма FineReader розрізняє такі типи блоків: текст, картинка, таблиця, штрих-код. Текстові блоки обводяться зеленою лінією, картинки - червоною, таблиці - коричневою, штрих-коди - світло-зеленою.

Якщо вас влаштовують результати автоматичного сегментування, то другий етап перетворення документа можна вважати закінченим.

Правда, якщо зображення документа має невисоку якість, то сегментація може бути здійснена невдало, що проявиться в надлишковій кількості занадто дрібних блоків.

У таких випадках можна вручну вказати межі блоків або змінити автоматичну розбивку. Нові прямокутні блоки створюють методом протягання миші. При протяганні утворюваний блок виділяється пунктирною рамкою, що у момент створення блока перетворюється в суцільну зелену лінію.

Один із створених блоків завжди є поточним. Він обведений більш жирною лінією, а його вершини позначені маркерами. Перетягуванням цих маркерів можна регулювати межі блока.

Для створення блока непрямокутної форми або зміни послідовності блоків використовують кнопки панелі інструментів Інструменти - створити, знищити, перемістити, перенумерувати блок; додати, знищити частину блока. Кнопки "додати вертикальну", "додати горизонтальну" лінію або "знищити лінію" призначені для редагування блоків-таблиць. Щоб змінити тип блока, слід клацнути в межах блока правою кнопкою миші і вибрати потрібний тип у меню. Якщо ви хочете взагалі виключити з процесу розпізнавання фрагменти тексту і не включати їх у текстовий документ, то їх необхідно виділити і позначити як такі, що не розпізнаються (колір контуру сірий).

РОЗПІЗНАВАННЯ ТЕКСТУ ДОКУМЕНТА.


Після сегментації і встановлення порядку проходження текстових блоків

виконують останній етап роботи - власне розпізнавання. Звичайно цей етап проходить автоматично. Якщо документ надрукований достатньо стандартним шрифтом, що, до того ж, був добре відтворений при скануванні, то клацання на кнопці "Розпізнати відкриту сторінку" достатньо, щоб документ був розпізнаний. Якщо паперовий документ має недостатню контрастність або незвичний шрифт, процедура трохи ускладнюється. У цьому випадку програма може не справлятися з розпізнаванням певних символів і припускатися однотипних помилок. У таких випадках для великих документів доцільно спочатку провести навчання програми відповідно до особливостей даного документа. Це досить трудомісткий процес, але він усе ж простіший, ніж ручне введення багатосторінкового документа.

Настроювання розпізнавання починають із створення еталона, у якому зберігаються особливості даного документа. Для цього треба дати команду "Сервіс - Редактор еталонів", клацнути в діалоговому вікні, що відкрилося, "Еталони" на кнопці "Новий еталон" і ввести ім'я утворюваного еталона.

1. Для підключення еталона при розпізнаванні, треба клацнути на кнопці, що розкривається, поруч із кнопкою "Розпізнати відкриту сторінку" і вибрати пункт "Опції". У діалоговому вікні, що відкрилося, у групі "Навчання" варто вибрати тільки що створений еталон. Якщо передбачається розпізнавання документа, що відповідає еталону, що був створений і настроєний раніше, то вибирається не новий, а старий еталон.

2. Для "навчання" еталона слід встановити прапорець "Розпізнавання з навчанням".

3. Режим розпізнавання в цьому випадку дещо змінюється. Всякий раз, коли програма не може впевнено розпізнати символ, вона видає діалогове вікно "Ручне навчання еталона". У верхній частині цього діалогового вікна приводиться збільшене зображення поточного розпізнаваного рядка. Поточний символ вміщений у рамку.

4. У поле зі списком "Символ" приведений символ, що, як вважає програма, знаходиться в рамці.

5. Необхідно переконатися, що символ у полі вказаний вірно, і замінити його в разі потреби. Після цього треба клацнути на кнопці "Навчити".

6. Якщо невірно зазначені межі символу, то кнопки "Зрушити вліво" і "Зрушити вправо" дозволяють поправити положення рамки.

7. Якщо вірно розташувати рамку не вдається або в тексті зустрівся рідкісний символ, який правильно інтерпретувати не можна, слід клацнути на кнопці "Пропустити".

Результати обробки сторінок надалі об'єднуються в єдиний текстовий файл.