Системы оптического распознавания документов

Системы оптического распознавания документов

Назначение Системы оптического распознавания символов используются при создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат.

сканирование изображение страницы текста в графическом формате сегментация и распознавание текста последовательность текстовых символов

Процесс обработки состоит из пяти этапов Сканирование документа. Сегментация документа. Распознавание текста. Редактирование и проверка результата. Сохранение документа.

Сегментация документа Под естественным порядком распознавания текста понимается последовательное распознавание строк слева направо. Однако если текст разбит на несколько колонок или содержит врезки, подрисуночные подписи, примечания, таблицы и другие элементы форматирования, его распознавание в естественном порядке невозможно. В таких случаях программа разбивает текст на блоки, каждый из которых представляет собой цельный фрагмент текста, распознаваемый в естественном порядке. Такое разбиение документа называется сегментацией.

Сегментация документа • Программа разыскивает промежутки между строками, а также зоны начала и конца строк. Если последовательность строк, идущих подряд, имеет одинаковые зоны начала и конца, то программа рассматривает такую область как текстовый блок. • Если промежутки между строками вообще отсутствуют, то, речь идет об иллюстрации. • Если обнаруживается большое число вертикальных и горизонтальных фрагментов, образующих правильную структуру, то в текст включена таблица. Если щелкнуть на кнопке Сегментировать выделенные страницы, то сегментация страницы производится автоматически. Если изображение документа имеет невысокое качество, то сегментация может быть произведена неудачно.

Сегментация документа • Можно вручную указать границы блоков или изменить автоматическое разбиение. Новые прямоугольные блоки создают методом протягивания мыши. При протягивании создаваемый блок выделяется пунктирной рамкой, которая в момент создания блока превращается в сплошную зеленую линию. • Для создания блока непрямоугольной формы или изменения последовательности блоков используют кнопки панели инструментов Инструменты. Все кнопки этой панели используются именно на этапе сегментации. • Программа FineReader различает несколько типов блоков, которые обрабатываются по-разному. Такие блоки выделяются разными цветами. Текстовые блоки обводятся зеленой линией. Чтобы изменить тип блока, следует щелкнуть в пределах блока правой кнопкой мыши и выбрать нужный тип в меню Тип блока контекстного меню.

Распознавание документа • После сегментации и установления порядка следования текстовых блоков выполняют последний этап работы — распознавание. • Если документ напечатан достаточно стандартным шрифтом, который, к тому же, был хорошо воспроизведен при сканировании, то щелчка на кнопке Распознать открытую страницу достаточно, чтобы документ был распознан. • Если бумажный документ имеет недостаточную контрастность или необычный шрифт, процедура усложняется. В этом случае программа может не справляться с распознаванием определенных символов и допускать однотипные ошибки. • В таких случаях для больших документов целесообразно сначала провести обучение программы в соответствии с особенностями данного документа. Это достаточно трудоемкий процесс, но он все же проще, чем ручной ввод многостраничного документа.

Распознавание документа Настройку распознавания начинают с создания эталона, в котором сохраняются особенности данного документа. Для этого надо дать команду Сервис > Редактор эталонов, щелкнуть в открывшемся диалоговом окне Эталоны на кнопке Новый эталон и ввести имя создаваемого эталона. Для подключения эталона при распознавании, надо щелкнуть на раскрывающей кнопке рядом с кнопкой Распознать открытую страницу и выбрать пункт Опции. В открывшемся диалоговом окне в группе Обучение следует выбрать только что созданный эталон. Если предполагается распознавание документа, соответствующего эталону, который был создан и настроен ранее, то выбирается не новый, а старый эталон. Для «обучения» эталона следует установить флажок Распознавание с обучением. Режим распознавания в этом случае несколько изменяется. Всякий раз, когда программа не может уверенно распознать символ, она выдает диалоговое окно Ручное обучение эталона. В верхней части этого диалогового окна приводится увеличенное изображение текущей распознаваемой строки. Текущий символ заключен в рамку. В поле со списком Символ приведен символ, который, как полагает программа, находится в рамке. Необходимо убедиться, что символ в поле указан верно и заменить его в случае необходимости. После этого надо щелкнуть на кнопке Обучить. Если неверно указаны границы символа, то кнопки Сдвинуть влево и Сдвинуть вправо позволяют поправить положение рамки. Если верно расположить рамку не удается или в тексте встретился редкий символ, который правильно интерпретировать нельзя, следует щелкнуть на кнопке Пропустить.

Сегментация документа

РаспознатьПроверить

Системы оптического распознавания документов

Системы оптического распознавания документов

Presentation Transcript