1 / 24

О дешифровке рукописных исторических документов

О дешифровке рукописных исторических документов. А.А. Рогов, А.В. Скабин, И.А. Штеркель. Петрозаводский Государственный Университет.

Download Presentation

О дешифровке рукописных исторических документов

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. О дешифровке рукописных исторических документов А.А. Рогов, А.В. Скабин, И.А. Штеркель Петрозаводский Государственный Университет

  2. На сегодняшний день в архивах России накопился большой объем нерасшифрованных стенографических документов. В XIX и начале XX веков стенография в России находилась в процессе становления, поэтому существующие документы записаны в разных системах.

  3. Фрагмент стенограммы

  4. Этапы дешифровки исторических стенограмм • Бинаризация документов; • создание БД графики стенографических символов; • кластеризация изображений стенографических символов; • создание базы данных стенографических символов; • выделение строк; • разработка математической модели распознавания символа; • поиск символа в базе данных;

  5. БинаризацияисторическихрукописныхдокументовБинаризацияисторическихрукописныхдокументов Гистограммы RGB и HSB

  6. Модуль создания оригинальной графики символов

  7. Особенности выделение символов на рукописных исторических документах • оригинальное изображение имеет низкое качество; • при бинаризации происходят разрывы символов; • при сегментации возникает необходимость разбиения символов

  8. КластеризацияизображенийстенографическихсимволовКластеризацияизображенийстенографическихсимволов • Отношение высоты к ширине; • Подсчет количества сегментов; • Поиск по шаблону; • Сравнение проекций; • Граф на основе точек сопряжения; • Сравнение длин отрезков; • Моменты Ху; • Метод «Shape context».

  9. Меры схожести изображенийстенографическихсимволов • Отношение высоты к ширине • Подсчет количества сегментов • Поиск по шаблону h w

  10. Меры схожестиизображенийстенографическихсимволов • Сравнение проекций • Граф на основе точек сопряжения;

  11. Меры схожестиизображенийстенографическихсимволов • Сравнение длин отрезков

  12. Меры схожестиизображенийстенографическихсимволов • Моменты Ху

  13. Меры схожестиизображенийстенографическихсимволов • Метод «Shape context» • Определение номера корзины для точки:

  14. Метод «Shape context» Сравнение гистограмм: K – множество корзинок hi(k), hj(k) – значения гистограмм pi, qj – точки изображений π(i) – i-й вариант назначений

  15. Метод «Shape context»

  16. Выделение строк • Методы, основанные на проекции изображения на вертикальную ось (центров символов, количества символов, черных пикселей символов); • Метод поиска символа, ближайшего к уже найденному символу в строке; • Комбинированный алгоритм

  17. Выделение строк

  18. Особенности выделения строк в рукописных документах • Искривление строк при письме: • Подстрочные и надстрочные символы: • Исправления в тексте:

  19. Вероятностная модель дешифровки символа • - последовательность стенографических символов • - множество его возможных распознаваний для символа • - возможные трактовки распознанного символа • - распознанный текст

  20. Вероятностная модель дешифровки символа • Ставится задача найти такой набор индексов, чтобы вероятность правильного распознавания была максимальной. , где • На основании формулы Байеса равна • Оценка k-го (k>3) имеет вид

  21. Точность вычисления дешифровки символа Ac – точность вычисления - расстояние между символом и его возможным эталонным значением - частота появления комбинации символов

  22. Вероятность появления данного фрагмента текста , где частота появления фрагмента текста Данная оценка производится на основании анализа текстов автора, в данном случае Ф.М. Достоевского.

  23. Прототип web-приложения автоматизированной системы

  24. Спасибо за внимание!

More Related