240 likes | 355 Views
О дешифровке рукописных исторических документов. А.А. Рогов, А.В. Скабин, И.А. Штеркель. Петрозаводский Государственный Университет.
E N D
О дешифровке рукописных исторических документов А.А. Рогов, А.В. Скабин, И.А. Штеркель Петрозаводский Государственный Университет
На сегодняшний день в архивах России накопился большой объем нерасшифрованных стенографических документов. В XIX и начале XX веков стенография в России находилась в процессе становления, поэтому существующие документы записаны в разных системах.
Этапы дешифровки исторических стенограмм • Бинаризация документов; • создание БД графики стенографических символов; • кластеризация изображений стенографических символов; • создание базы данных стенографических символов; • выделение строк; • разработка математической модели распознавания символа; • поиск символа в базе данных;
БинаризацияисторическихрукописныхдокументовБинаризацияисторическихрукописныхдокументов Гистограммы RGB и HSB
Модуль создания оригинальной графики символов
Особенности выделение символов на рукописных исторических документах • оригинальное изображение имеет низкое качество; • при бинаризации происходят разрывы символов; • при сегментации возникает необходимость разбиения символов
КластеризацияизображенийстенографическихсимволовКластеризацияизображенийстенографическихсимволов • Отношение высоты к ширине; • Подсчет количества сегментов; • Поиск по шаблону; • Сравнение проекций; • Граф на основе точек сопряжения; • Сравнение длин отрезков; • Моменты Ху; • Метод «Shape context».
Меры схожести изображенийстенографическихсимволов • Отношение высоты к ширине • Подсчет количества сегментов • Поиск по шаблону h w
Меры схожестиизображенийстенографическихсимволов • Сравнение проекций • Граф на основе точек сопряжения;
Меры схожестиизображенийстенографическихсимволов • Сравнение длин отрезков
Меры схожестиизображенийстенографическихсимволов • Моменты Ху
Меры схожестиизображенийстенографическихсимволов • Метод «Shape context» • Определение номера корзины для точки:
Метод «Shape context» Сравнение гистограмм: K – множество корзинок hi(k), hj(k) – значения гистограмм pi, qj – точки изображений π(i) – i-й вариант назначений
Выделение строк • Методы, основанные на проекции изображения на вертикальную ось (центров символов, количества символов, черных пикселей символов); • Метод поиска символа, ближайшего к уже найденному символу в строке; • Комбинированный алгоритм
Особенности выделения строк в рукописных документах • Искривление строк при письме: • Подстрочные и надстрочные символы: • Исправления в тексте:
Вероятностная модель дешифровки символа • - последовательность стенографических символов • - множество его возможных распознаваний для символа • - возможные трактовки распознанного символа • - распознанный текст
Вероятностная модель дешифровки символа • Ставится задача найти такой набор индексов, чтобы вероятность правильного распознавания была максимальной. , где • На основании формулы Байеса равна • Оценка k-го (k>3) имеет вид
Точность вычисления дешифровки символа Ac – точность вычисления - расстояние между символом и его возможным эталонным значением - частота появления комбинации символов
Вероятность появления данного фрагмента текста , где частота появления фрагмента текста Данная оценка производится на основании анализа текстов автора, в данном случае Ф.М. Достоевского.
Прототип web-приложения автоматизированной системы