1 / 18

Разработка программы лингвистического анализа для распознавания авторства текста

Разработка программы лингвистического анализа для распознавания авторства текста. Выполнил: студент ИВТ-04 Гранин А . Руководитель проекта: к.т.н. Макаров Д. А. Основные проблемы лингвистического анализа. Проверка правописания Синтаксический анализ

logan-lott
Download Presentation

Разработка программы лингвистического анализа для распознавания авторства текста

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Разработка программы лингвистического анализа для распознавания авторства текста Выполнил: студент ИВТ-04 Гранин А. Руководитель проекта: к.т.н. Макаров Д. А.

  2. Основные проблемы лингвистического анализа • Проверка правописания • Синтаксический анализ • Распознавание авторства и выявление плагиата • Фонетический анализ • Удобочитаемость и благозвучие • Анализ поэтических и художественных текстов • «Машинное творчество»

  3. Распознавание авторства текста Проблемы: • Вероятностный характер • Множество методик распознавания авторства • Сравнимость текстов Задачи: • Разработка нового метода распознавания с помощью ассоциативной памяти • Автоматизация сбора метрик (характеристик) текстов • Создать базу, допускающую добавление других методик распознавания авторства

  4. Карта благозвучия Карта благозвучия – визуальное представление благозвучия текста. Проблемы: • Сложность и многообразие фонетических правил звучания • Отсутствие прямого соответствия между буквой и звуком Задачи: • Универсальный подход к формализации правил звучания • Графическое представление правил звучания • Универсальный подход к применению правил звучания • Составление карты благозвучия текста на основе выявленных элементов звучания

  5. Алгоритмы, часть 1 1. Конечный автомат – для разбиения текста на структурное дерево (абзацы, предложения, слова) • Конфигурация конечного автомата – это схема разбиения текста • Возможность использования нескольких схем разбиения • Единообразная работа с уровнями дерева (весь текст, абзацы, предложения, слова) Уровень 0 ВЕСЬ ТЕКСТ Уровень 1 Абзац1 Абзац2 Абзац N … Уровень 2 Предложение 1 Предложение 2 Предложение M … Уровень 3 Слово 1 Слово 2 Слово K … Знаки конца абзаца: cr lf cr+lf lf+cr Знаки конца предложения: ? ! .cr lf ?! !! !!! ?!. …

  6. Алгоритмы, часть 1 2. Выборка образцов для сравнения • Выборка производится по трем уровням: абзацы, предложения, слова • Обеспечивается минимально необходимая сравнимость текстов • Возможность изменить схему выборки образцов Уровень абзацев текста 1 … Уровень абзацев текста 2 … Уровень абзацев текста n … Min количество абзацев по длинам 2 0 1 1 1 2 Шаблон выборки образцов по min количеству, уровень абзацев 2 1 1 1 2 2

  7. Алгоритмы, часть 1 3. Сбор статистических характеристик образцов Шаблон Абзацы текста Компоновка текста Частотное распределение символов Сохранение характеристик в лингвопрофиле Уровень: абзацы, текст 1 … АоУ К В Еп, кИм иС юМ, - мкт: «вий иов» А - 10 ! - 4 ю - 11 а - 44 ? - 6 я - 10 Б - 9 , - 22 ё - 1 б - 15 … - 4 с - 7 В - 3 ?! - 1 т - 33 в - 17 !.. - 1 ь - 5 Лингвопрофиль образца 1

  8. Алгоритмы, часть 1 4. Нейросистема Хэмминга – компьютерная реализация ассоциативной памяти • Эталонные сигналы («память» нейросистемы) • Входной сигнал • Пороговая активационная функция • Распознавание образа через нелинейную функцию нейросистемы x1 x2 xj xn … 1 2 k m 1 2 k m … y1 y2 yk ym

  9. Алгоритмы, часть 2 1. Карта благозвучия: базовое покрытие текста + элементы звучания • Базовое покрытие текста: каждому символу свое значение звучания • Элемент звучания – набор символов, попадающий под какое-либо правило звучания Мама мыла раму. Папа купил телевизор. Дул ветер. ЦЦЦЦ Мал золотник, да дорог.

  10. Алгоритмы, часть 2 2. Язык RRL: язык правил звучания (Resounding Rules Language) • Формализация почти всех правил звучания • Динамическое изменение правил в ходе анализа • Возможно расширение языка Символьные фильтры Язык состоит из: Г ! Гласные Знаки • символьных фильтров • управляющих команд • специальных сигнатур С Согласные Любые другие фильтры … б «Любая буква» Возможности языка: Управляющие команды s EndP TBRes Skip Reset Бn Excit Def1,2,3… i = n Link Специальные сигнатуры бn

  11. Алгоритмы, часть 2 2. Язык RRL: фильтрационная схема – основа правила звучания • Однонаправленные и двунаправленные • Дифференцируемые и не дифференцируемые • Определяемые и неопределяемые • Имеют значение звучания – действительное число Пример фильтрационной схемы («> 2 одинаковых букв в начале слов») Фильтрационная схема: • фактически – конфигурация конечного автомата • определяет разбор текста 0 2 1 Excit++ б б Skip б1 Excit++ Link б i = 1 Link Правила: i = 2 Skip Def(Б1, б1) Б1 Б1 EoT EndP i = 1 EndP TBRes CriticalExcit = 3 Influence = 0 EoT EndP Правило двустороннее, не дифференцируемое

  12. Алгоритмы, часть 2 3. Конечный автомат для обработки правил звучания • Конфигурация конечного автомата – это правила звучания • Правила управляют конечным автоматом с помощью управляющих команд • Результат анализа текста – элементы звучания • Правило 1 • Правило 2 • Правило 3 • . . . Конечный автомат А Текст Б В Элемент звучания 1 Г Элемент звучания 2 Элемент звучания 3 Д . . .

  13. Особенности реализации • Структурный конечный автомат основан на паттерне «Стратегия» • Использованы паттерны проектирования MVC, Итератор, «Умные указатели» • Шаблонные классы • STL – Standard Template Library, стандартная шаблонная библиотека АТД • OpenGL – для вывода карты благозвучия

  14. «Демонстрация»

  15. Результаты • Повышена скорость сбора статистических данных текста • Создан новый метод распознавания авторства • Создан единственный в своем роде инструмент анализа • Базис для создания комплексного лингвистического анализатора текстов

  16. Спасибо за внимание!

  17. …управляющих команд: EndP «Процедура завершения процесса» Link «Точка привязки» Excit «Изменение возбуждения» «TimeBackReset»(«Возврат во времени и Перезапуск») TBRes «Определить специальные символы с номером (1,2,3)данным символом» Def1,2,3… Skip «Пропуск» «Сменить текущее состояние на n» i = n Reset «Перезапуск» «Запись временной точки» Ret1,2,3… Rem «Возврат во времени» (множественный)

  18. Фильтрационная схема (правило)«> 2 одинаковых букв в началах слов» 0 1 2 Excit++ б Skip б1 Excit++ Link i = 1 Link i = 2 б б Skip Def(Б1, б1) Б1 Б1 i = 1 EoT EndP EndP TBRes Двустороннее, не дифференцируемое EoT EndP CriticalExcit = 3 Influence = 0

More Related