280 likes | 495 Views
Курсовая работа. Построение риторических деревьев текста на основе машинного обучения в рамках задачи автоматического реферирования. Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич. Задача реферирования.
E N D
Курсовая работа Построение риторических деревьев текста на основе машинного обучения в рамках задачи автоматического реферирования Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич
Задача реферирования • Реферирование - составление краткого изложения материала одного или нескольких информационных источников • В данной работе • источники и реферат – текстовые документы • только один источник • рассматриваются общие рефераты • не имеют специализированного назначения • в равной степени покрывают содержание исходных документов
Риторическая структура • Rhetorical Structure Theory (Mann, Thompson, 1988) • Текст – иерархия риторических отношений • В листьях обычно клаузы • Два вида отношений: • симметричные (многоядерные) • асимметричные (ядро – спутник) • Ядро имеет смысл без спутника, обратное неверно => ядровые сегменты предпочтительнее для включения в реферат
Система автоматического реферирования отдела Информационных систем ИСП РАН • Синтаксический анализатор – ABBYY Compreno • Подсистема взвешивания – алгоритм из статьи W. Bosma • Свой эвристический алгоритм построения риторического дерева. В основе: • Кореферентность • Сигнальные фразы • Ключевые слова
Система автоматического реферирования отдела Информационных систем ИСП РАН • Демонстрирует неудовлетворительное качество рефератов Baseline – по первому предложению с каждого абзаца
Цель работы разработка и реализация алгоритма построения риторического дерева текста на основе машинного обучения
Постановка задачи • Исследовать известные подходы к построению риторических деревьев, в том числе на основе машинного обучения • Реализовать подход к построению RST-деревьев на основе машинного обучения в исходной системе • должен обрабатывать текст за линейное от его длины время • Сравнить качество работы ML-подхода с текущим алгоритмом • Качество деревьев (PARSEVAL) • Качество рефератов (ROUGE)
Алгоритм построения RST-дерева • Основан на работе duVerleи Predinger (2009) • Пусть S – множество сегментов текста • Сегмент – непрерывная последовательность клауз • Характеризуется своим RST-поддеревом • Два классификатора: • Оценивает вероятность наличия риторической связи между двумя сегментами • Определяет тип отношения между сегментами • Для реализации классификаторов использованы линейные SVM
Признаки • Длины сегментов • Сигнальные фразы • присутствие/отсутствие в первых/последних 3 словах сегмента • Синтаксические признаки • части речи, синтаксические функции, … • первые/последние 3 слова сегмента, верхние 5 слов при обходе в ширину синтаксического дерева • Лексические классы • Риторическая структура • Типы верхних отношений в сегментах • Все предыдущие признаки для наиболее важных клауз сегментов
Обучение и тестирование • Риторическая структура • Discourse Relation Reference Corpus • 65 текстов, аннотированных экспертами в соответствии с RST • Распространяется свободно через сайт RST • Оценка качества - PARSEVAL • Рефераты • Материалы конференции DUC-2001 • 311 статей с abstract-аннотациями (~100 слов) • 147 статей с extract-аннотациями (~160 слов) • Оценка качества – ROUGE • ROUGE-1,2 • ROUGE-L • ROUGE-W
Feature Selection • Необходимо отсеять неинформативные признаки • Ранжирование признаков с помощью статистики хи-квадрат • Подбор оптимального порога посредством кросс-валидации • Размерность признакового пространства после бинаризации – 19 325 признаков • Было отобрано 465 признаков для первого классификатора и 72 для второго • Наиболее информативные признаки связаны с лексическими классами
Тестирование • Качество деревьев
Тестирование • Качество рефератов
Тестирование • Время работы
Заключение • Исследованы существующие подходы к построению риторических деревьев на основе машинного обучения • Реализован и встроен в исходную систему алгоритм построения RST-деревьев на основе SVM-классификации • Показывает линейное время работы по результатам тестов • Проведено тестирование алгоритма • Улучшилось как качество построения риторических деревьев, так и качество рефератов
Заключение • Тем не менее, новый подход • Слабо справляется с определением типов риторических отношений • В половине случаев работает хуже baseline-алгоритма реферирования
Классификаторы • Линейные SVM • Хорошо зарекомендовали себя в данной задаче (Reitter, duVerle) • Возможность оценки вероятности принадлежности объекта классу • Возможность мультиклассовой классификации • Хорошо справляются с большим количеством взаимосвязанных признаков при малой размерности обучающей выборки • Линейное время классификации
PARSEVAL • Пусть P – множество составляющих (узлов) сгенерированного дерева, Q – экспертного. Тогда
Хи-квадрат • Для данных признака fи класса c • где A – число примеров класса c, где f =1; • B – число примеров, не принадлежащих c, где f =1; • C – число примеров класса c, где f =0; • D – число примеров, не принадлежащих c, где f =0; • m = A+B+C+D – общее число примеров • Оценка признака fотносительно всех классов