Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Курсовая работа Построение риторических деревьев текста на основе машинного обучения в рамках задачи автоматического реферирования Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Задача реферирования • Реферирование - составление краткого изложения материала одного или нескольких информационных источников • В данной работе • источники и реферат – текстовые документы • только один источник • рассматриваются общие рефераты • не имеют специализированного назначения • в равной степени покрывают содержание исходных документов

Риторическая структура • Rhetorical Structure Theory (Mann, Thompson, 1988) • Текст – иерархия риторических отношений • В листьях обычно клаузы • Два вида отношений: • симметричные (многоядерные) • асимметричные (ядро – спутник) • Ядро имеет смысл без спутника, обратное неверно => ядровые сегменты предпочтительнее для включения в реферат

Пример

Система автоматического реферирования отдела Информационных систем ИСП РАН • Синтаксический анализатор – ABBYY Compreno • Подсистема взвешивания – алгоритм из статьи W. Bosma • Свой эвристический алгоритм построения риторического дерева. В основе: • Кореферентность • Сигнальные фразы • Ключевые слова

Система автоматического реферирования отдела Информационных систем ИСП РАН • Демонстрирует неудовлетворительное качество рефератов Baseline – по первому предложению с каждого абзаца

Цель работы разработка и реализация алгоритма построения риторического дерева текста на основе машинного обучения

Постановка задачи • Исследовать известные подходы к построению риторических деревьев, в том числе на основе машинного обучения • Реализовать подход к построению RST-деревьев на основе машинного обучения в исходной системе • должен обрабатывать текст за линейное от его длины время • Сравнить качество работы ML-подхода с текущим алгоритмом • Качество деревьев (PARSEVAL) • Качество рефератов (ROUGE)

Алгоритм построения RST-дерева • Основан на работе duVerleи Predinger (2009) • Пусть S – множество сегментов текста • Сегмент – непрерывная последовательность клауз • Характеризуется своим RST-поддеревом • Два классификатора: • Оценивает вероятность наличия риторической связи между двумя сегментами • Определяет тип отношения между сегментами • Для реализации классификаторов использованы линейные SVM

Алгоритм построения RST-дерева

Признаки • Длины сегментов • Сигнальные фразы • присутствие/отсутствие в первых/последних 3 словах сегмента • Синтаксические признаки • части речи, синтаксические функции, … • первые/последние 3 слова сегмента, верхние 5 слов при обходе в ширину синтаксического дерева • Лексические классы • Риторическая структура • Типы верхних отношений в сегментах • Все предыдущие признаки для наиболее важных клауз сегментов

Обучение и тестирование • Риторическая структура • Discourse Relation Reference Corpus • 65 текстов, аннотированных экспертами в соответствии с RST • Распространяется свободно через сайт RST • Оценка качества - PARSEVAL • Рефераты • Материалы конференции DUC-2001 • 311 статей с abstract-аннотациями (~100 слов) • 147 статей с extract-аннотациями (~160 слов) • Оценка качества – ROUGE • ROUGE-1,2 • ROUGE-L • ROUGE-W

Feature Selection • Необходимо отсеять неинформативные признаки • Ранжирование признаков с помощью статистики хи-квадрат • Подбор оптимального порога посредством кросс-валидации • Размерность признакового пространства после бинаризации – 19 325 признаков • Было отобрано 465 признаков для первого классификатора и 72 для второго • Наиболее информативные признаки связаны с лексическими классами

Тестирование • Качество деревьев

Тестирование • Качество рефератов

Тестирование • Время работы

Заключение • Исследованы существующие подходы к построению риторических деревьев на основе машинного обучения • Реализован и встроен в исходную систему алгоритм построения RST-деревьев на основе SVM-классификации • Показывает линейное время работы по результатам тестов • Проведено тестирование алгоритма • Улучшилось как качество построения риторических деревьев, так и качество рефератов

Заключение • Тем не менее, новый подход • Слабо справляется с определением типов риторических отношений • В половине случаев работает хуже baseline-алгоритма реферирования

Спасибо за внимание!Вопросы?

Классификаторы • Линейные SVM • Хорошо зарекомендовали себя в данной задаче (Reitter, duVerle) • Возможность оценки вероятности принадлежности объекта классу • Возможность мультиклассовой классификации • Хорошо справляются с большим количеством взаимосвязанных признаков при малой размерности обучающей выборки • Линейное время классификации

PARSEVAL • Пусть P – множество составляющих (узлов) сгенерированного дерева, Q – экспертного. Тогда

Хи-квадрат • Для данных признака fи класса c • где A – число примеров класса c, где f =1; • B – число примеров, не принадлежащих c, где f =1; • C – число примеров класса c, где f =0; • D – число примеров, не принадлежащих c, где f =0; • m = A+B+C+D – общее число примеров • Оценка признака fотносительно всех классов

Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич

Presentation Transcript