260 likes | 550 Views
Распознавание и классификация актантов в русском языке. Semantic Role Labeling. Илья Кузнецов НИУ ВШЭ (Москва) АИСТ-2013. Обзор. Формулировка задачи Языковые модели и специфика SRL для русского языка Архитектура Планы и перспективы. I. Задача. I.1 Теоретическая основа.
E N D
Распознавание и классификация актантов в русском языке Semantic Role Labeling Илья Кузнецов НИУ ВШЭ (Москва) АИСТ-2013
Обзор • Формулировка задачи • Языковые модели и специфика SRL для русского языка • Архитектура • Планы и перспективы
I.1 Теоретическая основа • Предикат – лексема, в толковании которой есть переменные. купить: Xкупил Yу Zза M • X,Y,Z,M – валентности предиката продать: ZпродалYX-у за M • Синтаксически в первом случае X – субъект, во втором – непрямой объект. • Но у них одинаковая семантическая роль («Покупатель») • Эту роль можно обобщить до любого получателя дарить: Xдарит YZ-у
I.1 Теоретическая основа • Классический инвентарь состоит из абстрактных и универсальных ролей: • Агенс (активный субъект) • Пациенс (претерпевающий наибольшие изменения) • Адресат • Бенефициант • Время • Место … [Baker, Fillmore 1998]
I.1 Теоретическая основа • На практике инвентари могут быть более конкретными • FrameNet – фреймовая организация:одна ситуация – один набор ролей • PropBank, ТКС – крайний случай, роли уникальны для каждого предиката(но сохраняются при залоговых преобразованиях) • Узкоспециализированные словари для прикладных систем
I.2 Задача Поверхностный семантический анализ • Дано: • Предложение • Целевой предикат • Набор ролей для этого предиката • Требуется: • Определить аргументы данного предиката • Распределить аргументы по семантическим ролям Р. Абрамовичкупил за 112 млн. долларовдолю в компании "Труфон" Предикат: купить Покупатель: Р. Абрамович Товар: доля в компании "Труфон" Цена: 112 млн. долларов
1.3 Приложения • Компактное представление информации Предложение на естественном языке → набор триплетов субъект-предикат-объект • Извлечение фактов • Вопросно-ответные системы • Машинный перевод • Снятие неоднозначности
1.4 Трудности • Зависимость от предобработки: • Токенизация • Морфологический анализ • Синтаксический анализ • Анализ кореференции • Выделение именованных сущностей • Опора на внешние ресурсы • Тезаурусы • Словари глагольного управления • Фреймнет
1.5 Подходы • Правиловый подход: • Хорошо для закрытых доменов • Легко интерпретировать и чинить • Плохо для общей задачи • Долго и дорого разрабатывать • Трудно поддерживать • Машинное обучение • Быстрая адаптация к новым доменам • Снижение затрат на разработку* • Требовательность к внешним ресурсам
II.1 Языковые модели Какая информация нам нужна для того, чтобы корректно распознать и классифицировать актанты? • Информация о глагольном управлении • Актанты vsсирконстанты [X] купить[Y] [за Z] Иван купилвелосипед за 100 рублей в пятницу • Информация о присвоении семантических ролей • Как узнать, что Иван – покупатель, велосипед – товар, а 100 рублей – цена?
II.2 Глагольное управление • Готовые («экспертные») ресурсы: • Словари • Фреймнет • Размеченные корпуса • Автоматическое извлечение глагольных рамок • Актанты выражаются более регулярно, чем сирконстанты • Сирконстанты оформляются схожим образом для различных предикатов (время, место…)
II.3 Присвоение ролей «Иван купил велосипед за 100 рублей» • Синтаксическая информация • Иван – субъект • Велосипед – прямой объект • 100 рублей – предложная группа с «за» • Лексическая информация Мария купила автомобиль за 100000 рублей • Мария≈ Иван • автомобиль≈велосипед • 100000 рублей ≈ 100 рублей • [Иван, 100 рублей, велосипед] – лексической информации достаточно!
II.3 Присвоение ролей • Информация о лексической близости слов • Тезаурус • Кластеризация • «Деятели»: Иван, Мария, Microsoft • «Артефакты»: велосипед, автомобиль, стол • Матрица сочетаемости / Мягкая кластеризация • [+ломается],[+создается],[+дарится]… →[+покупается],[+продаётся]
II.4 Специфика русского SRL • Мало ресурсов • Тезаурусы в разработке • FrameBank в разработке (можно использовать для тестирования) • Сильная морфология и слабый порядок слов • Не получится перенести наборы свойств из английского • Синтаксис зависимостей
III. Архитектура Предобработка Поиск предиката Модель глагольного управления Поиск актантов Классификация актантов Модель лексической близости
III. Архитектура Токенизация Морфологический анализ Синтаксический анализ Распознавание именованных сущностей Предобработка Поиск предиката Модель глагольного управления Поиск актантов Классификация актантов Модель лексической близости
III. Архитектура Предобработка Поиск предиката Модель глагольного управления Поиск актантов Классификация актантов Модель лексической близости
III. Архитектура Предобработка Поиск предиката Модель глагольного управления Поиск актантов Классификация актантов Модель лексической близости
III. Архитектура Предобработка Поиск предиката Модель глагольного управления Поиск актантов Классификация актантов Модель лексической близости
IV. Планы и перспективы • Уже сделано: • Разработана предварительная методология • Собран модуль предобработки • Токенизация и разбивка на предложения – nltk • Морфологический анализ – CST Lemma • Синтаксический анализ – Russian Malt Parser • Собран корпус на 20 млн. слов • В процессе: • Поиск большого корпуса • Эксперименты по моделированию лексической близости • Эксперименты по извлечению глагольных рамок
IV. Планы и перспективы • В перспективе: • Полноценный SRL на упрощённых данных • Только простые предложения • Только финитные формы глаголов • Расширение на более сложные случаи • Кореференция • Сложные предложения • Залоговые преобразования • Номинализации