1 / 18

Анализ статистических алгоритмов снятия морфологической омонимии в русском языке

Анализ статистических алгоритмов снятия морфологической омонимии в русском языке. Егор Лакомкин Иван Пузыревский Дарья Рыжова. Морфологическая разметка. Начальная форма (лемма) грамматические характеристики Я иду по улице. Улице : lex=“ улица ” gr=“ S,f,sg,dat ”. набор тегов.

alta
Download Presentation

Анализ статистических алгоритмов снятия морфологической омонимии в русском языке

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Анализ статистических алгоритмов снятия морфологическойомонимии в русском языке Егор Лакомкин Иван Пузыревский Дарья Рыжова

  2. Морфологическая разметка • Начальная форма (лемма) • грамматические характеристики Я иду по улице. Улице:lex=“улица” gr=“S,f,sg,dat” набор тегов

  3. Автоматический морфологический анализ Мама мыла раму • lex=«мыть» gr=“V,act,f,indic,ipf,norm,praet,sg,tran” • lex=«мыло» gr=“S,inan,n,nom,norm,pl” • lex=«мыло» gr=“S,gen,inan,n,norm,sg” • lex=«мыло» gr=“S,acc,inan,n,norm,pl” задача выбора правильного варианта (дизамбигуация)

  4. Дизамбигуация в текстах на английском языке • Методы: Как правило, статистические алгоритмы на основе марковских моделей • Точность:~96%

  5. Особенности английского языка • Бедная морфология морфологическая разметка фактически сводится к POS-теггингу • Фиксированный порядок слов можно опираться только на локальный контекст слова (ближайших соседей) без учёта дальних зависимостей (т.е. достаточно марковских моделей первого порядка)

  6. Задача исследования: Проверить экспериментально, применимы ли статистические алгоритмы, основанные на марковских моделях, к задаче морфологической дизамбигуации текстов на русском языке

  7. Параметры эксперимента • Корпус: подкорпус НКРЯ со снятой омонимией (~6 млн словоупотреблений) • Морфологический анализатор:Mystem • 4 серии экспериментов (2 по 2): • Набор частей речи – как в НКРЯ: • Только POS • POS, род, число, падеж, лицо, наклонение, время • Изменённый набор частей речи: • Только POS • POS, род, число, падеж, лицо, наклонение, время • 2 алгоритма: HMM и MEMM

  8. Алгоритмы • Набор скрытых величинY (состояний модели = наборов грамматических тегов); составляют марковскую цепь первого порядка • Набор наблюдаемых величинX (наблюдений) ~ словоформ Словоформы заменяем на 3-буквенные окончания: • Сокращаем количество наблюдаемых состояний • Практически не теряем полезную информацию (поскольку в РЯ почти вся морфологическая информация сосредоточена в окончании)

  9. HMM • Обучение: Сбор статистик по корпусу: • P(yi|yj) – матрица переходов • P(xk|yi) – вероятности наблюдений прил сущ глаг -ные -ают -чки

  10. MEMM • Обучение: • Восстановление условного распределения P(yt+1|yt, x) • Сбор по корпусу некоторых статистик (=признаков) + применение принципа максимальной энтропии Yt-1 Yt Yt+1 Xt-1 Xt Xt+1

  11. MEMM: признаки • наличие у текущего слова фиксированного трехбуквенного окончания, • тег, приписанный предыдущему слову, • наличие у текущего слова фиксированного разбора, выданного морфологическим анализатором, • наличие предлога в окрестности текущего слова, • согласованность по роду/числу/падежу с двумя предыдущими словами.

  12. Задача алгоритмов: Вычисление наиболее вероятной последовательности скрытых величин

  13. Деление выборки на обучающую и тестирующую: • Кросс-валидация (5 фолдов): • Деление выборки на 5 частей: 4 обучающие + 1 тестирующая • 5 серий подсчётов • Усреднение результата

  14. Оценка качества • Определение верхней и нижней границы: • Верхняя граница: процент случаев, когда среди гипотез Mystem’а есть правильная; • Нижняя: «частотная снималка» (слову приписывается наиболее частотный вариант разбора, без учёта контекста) • Качество работы алгоритма (= точность): Сравнение с «золотым стандартом» - с эталонным разбором НКРЯ: • общая точность • точность по знакомым словам • точность по незнакомым словам • Не учитывались: • Инициалы, аббревиатуры, цифры; • Сложные слова с дефисом (ср. бело-кремовый)

  15. Результаты

  16. Выводы • POS-теггинг – на приличном уровне, причём MEMM чуть лучше, чем HMM • Дизамбигуация по расширенным тегам – довольно низкий уровень точности. Случаи, особенно часто разбираемые ошибочно: • Местоимения • Имена собственные • Субстантивация прилагательных • Омонимия падежных форм (номинатив vs. аккузатив) • Изменение набора частей речи почти не влияет на результат

  17. Дальнейшие направления исследования • HMM второго порядка • Эксперименты с признаками MEMM • CRF • Возможно, ввод локальных правил Конечная цель: Создание открытого инструмента достаточно высокого качества

  18. Спасибо за внимание!

More Related