180 likes | 491 Views
Анализ статистических алгоритмов снятия морфологической омонимии в русском языке. Егор Лакомкин Иван Пузыревский Дарья Рыжова. Морфологическая разметка. Начальная форма (лемма) грамматические характеристики Я иду по улице. Улице : lex=“ улица ” gr=“ S,f,sg,dat ”. набор тегов.
E N D
Анализ статистических алгоритмов снятия морфологическойомонимии в русском языке Егор Лакомкин Иван Пузыревский Дарья Рыжова
Морфологическая разметка • Начальная форма (лемма) • грамматические характеристики Я иду по улице. Улице:lex=“улица” gr=“S,f,sg,dat” набор тегов
Автоматический морфологический анализ Мама мыла раму • lex=«мыть» gr=“V,act,f,indic,ipf,norm,praet,sg,tran” • lex=«мыло» gr=“S,inan,n,nom,norm,pl” • lex=«мыло» gr=“S,gen,inan,n,norm,sg” • lex=«мыло» gr=“S,acc,inan,n,norm,pl” задача выбора правильного варианта (дизамбигуация)
Дизамбигуация в текстах на английском языке • Методы: Как правило, статистические алгоритмы на основе марковских моделей • Точность:~96%
Особенности английского языка • Бедная морфология морфологическая разметка фактически сводится к POS-теггингу • Фиксированный порядок слов можно опираться только на локальный контекст слова (ближайших соседей) без учёта дальних зависимостей (т.е. достаточно марковских моделей первого порядка)
Задача исследования: Проверить экспериментально, применимы ли статистические алгоритмы, основанные на марковских моделях, к задаче морфологической дизамбигуации текстов на русском языке
Параметры эксперимента • Корпус: подкорпус НКРЯ со снятой омонимией (~6 млн словоупотреблений) • Морфологический анализатор:Mystem • 4 серии экспериментов (2 по 2): • Набор частей речи – как в НКРЯ: • Только POS • POS, род, число, падеж, лицо, наклонение, время • Изменённый набор частей речи: • Только POS • POS, род, число, падеж, лицо, наклонение, время • 2 алгоритма: HMM и MEMM
Алгоритмы • Набор скрытых величинY (состояний модели = наборов грамматических тегов); составляют марковскую цепь первого порядка • Набор наблюдаемых величинX (наблюдений) ~ словоформ Словоформы заменяем на 3-буквенные окончания: • Сокращаем количество наблюдаемых состояний • Практически не теряем полезную информацию (поскольку в РЯ почти вся морфологическая информация сосредоточена в окончании)
HMM • Обучение: Сбор статистик по корпусу: • P(yi|yj) – матрица переходов • P(xk|yi) – вероятности наблюдений прил сущ глаг -ные -ают -чки
MEMM • Обучение: • Восстановление условного распределения P(yt+1|yt, x) • Сбор по корпусу некоторых статистик (=признаков) + применение принципа максимальной энтропии Yt-1 Yt Yt+1 Xt-1 Xt Xt+1
MEMM: признаки • наличие у текущего слова фиксированного трехбуквенного окончания, • тег, приписанный предыдущему слову, • наличие у текущего слова фиксированного разбора, выданного морфологическим анализатором, • наличие предлога в окрестности текущего слова, • согласованность по роду/числу/падежу с двумя предыдущими словами.
Задача алгоритмов: Вычисление наиболее вероятной последовательности скрытых величин
Деление выборки на обучающую и тестирующую: • Кросс-валидация (5 фолдов): • Деление выборки на 5 частей: 4 обучающие + 1 тестирующая • 5 серий подсчётов • Усреднение результата
Оценка качества • Определение верхней и нижней границы: • Верхняя граница: процент случаев, когда среди гипотез Mystem’а есть правильная; • Нижняя: «частотная снималка» (слову приписывается наиболее частотный вариант разбора, без учёта контекста) • Качество работы алгоритма (= точность): Сравнение с «золотым стандартом» - с эталонным разбором НКРЯ: • общая точность • точность по знакомым словам • точность по незнакомым словам • Не учитывались: • Инициалы, аббревиатуры, цифры; • Сложные слова с дефисом (ср. бело-кремовый)
Выводы • POS-теггинг – на приличном уровне, причём MEMM чуть лучше, чем HMM • Дизамбигуация по расширенным тегам – довольно низкий уровень точности. Случаи, особенно часто разбираемые ошибочно: • Местоимения • Имена собственные • Субстантивация прилагательных • Омонимия падежных форм (номинатив vs. аккузатив) • Изменение набора частей речи почти не влияет на результат
Дальнейшие направления исследования • HMM второго порядка • Эксперименты с признаками MEMM • CRF • Возможно, ввод локальных правил Конечная цель: Создание открытого инструмента достаточно высокого качества