1 / 10

Курсовая работа Нормализация коротких сообщений пользователей социальных сетей

Курсовая работа Нормализация коротких сообщений пользователей социальных сетей. Выполнил: Александров Никита 328 группа Научный руководитель: Коршунов Антон Викторович. Проблема нормализации. Нормализация – приведение ошибочных слов к словарной форме

althea
Download Presentation

Курсовая работа Нормализация коротких сообщений пользователей социальных сетей

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Курсовая работаНормализация коротких сообщений пользователей социальных сетей Выполнил: Александров Никита 328 группа Научный руководитель: Коршунов Антон Викторович

  2. Проблема нормализации • Нормализация – приведениеошибочных слов к словарной форме • В рассматриваемой области проблема усложняетсябольшим количеством ошибок: 1. Количество символов (Twitter – 140) 2. Неформальный стиль 3. Обильное использование сленга

  3. Постановка задачи • Исследовать существующие методы нормализации коротких сообщений • Разработать и реализовать алгоритм нормализации • Произвести экспериментальную оценку качества результатов реализованного метода

  4. Общая схема существующих алгоритмов • Выделение из сообщений несловарныхконструкций • Для каждого выделенного слова, построить множество слов, которые могут быть его словарной формой • Отбор самого подходящего кандидата (на основе каких-то критериев) из множества, полученного на предыдущем шаге, который будет являться результатом нормализации данного слова

  5. Существующие методы • TENOR (TExtNORmalisation) Aspell -> Phonetic Similarity -> Lexical Similarity -> Trigram Language Model • Kaufmann Preprocessing (Orthographic Normalization, Syntactic Disambiguation) -> Machine Translation • NICTA Victoria Research Laboratory Aspell -> Phonetic Similarity ,Lexical Similarity ,Trigram Language Model -> SVM(words dependencies) • F. Liu, F. Weng Letter Transformations: Web based Data Collection -> Letter-level Alignment -> Sequence Labeling Model

  6. Разработанный метод За основу взят подход TENOR Схема работы: 1. Выделить из сообщения OOV-слова, которые необходимо привести к нормальной форме (GNU Aspell) 2. Для каждого OOV-cлова построить список слов, которые могут являться его нормальной формой 2.1. Определение часто употребляющихся простых трансформаций слов 2.2. Фильтрация списка слов по фонетической близости (Double Metaphone) 2.3. Фильтрация списка слов по лексической близости (Gestalt Pattern Matching) 3. Выбор самого подходящего кандидата (Trigram Language Model)

  7. Пример работы

  8. Анализ результатов Нормализация: Обнаружение OOV:

  9. Результаты • Исследованы существующие алгоритмы нормализации коротких сообщений • Разработан метод нормализации коротких сообщений, основанный на сравнении слов по фонетической и лексикологической близости • Создан прототип системы нормализации, подтверждающийработоспособность данного метода • Произведена экспериментальная оценка качества результатов разработанного метода

  10. Спасибо за внимание!

More Related