1 / 10

Мордань Виталий, 5 28 группа

Исследование и разработка методов обнаружения описания событий на основе скрытых марковских моделей. Мордань Виталий, 5 28 группа. Научный руководитель: к.ф.-м.н ., Турдаков Денис Юрьевич. Актуальность.

dragon
Download Presentation

Мордань Виталий, 5 28 группа

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Исследование и разработка методов обнаружения описания событий на основе скрытых марковских моделей Мордань Виталий, 528 группа • Научный руководитель: к.ф.-м.н., Турдаков Денис Юрьевич

  2. Актуальность • Социальная сеть Твиттер является одним из наиболее перспективных источниковпри получении актуальной информации. • Значительная часть сообщений Твиттера содержит информацию о некоторых «событиях». • Событие относится к конкретному факту, протекающему в определенное время и в определенном месте. Примеры: футбольный матч, землетрясение.

  3. Цель работы Исследование и разработка методов обнаружения сообщений о событиях и их резюмирования на основе скрытых марковских моделей • Резюмирование описаний событий заключается в выборе ключевых сообщений о конкретном событии из сети Твиттер

  4. Постановка задачи • Исследовать существующие подходы к обнаружению событий и построению их описания на основе социальной сети Твиттер • Исследовать возможность применения скрытых марковских моделей и их модификаций для составления описаний событий • Разработать метод для составления описаний событий на основе обобщенной* скрытой марковской модели • Произвести экспериментальные исследования разработанного метода * – Турдаков Д. Ю. Методы и программные средства разрешения лексической многозначности терминов на основе сетей документов.

  5. Обзор существующих решений Рассмотренные методы обнаружения событий: • Neweventdetection – нахождение первого документа, соответствующего новому событию. • Online new event detection – предыдущая задача в режиме реального времени. • Алгоритм классификации (на примере Flickr и Твиттера). Рассмотренные методы резюмирования документов: • Резюмирование по относительной мере (выбрать n предложений с максимальной оценкой меры). • Резюмирование по скрытому семантическому анализу (использование сингулярного разложения матрицы).

  6. Обзор существующих решений Рассмотренные методы резюмирования (на примере социальной сети Твиттер): • SummAllText – каждое сообщение считается отдельным документом, к которым применяется стандартный алгоритм резюмирования. • SummTimeInt – сообщения разбиваются на равные интервалы времени и затем извлекаются ключевые сообщения из каждого интервала в отдельности. • SummHMM – использование модифицированной скрытой марковской модели* для сегментирования события на под-события (вводятся дополнительные вероятности для выделения под-событий в событиях). * – DeepayanChakrabarti, KunalPunera. Event Summarization using Tweets.

  7. Исследование и построение решения задачи • За основу было решено взять алгоритмы: • SummHMMдля поиска под-событий; • обобщенную марковскую модель (текущее значение переменной состояния может стать частью одной из существующих цепей, а может сформировать новую цепь, независимую от других цепей) – для выделения лексических цепей. • Оценка параметров модели: • параметры модели SummHMM – EM-алгоритм; • параметры обобщенной модели (вероятность двух сообщений принадлежать одной цепи) – семантические отношения на основе тезауруса WordNet. • Выражение параметров обобщенной модели через параметры алгоритма SummHMM для алгоритма Витерби. • Полученный алгоритм: • сохраняет преимущества SummHMM; • учитывает семантическую связь между словами; • разбивает текст сообщений на лексические цепи.

  8. Пример работы Набор твитов о кубке мира по биатлону Результаты суммаризации–найденные под-события • 1. Birnbacherstartscleanbut 20 secbehindUstyugovafterthefirstshooting. That'sclosetoapenaltylap... #Biathlon • 2. MartinFourcadehasanotherownrace... Nopenaltyloopsand 30 secondsleadafter 2nd shooting #biathlon #sochi #Sprint • 3. ErikLesserwithacleanfirstshootingonposition 2 sofar... #Biathlon …

  9. Тестирование • Основное событие - кубок мира по биатлону • Составлено три корпуса сообщений: • корпус из всех сообщений по запросу за одну неделю; • полученный корпус без «шума»; • сообщения за один наиболее активный день.

  10. Результаты • Рассмотрены существующие подходы к обнаружению событий и построению их описания на основе социальной сети Твиттер • Рассмотрена возможность применения скрытых марковских моделей и их модификаций для составления описания событий (на примере алгоритма SummHMM) • Предложена и реализована модификация алгоритма SummHMM на основе обобщенной скрытой марковской модели • Произведены экспериментальные исследования предложенной модели. Тестирование показало, что полученная модель не уступает в точности алгоритму SummHMM, а в некоторых случаях улучшает точность его работы

More Related