100 likes | 299 Views
Исследование и разработка методов обнаружения описания событий на основе скрытых марковских моделей. Мордань Виталий, 5 28 группа. Научный руководитель: к.ф.-м.н ., Турдаков Денис Юрьевич. Актуальность.
E N D
Исследование и разработка методов обнаружения описания событий на основе скрытых марковских моделей Мордань Виталий, 528 группа • Научный руководитель: к.ф.-м.н., Турдаков Денис Юрьевич
Актуальность • Социальная сеть Твиттер является одним из наиболее перспективных источниковпри получении актуальной информации. • Значительная часть сообщений Твиттера содержит информацию о некоторых «событиях». • Событие относится к конкретному факту, протекающему в определенное время и в определенном месте. Примеры: футбольный матч, землетрясение.
Цель работы Исследование и разработка методов обнаружения сообщений о событиях и их резюмирования на основе скрытых марковских моделей • Резюмирование описаний событий заключается в выборе ключевых сообщений о конкретном событии из сети Твиттер
Постановка задачи • Исследовать существующие подходы к обнаружению событий и построению их описания на основе социальной сети Твиттер • Исследовать возможность применения скрытых марковских моделей и их модификаций для составления описаний событий • Разработать метод для составления описаний событий на основе обобщенной* скрытой марковской модели • Произвести экспериментальные исследования разработанного метода * – Турдаков Д. Ю. Методы и программные средства разрешения лексической многозначности терминов на основе сетей документов.
Обзор существующих решений Рассмотренные методы обнаружения событий: • Neweventdetection – нахождение первого документа, соответствующего новому событию. • Online new event detection – предыдущая задача в режиме реального времени. • Алгоритм классификации (на примере Flickr и Твиттера). Рассмотренные методы резюмирования документов: • Резюмирование по относительной мере (выбрать n предложений с максимальной оценкой меры). • Резюмирование по скрытому семантическому анализу (использование сингулярного разложения матрицы).
Обзор существующих решений Рассмотренные методы резюмирования (на примере социальной сети Твиттер): • SummAllText – каждое сообщение считается отдельным документом, к которым применяется стандартный алгоритм резюмирования. • SummTimeInt – сообщения разбиваются на равные интервалы времени и затем извлекаются ключевые сообщения из каждого интервала в отдельности. • SummHMM – использование модифицированной скрытой марковской модели* для сегментирования события на под-события (вводятся дополнительные вероятности для выделения под-событий в событиях). * – DeepayanChakrabarti, KunalPunera. Event Summarization using Tweets.
Исследование и построение решения задачи • За основу было решено взять алгоритмы: • SummHMMдля поиска под-событий; • обобщенную марковскую модель (текущее значение переменной состояния может стать частью одной из существующих цепей, а может сформировать новую цепь, независимую от других цепей) – для выделения лексических цепей. • Оценка параметров модели: • параметры модели SummHMM – EM-алгоритм; • параметры обобщенной модели (вероятность двух сообщений принадлежать одной цепи) – семантические отношения на основе тезауруса WordNet. • Выражение параметров обобщенной модели через параметры алгоритма SummHMM для алгоритма Витерби. • Полученный алгоритм: • сохраняет преимущества SummHMM; • учитывает семантическую связь между словами; • разбивает текст сообщений на лексические цепи.
Пример работы Набор твитов о кубке мира по биатлону Результаты суммаризации–найденные под-события • 1. Birnbacherstartscleanbut 20 secbehindUstyugovafterthefirstshooting. That'sclosetoapenaltylap... #Biathlon • 2. MartinFourcadehasanotherownrace... Nopenaltyloopsand 30 secondsleadafter 2nd shooting #biathlon #sochi #Sprint • 3. ErikLesserwithacleanfirstshootingonposition 2 sofar... #Biathlon …
Тестирование • Основное событие - кубок мира по биатлону • Составлено три корпуса сообщений: • корпус из всех сообщений по запросу за одну неделю; • полученный корпус без «шума»; • сообщения за один наиболее активный день.
Результаты • Рассмотрены существующие подходы к обнаружению событий и построению их описания на основе социальной сети Твиттер • Рассмотрена возможность применения скрытых марковских моделей и их модификаций для составления описания событий (на примере алгоритма SummHMM) • Предложена и реализована модификация алгоритма SummHMM на основе обобщенной скрытой марковской модели • Произведены экспериментальные исследования предложенной модели. Тестирование показало, что полученная модель не уступает в точности алгоритму SummHMM, а в некоторых случаях улучшает точность его работы