160 likes | 331 Views
RCO на РОМИП 200 8. Плешко В.В. , Поляков П.Ю. ООО «ЭР СИ О» info @ rco . ru. Дорожки. Классификация Веб - страниц Классификация Веб - сайтов Кластеризация новостей. Классификация Веб-страниц. Метод опорных векторов Отбор терминов Однословные / Однословные + многословные
E N D
RCO на РОМИП 2008 Плешко В.В., Поляков П.Ю. ООО «ЭР СИ О» info@rco.ru RCO на РОМИП 2008
Дорожки • Классификация Веб-страниц • Классификация Веб-сайтов • Кластеризация новостей RCO на РОМИП 2008
Классификация Веб-страниц • Метод опорных векторов • Отбор терминов • Однословные / Однословные + многословные • Фильтрация по информационной значимости • Веса терминов • Частотные • Тип ядра • Линейное RCO на РОМИП 2008
Отбор терминов • Многословные термины • эксплицирование элементов смысла (Ермаков А.Е.) • Фильтрация • Информационная значимость RCO на РОМИП 2008
Прогоны • L – только однословные слова (леммы) • Lpos – L с положительными весами • LT – леммы + многословные термины • LTpos – LT с положительными весами • LTfilter – LT + ручная фильтрация первых 50 терминов RCO на РОМИП 2008
Результаты F1(micro) и F1(macro) веб-страниц по матрицам релевантности 2005-2008 с сильными требованиями к релевантности F1(micro) и F1(macro) веб-страниц по матрицам релевантности 2005-2008 со слабыми требованиями к релевантности RCO на РОМИП 2008
Профили, составленные вручную vs Автоматические профили (2007) F1 рубрик с сильными и со слабыми требованиями к релевантности. Рубрики упорядочены по убыванию качества LTpos. RCO на РОМИП 2008
Эффект фильтрации «мусорных» слов RCO на РОМИП 2008
Классификация Веб-сайтов • Способ представления • конкатенация всех страниц • Метод классификации • как Веб-страницы • Прогоны • L, LT, LTpos RCO на РОМИП 2008
Профили, составленные вручную vs Автоматические профили (2007) RCO на РОМИП 2008
Результаты (2008) RCO на РОМИП 2008
Выводы • Способ улучшения работы SVM – отбрасывание терминов с отрицательными весами • Способ повышения качества на зашумленных обучающих выборках – фильтрация верхних (в смысле весов SVM) терминов из профиля RCO на РОМИП 2008
Кластеризация новостей • Идентификационные признаки • Синтактико-семантический анализ • Результат разбора первых 3-х предложений • Именованные объекты имеют больший вес • Построение topic-кластеров – 1 вариант • Все документы за неделю • Агломеративная процедура (порог по «размеру» кластера) • Построение topic-кластеров – 2 вариант • Документы за сутки (окно) • Агломеративная процедура • Сдвиг окна на 1 час • Склейка с кластерами из предыдущего шага • Построение event-кластеров • Документы из кластера • Агломеративная процедура с большим порогом RCO на РОМИП 2008
Результаты RCO на РОМИП 2008
Выводы • Эталонная разметка в целом выглядит логичной (как использовался в оценках misc?) • Первый шаг сделан – есть размеченный корпус и много идей для экспериментов RCO на РОМИП 2008
Планы • Дальнейшие эксперименты по ручной коррекции автоматически созданных профилей и обучающих выборок • Эксперименты по кластеризации новостей с учетом размеченной коллекции RCO на РОМИП 2008