Анализ данных

Анализ данных Ранжирование и оценка информационного поиска

План • VSM для ранжирования • Основные приемы ранжирования • Оценка информационного поиска Основные цели: ознакомиться с некоторыми приемами ранжирования и оценки поиска

Вспомним VSM Документ представлен в виде набора терминов и их значимости для этого документа

Сравнение двух VSM • Есть два векторных представления: • Запрос обычно содержит значительно меньше слов, чем документ

Косинусная мера сходства • Числитель – скалярное произведение векторов • Знаменатель – произведение евклидовых норм векторов

Косинусная мера сходства

Базовый алгоритм ранжирования • Задача найти Kнаиболее релевантных документов и отсортировать их • Запрос q • Количество документоввсей коллекции N Создадим массив Счет: Счет[номер документа] = релевантность запросу По умолчанию релевантность запросу = 0

Базовый алгоритм ранжирования Для каждого термина t из q: • Вычислить wfтермина t • Извлечь инвертированный индекс t • Для каждой пары документа d и wf: • Обновить счет документа ( +=sim) • Для каждого документа: • Счет = счет / длина документа • Вернуть K документов из массива Счет * Перепишите себе, мы к этому будем часто обращаться

Базовый алгоритм ранжирования • Почему еще лучше убирать из запроса стоп-слова? • Зачем делить в шаге 4?

Приемы ранжирования • Сокращение индекса за счет порога idf • Чемпионский список • Статический ранг • Отсечение кластеров

Неточный поиск • Основная задача: найти K документов, которые вероятно являются наиболее релевантными • Нужно, чтобы сократить объем обрабатываемой информации • Важно, чтобы пользователь при этом остался доволен результатами

Сокращение индекса за счет порога idf Рассмотрим только документы с высоким idf • idf стоп-слов – мал (все документы / большой список) • Из запроса сразу можно убрать стоп-слова

Чемпионский список Определение для каждого термина r наиболее релевантных документов на этапе индексации • При сложном запросе результатом будет пересечение/объединение чемпионских списков • По сути это кеширование результатов

Статический ранг • Каждый сайт имеет параметр «авторитет» • Каждый документ независимо от его содержания, имеет ссылки на себя, которые повышают авторитет документа • Примеры: PR, тИЦ

Кратко о PageRank • Зависит от количества и качества ссылок на страницу • С – количество входящих ссылок • t – страницы, ссылающиеся на А • d – коэффициент нормировки (около 0.85 для GPR)

От чего зависит PageRank • Внутренние ссылки влияют на PR. • Ссылки с тематических сайтов влияют сильнее. • Текст, используемый в ссылке, часто может быть важнее, чем PR ссылающейся страницы. • Несколько одинаковых ссылок с одной страницы считаются за одну. • Сайт может быть забанен за ссылки на забаненные сайты.

Отсечение кластеров В коллекции обычно много похожих документов • Разделим случайно документы на ведущие(N) и ведомые(M) • Для каждого ведущего найдем среди ведомых наиболее близкие • Индекс сократился на M документов

Отсечение кластеров • Ищем документы по запросу q среди N • Ранжируем документы в подходящем кластере как обычно

Оценка поиска Нужна для: • численной оценки качества поиска • корректировки ранжирования • вычисления эффективности приемом

Оценка результатов

Правильность • Пробуем найти единую меру оценки поиска: • Данные несимметричны (релевантных меньше, чем нерелевантных) • Максимальная правильность = все документы нерелевантны

F-мера Баланс между точностью и полнотой: Среднее гармоническое взвешивание Можно добавить коэффициент, регулирующий важность P и R:

Свойства F-меры Те же свойства у среднего гармонического: • Возвращая все документы и вычисляя среднее арифметическое, можно добиться 50% правильности • Если 1 документ из 10000 является релевантным, то среднее гармоническое = 0.02% • Среднее гармоническое всегда меньше средних арифметического и геометрического

Свойства F-меры

Оценка релевантности • Человеческий эксперт – лучший инструмент определения релевантности • Человеческие суждения о релевантности – субъективны и переменчивы • В конечном итоге важно удовлетворить потребности именно субъективных пользователей

Условия оценки релевантности • Эксперты корректируют результаты поиска (сами ищут только в случае неполноты) • Оцениваются кластеры • Каждая пара документ-запрос оценивается несколько раз

Оценка согласованности Применяется для определения достоверности оценки в условиях субъективного мнения экспертов • P(A) – доля совпавших оценок экспертов • P(E) – ожидаемая доля случайно совпавших оценок

Свойства каппа-статистики • Если эксперты всегда соглашаются, то K=1 • Если совпадают случайно, то K=0 • Отрицательная, если расхождений больше, чем это можно объяснить случайностью

Маргинальная статистика • В каппа-статистике доля случайных совпадений зависит от количества классов (для двух – 0.5) • Распределение классов асимметрично, поэтому используются статистики по определенному ответу эксперта

Пример вычислений Доля согласованных выводов: Маргинальные статистики:

Пример вычислений Вероятность того, что мнения экспертов совпали случайно: Каппа-статистика:

Свойства маргинальной релевантности • В отличии от релевантности рассматривает полезность документа после просмотра других. Документ с высокой релевантностью может оказаться вторичным. • Маргинальная статистика предъявляет требования к поисковым результатам: • новизна • разнообразие

Анализ данных

Анализ данных

Presentation Transcript