1 / 32

Анализ данных

Анализ данных. Ранжирование и оценка информационного поиска. План. VSM для ранжирования Основные приемы ранжирования Оценка информационного поиска Основные цели: ознакомиться с некоторыми приемами ранжирования и оценки поиска. Вспомним VSM.

savea
Download Presentation

Анализ данных

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Анализ данных Ранжирование и оценка информационного поиска

  2. План • VSM для ранжирования • Основные приемы ранжирования • Оценка информационного поиска Основные цели: ознакомиться с некоторыми приемами ранжирования и оценки поиска

  3. Вспомним VSM Документ представлен в виде набора терминов и их значимости для этого документа

  4. Сравнение двух VSM • Есть два векторных представления: • Запрос обычно содержит значительно меньше слов, чем документ

  5. Косинусная мера сходства • Числитель – скалярное произведение векторов • Знаменатель – произведение евклидовых норм векторов

  6. Косинусная мера сходства

  7. Базовый алгоритм ранжирования • Задача найти Kнаиболее релевантных документов и отсортировать их • Запрос q • Количество документоввсей коллекции N Создадим массив Счет: Счет[номер документа] = релевантность запросу По умолчанию релевантность запросу = 0

  8. Базовый алгоритм ранжирования Для каждого термина t из q: • Вычислить wfтермина t • Извлечь инвертированный индекс t • Для каждой пары документа d и wf: • Обновить счет документа ( +=sim) • Для каждого документа: • Счет = счет / длина документа • Вернуть K документов из массива Счет * Перепишите себе, мы к этому будем часто обращаться

  9. Базовый алгоритм ранжирования • Почему еще лучше убирать из запроса стоп-слова? • Зачем делить в шаге 4?

  10. Приемы ранжирования • Сокращение индекса за счет порога idf • Чемпионский список • Статический ранг • Отсечение кластеров

  11. Неточный поиск • Основная задача: найти K документов, которые вероятно являются наиболее релевантными • Нужно, чтобы сократить объем обрабатываемой информации • Важно, чтобы пользователь при этом остался доволен результатами

  12. Сокращение индекса за счет порога idf Рассмотрим только документы с высоким idf • idf стоп-слов – мал (все документы / большой список) • Из запроса сразу можно убрать стоп-слова

  13. Чемпионский список Определение для каждого термина r наиболее релевантных документов на этапе индексации • При сложном запросе результатом будет пересечение/объединение чемпионских списков • По сути это кеширование результатов

  14. Статический ранг • Каждый сайт имеет параметр «авторитет» • Каждый документ независимо от его содержания, имеет ссылки на себя, которые повышают авторитет документа • Примеры: PR, тИЦ

  15. Кратко о PageRank • Зависит от количества и качества ссылок на страницу • С – количество входящих ссылок • t – страницы, ссылающиеся на А • d – коэффициент нормировки (около 0.85 для GPR)

  16. От чего зависит PageRank • Внутренние ссылки влияют на PR. • Ссылки с тематических сайтов влияют сильнее. • Текст, используемый в ссылке, часто может быть важнее, чем PR ссылающейся страницы. • Несколько одинаковых ссылок с одной страницы считаются за одну. • Сайт может быть забанен за ссылки на забаненные сайты.

  17. Отсечение кластеров В коллекции обычно много похожих документов • Разделим случайно документы на ведущие(N) и ведомые(M) • Для каждого ведущего найдем среди ведомых наиболее близкие • Индекс сократился на M документов

  18. Отсечение кластеров • Ищем документы по запросу q среди N • Ранжируем документы в подходящем кластере как обычно

  19. Оценка поиска Нужна для: • численной оценки качества поиска • корректировки ранжирования • вычисления эффективности приемом

  20. Оценка результатов

  21. Правильность • Пробуем найти единую меру оценки поиска: • Данные несимметричны (релевантных меньше, чем нерелевантных) • Максимальная правильность = все документы нерелевантны

  22. F-мера Баланс между точностью и полнотой: Среднее гармоническое взвешивание Можно добавить коэффициент, регулирующий важность P и R:

  23. Свойства F-меры Те же свойства у среднего гармонического: • Возвращая все документы и вычисляя среднее арифметическое, можно добиться 50% правильности • Если 1 документ из 10000 является релевантным, то среднее гармоническое = 0.02% • Среднее гармоническое всегда меньше средних арифметического и геометрического

  24. Свойства F-меры

  25. Оценка релевантности • Человеческий эксперт – лучший инструмент определения релевантности • Человеческие суждения о релевантности – субъективны и переменчивы • В конечном итоге важно удовлетворить потребности именно субъективных пользователей

  26. Условия оценки релевантности • Эксперты корректируют результаты поиска (сами ищут только в случае неполноты) • Оцениваются кластеры • Каждая пара документ-запрос оценивается несколько раз

  27. Оценка согласованности Применяется для определения достоверности оценки в условиях субъективного мнения экспертов • P(A) – доля совпавших оценок экспертов • P(E) – ожидаемая доля случайно совпавших оценок

  28. Свойства каппа-статистики • Если эксперты всегда соглашаются, то K=1 • Если совпадают случайно, то K=0 • Отрицательная, если расхождений больше, чем это можно объяснить случайностью

  29. Маргинальная статистика • В каппа-статистике доля случайных совпадений зависит от количества классов (для двух – 0.5) • Распределение классов асимметрично, поэтому используются статистики по определенному ответу эксперта

  30. Пример вычислений Доля согласованных выводов: Маргинальные статистики:

  31. Пример вычислений Вероятность того, что мнения экспертов совпали случайно: Каппа-статистика:

  32. Свойства маргинальной релевантности • В отличии от релевантности рассматривает полезность документа после просмотра других. Документ с высокой релевантностью может оказаться вторичным. • Маргинальная статистика предъявляет требования к поисковым результатам: • новизна • разнообразие

More Related