1 / 19

Информационный поиск

Информационный поиск. План. Векторная модель Ранжирование документов на основе весов, метаданных Определение весов на основе машинного обучения. Модель векторного пространства. Идея: -представление документа и запроса в виде векторов -нахождение пространственно-близких векторов

shamus
Download Presentation

Информационный поиск

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Информационный поиск

  2. План • Векторная модель • Ранжирование документов на основе весов, метаданных • Определение весов на основе машинного обучения

  3. Модель векторного пространства Идея: -представление документаи запроса в виде векторов -нахождение пространственно-близких векторов word1 q d1 d2 word2

  4. Косинусная мера сходства , word1 q d1 d2 word2

  5. Взвешивание термина «The information retrieval» Нам надо: • Уменьшить вес слова, если оно встречается в большом количестве документов (Например, слово “The”) • Сделать вес максимальным, если слово встречается часто только в некоторых документах • Сделать вес поменьше, если слово встречается реже, чем во 2 пункте

  6. Взвешивание термина 1. Частота термина: tf – количество вхождений термина в документ 2. Документная частота: df – количество документов, содержащих термин 3. Обратная документная частота Решение: t ->tf × idf

  7. Ранжирование Необходимо определить 10 лучших результатов Как это сделать?

  8. Ранжирование CosineScore(q) float Scores[N]=0 Инициализация Length[N] for each термина запроса doвычисляем wt, q for each пары (d, tft, d) do Scores[d]+=wft, d × wt, q for each d do Scores[d] = Scores[d] / Length[d] return 10 лучших

  9. Проблема Некоторые документы имеют метаданные либо разбиты на части (заголовок, автор, …) Как учесть эти данные при ранжировании?

  10. Параметрические и зонные индексы поля метаданных зоны метаданных Дата создания Формат документа Название документа Аннотация

  11. Индексирование полей Для каждого поля – один параметрический индекс Для такого индексирования используются B-деревья

  12. Индексирование зон Для каждой зоны можно создать стандартный инвертированный список документов, в которых встречается это слово

  13. Но зоны можно представлять в виде словопозиций «Найти документы, в которых слово William встречается в названии документа и в списке авторов»

  14. Взвешенное зонное ранжирование «Information» Всего 3 зоны: author, title, body. вес ВЗР определяется как соответствие между q и k-ой зоной Если «Information» входит только в title и body, то релевантность документа равна

  15. Вычисление весов на основе машинного обучения • Имеем множество обучающих примеров, состоящий из • qj • dj • r(qj,dj) Каждому документу дается значение релевантности вручную(r)

  16. Вычисление весов на основе машинного обучения 2. Веса определяются на основе обучение на этих примерах Вводим функцию Цель: найти g на основе машинного обучения

  17. Все ошибки суммируются. Так что теперь задача состоит в том, чтобы минимизировать эту ошибку путем выбора g.

  18. Заключение • Модель векторного пространства • Методы ранжирования • Определение весов на основе машинного обучения

More Related