210 likes | 497 Views
Информационный поиск. План. Векторная модель Ранжирование документов на основе весов, метаданных Определение весов на основе машинного обучения. Модель векторного пространства. Идея: -представление документа и запроса в виде векторов -нахождение пространственно-близких векторов
E N D
План • Векторная модель • Ранжирование документов на основе весов, метаданных • Определение весов на основе машинного обучения
Модель векторного пространства Идея: -представление документаи запроса в виде векторов -нахождение пространственно-близких векторов word1 q d1 d2 word2
Косинусная мера сходства , word1 q d1 d2 word2
Взвешивание термина «The information retrieval» Нам надо: • Уменьшить вес слова, если оно встречается в большом количестве документов (Например, слово “The”) • Сделать вес максимальным, если слово встречается часто только в некоторых документах • Сделать вес поменьше, если слово встречается реже, чем во 2 пункте
Взвешивание термина 1. Частота термина: tf – количество вхождений термина в документ 2. Документная частота: df – количество документов, содержащих термин 3. Обратная документная частота Решение: t ->tf × idf
Ранжирование Необходимо определить 10 лучших результатов Как это сделать?
Ранжирование CosineScore(q) float Scores[N]=0 Инициализация Length[N] for each термина запроса doвычисляем wt, q for each пары (d, tft, d) do Scores[d]+=wft, d × wt, q for each d do Scores[d] = Scores[d] / Length[d] return 10 лучших
Проблема Некоторые документы имеют метаданные либо разбиты на части (заголовок, автор, …) Как учесть эти данные при ранжировании?
Параметрические и зонные индексы поля метаданных зоны метаданных Дата создания Формат документа Название документа Аннотация
Индексирование полей Для каждого поля – один параметрический индекс Для такого индексирования используются B-деревья
Индексирование зон Для каждой зоны можно создать стандартный инвертированный список документов, в которых встречается это слово
Но зоны можно представлять в виде словопозиций «Найти документы, в которых слово William встречается в названии документа и в списке авторов»
Взвешенное зонное ранжирование «Information» Всего 3 зоны: author, title, body. вес ВЗР определяется как соответствие между q и k-ой зоной Если «Information» входит только в title и body, то релевантность документа равна
Вычисление весов на основе машинного обучения • Имеем множество обучающих примеров, состоящий из • qj • dj • r(qj,dj) Каждому документу дается значение релевантности вручную(r)
Вычисление весов на основе машинного обучения 2. Веса определяются на основе обучение на этих примерах Вводим функцию Цель: найти g на основе машинного обучения
Все ошибки суммируются. Так что теперь задача состоит в том, чтобы минимизировать эту ошибку путем выбора g.
Заключение • Модель векторного пространства • Методы ранжирования • Определение весов на основе машинного обучения