1 / 35

Анализ данных

Анализ данных. Индексирование данных и обработка запроса. План лекции. Задачи и проблемы индексации Этапы нормализации текста Подготовка к ранжированию на этапах нормализации Обработка запроса Основная цель: рассмотреть основные этапы нормализации и обработки запроса.

varden
Download Presentation

Анализ данных

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Анализ данных Индексирование данных и обработка запроса

  2. План лекции • Задачи и проблемы индексации • Этапы нормализации текста • Подготовка к ранжированию на этапах нормализации • Обработка запроса Основная цель: рассмотреть основные этапы нормализации и обработки запроса

  3. В предыдущей серии… Индексатор Кэширование Нормализатор Поиск Недоступные страницы Сниппеты

  4. В предыдущей серии… Нормализатор – часть индексатора, преобразующая документ в вид удобный для последующего поиска Задача нормализатора: перевести неструктурированную информацию в структурированную

  5. Удобный вид Нужно узнать, в каких документах встречается запрашиваемое слово Варианты решения: • Просмотреть тексты всех документов • Составить список документов, в которых встречается слово

  6. Инвертированный индекс Индекс Запрос

  7. Инвертированный индекс Индекс Запрос Результат [1, 4, 5, 7, 11] AND [10, 11, 23] = [11]

  8. Словопозиции Часто важно, чтобы искомые слова шли подряд. Нужно учитывать позиции слов. Пример: «Варенье лучше прятать от солнечного света… … … … … Банка была холодная как труп.»

  9. Словопозиции Индекс Чем ближе слова друг к другу, тем релевантнее в итоге документ

  10. Этапы нормализации • Разбиение страницы на зоны текста • Разбиение текста на слова • Преобразование слов в термы • Удаление стоп-слов

  11. Разбиение страницы на зоны • Заголовок страницы • Мета-данные • Заголовки разных уровней • Первый блок текста • Списки • Остальные блоки текста

  12. Разбиение текста на слова • Что является разделителем? • Специфические слова • Составные слова

  13. Разделитель слов • Пробельные символы • Знаки препинания Проблемы в английском языке: • O’Neill • aren’t

  14. Специфические слова Некоторые «слова» выглядят необычно • С++ • 127.0.0.1 • T-34 Разбираются по отдельным правилам, паттернам

  15. Составные слова Некоторые слова нужно правильно разделить • город Ростов-на-Дону • рейс Лос-Анжелес-Сан-Франциско • монолог «быть или не быть» Решение: составление статистики устойчивости употребления слов

  16. Группировка слов Термин – класс эквивалентных слов, имеющих несущественные отличия (в окончаниях, префиксах и т.д.) [прячу, спрятанный, припрятал] ~ спрятать

  17. Получение терминов • Стемминг – последовательное удаление незначащих частей слов • Лемматизация– морфологический разбор слова, приведение к нормальной форме

  18. Стеммер Портера 5 шагов, на каждом применяется правило удаления окончания Первый шаг: Плюс: быстрое получение термина Минус: для многих языков термин плохо воспринимается человеком

  19. Лемматизатор Разбор слова по составу: (как в школе, только автоматически) Крупнейший лемматизатор русского языка: AOT.ru (py_morphy, PHPMorphy, …) Плюсы: получение термина в нормально форме, воспринимаемой человеком Минусы: долго работает

  20. Стоп-слова Стоп-слово–слово, которое встречается во многих текстах, но никак текст не характеризует Примеры: союзы, междометия Запрос: «что делать с трупом он плохо пахнет»

  21. Итог нормализации

  22. Нормализация и ранжирование Во время нормализации можно пытаться определить не только термины документа, но и их значимость для него Примеры: • Орфографический словарь • «Тихий Дон» на одной странице

  23. Нормализация и ранжирование Во время нормализации можно пытаться определить не только термины документа, но и их значимость для него Примеры: • Орфографический словарь • «Тихий Дон» на одной странице

  24. Документная частота Документная частота – сколько документов содержат данный термин. Определяет насколько термин важен вообще. • Чем специфичнее термин, тем меньше документов его содержат • Стоп-слова содержат почти все документы

  25. Обратная документная частота Отношение количества документов с термином ко всему количеству документов: Как ведет себя эта функция? Что может происходить с ростом N?

  26. Частота термина Частота термина в документе (term frequency) – отношение количества вхождений термина ко всем терминам. Определяет, насколько важен термин для данного документа

  27. Масштабирование tf Что делать с документом, в котором 20 повторений термина из 100 слов?

  28. Метрикаwf-idf Поведение: • Максимальное значение, если термин встречается часто в нескольких документах • Уменьшается, если термин встречается нечасто и во многих документах («размазан») • Минимален, если это стоп-слово, то есть встречается почти в каждом документе

  29. Итоговый вид нормализованного документа Векторная модель документа (VSM)– каждый термин является вектором, • направление вектора – термин • длина вектора - вес

  30. Обработка запроса • Запрос нужно привести к тому же виду, что и проиндексированные страницы (перевести в термины) • Так как запрос значительно меньше текстов документа, можно и нужно применять более сложный анализ

  31. Этапы обработка запроса • Исправление опечаток • Преобразование в термины • Поиск полного набора терминов • Разбиение запроса на подзапросы • Поиск подзапросов

  32. Исправление опечаток • Расстояние редактирования – для случая, когда палец попал на неправильную кнопку или есть 1-2 орфографических ошибок • Фонетические исправления – для случая, когда человек не знает, как пишется слово, но знает, как оно звучит (пример: фр. oiseaux)

  33. Расстояние Левенштейна Расстояние редактирования – количество простых операций для превращения одной строки в другую Простые операции: • вставка символа • удаление символа • замена символа другим

  34. Индекс Soundex Кодируем слово в индекс Soundex. Созвучные слова имеют одинаковый индекс. Пример индекса: • R163: Rupert, Robert Для русского языка Soundexне доработан. Можно переводить слово в транслит и пользоваться английским

  35. Преобразование запроса Запрос Результаты Ранжирование

More Related