1 / 46

Использование особенностей языка запросов поиска Яндекса для исследований

Использование особенностей языка запросов поиска Яндекса для исследований. Трофименко Е.А. Корпорация РБС, начальник отдела исследований и аналитики trofimenko.evgeny@rbscorp.ru, http://www.bdbd.ru. Краткое содержание. Особенности работы операторов исключения

bessie
Download Presentation

Использование особенностей языка запросов поиска Яндекса для исследований

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Использование особенностей языка запросов поиска Яндекса для исследований Трофименко Е.А.Корпорация РБС, начальник отдела исследований и аналитики trofimenko.evgeny@rbscorp.ru, http://www.bdbd.ru

  2. Краткое содержание Особенности работы операторов исключения • Оператор «минус» не применяется к текстам ссылок • Оператор «~~»вычищает НПС-результаты из выдачи • Можно узнать, как Яндекс расширяет запрос пользователя • Особенности контекстных ограничений Как используют операторы поиска по результатам прямого эфира • Поиск дублей текстов • Ошибки и «чужие» операторы • Пробивка «тыпоследнего» и сборы баз Возможности мониторинга особенностей выдачи • Изменение макро-параметров (НПС, главные, ЯК) во времени • Изменение макро-параметров по отдельным классам запросов

  3. Операторы Яндекса Присутствие: + (плюс) – слово обязано находиться Исключение: ~~(тильда) – исключение в пределах документа (~ предложения) - (минус) – недокументированный: был исключением в контексте Возможные контексты поиска: • Документ (текст), Предложение (текст) • Ссылки (анкор-файл) • …расстояние в несколько слов или предложений, указанное явно операторами /(-N +N) или&&/(-N +N)

  4. Как SE должны исключать результаты при отсутствии информации о документе? Поиск точно знает, что есть и чего нет в тексте страницы Поиск не уверен, что знает абсолютно все тексты ссылок Поиск работает и по текстам, и по ссылкам. Поэтому при исключении слов у поиска два варианта: Исключать то, что есть в тексте страницы, и: • искать по тексту ссылок («не знать» о его существовании, оператор «минус») – оставляем НПС • не искать по тексту ссылок (делать вид, что ссылок не существует, оператор «~~») – исключаем НПС

  5. Запрос [слово -слово]: что найдем? слово – документы, содержащие слово в текстах или во входящих ссылках -слово – исключаются документы, содержащие слово в текстах Итог: найденные по ссылкам документы (сниппет м.б. из Я.Каталога)

  6. ~ и ~~ : форсируем поиск по текстами удаляем НПС-результаты Добавляя в любой запрос исключение ~~абракадабры, удаляем НПС: Для длинных запросов доля найденных по ссылке результатов относительно высока:

  7. Расширение пользовательских запросов Яндекс и раньше мог добавлять в запрос новые слова («что такое Х»), но делал это редко, индивидуально. Сейчас – расширение запроса поставлено на поток. • Переходы из одной части речи в другую (гостиницы в Москве -> московские гостиницы) • Транслитерация(«mazda» -> «мазда») • Аббревиатуры (МГУ -> Московский государственный университет) Как узнать слова, которыми расширяется запрос? Используем операторы исключения.

  8. Исключаем точную форму слова:оставляем переформулировки При исключении слова из запроса – в выдаче остаются и подсвечиваются переформулировки (+найденное в URL):

  9. Особенности «колдунщика»:существует ли ограничение расстояний? Колдунщик = расстановка неявных для пользователя ограничений на расстояние между словами, известен с2004. Например, для запроса «новый год» находились документы, содержащие от «год новый» до «новый [*] [*] год» Эти ограничения можно было посмотреть. Но это закончилось. Однако вручную введенные ограничения отрабатывали. Как узнать реальные ограничения на расстояние между словами? Попробуем подобрать…

  10. Пытаемся подобрать: перебор 7 частотных операторов Перебор вариантов НЕ ДАЕТ РЕЗУЛЬТАТОВ… По статистике запросов Корпорации РБС, наиболее часто использовались:

  11. Как себя ведут в Яндексе контекстные ограничения? Из релиза Яндекса, Магадан: «Мы смягчили фильтрацию отбора документов для ранжирования, что привело к улучшению ранжирования по запросам, для которых релевантные документы содержат слова запроса далеко друг от друга» Попробуем поискать эти ограничения. • Берем запрос (+новый +год), оба слова должны находиться • Исключаем результаты поиска, в которых слова находятся «слишком близко» (от 1 слова до 10 тыс. предложений): ~~(+новый &+год) 3. Смотрим, как меняется число найденных документов… Надеемся, что оно станет нулевым тогда, когда расстояние совпадет с расстоянием в заколдованном запросе…

  12. Число найденных результатов:«далее, чем» (+ноутбуки +toshiba) ~~(+ноутбуки [ОПЕРАТОР] +toshiba)исключаем страницы с близкими парами слов

  13. Яндекс.XML: релевантность «phrase», «strict», «all» • <?xml version="1.0" encoding="utf-8" ?> • - <yandexsearch version="1.0"> • - <request> • <query>(+ноутбуки +toshiba) ~~(+ноутбуки &&/(-3 3) +toshiba)</query> • <page>0</page> • <sortby order="descending" priority="no">rlv</sortby> • <maxpassages>2</maxpassages> • - <groupings> • <groupby attr="d" mode="deep" groups-on-page="10" docs-in-group="1" curcateg="" /> • </groupings> • </request> • - <response date="20090302T140211"> • <reqid>00000000</reqid> • <found priority="phrase">0</found> • <found priority="strict">0</found> • <found priority="all">7813345</found> • - <results>

  14. Из документации Яндекс.XML http://help.yandex.ru/xml/?id=362990 «приоритеты» соответствия запросу: «phrase» — число документов с буквальным соответствием запросу «strict» — число документов c вхождением всех слов запроса в искомый контекст «all» — общее число найденных документов

  15. «strict» число найденных результатов:«далее, чем» (+ноутбуки +toshiba) ~~(+ноутбуки [ОПЕРАТОР] +toshiba)исключаем страницы с близкими парами слов

  16. «strict»расстояния

  17. ошибок можно избежать? НПС-результат, в котором: • Очень большое расстояние между словами • Отдельная ссылка с одним из двух слов … при переколдовке && такое было раньше…

  18. …это «all» - результат: • <?xml version="1.0" encoding="utf-8" ?> • - <yandexsearch version="1.0"> • - <request> • <query>(новый год) << url="cd.sportmaster.ru"</query> • <page>0</page> • <sortby order="descending" priority="no">rlv</sortby> • <maxpassages>2</maxpassages> • - <groupings> • <groupby attr="d" mode="deep" groups-on-page="10" docs-in-group="1" curcateg="" /> • </groupings> • </request> • - <response date="20090302T145647"> • <reqid>00000000</reqid> • <found priority="phrase">0</found> • <found priority="strict">0</found> • <found priority="all">1</found> • - <results>

  19. Статистика использования операторов в поиске Яндекса Попробуем регулярно пробивать “прямой эфир”: http://stat.yandex.ru/queries/last20.xml И искать «неправильные» символы… По базе ~300 тыс. запросов: Только 28% - использование операторов, Из которых:

  20. Как используют операторы?

  21. «ошибки»?

  22. Поиск дублей?

  23. Чужие операторы+парсинг для линкспама

  24. Исследования и сборы баз?

  25. Пробивки и сборы баз

  26. Популярные поиски

  27. Анализ и мониторинг алгоритма Проблемы и вопросы: • Влияет ли тИЦ на выдачу?  • Почему в Яндексе засилье википедии? • Мало пассажей в результате – к чему? • Релевантность: страницы или сайта? • Т.д.

  28. Попробуем анализировать: Составим группы запросов, разбитые по • числу слов в запросе • конкурентности • поиску в зонах и НПС • Т.д. И посмотрим, как именно изменяются «средние по больнице» параметры во времени?

  29. Апдейты? Релизы? Во времени.

  30. Как взвешивать параметры? По принципу видимости: • Больше место – ниже вес • Сумма видимостей по топ50 равна 1 • Сумма весов 1-10 вдвое выше 11-20 Использую весовую функцию Wt(pos)=0.074*2^(-pos/10)

  31. Изменение доли НПС

  32. Изменение доли главных страниц в выдаче

  33. Изменение доли ЯндексКаталога

  34. Число найденных пассажей

  35. Топ-сайты: обычные запросы

  36. По НПС-запросам слово -слово

  37. Поиск точной формы !слово

  38. Апдейт 3 марта 2009«чистка индекса»

  39. «еще с сайта»

  40. «еще с сайта»для однословных запросов

  41. «еще с сайта»для длинных запросов

  42. Взвешенный тИЦпо сайтам, отсутствующим в ЯК-cat=(9000000)

  43. Взвешенный тИЦпо сайтам из ЯК<< cat=(9000000)

  44. Взвешенный тИЦпо «широким» запросамurl, domain, rhost, www, lang, стопслова

  45. Пока этот анализатор - игрушечный.В дальнейшем: • Выбрать «правильные» параметры мониторинга • Выбрать «правильные» группы запросов • Увеличить число запросов в группах для хорошей статистики (от ~10 до ~300)

  46. Использование особенностей языка запросов поиска Яндекса для исследований Трофименко Е.А.Корпорация РБС, начальник отдела исследований и аналитики trofimenko.evgeny@rbscorp.ru, http://www.bdbd.ru

More Related