1 / 43

ПОИСК ИНФОРМАЦИИ В ИНТЕРНЕТЕ

ПОИСК ИНФОРМАЦИИ В ИНТЕРНЕТЕ. Коротков А.В., д.э.н., зав. Кафедрой Глобальных информационных процессов и ресурсов МГИМО (У) Онишко Е.В. Преподаватель Кафедры Глобальных информационных процессов и ресурсов МГИМО (У). Поиск в Сети можно осуществлять не только с помощью поисковиков.

cyrus-tyson
Download Presentation

ПОИСК ИНФОРМАЦИИ В ИНТЕРНЕТЕ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ПОИСК ИНФОРМАЦИИ В ИНТЕРНЕТЕ Коротков А.В., д.э.н., зав. Кафедрой Глобальных информационных процессов и ресурсов МГИМО (У) Онишко Е.В. Преподаватель Кафедры Глобальных информационных процессов и ресурсов МГИМО (У)

  2. Поиск в Сети можно осуществлять не только с помощью поисковиков (c) А.В.Коротков

  3. Принципы организации поиска • Поиск информации в интернете производится двумя основными способами: • С помощью каталогов (директорий) • С помощью поисковых машин (c) А.В.Коротков

  4. Полезная литература: • Денис Фурсов http://community.livejournal.com/kubok/45952.html • Ющук Е. Интернет-разведка: руководство к действию. М.: Вершина, 2007 (c) А.В.Коротков

  5. Директории: • Обеспечивают контекстный поиск для структурированного просмотра • Директории можно уподобить оглавлению книги (c) А.В.Коротков

  6. Поисковые машины: • Контекста не обеспечивают, но позволяют находить конкретные слова и фразы • Поисковые машины подобны предметному указателю • Поисковые системы объединяют в себе поисковые машины и директории (c) А.В.Коротков

  7. На чем основан поиск? • Все поисковые машины базируются на трех операторах, лежащих в основе Булевой алгебры (Булева логика или Boolean) • Это логические операторы • «и» (and) • «или» (or) • «не» (not) (c) А.В.Коротков

  8. Сходство и различие: • В разных поисковых машинах могут использоваться одни и те же знаковые обозначения логических операторов • Не все поисковые машины поддерживают запросы в полном объеме и с использованием тех же знаков (c) А.В.Коротков

  9. Логическое «И» (and) • Если между двумя словами в запросе стоит оператор «и», то в результате поиска будут найдены лишь те документы, которые содержатся оба слова • По запросукошка и собака мы найдем предложения типа «собака гналась за кошкой», и не найдем документов типа «кошка спала» или «корм для собак» (c) А.В.Коротков

  10. Логическое «ИЛИ» (or) • Если между словами стоит логической оператор «или»,то результатом поиска станут: • Документы, содержащие хотя бы одно из этих слов • Документы, содержащие оба эти слова • По запросу собака или кошка мы получим документы, исключенные в прошлом примере «кошка спала»,«корм для собак», и ссылки на предложения типа «собака гналась за кошкой» (c) А.В.Коротков

  11. Логическое «НЕ» (not) • Исключает из поиска слова, перед которым стоит. • Вопрос: ведь можно вообще не включить какое-то слово в поиск? Ответ: можно)) Но сыплется мусор • Оператор «НЕ» отсекает информационный шум (мусор) • По запросу «собака не кошка» будет найден документ, содержащий текст «корм для собак», но документы типа «кошка спала», «собака гналась за кошкой» идаже«корма для собак и кошек» из выдачи будут исключены (c) А.В.Коротков

  12. Круглые скобки • Скобки позволяют отделять однотипные слова от остальных • Запрос: пушистые и (собаки или кошки) позволит получить выдачу документов, относящихся как пушистым собакам, так и к пушистым кошкам – по отдельности или вместе • Скобки при этом раскрываются по простым арифметическим правилам вынесения за скобку общего множителя (c) А.В.Коротков

  13. Чуть сложнее… решаем вместе! • Запрос: пушистые и (собаки или кошки) не (собаки и кошки) • Выдаст документы, в которых написано про пушистых собак и пушистых котов, не будет документов, где одновременно говорится про пушистых собак и кошек (c) А.В.Коротков

  14. Как реализован поиск? • Поисковые машины имеют «штат» роботов (ботов, «пауков» или «краулеров», /crawlers, spiders/ • Они сканируют страницы сети, не вникая в их содержание • Результаты сканирования сбрасываются на сервер поисковика (c) А.В.Коротков

  15. Как «бот» определяет свой маршрут? • Он находит гиперссылку (ту самую, при наведении на которую курсор приобретает вид раскрытой ладони и при клике на который происходит переход на другую страницу) и идет по ней • Если на страницу не ведет ни одна ссылка, «бот» ее не найдет, если только хозяин ссылки вручную не сообщит о ней, заполнив специальную форму на сайте поисковика (c) А.В.Коротков

  16. Как обрабатывается информация на поисковике? • На сервере поисковика специальное программное обеспечение разбивает текст на отдельные слова, каждому из которых присваиваются координаты, после чего они заносятся в таблицу сервера вместе со ссылкой на тот адрес Интернета, по которому текст размещался в момент его посещения «ботом» (c) А.В.Коротков

  17. Что такое поисковик с технической точки зрения? • Поисковик – большая локальная сеть состоящая из мощных компьютеров с огромным объемом дисковой памяти. • Эти машины (в том числе, виртуальные) разделены на подгруппы (кластеры), между которыми распределяется информация, собранная «ботами» (c) А.В.Коротков

  18. О чем думает «бот»? • У «бота» запрограммирован алгоритм посещения страниц • Посетив страницу, «бот» зайдет на нее повторно, скажем, через две недели • Если изменений нет, наведается через месяц- полтора • Вот почему иногда по запросу мы не получаем документа – страница «переехала» по другому адресу, или вовсе была уничтожена, а «бот» ее давно не посещал и поисковая система у ее удалении не узнает (c) А.В.Коротков

  19. (c) А.В.Коротков

  20. Язык запросов поисковой машины Яндекс • С помощью фильтров, основанных на Булевой алгебре, учимся задавать машине правильные вопросы*-) • Важно: компьютер очень исполнителен, но лишен способности думать. Следует составлять запрос, помня о том. Компьютер – идеальный солдат, он исполняет только то, и именно то, что приказал командир (c) А.В.Коротков

  21. Переход в режим расширенного поиска (c) А.В.Коротков

  22. Варианты настройки поиска через шаблоны (c) А.В.Коротков

  23. Настройка сложных запросов • Так работают профессионалы • такие, как мы с вами (c) А.В.Коротков

  24. Логическое И • Яндекс поддерживает три разных значения операторов, относящихся к логическому И. • Это делает его самым гибким из всех поисковиков, работающих с русским языком • С помощью этой уникальной системы операторов поисковик дает возможность точно настроить вопрос и сформировать фильтр (c) А.В.Коротков

  25. Почему иногда возникает недоумение? • Несмотря на то, что логическое И в общем виде Булевой алгебры подразумевает присутствие всех упомянутых в запросе слов, поисковик вначале выдаст: • Документы, в которых представлены все запрашиваемые слова; • Затем документы, в которых присутствует на слово меньше и т.д (c) А.В.Коротков

  26. Три «И» • 1.1. Пробел • 1.2. Амперсанд (&) • 1.3. Двойной амперсанд (&&) (c) А.В.Коротков

  27. 1.1. Пробел • Поисковик понимает пробел как «близко» • Термин «близко» - не фиксированная величина • Если мы имеем дело с часто употребляемыми словами, то «близко» - это «на расстоянии нескольких слов друг от друга» • Редкие слова даже в крайних точках документа будут восприниматься как логическое «близко» (c) А.В.Коротков

  28. Амперсанд (&) в Яндексе • Если нам нужно найти слова в одном предложении, используем знак & • Важно: при составлении запроса амперсанд должен быть отделен от запрашиваемых слов пробелами с двух сторон (c) А.В.Коротков

  29. Двойной амперсанд (&&) • Слова, разделенные знаком && , поисковик будет искать в одном документе • Важно: между амперсандами не должно быть пробелов, но от запрашиваемых слов двойной амперсанд должен быть отделен пробелом (c) А.В.Коротков

  30. Логическое «НЕ» • В Яндексе логическое «НЕ» представлено тремя операторами • 2.1. Тильда ~ • 2.2. Двойная тильда ~~ • 2.3. Минус – • Минус, с точки зрения многих профессионалов поиска (таких, как мы с вами), в Яндексе и ряде других поисков – некорректно работающая двойная тильда, пользоваться им друзьям не рекомендуем (c) А.В.Коротков

  31. Тильда ~ • Знак тильды означает, что стоящего после нее слова не должно быть в предложении • Важно: знак тильды с двух сторон должен быть отделен пробелами (c) А.В.Коротков

  32. Двойная тильда ~~ • Знак двойной тильды означает, что стоящего после него слова не должно быть во всем документе • Важно: между тильдами не должно быть пробела, с двух сторон знак двойной тильды отделяется пробелами (c) А.В.Коротков

  33. Логическое «ИЛИ» • Логическое ИЛИ представлено единственным оператором, имеющем вид вертикальной черты | • В подавляющем большинстве случаев оператор |и слова, с которыми он используется, заключается в скобки, так как этот оператор относится сразу к двум и более словам (c) А.В.Коротков

  34. Задача: • Сформируйте запрос на документ, содержащий в одном предложении слова «маркетинг» и «менеджмент», но при этом в документе не должно быть слов «курс», «работа», «конференция», «теория», «книга», «семинар», «бизнес», «прибыль», «клиент (c) А.В.Коротков

  35. Ответ: • [(маркетинг & менеджмент) ~~ (курс | работа | конференция | теория | книга семинар | бизнес | прибыль | клиент)] • Квадратные скобки здесь не несут операционной нагрузки, но бывают полезны для общего понимания логики при составлении запросов более высокого порядка • Обратите внимание, что скобки, как в арифметике при вынесении за скобку общего множителя, позволяют распространить действие оператора двойная тильда на все слова, расположенные внутри них (c) А.В.Коротков

  36. Яндекс по умолчанию учитывает морфологию слов • Пример: на слово «учет» поисковик выдаст результат, содержащий искомое слово во всех падежных формах, которые он выделяет как релевантные • Важно: эту функцию можно отключить, «прилепив» к искомому слову оператор в виде восклицательного знака ! (c) А.В.Коротков

  37. Маска * • Поисковик может искать часть слова во всех морфоформах • Пример: воз* • Поисковик выдаст все тексты, в которых содержатся слова, начинающиеся с ВОЗ (c) А.В.Коротков

  38. Заглавные и строчные буквы • Главное правило в этом вопросе заключается в следующем: слова в запросе, написанные с маленькой буквы, будут выдаваться и с маленькой, и с заглавной буквы, а слова, написанные с заглавной, будут выдаваться только с заглавной • Важно: Яндекс периодически меняет нюансы в этом вопросе*-) (c) А.В.Коротков

  39. Вопрос: что будет, если написать в запросе все слова с заглавной буквы? • Если всё слово написано заглавными буквами, умный поисковик Яндекса посчитает, вы замучаны лекцией, вы заснули, либо сваляли дурака и забыли переключить регистр (c) А.В.Коротков

  40. Обязательное включение слова в выдачу • Если необходимо, чтобы искомые слова непременно присутствовали в выдаче, используется знак оператора + • Знак ставится перед искомым словом и пишется с ним слитно • Искомые слова при этом разделяются пробелом • +фантом +зеркало +замок • +не покупай (sony | bravo) (c) А.В.Коротков

  41. Поиск точной фразы • Используется знак оператора двойные кавычки, аналогичные тем, которые применяются в прямой речи • «ты всегда думаешь о нас» • Интересно: • Попробуйте «ты всегда думаешь о нас» ~ (tefal| тефаль) (c) А.В.Коротков

  42. Слова находятся на определенном расстоянии • Часто используемый оператор, в общем виде имеет вид /n, где n показывает, каким по счету второе искомое слово будет после первого • [годовой /1 отчет] – в выдаче будет присутствовать фраза «годовой отчет» • [годовой /2 отчет] – в выдаче будут присутствовать фразы типа «годовой финансовый отчет», а также и результаты первого запроса, то есть в большем присутствуют меньшие значения (c) А.В.Коротков

  43. Конец первой серии • Продолжение следует • Korotkov.andrei@gmail.com • eonishko@gmail.com (c) А.В.Коротков

More Related