430 likes | 626 Views
ПОИСК ИНФОРМАЦИИ В ИНТЕРНЕТЕ. Коротков А.В., д.э.н., зав. Кафедрой Глобальных информационных процессов и ресурсов МГИМО (У) Онишко Е.В. Преподаватель Кафедры Глобальных информационных процессов и ресурсов МГИМО (У). Поиск в Сети можно осуществлять не только с помощью поисковиков.
E N D
ПОИСК ИНФОРМАЦИИ В ИНТЕРНЕТЕ Коротков А.В., д.э.н., зав. Кафедрой Глобальных информационных процессов и ресурсов МГИМО (У) Онишко Е.В. Преподаватель Кафедры Глобальных информационных процессов и ресурсов МГИМО (У)
Поиск в Сети можно осуществлять не только с помощью поисковиков (c) А.В.Коротков
Принципы организации поиска • Поиск информации в интернете производится двумя основными способами: • С помощью каталогов (директорий) • С помощью поисковых машин (c) А.В.Коротков
Полезная литература: • Денис Фурсов http://community.livejournal.com/kubok/45952.html • Ющук Е. Интернет-разведка: руководство к действию. М.: Вершина, 2007 (c) А.В.Коротков
Директории: • Обеспечивают контекстный поиск для структурированного просмотра • Директории можно уподобить оглавлению книги (c) А.В.Коротков
Поисковые машины: • Контекста не обеспечивают, но позволяют находить конкретные слова и фразы • Поисковые машины подобны предметному указателю • Поисковые системы объединяют в себе поисковые машины и директории (c) А.В.Коротков
На чем основан поиск? • Все поисковые машины базируются на трех операторах, лежащих в основе Булевой алгебры (Булева логика или Boolean) • Это логические операторы • «и» (and) • «или» (or) • «не» (not) (c) А.В.Коротков
Сходство и различие: • В разных поисковых машинах могут использоваться одни и те же знаковые обозначения логических операторов • Не все поисковые машины поддерживают запросы в полном объеме и с использованием тех же знаков (c) А.В.Коротков
Логическое «И» (and) • Если между двумя словами в запросе стоит оператор «и», то в результате поиска будут найдены лишь те документы, которые содержатся оба слова • По запросукошка и собака мы найдем предложения типа «собака гналась за кошкой», и не найдем документов типа «кошка спала» или «корм для собак» (c) А.В.Коротков
Логическое «ИЛИ» (or) • Если между словами стоит логической оператор «или»,то результатом поиска станут: • Документы, содержащие хотя бы одно из этих слов • Документы, содержащие оба эти слова • По запросу собака или кошка мы получим документы, исключенные в прошлом примере «кошка спала»,«корм для собак», и ссылки на предложения типа «собака гналась за кошкой» (c) А.В.Коротков
Логическое «НЕ» (not) • Исключает из поиска слова, перед которым стоит. • Вопрос: ведь можно вообще не включить какое-то слово в поиск? Ответ: можно)) Но сыплется мусор • Оператор «НЕ» отсекает информационный шум (мусор) • По запросу «собака не кошка» будет найден документ, содержащий текст «корм для собак», но документы типа «кошка спала», «собака гналась за кошкой» идаже«корма для собак и кошек» из выдачи будут исключены (c) А.В.Коротков
Круглые скобки • Скобки позволяют отделять однотипные слова от остальных • Запрос: пушистые и (собаки или кошки) позволит получить выдачу документов, относящихся как пушистым собакам, так и к пушистым кошкам – по отдельности или вместе • Скобки при этом раскрываются по простым арифметическим правилам вынесения за скобку общего множителя (c) А.В.Коротков
Чуть сложнее… решаем вместе! • Запрос: пушистые и (собаки или кошки) не (собаки и кошки) • Выдаст документы, в которых написано про пушистых собак и пушистых котов, не будет документов, где одновременно говорится про пушистых собак и кошек (c) А.В.Коротков
Как реализован поиск? • Поисковые машины имеют «штат» роботов (ботов, «пауков» или «краулеров», /crawlers, spiders/ • Они сканируют страницы сети, не вникая в их содержание • Результаты сканирования сбрасываются на сервер поисковика (c) А.В.Коротков
Как «бот» определяет свой маршрут? • Он находит гиперссылку (ту самую, при наведении на которую курсор приобретает вид раскрытой ладони и при клике на который происходит переход на другую страницу) и идет по ней • Если на страницу не ведет ни одна ссылка, «бот» ее не найдет, если только хозяин ссылки вручную не сообщит о ней, заполнив специальную форму на сайте поисковика (c) А.В.Коротков
Как обрабатывается информация на поисковике? • На сервере поисковика специальное программное обеспечение разбивает текст на отдельные слова, каждому из которых присваиваются координаты, после чего они заносятся в таблицу сервера вместе со ссылкой на тот адрес Интернета, по которому текст размещался в момент его посещения «ботом» (c) А.В.Коротков
Что такое поисковик с технической точки зрения? • Поисковик – большая локальная сеть состоящая из мощных компьютеров с огромным объемом дисковой памяти. • Эти машины (в том числе, виртуальные) разделены на подгруппы (кластеры), между которыми распределяется информация, собранная «ботами» (c) А.В.Коротков
О чем думает «бот»? • У «бота» запрограммирован алгоритм посещения страниц • Посетив страницу, «бот» зайдет на нее повторно, скажем, через две недели • Если изменений нет, наведается через месяц- полтора • Вот почему иногда по запросу мы не получаем документа – страница «переехала» по другому адресу, или вовсе была уничтожена, а «бот» ее давно не посещал и поисковая система у ее удалении не узнает (c) А.В.Коротков
Язык запросов поисковой машины Яндекс • С помощью фильтров, основанных на Булевой алгебре, учимся задавать машине правильные вопросы*-) • Важно: компьютер очень исполнителен, но лишен способности думать. Следует составлять запрос, помня о том. Компьютер – идеальный солдат, он исполняет только то, и именно то, что приказал командир (c) А.В.Коротков
Переход в режим расширенного поиска (c) А.В.Коротков
Варианты настройки поиска через шаблоны (c) А.В.Коротков
Настройка сложных запросов • Так работают профессионалы • такие, как мы с вами (c) А.В.Коротков
Логическое И • Яндекс поддерживает три разных значения операторов, относящихся к логическому И. • Это делает его самым гибким из всех поисковиков, работающих с русским языком • С помощью этой уникальной системы операторов поисковик дает возможность точно настроить вопрос и сформировать фильтр (c) А.В.Коротков
Почему иногда возникает недоумение? • Несмотря на то, что логическое И в общем виде Булевой алгебры подразумевает присутствие всех упомянутых в запросе слов, поисковик вначале выдаст: • Документы, в которых представлены все запрашиваемые слова; • Затем документы, в которых присутствует на слово меньше и т.д (c) А.В.Коротков
Три «И» • 1.1. Пробел • 1.2. Амперсанд (&) • 1.3. Двойной амперсанд (&&) (c) А.В.Коротков
1.1. Пробел • Поисковик понимает пробел как «близко» • Термин «близко» - не фиксированная величина • Если мы имеем дело с часто употребляемыми словами, то «близко» - это «на расстоянии нескольких слов друг от друга» • Редкие слова даже в крайних точках документа будут восприниматься как логическое «близко» (c) А.В.Коротков
Амперсанд (&) в Яндексе • Если нам нужно найти слова в одном предложении, используем знак & • Важно: при составлении запроса амперсанд должен быть отделен от запрашиваемых слов пробелами с двух сторон (c) А.В.Коротков
Двойной амперсанд (&&) • Слова, разделенные знаком && , поисковик будет искать в одном документе • Важно: между амперсандами не должно быть пробелов, но от запрашиваемых слов двойной амперсанд должен быть отделен пробелом (c) А.В.Коротков
Логическое «НЕ» • В Яндексе логическое «НЕ» представлено тремя операторами • 2.1. Тильда ~ • 2.2. Двойная тильда ~~ • 2.3. Минус – • Минус, с точки зрения многих профессионалов поиска (таких, как мы с вами), в Яндексе и ряде других поисков – некорректно работающая двойная тильда, пользоваться им друзьям не рекомендуем (c) А.В.Коротков
Тильда ~ • Знак тильды означает, что стоящего после нее слова не должно быть в предложении • Важно: знак тильды с двух сторон должен быть отделен пробелами (c) А.В.Коротков
Двойная тильда ~~ • Знак двойной тильды означает, что стоящего после него слова не должно быть во всем документе • Важно: между тильдами не должно быть пробела, с двух сторон знак двойной тильды отделяется пробелами (c) А.В.Коротков
Логическое «ИЛИ» • Логическое ИЛИ представлено единственным оператором, имеющем вид вертикальной черты | • В подавляющем большинстве случаев оператор |и слова, с которыми он используется, заключается в скобки, так как этот оператор относится сразу к двум и более словам (c) А.В.Коротков
Задача: • Сформируйте запрос на документ, содержащий в одном предложении слова «маркетинг» и «менеджмент», но при этом в документе не должно быть слов «курс», «работа», «конференция», «теория», «книга», «семинар», «бизнес», «прибыль», «клиент (c) А.В.Коротков
Ответ: • [(маркетинг & менеджмент) ~~ (курс | работа | конференция | теория | книга семинар | бизнес | прибыль | клиент)] • Квадратные скобки здесь не несут операционной нагрузки, но бывают полезны для общего понимания логики при составлении запросов более высокого порядка • Обратите внимание, что скобки, как в арифметике при вынесении за скобку общего множителя, позволяют распространить действие оператора двойная тильда на все слова, расположенные внутри них (c) А.В.Коротков
Яндекс по умолчанию учитывает морфологию слов • Пример: на слово «учет» поисковик выдаст результат, содержащий искомое слово во всех падежных формах, которые он выделяет как релевантные • Важно: эту функцию можно отключить, «прилепив» к искомому слову оператор в виде восклицательного знака ! (c) А.В.Коротков
Маска * • Поисковик может искать часть слова во всех морфоформах • Пример: воз* • Поисковик выдаст все тексты, в которых содержатся слова, начинающиеся с ВОЗ (c) А.В.Коротков
Заглавные и строчные буквы • Главное правило в этом вопросе заключается в следующем: слова в запросе, написанные с маленькой буквы, будут выдаваться и с маленькой, и с заглавной буквы, а слова, написанные с заглавной, будут выдаваться только с заглавной • Важно: Яндекс периодически меняет нюансы в этом вопросе*-) (c) А.В.Коротков
Вопрос: что будет, если написать в запросе все слова с заглавной буквы? • Если всё слово написано заглавными буквами, умный поисковик Яндекса посчитает, вы замучаны лекцией, вы заснули, либо сваляли дурака и забыли переключить регистр (c) А.В.Коротков
Обязательное включение слова в выдачу • Если необходимо, чтобы искомые слова непременно присутствовали в выдаче, используется знак оператора + • Знак ставится перед искомым словом и пишется с ним слитно • Искомые слова при этом разделяются пробелом • +фантом +зеркало +замок • +не покупай (sony | bravo) (c) А.В.Коротков
Поиск точной фразы • Используется знак оператора двойные кавычки, аналогичные тем, которые применяются в прямой речи • «ты всегда думаешь о нас» • Интересно: • Попробуйте «ты всегда думаешь о нас» ~ (tefal| тефаль) (c) А.В.Коротков
Слова находятся на определенном расстоянии • Часто используемый оператор, в общем виде имеет вид /n, где n показывает, каким по счету второе искомое слово будет после первого • [годовой /1 отчет] – в выдаче будет присутствовать фраза «годовой отчет» • [годовой /2 отчет] – в выдаче будут присутствовать фразы типа «годовой финансовый отчет», а также и результаты первого запроса, то есть в большем присутствуют меньшие значения (c) А.В.Коротков
Конец первой серии • Продолжение следует • Korotkov.andrei@gmail.com • eonishko@gmail.com (c) А.В.Коротков