190 likes | 315 Views
Wyszukiwarki internetowe. Małgorzata Matura. Jak działają?.
E N D
Wyszukiwarki internetowe Małgorzata Matura
Jak działają? • Wyszukiwarki składają się z trzech części, pierwszą z nich jest program „robot”przeglądający sieć. Odwiedza on stronę i rejestruje odpowiednie typy danych, znajdujące się na niej. Następnie dzięki hiperłączom, podąża do kolejnych stron. • Wszystko co odnajdzie wędruje do części drugiej – bazy danych. Jest to gigantyczna księga zawierająca informacje występujące na stronie wraz z linkami. Baza danych jest indeksowana. Indeks to posortowana lista wszystkich unikalnych słów, wraz z odnośnikami do adresów dokumentów w których wystapiły.
Kolejną częścią jest oprogramowanie z wbudowanym interfejsem graficznym, w którym użytkownik wpisuje słowa kluczowe lub zwroty. Przy zaawansowanym sposobie poszukiwań otrzymujemy formularz z odpowiednimi opcjami do wyboru np. operatorów logicznych, języka dokumentu, daty. • Z wprowadzonego do formularza ciągu słów automatycznie są eliminowane „słowa nieznaczące” tj. występujące w danym języku tak często, że można je znaleźć praktycznie, w każdym dokumencie (np. do, i , jak, już, lun, na, po, w , z, że, a). • W poszukiwaniu zadanych słów i zwrotów program wyszukujący przegląda zawartość całego indeksu. Jeżeli poszukiwane słowa zostaną znalezione to program ocenia ich zawartość i wyświetla listę adresów dokumentów, w kolejności od najbardziej istotnych.
WYSZUKIWARKI SPECJALISTYCZNE: • Służą do indeksowania zasobów Internetu w określonych formatach, np. graficznych, muzycznych, audio. • MULTIWYSZUKIWARKI: • To serwisy internetowe lub instalowane na dysku programy, które przekazują zapytanie do wielu wyszukiwarek jednocześnie. Ich zadaniem jest sortowanie wyników, eliminowanie powtórzeń i wyświetlanie odpowiedzi w postaci jednej spójnej listy. Nie dysponują one własnymi indeksami. W multiwyszukiwarkach należy precyzyjnie i ostrożnie formułować kryteria wyszukiwania.
www.google.com.pl • To jedna z największych wyszukiwarek światowych. Obecnie ma około 3 miliardów zaindeksowanych stron, lecz zasoby w języku polskim są skromniejsze. • Google domyślnie łączy wpisywane słowa spójnikiem logicznym I (AND). Spójnik LUB (OR) musi być użyty w sposób jawny. • Indeksuje dokumenty tekstowe, arkusza kalkulacyjnego, prezentacje PowerPoint, pliki graficzne. Udostępnia kopie stron. Umożliwia znalezienie stron podobnych. Informuje o liczbie znalezionych stron i czasie wyszukiwania.
www.altavista.com.pl • Jedna z największych wyszukiwarek globalnych. • Umożliwia nie tylko wyszukiwanie stron tekstowych, ale również zdjęć, nazwisk, plików muzycznych, nagrań wideo, bieżących wiadomości itp. • Wprowadzone pojęcia są domyślnie łączone spójnikiem logicznym LUB (OR) • Wersja tekstowa Altavisty pozbawiona grafiki i banerów: www.raging.com
http://szukaj.onet.pl • Bazuje na dwóch wyszukiwarkach. Do przeszukiwania polskich zasobów Internetu wykorzystuje wyszukiwarkę Inktomi, która w swojej bazie ma zaindeksowanych 8 mln stron polskich. Do wyszukiwania informacji w zasobach światowych portal używa wyszukiwarki Alta Vista, która ma również w bazie zasoby polskich stron około 2,5 mln. Oferuje najwięcej opcji zawężających wyszukiwanie nie tylko do katalogu WWW, zasobów polskich i światowych, ale również encyklopedii, baz danych dostępnych na portalu oraz plików w wielu formatach.
http://szukaj.wp.pl • Do wyszukiwania polskich zasobów jest używana wyszukiwarka FAST. W bazie jest zaindeksowanych ponad 10 mln polskich dokumentów. Zasoby światowe są wyszukiwane za pomocą Google. Można ograniczyć przeszukiwanie tylko do katalogu portalu, zaobów serwisów Wirtualnej Polski, plików na serwerach FTP, oraz informacji pochodzących z archiwów grup dyskusyjnych. Serwis prowadzi akcję promującą wartościowe, niekomercyjne stronny WWW w polskim Internecie, oznaczając je WP Hit.
http://www.szukacz.pl • Polska wyszukiwarka indeksująca dokumenty z polską zawartością, które znajdują się w dowolnym miejscu, w dowolnej witrynie na świecie. Obecnie w bazie znajduje się około 16.5 mln dokumentów w języku polskim. Bardzo dobrze radzi sobie z dokumentami polskojęzycznymi, bez względu na sposób kodowania polskich znaków. Wyniki poszukiwania możemy ograniczyć do witryn oferujących i interpretujących przepisy prawne, ustawy, fragmenty dziennika ustaw. • Szukacz nie ma formularza do zaawansowanego wyszukiwania.
http://www.netoskop.pl • Pierwsza całkowicie polska wyszukiwarka, udostępniona w roku 1996 przez magazyn komputerowy CHIP. Wyszukiwarka ta indeksuje tylko polskie strony, tzn. takie, które są umieszczone na serwerach znajdujących się w Polsce lub za granicą, ale udostępnione w polskim języku lub o Polsce. NEToskop oferuje możliwość wyszukiwania za pomocą opcji Turbowyszukiwanie. Wyświetla informacje o liczbie znalezionych stron i oferuje system podpowiedzi, z mozliwością wybory dokładniejszych sformułowań. Posiada formularz zaawansowanego wyszukiwania.
Przykłady innych wyszukiwarek: • Anglojęzyczne wyszukiwarki naukowe: • http://science.first-search.com • http://www.scirus.com • www.search4science.com • Polskojęzyczne serwisy naukowe: • http://science.eu.org • http://www.wiw.pl • Wyszukiwarki plików: • http://plikoskop.internauci.pl • http://pliki.onet.pl • Wyszukiwarki plików programów: • http://icm.tucows.com • http://download.chip.pl
Wyszukiwarki zasobów multimedialnych: • http://gallery.yahoo.com • http://photoseek.net • http://www.altavista.com • http://pliki.onet.pl • http://multimedia.lycos.com • http://multimedia.alltheweb.com • http://www.nuta.pl
Czynniki decydujące o pozycji strony, na liście wyników. • Algorytmy określające kolejność wyników wyszukiwania.