290 likes | 548 Views
Wyszukiwanie informacji w Internecie. Szymon Bohdanowicz. Internet. Ile jest stron internetowych? netcraft w kwietniu 2011 - 312,693,296. Z czym mamy do czynienia?. wyszukiwarki tekstowe metawyszukiwarki multiwyszukiwarki szperacze szukacze katalogi stron internetowych silniki.
E N D
Wyszukiwanie informacji w Internecie Szymon Bohdanowicz
Internet • Ile jest stron internetowych? netcraft w kwietniu 2011 - 312,693,296
Z czym mamy do czynienia? • wyszukiwarki tekstowe • metawyszukiwarki • multiwyszukiwarki • szperacze • szukacze • katalogi stron internetowych • silniki
Katalogi stron internetowych • posiadają strukturę drzewiastą • pogrupowane tematycznie bądź regionalnie • na ogół są aktualizowane oddolnie • Rodzaje: • katalogi globalne • regionalne • tematyczne • katalogi firm • itd…
Przykłady • http://www.dmoz.org – ogólno światowy katalog otwarty, redagowany przez społeczność • http://dir.yahoo.com - katalog komercyjny • http://katalog.wp.pl – polski katalog stron • http://kataloog.info/ - ciekawa inicjatywa • http://www.pf.pl/ - katalog firm • http://najlepsze-blogi.pl – katalog blogów
Zalety • Treść oraz aktualność stron jest weryfikowana • Stosunkowo przejrzysty sposób prezentowania informacji Wady • Mała liczba stron – konieczność weryfikacji • Komercyjność - linki sponsorowane są wyżej na liście • Problem z kategoriami – często jedna strona może być przypisana do wielu kategorii
Kilka ogólnych uwag • Katalogi stron w sensie tradycyjnym są zjawiskiem wymierającym – widać to po ilości stron • Wyjątkiem od tej reguły jest allegro, ebay – tylko czy te strony to wciąż katalogi??
Wyszukiwarki internetowe • strony internetowych serwisów wyszukujących - czyli implementacji oprogramowania wyszukującego działającego z interfejsem WWW ogólnodostępnym dla internautów • Aktualnie są to naprawdę skomplikowane narzędzia składające się z: • Crawler, Robot, Pająk, Spider lub Bot czyli robot internetowy– moduł pobierający dokumenty z sieci. • Indekser - program analizujący i oceniający. • Searcher - interfejs odpowiadający na zapytania – czyli analizator zapytań + moduł prezentacji wyników.
W jaki sposób strony są wybierane • Analiza tekstowa – użyte algorytmy korzystają z informacji podanych w kodach stron, np. na podanych tytułach, nagłówkach i słowach kluczowych. Są zatem bardzo podatne na nadużycia, przez co użytkownik zamiast użytecznych informacji dostaje linki na strony nie mające nic wspólnego z jego zapytaniem. • Przykład -> w przeglądarce
W jaki sposób strony są wybierane cd. • Analiza topologiczna – strona jest dodawana do wyników wyszukiwania jeśli wiele innych stron o podobnej tematyce na nią wskazuje. Wyszukiwarki oparte na analizie topologicznej są często uważane za bardzo odporne na nadużycia(pozwalają uniknąć wyświetlania spamu).
Dodatkowe elementy wyszukiwarek • programy konwersji dokumentów(dziś wyszukiwarki przeglądają nie tylko strony htmlowe ale również pliki pdf, ppt, doc itd..) • programy archiwizujące repozytorium, • programy analizy technik zabronionych [spam], • moduły administracyjne.
Najważniejszy atut wyszukiwarki • Najważniejszymi algorytmami stosowanymi w wyszukiwarkach są algorytmy oceny relewancji dokumentu względem szukanej frazy oraz algorytmy oceny zawartości strony. Często są strategiczną tajemnicą właściciela wyszukiwarki, przesądzającą o jej skuteczności.
Dodatkowe funkcje wyszukiwarek • Podpowiadanie • Poprawianie pisowni • Automatyczne tłumaczenie • Wyszukiwanie zaawansowane(znaki dodatkowe -> ””, + , -), w określonym języku • Wyszukiwanie innych mediów niż tekst -> obrazy, video, pliki muzyczne
Google – lider absolutny • http://www.ranking.pl/pl/rankings/search-engines-domains.html • Jako pierwszy zastosował analizę topologiczną • Jego algorytmy relewancji uznawane są za najdoskonalsze
Metawyszukiwarki • Są to serwisy internetowe, które nie posiadają własnej bazy danych, ale potrafią wysłać nasze zapytanie do kilku lub kilkunastu samodzielnych szperaczy, odebrać je od nich i przedstawić w przejrzystej formie. • Niektóre metawyszukiwarki dodatkowo opracowują otrzymaną listę wyników: Usuwają powtarzające się adresy i te, które już nie istnieją w internecie, a są jeszcze zapisane w bazie wyszukiwarki. Dodatkowo mogą sortować na różne sposoby wyświetloną listę
Przykłady • Metacrawler – działa online • http://www.ixquick.com/ - online • Copernic Agent – oprogramowanie pulpitowe, komercyjne(podstawowa wersja jest bezpłatna)
Struktura sieci Strony internetowe przestały być statycznymi dokumentami HTML o niezmiennej zawartości. • Warstwa pierwsza - strony WWW o ogólnej tematyce oraz stałej, nie ulegającej zmianom zawartości • Warstwa druga - strony tematyczne, zorientowane na jedno, konkretne zagadnienie. Część zasobów znajdujących się w tej warstwie można zaliczyć już do głębokiego Internetu.
Struktura sieci (głęboka) • Warstwa trzecia - bazy danych o dynamicznie zmieniającej się zawartości. • Warstwa czwarta - prywatne witryny o dynamicznej zawartości. Uzyskać dostęp do ich zasobów można wyłącznie po wcześniejszej rejestracji w bazie użytkowników, bądź wniesieniu określonych opłat. Mamy więc do czynienia z Internetem niewidzialnym, ukrytym bądź głębokim.
Przeszukiwanie deepwebu • www.completeplanet.com – ma dostęp do 70000 baz danych, ułatwieniem jest katalog tematyczny • http://infomine.ucr.edu/ - wyszukiwarka akademicka • http://www.ipl.org/ - wyszukiwarka bibliotekarzy
Kilka technicznych porad • Podczas wpisywania wyszukiwanej frazy w pole wyszukiwania możemy użyć dodatkowych znaków, które mogą pomóc w uzyskaniu dokładniejszej listy wyników.
+ i - przed użytymi słowami Zastosowanie znaku + przed słowem oznacza, że musi ono wystąpić w dokumencie. Zastosowanie znaku - oznacza, że nie może w nim wystąpić. • wyszukiwanie całych zdań/wyrażeń Fraza objęta cudzysłowem musi wystąpić dokładnie w takiej formie w wyszukiwanym dokumencie.
wielkie litery Zazwyczaj zaleca się używanie małych liter w większości poszukiwań. Niektóre wyszukiwarki rozróżniają wielkie i małe litery, co znacznie ogranicza listę rezultatów. Operatory AND, OR • Tego zabiegu używamy w sytuacji gdy chcemy zadać złożone zapytanie – (żeglarstwo AND jacht -> strony zawierające oba słowa), (żeglarstwo OR jacht -> strony zawierające jedno lub drugie słowo)
Kilka słów kluczowych dla googla • define: pozwala na wyszukanie definicji danego terminu(dobrze działa dla słów angielskich) • info: wyświetli podstawowe informacje o danej witrynie • related: wyświetli strony o podobnym charakterze, podobnej treści • filetype:(rozszerzenie pliku) wyszuka pliki ze wskazanym rozszerzeniem zawierające pożądaną treść • weather:(lokalizacja)wyświetli pogodę dla określonej lokalizacji
Jeszcze kilka • link: (nazwa strony) – wyświetlone zostaną strony, które linkują wybrany adres • * - gwiazdki pomiędzy kolejnymi słowami wyszukują stron, na których wpisane słowa znajdują się niedaleko siebie w tekście • site:(typ strony .edu) – wyświetlone zostaną witryny tylko określonego typu
Czas na coś wesołego? • Mam x lat – czyli google prawdę Ci powie Ważne linki • http://websearch.about.com – kompendium wiedzy o wyszukiwaniu informacji Coś ciekawego • http://www.azuon.com/– ciekawa wyszukiwarka lotów