Alat za pretraživanje informacija na www-u

Alat za pretraživanje informacija na www-u Što su tražilice Kako funkcioniraju tražilice Optimizacija pretraživanja

Pretražni alati • www se ne može pretraživati direktno veće se pretražuje pomoću specijaliziranih alata koji skupljaju podatke o web stranicama i formiraju ih u posebne baze podataka, omogućavajući korisnicima da putem hipertekstnih poveznica (linkova) pristupaju pronađenim stranicama. Kategorije • Pretraživači i metapretraživači, • Tematski katalozi (imenici) • Tematski vodiči • Specijalizirane baze podataka

Web pretraživači (tražilice) • Web pretraživači (roboti, indeksi)koriste specijalne automatizirane programe za "uljanje", "gmizanje" po Webu ("to crawl the web")koji se nazivaju Web crawlers (gmizavac, unjalo) ili spiders (pauci) [4]. Oni skaèu s Web mjesta na Web mjesto preko poveznika, prikupljajući naslove svih mjesta, URL, i najmanje neke od njihovih tekstovnih sadržaja. Kada naðu mjesto, oni pretražuju (snimaju) (scan) Web stranice toga mjesta i zapisuju (record) sve informacije u indeks. • Programkojemu je funkcija indeksiranje ekstrahira informacije iz dokumenata i sprema ih u svoju katalošku bazu podataka. Cilj je spideraposjetiti milijune Web mjesta i ostati s njima u vezi koliko god je moguće. U svojemu hodu po mreži spideri raznih pretraživača međusobno dijele više baza podataka koje dotiču. • Web search engine – skup programskih alata koji pretražuju informacije na WWW-u. Rezultati se prikazuju u popisu i nazivaju se “pogotci”. Informacija može sadržavati web stranicu, sliku, tekst i/ili ostale tipove datoteka. Neke tražilice imaju alate za rudarenje (u newsbook-u, bazi ili otvorenim direktorijima (katalog kategoriziranih linkova)

Kako rade tražilice – search engines • Što imaju i kako rade alati (strojevi) za pretraživanje: • Web crawling (pretraživanje – plaženje po web i skidanje podataka o posjećenom URL-u) • Indeksiranje – označavanje skinutog materijala prema definiranim kriterijima (naslovima, poglavljima, zaglavljima, posebnim poljima – metatagovima) i formiranje baze podataka • Traženje – upotrebom jezika upita (SQL-a) postavlja se zahtjev za traženje indeksne baze prema kriterijima za pretraživanje (ključnim riječima najčešće ili uz kombinaciju raspoloživih operatora – logičkih ili posebnih koje podržava SQL) • Problem: kako rangirati dobivene rezultate pretraživanja ovisno o značaju kojeg imaju za korisnika

Web crawler Web crawler– računalni program koji pretražuje WWW na metodolški automatiziran način (mrav, automatski indekser, web spider, web robot, web skuter) • Kreiraju kopije posjećenih stranica za kasnije indeksiranje pomoću search engine-a koji će indeksirati skinute stranice za kasnija pretraživanja. Koriste se također za prikupljanje specifičnih tipova informacija kao što su e-mail adrese (na koje mogu poslati različiti spam) • To je jedna vrsta softverskog agenta; načelno započinje s listom URL-a (sjemenje). Kada je crawler posjetio URL, identificirao je hiperveze na stranici dodao ih u listu URL-a (crawl frontier) koje se rekurzivno posjećuju prema skupu postavljenih politika. Politike Crawling je zahtjevan zadatak zbog: • Broja URLa i velikog obujma – crawleri mogu skidati samo dio (frakciju) web stranice u danom vremenu i moraju definirati prioritete • Brzine kojom se sadržaji mijenjaju – crawler uzima stranicu u momentu kad je ona raspoloživa i vrlo je vjerojatno da će se u njoj nešto ubzo mijenjati • Dinamičke prirode promjena na web stranicama – server side scripting utiče na dinamičke promjene sadržaja stranice što predstavlja dodatnu poteškoću u definiranju broja parametara koji će se koristiti za pretraživanje (način sortiranja, vrsta prikaza, format datoteke, korisnički parametri....) • Dodatni problem: širina pristupnog pojasa (određuje brzinu veze) određuje također stopu osvježenja i efikasan način pretraživanja u ograničenom vremenskom periodu • Yahoo Crawler (Slurp) • Google Crawler • WebCrawler

Politike web crawlinga • Politika izbora – koju stranicu skinuti; • važnot stranice je funkcija njoj svojstvene kvalitete – popularnosti i broja posjeta ili domene; problem ne može se znati unaprijed. Pretraživanje prvo u širinu pa u dubinu (Ako je pretraživaje prvo u dubinu – vertikalne tražilice) • Restrikcije na linkove koji će se slijediti (pr. Samo na .html, .asp, .php...) • Put k traženom pojmu • Fokusirani crawling • Duboki crawling – pretraživanje pojmova ne samo u naslovu i zaglavljima već bilo gdjeu tekstu ( • Politika ponovnog pregleda – kada provjeriti promjene na skinutim stanicama – starost i stopa osvježenja – definira se algoritam • Politika uljudnosti – kojom se utvrđuje kako izbjeći pretrpavanje web stranica; djelomično rješenje za problem pretrpavanja servera različitim – robot exclusion protocol – administratori određuju koji dio servera se neće dozvoliti za pregledavanje od strane crawlera. • Politika paralelizacije – kako koordinirati distribuirane web crawlere – bilježenjem URL-a kojeg je jedan crawler pronašao • Optimizacija search engina – cilj pozicionirati se na prva mjesta u upotrebi pretraživača

Podjela pretraživača • Opći (Major Search Engines) - najpopularniji su i najvažniji i pokrivaju cijeli svijet; • (Google <http://www.google.com, - Yahoo <http://www.yahoo.com>, • specijalizirani (Specialty Search Engines) - vode pretraživanje kroz baze podataka, grupe za novosti (Newsgroups), nalaze online programe itd. • Po vrstama sadržaja (npr. Multimedijalni) • Po temama • Opći pretraživači sa specijalnim namjenama (<http://websearch.about.com) • metapretraživači (Metacrawlers) - za razliku od pretraživača, ne pretražuju Web sami da bi izgradili indekse. Metapretraživači pretražuju nekoliko pretraživača istodobno i rezultate prikazuju na zajedničkoj stranici; • (BYTESEARCH (http://www.bytesearch.com) • DOGPILE (http://www.dogpile.com) - brojni pretraživači, Usenet, ima jednostavno i složeno pretraživanje, Boole • INFERENCE FIND (http://www.inference.com/ifind) • INTERNET SLEUTH (http://www.isleuth.com) - izvrstan za specijalizirana pretraživanja, omogućava određivanje kategorije unutar koje se pretražuje (poduzetništvo, računala, obrazovanje, sport…) • MAMMA (http://www.mamma.com) • METACRAWLER (http://www.go2net.com/search.html) - izvrstan za dobivanje brzog odgovora • PROFUSION (http://www.profusion.com) • SAVVYSEARCH (http://www.savvysearch.com) • regionalni (Regional Search Engines) - pretraživači za razne države i regije. Glavne su kategorije pretraživaèa svrstane po kontinentima pa zatim po državama; • - pretraživači novosti (NewsSearch Engines) - službe tih pretraživača daju iznimno dobre rezultate pretraživanja kurentnih dogođaja, jer pretražuju relevantna Web mjesta dnevno; • - dječji (Kids Search Engines) - službe dječjih pretraživača dizajnirane su prvenstveno za potrebe djece bilo u fokusiranju bilo u filtriranju mjesta koja bi bila nepodobna za djecu;

Metapretraživači • paralelni ili višestruki pretraživači • simultano pretražuju više pretraživača • na kraju se korisniku daju integrirani rezultati liste različitih pretraživača s prozorom za svaki od njih • ne spadaju u prave metapretraživače • postoje i višestruki pretraživači koji provode simultano pretraživanje, ali ne kombiniraju rezultate • Primjeri: • BYTESEARCH (http://www.bytesearch.com) • DOGPILE (http://www.dogpile.com) - brojni pretraživači, Usenet, ima jednostavno i složeno pretraživanje, Boole • INFERENCE FIND (http://www.inference.com/ifind) • INTERNET SLEUTH (http://www.isleuth.com) - izvrstan za specijalizirana pretraživanja, omogućava određivanje kategorije unutar koje se pretražuje (poduzetništvo, računala, obrazovanje, sport…) • MAMMA (http://www.mamma.com) • METACRAWLER (http://www.go2net.com/search.html) - izvrstan za dobivanje brzog odgovora • PROFUSION (http://www.profusion.com) • SAVVYSEARCH (http://www.savvysearch.com)

Strategija pretraživanja • identificirati vlastiti koncept: tražimo li informacijski izvor ili konkretan podatak • odabrati ključne riječi (samo jedna ključna riječ možda će nam dati previše pogodaka) • odrediti sinonime • odabrati Booleove operatore ili simbole • postaviti ograničenja, filtre (jezik, domena, tip dokumenta, datum, naslovi, URL, poveznici, i drugo). • http://www.googleguide.com/web_address.html

Web direktoriji • Web direktorij –održava ga urednički tim – daje popis web mjesta po kategorijama i subkategorijama • Unos sadržaja određen je politikom uredništva: sadrži RSS feeds (sadržaje koji su vezani uz neko područje mogućih interesa) • Primjer: http://directory.google.com/

Imenički servisi • Imenički servisi omogućuju objavljivanje i pretraživanje elektroničkih adresa i ostalih podataka o korisnicima mreže (White pages) kao i o uslugama i resursima te davateljima usluga na mreži (Yellow pages). • U Hrvatskoj pr. http://ds.carnet.hr

Izvori: • http://www.googleguide.com/web_address.html • http://prelog.chem.pmf.hr/~tezak/preinin/preinin/vje21I.html

Alat za pretraživanje informacija na www-u