230 likes | 360 Views
Pronalaženje informacija na WEB-u. Uvod. P ojava i razvoj WEB-a doveli su do značajnih izmena u načinu pristupa informacijama U osnovi, WEB je sačinjen od miliona WEB stranica pohranjenih na računarima širom sveta, a povezanih intrenetom
E N D
Pronalaženje informacija na WEB-u Mina Milić - Pronalaženje informacija na WEB-u
Uvod • Pojava i razvoj WEB-a doveli su do značajnih izmena u načinu pristupa informacijama • U osnovi, WEB je sačinjen od miliona WEB stranica pohranjenih na računarima širom sveta, a povezanih intrenetom • Razvoj WEB-a započeo je 1989 u CERN-u gde je Tim Berners-Lee sa kolegama kreirao protokol koji je standardizovao komunikaciju između servera i klijenata (HTTP) • WEBdobijavelikupopularnostpojavomgrafičkog pretraživača Mosaickoji je uveo novi način pristupa WEB informacijama po principu “uperi i klikni” • Ubrzo zatim pojavljuju se i čuveni Netscape Navigator, a nedugo za njim i Internet Explorer • Od tada pa do danas WEB je nastavioda raste eksponencijalnom progresijom • Tradicionalne tehnike pronalaženja informacija morale su biti testirane i modifikovane kako bi se mogle primenjivati za indeksiranje i pronalaženje WEB dokumenata Mina Milić - Pronalaženje informacija na WEB-u
Tradicionalno nasuprot WEB pronalaženju informacija • WEB pretraživanje se značajno razlikuje od tradicionalnih sistema za pretraživanje teksta, a to je precizno oslikano kroz deset ključnih razlika: • Distribuiranapriroda WEB-a • WEB sadržaji su rašireni širom sveta i smešteni na raznovrsnim platformama koje se međusobno razlikuju, kako hardverski tako i softverski, što značajno otežava indeksiranje i pronalaženje istih • Sa druge strane, sistemi za pretraživanje teksta uglavnom pretražuju komplete informacija znatno manjeg obima, a dokumenta su uglavnom kreirana prema određenom skupu standardizovanih pravila (npr. OPAC) • Veličina i rast WEB-a • Od svog postanka, WEB je rastao eksponencijalno i bilo je potrebno prilagoditi tradicionlalne tekst pretraživače za rad sa velikim količinama podataka na WEB-u • Duboki nasuprot površinskom WEB-u • Postoji razlika između lako dostupnih površinskih inofmacija i dublje uskladištenih informacija kojih ima znatno više, ali kojima se pristupa isključivo putem posebno ovlašćenih kanala (često zaštićenih šiframa) ili specijalnih programa Mina Milić - Pronalaženje informacija na WEB-u
Tradicionalno nasuprot WEB pronalaženju informacija • Vrste i formati dokumenata • Sistemi za pronalaženje teksta rade isključivo sa tekstualnim podacima dok se na WEB-u mogu pronaći raznovrsni podaci (od tekstualnih do multimedijalnih) što je znatno teže za indeksiranje i pronalaženje • Kvalitet informacija • WEB sadržaji dolaze iz raznih proverenih i neproverenih izvora što značajno otežava pronalaženje kvalitetnih informacija za razliku od sistema za pretraživanje teksta koji rade sa kontrolisanim izvorima informacija • Frekventnost promena • Indeksiranje i pretraživanje WEB-a je značajno otežano konstantnim promenama i pomeranjima sadržaja za razliku od sistema za pretraživanje teksta gde se jednom unet tekst gotovo nikad ne menja, a u najgorem slučaju jedino u potpunosti ukloni iz sistema • Vlasništvo • Jedan od ključnih problema u pronalaženju informacija na WEB-u su prava pristupa istim, dok su neke potpuno besplatne, za druge se mora platiti naknada Mina Milić - Pronalaženje informacija na WEB-u
Tradicionalno nasuprot WEB pronalaženju informacija • Distribuirani korisnici • Korisnici WEB informacija su locirani širom sveta što značajno otežava dizajniranje sistema za pronalaženje informacija na WEB-u usled nedostatka informacija o tipu korisnika, navikama pri pretraživanju, lokaciji itd. • Nasuprot WEB-u, većina sistema za pronalažanje tekstualnih informacija su dizajnirani prema potrebama određene ciljne grupe korisnika čije su potrebe, navike i lokacije unapred poznate • Jezička raznolikost • Uprkos jezičkoj raznolikosti prisutnoj na WEB-u, sistemi za WEB pretraživanje bi trebalo da daju unificirane rezultate bez obzira na jezik na kom je upit postavljen, što značajno otežava dizajniranje istih • Problemi finansiranja • Za kreiranje i održavanje efektnog i efikasnog sistema za WEB pretraživanje neophodni su ogromni materijalni resursi i problem predstavlja činjenica da ne postoji jedinstven izvor finansiranja za poduhvate te vrste, a sa druge strane svima je neophodan što bolji i efikasniji sistem Mina Milić - Pronalaženje informacija na WEB-u
WEB informacije: veličinairast • Merenje veličine i rasta WEB-a je težak zadatak i postoje dva pristupa: premabroju WEB sajtova na odgovarajućim IP adresamaipremabrojupojedinačnih WEB stranica na svim sajtovima • Prema procenama, 2002. godine je postojalo preko devet miliona WEB sajtova • Znatno teže je prebrojati WEB stranice, a procenjuje se da je Google, kao najveći zvanični pretraživač, imao preko 3,8 milijardi indeksiranih stranica još 2003. godine • Postojedvekategorijeinformacijana WEB-u: • Informacije koje su dostupne korišćenjem alata za pretraživanje WEB-a i koje spadaju u takozvani površinski WEB lako dostupan svim korisnicima • Informacije kojima se može pristupiti isključivo pomoću posebnih programa koji se aktiviraju na WEB stranicama i koje spadajau u takozvani duboki WEB. Informacije ovog tipa smeštene su u odgovarajućim bazama podataka dostupnim za pretraživanje isključivo na direktan zahtev Mina Milić - Pronalaženje informacija na WEB-u
WEB informacije: veličinairast • Istraživanja iz 2000. godine pokazuju da je još tada odnos između količine podataka površinskog i dubinskog WEB-a bio 1:500 • Potrebno je naglasitidaukupanbrojindeksiranihstranicaveomavarirameđu pretraživačima, ali je činjenica da nijedan od pretraživača ne indeksira više od 16% površinskog WEB-a • Ako se uzme u obzir da se uopšte ne vrši indeksiranje dubinskog WEB-a usled tehnologije pretrage WEB pretraživača, dolazi se do zaključka da današnji pretraživači indeksiraju svega 0.03% dostupnih WEB stranica • Bez obzira na ovako male cifre, indeksirati 4 milijarde WEB stranica (Google) podrazumeva skladištenje ogromne količine dokumenata, znatno veće nego što je bilo koja preko interneta dostupna baza podataka • Dodatni problem čine i konstantne promene sadržaja WEB stranica pa čak i brisanja kompletnih stranica, te stoga, prema Rasmusenu, dinamička priroda WEB-a čini ključnu razliku između tradicionalnih i WEB tehnika pronalaženja informacija • Postoji još jedna ključna razlika, a to je broj izvršenih dnevnihpretraga. Dizajn konvencionalnih sistema za pronalaženje informacija jednostavno ne dozvoljava toliko ogroman broj dnevnih pretraga koliko se izvrši na bilo kom od svetski poznatih WEB pretraživača Mina Milić - Pronalaženje informacija na WEB-u
Alati za pristup informacijama na WEB-u • Korisnik pristupa internetu unošenjem URL-a u odgovarajući kompjuterski program, takozvani WEB pretraživač (Mozilla, Netscape...) koji u osnovi ima dva glavna zadatka: • Pristupa WEB serveru i iz mreže “dovlači” odgovarajuću stranicu na ekran vašeg računara • Interpretira HTML kod na odgovarajući način tako da stranica izgleda onako kako je njen autor zamislio • Iako korisnici mogu na jednostavan način pretraživati WEB ukucavanjem URL-a i praćenjem linkova, problem nastaje kada se traži specifična informacija u moru WEB sajtova i WEB stranica • Da bi se prevazišao ovaj problem, dizajnirano je nekoliko alata za pretraživanje što je omogućilo da pretraživanje konkretnih informacija na WEB-u bude krajnje jednostavno • U osnovi, postoje dva načina traženja informacija • Praćenjem linkova u specijalnoj listi zvanoj direktorijum • Korišćenjem pretraživača koji pretražuju redovno ažuriranu, ali fiksnu bazu podataka (koju kreira alat zvani Pauk) na odgovarajuću reč ili frazu koju korisnik unosi i prezentuju odgovarajuće WEB stranice iz te baze Mina Milić - Pronalaženje informacija na WEB-u
Kako rade pretraživači • Iakosvi pretraživači, u osnovi, imaju isti cilj, u mnogome se međusobno razlikuju – prema brzini pretrage, načinu prikazivanja podataka, veličini baze podataka, frkvenciji njenog osvežavanja kao i kriterijumima indeksiranja stranica • Bez obzira na razlike među pretraživačima, svi oni, u osnovi, imaju sledeće tri osnovne funkcije: • Pretraživanje interneta prema određenom kompletu kriterijuma • Čuvanje indeksa pronađenih reči i fraza, njihovih adresa, broja pristupa itd. • Omogućavaju korisnicima pretragu na reči, fraze ili kombinacije istih prema već formiranom indeksu • Tri osnovne komponente svakog pretraživača su: • Pauk • Softversainterfejsomzapretraživanje • Indeks Mina Milić - Pronalaženje informacija na WEB-u
Pauk • Pauk je program koji automatski donosi WEB stranice pretraživačima • Pauk tretira WEB kao graf i na osnovu unesenog URL-a on redom iščitava stranice prateći sve linkove bilo po dubini (prateći jedan link do kraja) ili po širini (posećujući redom sve linkove sa jedne strane) čime odaje utisak puzanja po WEB-u • Osnovni problem pauka je odluka o indeksiranju stranice - kvalitet WEB stranice koja će biti indeksirana može da se odredi na osnovu broja poseta toj stranici što baš i nije jednostavno izračunati ili na osnovu broja linkova ka toj stranici što je, generalno, mnogo češći kriterijum indeksiranja programa ovog tipa • Drugi značajan problem je određivanje frekvencije ponovnog posećivanja stranica koje su već indeksirane i proveravanje da li je došlo do izmena njihovih sadržaja Mina Milić - Pronalaženje informacija na WEB-u
Softver za pretraživanje • Softver za pretraživanje je program za pronalaženje informacija koji ima dva osnovna zadatka: • Poređenje unosa sa milionima zapisa sačuvanih u indeksu • Rangiranje pronađenih zapisa (WEB stranica) prema određenom redosledu • Svaki pretraživač ima sopstveni kriterijum čuvanja ili odbacivanja ključnih reči pretrage prema tome gde se ta reč pojavljuje (naslov stranice, link, meta-tag...) ili koliko često se ta reč pojavljuje itd. • Prema tome, različiti pretraživači daju različite rezultate na istu reč pretrage ili različit redosled istih rezultata (pronađenih WEB stranica) itd. • Google koristi princip rangiranja stranica za određivanje važnosti stranice tako što vrši analizu citiranja te stranice tj. najvažnije i time prvorangirane na listi rezultata su one stranice na koje ukazuje najveći broj linkova Mina Milić - Pronalaženje informacija na WEB-u
Indeksiranje • Stariji pretraživači su indeksirali samo pojedine komponente svake WEB stranice, ali se sve češće indeksiraju kompletni tekstovi sa WEB stranica • WEB pretraživači uglavnom čuvaju u tajnosti algoritme koje koriste za pretraživanje (uglavnom su to varijacije Bulovogi modela vektosrkog prostora) • Jednoodglavnihpravilakojim se algoritmivodeprirangiranju je lokacijaifrekventnostključnih reči na WEB stranici • Bitna je lokacija termina pretrage na samoj stranici, pa ako se on nalazi u naslovu HTML koda tretiraće se važnijim nego ostali ili ako se pojavljuje u paragrafima bližim naslovu itd. • Stranice na kojima se termini pretrage često pojavljuju tretiraju se važnijim od drugih WEB stranica Mina Milić - Pronalaženje informacija na WEB-u
Proces • Pretraživači uglavnom drže u tajnosti svoje procese “puzanja” iindeksiranja, ali Google javno objavljuje svoju metodologiju koja se sastoji od sledećih koraka: • Puzanje po WEB-u (skidanje WEB stranica) radi se pomoću nekoliko distribuiranih paukova • URL server šalje paucima listu URL-ova • Dohvaćene WEB stranice se šalju serveru za skladištenje podataka gde se kompresuju i odlažu u skladište • Svakoj od tih WEB stranica se dodeljuje identifikacija (docID) čim se njen URL isparsira • Funkciju indeksiranja vrše indekser i sorter • Indekser čita materijal iz skladišta, dekompresuje dokumenta i parsira ih Mina Milić - Pronalaženje informacija na WEB-u
Proces • Svaki dokument se konvertuje u komplet takozvanih pogodaka (pojavljivanja specifičnih reči), a pogotci dokumentuju reč, njenu poziciju u dokumentu, aproksimaciju veličine fonta, prisustvo velikih slova • Indekser distribuira pogotke u takozvane komplete barela i kreira delimično sortirani indeks • Indekser takođe parsira linkove sa svake WEB stranice i važne informacije o njima smešta u tzv. sidarni fajl koji sadrži dovoljno informacija da odredi izvor i odredište svakog linka kao i njegov tekst • Razrešivač URL-ova čita sidarne fajlove i konvertuje relativne URL-ove u apsolutne URL-ove, a zatim u docID. On vezuje tekst iz sidarnog falja i odgovarajući docID i smešta ih u indeks. Razrešivač takođe kreira bazu linkova uparenih sa docID za kasnije izračunavanje ranga stranice za sve dokumente • Sorter uzima barele (sortirane prema docID) i kreira invertovan indeks sortiran prema wordID, a pored toga kreira i listu wordID • Program DumpLexicon sastvalja ovu listu sa leksikonom koji je kreirao indekser i kreira novi leksikon koji će koristiti tragač • Tragača pokreće WEB server i on koristi gore kreirani leksikon zajedno sa invertovanim indeksom i rangom stranica da da konačan odgovor na upit Mina Milić - Pronalaženje informacija na WEB-u
Tipovi pretraživača • Rezultati WEB pretrage zavise od izbora samog pretraživača usled razlike u indeksiranju, osvežavanju indeksiranih stranica, a i po različitim mogućnostima pretraživača • Najgrublja podela pretraživača je na klasične i meta pretraživače – alati koji omogućavaju korisnicima da vrše paralelnu pretragu preko više pretraživača • Neki ih dele prema karakteristikama indeksiranja, a Saliven sa Searchenginewatch.com je podelio pretraživače na sedam kategorija: • Generalni pretraživači (http://www.google.com) • Pretraživači novina (http://news.altavista.com) • Specijalizovani pretraživači (http://www.askjeeves.com) • Pretraživači za decu (http://www.yahooligans.com) • Meta-puzači poput Dogpile (http://www.dogpile.com/info.dogpl/) • Multimedijalnipretraživači (http://images.google.com) • Regionalni i državni pretraživači poput Evropskih ili Japanskih pretraživača (http://www.webmasterworld.com/forum18/544.htm) Mina Milić - Pronalaženje informacija na WEB-u
Zajedničke karakteristike pretraživanja WEB pretraživača • Skoro svi pretraživači poseduju osnovne karakteristike tekstualne pretrage: • Bulova pretragakroz tri glavnapristupa: • Korišćenjem AND, OR i NOT • Korišćenjem ‘+’ i ‘-’ ispredterminapretrage • Korišćenjem opcija poput ‘sve reči’, ‘neka od reči’ ili ‘nijedno od reči’ • Približna pretraga uz primenu odgovarajućeg operatora tipa ‘NEAR’ • Pretraga po polju tj pretraga naslova korišćenjem termina ‘u naslovu’ ispred termina pretrage • Pretraga fraza unošenjem odgovarajuće fraze u duple navode • Ograničavajuća pretraga (po vremenu, datumu, tipu fajla, jeziku pretrage itd.) • Ovo su neke od tradicionalnih metoda pretraživanja koje su prisutne u modernim WEB pretraživačima, a možemo im vrlo jednostavno pristupiti preko naprednih funkcija pretraživanja koje dodatno omogućavaju korisnicima vrlo naprednu i kompleksnu pretragu na krajnje pojednostavljen način Mina Milić - Pronalaženje informacija na WEB-u
Intefejs za naprednu pretragu Goolge pretraživača Mina Milić - Pronalaženje informacija na WEB-u
Zajedničke karakteristike pretraživanja WEB pretraživača • Pored tradicionalnih tehnika pretraživanja, napredne opcije pretrage kod popularnih pretraživača nude i neke metode pretrage optimizovane isključivo za pretragu WEB sadržaja kojegeneralnonazivamospecijalnim funkcijama pretraživača: • Pretraživanje domaćina/domena – korisnici Googla mogu uneti ime domena (URL), a zatim izabrati da li da dobijusadržaj tog domena ili ne • Pretraživanje URL-a – korisnici mogu u polje za pretragu direktno uneti URL • Pretraživanje linka – u naprednim opcijama korisnici mogu uneti URL da otkriju koje stranice imaju link ka njemu • Ograničena pretraga – limitirana izabranim faktorima poput jezika pretrage, formata fajla, datuma, pojavljivanja i domena • Pronađi slično – opcija koja pronalazi stranice slične unetoj • Pretraga prema jeziku • Filtriranje – opcija koja ne dozvoljava da pretraživač prikazuje neželjeni sadržaj • Prevođenje stranice – mogućnost prevoda unetog teksta na željeni jezik • Prikaz rezultata – korisnici mogu da izaberu broj prikazanih stranica na ekranu prilikom pretrage Mina Milić - Pronalaženje informacija na WEB-u
Zajedničke karakteristikepretraživanja WEB pretraživača • Uzevši u obzir da je Google trenutno najpopularniji pretraživač na internetu, evo još nekoliko specijalnih opcija koje on nudi korisnicima: • “I’m Feeling Lucky” – učitava prvu stranicu iz rezultata pretrage • Google Toolbar – omogućava korisnicima da instaliraju polje za pretragu pomoću Googla direktno na svoj internet pretraživač • TouchGraf GoogleBrowser – prikazuje korisniku kako WEB izgleda kroz linkove među korisnikovim omiljenim sajtovima Mina Milić - Pronalaženje informacija na WEB-u
Specijalizovani pretraživači • Pored pretrage teksta, pretraživači omogućavaju i pronalaženjemultimedijalnih informacija, međutim, postoje i specijalizovani pretraživači koji pružaju mogućnost da sam upit bude nekonvencionalan • Upit prirodnim jezikom • Pretraživači poput Askjeeves.com omogućavaju korisnicima da upit unose kao što bi to činili sa nekom osobom u svakodnevnom govoru – prirodnim jezikom. To znači da korisnik ne mora da razmišlja o Bulovimoperatorima već jednostavno može uneti kompletnu rečenicu kao upit i dobiti odgovor u formi upita odnosno direktne smernice ka sajtovima koji sadrže odgovor • Vizuelizacija • Pretraživači poput Kartoo.com ili TouchGrapf GoogleBrowser-a prezentuju rezultate pretrage na drugačiji način. Oni grafički odnosno vizuelno prikazuju rezultate pretrage na ekranu za razliku od standardne tekstualne liste Mina Milić - Pronalaženje informacija na WEB-u
Rezultati pretrage sajta Kartoo Mina Milić - Pronalaženje informacija na WEB-u
Rezultati pretrage sajta TouchGraph GoogleBrowser Mina Milić - Pronalaženje informacija na WEB-u
Zaključak • Mnogobrojnim statističkim analizama, stručnjaci su došli do veoma važnih zaključaka kada je u pitanju korišćenje WEB pretraživača i kvalitet pronalaženja odgovarajućih informacija: • Većina upita su kratki, nemodifikovani i veoma proste strukture • Veoma su retke pretrage koje uključuju napredne metode, a i polovina takvih pretraga su pogrešne • Iako svaka pretraga pruži ogroman broj sajtova kao odgovor na upit, ljudi najčešće ne pogledaju dalje od prve eventualno druge stranice izlistanih sajtova • Korisnike ne zanima previše značaj povratnih informacija • Korisnici imaju poteškoća oko formulisanja svojih upita • Generalno, korisnici provode malo vremena pretražujući baze podataka WEB pretraživača Mina Milić - Pronalaženje informacija na WEB-u