290 likes | 455 Views
Napredne metode u pronalaženju informacija. Cvetana Krstev čas 5. Budućnost pretraživanja na vebu. Tradicionalne mašine za pretraživanje nisu bile namenjene radu sa ogromnom , distribuiranom i heterogenom kolekcijom dokumenata kakva je WWW.
E N D
Napredne metode u pronalaženju informacija Cvetana Krstev čas 5
Budućnost pretraživanja na vebu • Tradicionalne mašine za pretraživanje nisu bile namenjene radu sa ogromnom, distribuiranom i heterogenom kolekcijom dokumenata kakva je WWW. • Nedostatak bilo kakve uredničke kontrole veb dokumenata postavlja dodatne probleme koji se tiču pokrivenosti i tačnosti, a dodatno ih otežava pojava spamova, mrtvih veza i manipulisanje rangiranjem stranica u cilju sticanja komercijalne prednosti.
Zašto je pretraživanje veba specifično? • Veb se opisuje kao neka vrsta “populističkog hipermedijalnog dokumenta” na čijem stvaranju nezavisno rade milioni ljudi proizvodeći tako stotine miliona stranica. • Ne postoji neka globalna shema koja organizuje ovaj sadržaj (osim adresiranja koje je obezbeđeno URL adresama). • Međutim, postoji globalna struktura tog dokumenta koju stvaraju stotine miliona nekoordinisanih akcija koje preduzimaju pojedinci povezujući stranice međusobom.
Problemi postavljanja upita na vebu • Opšte je poznata stvar da ljudi koji pretražuju na vebu često imaju problema da pronađu informaciju koja ih interesuje, iako ona na vebu postoji. • Ali za različite informacione potrebe su potrebni različiti upiti, a oni opet stvaraju drugačije probleme. • Na primer, problemi vrlo specifičnih upita se razlikuju od problema vrlo uopštenih upita. • Na primer, problem upita: • is there a parrot indigenous to North America • je što stranica koje govore o ovoj temi nema mnogo, pa upit treba vrlo pažljivo formulisati da bi se upotrebile “ispravne” reči. S druge strane upit: • Barak Obama • će vratiti ogroman broj stranica jer veliki broj stranica sadrži te reči, ali veliki broj njih verovatno uopšte neće biti relevantan za korisnika.
Kako korisnici obično postupaju kada se suoče sa ovakvim problemima? • Vrlo precizni upiti obično zahtevaju da se pretraživanje ponavlja, preformulisanjem upita promenom ključnih reči. To znači da tehnike proširivanja upita (sinonimima i sl.) mogu da pomognu, ali korisnik najčešće pronalazi neke stranice koja su “blizu” željenoj temi pa u njima prate veze u nadi da će naći traženu informaciju. • Vrlo opšti upiti se češće poboljšavaju dodavanjem termina da bi se smanjio broj pronađenih dokumenata, ali na kraju korisnici opet moraju da pristupe prelistavanju (tj. moraju da slede veze) da bi našli ono što im je potrebno.
Koje stranice mogu da olakšaju pronalaženje? • Neke stranice su korisnije za nastavak prelistavanja od drugih jer obezbeđuju dobro organizovan skup izlaznih veza ka drugim stranicama koje pokrivaju datu temu. Te stranice se nekad zovu koncentratori (hub). • S druge strane, stranice koje imaju mnogo dolaznih veza nazivaju se autoriteti(authorities) jer postavljanje veze ka nekoj stranici je način priznavanja vrednosti te stranice. • Prema tome, ako početni upit ne vrati neke vrlo relevantne stranice, tj. stranicu koja je autoritet za datu temu, možda će vratiti stranicu koja je koncentrator i koja će uputiti ka nekoj vrlo relevantnoj stranci.
Kako se pretraživanje i prelistavanje može spojiti za poboljšavanje pronalaženja na vebu? • Veb stranice se mogu predstaviti kao usmereni graf G = (V, E) u kome su čvorovi v V stranice na vebu, a usmereni lukovi (v1, v2) E, su hipertekstualne veze između stranica. • Jedan način da se traže stranice na vebu o nekoj širokoj temi je da se pronađe podgraf celog veba za koga se veruje da bi mogao da sadrži autoritete, a zatim da se analizira struktura tog podgrafa da bi se indetifikovale stranice ka kojima vode mnoge veze. • Ova ideja je prvi put razvijena i upotrebljena u okviru projekta CLEVER mašine za pretraživanje koji je razvijan u IBM-ovom istraživačkom centru Almaden.
Kako u osnovi funkcioniše pristup razvijen u okviru CLEVER projekta • Prikupiti nekih 200 najbolje rangiranih stranica za originalni upit pomoću neke opšte mašine za pretraživanje. • Ova kolekcija stranica, koja se naziva koreni skup (root set), predstavlja dobar izvor relevantnih stranica, a nije previše velika pa se na njoj mogu vršiti netrivijalna izračunavanja. • To podrazumeva da na kraju treba identifikovati autoritete ka kojima pokazuju stranice iz korenog skupa. • autoriteti možda uošte nisu u korenom skup; • šta više, možda uopšte ne postoje veze među stranicama u korenom skupu.
U čemu se (neformalno) sastoji algoritam za uključivanje autoriteta? • Treba nad korenim skupom Rizgraditi bazni skup (base set) mogućih autoriteta dodavanjem • stranica ka kojima upućuju stranice iz R; • stranica koje upućuju ka stranicama iz R; • pošto ovakvih stranica može potencijalno da bude jako mnogo, ovo drugo proširenje se obično ograničava, jer ne želimo da bazni skup bude prevelik. • Kao rezultat rada algoritma dobija se bazni skup od oko 1000-1500 stranica.
Šta je rezultat rada algoritma i šta treba dalje da se radi? • Bazni skup koji se dobija kao rezultat je podgraf celokupnog grafa veba (koji ne mora da bude povezan) koji sadrži mnoge relevantne stranice i vrlo verovatno neke dobre autoritete. Sada u njemu treba identifikovati stranice koje su ili koncentratori ili autoriteti. • Postoje mnogi pristupi za njihovo otkrivanje, a najjednostavniji (najočigledniji) nisu i najbolji: • autoriteti su čvorovi u podgrafu ka kojima pokazuju mnogi putevi grafa. • ovaj pristup može dovesti do pada preciznosti, posebno kod kratkih upita, zbog višeznačnosti reći. Npr. Java je naziv ostrva, progrmskog jezika i sorta kafe.
Uspešan pristup otkrivanju koncentratora i autoriteta • Ono što želimo da dobijemo je skup stranica koje govore o nekoj konzistentnoj temi koja zadovoljava informacione potrebe korisnika. • Jedan način da se to postigne, a da se ne analizira sadržaj stranica, je da se zahteva da postoji izvesno preklapanje između skupa stranica koje pokazuju ka potencijalnim autoritetima. Stranice koje govore o različitim temama će, u principu, imati disjunktne skupove stranica koje ka njima pokazuju. • na primer, ka stranici koja govori o ostrvu Java će pokaizvati stranice o kulturi i turizmu, a ka stranici koja govori o programskom jeziku Java stranice o računarima i programiranju. • Unakrsna definicija koncentratora i autoriteta - dobri koncentratori pokazuju ka mnogim dobrim autoritetima, odnosno ka dobrim autoritetima pokazuju mnogi koncentratori – ukazuje da se iterativnim postupkom može do njih doći.
Algoritam za otkrivanje autoriteta i koncentratora • Za svaku stranicu p B, pri čemu je B bazni skup stranica koji smo prethodno opisanim algoritmom odredili, računa se težina autoriteta pA i težina koncentratora pH. • Ove težine stranica možemo posmatrati kao prirast koji se dodeljuje u iterativnom postupku: Koncentratori se nagrađuju ako pokazuju ka stranicama sa velikom A-vrednošću, a autoriteti ako ih pokazuju stranice sa velikom H-vrednošću. • Ovaj postupak je poznat kao HITS algoritam – Hyperlink-Induced Topic Search a njegov autor je prizanti profesor računarstva Jon Kleinberg.
Dva osnovna koraka HITS algoritma • Algoritam obavlja niz iteracija od kojih se svaka sastoji od dva osnovna koraka: • Preračunavanje autoriteta:preračunajA-vrednostsvakog čvoratako da bude jednaka zbiru H-vrednostisvih čvorova koji ka njemu pokazuju. Time čvor dobija visoku vrednost kao autoritet ako ka njemu pokazuju mnoge stranice koje su prepoznate kao koncentratori informacija. • Preračunavanje koncentratora:preračunajH-vrednost svakog čvoratako da bude jednaka zbiru A-vrednostisvih čvorova ka kojima pokazuje. Time čvor dobija visoku vrednost kao koncentrator ako pokazuje mnoge stranice za koje se smatra da su autoriteti za datu temu.
HITS algoritam • H-vrednost i A-vrednost se računaju uz pomoć sledećeg algoritma: • Počinje se tako što se za svaku stranicu iz baznog skupa Bpostavljaju H-vrednost i A-vrednostna jedan. • Primenjuje se pravilo podešavanja autoriteta • Primenjuje se pravilo podešavanja koncentratora • Vrednosti se normalizuju tako što se svaka H-vrednost deli sa zbirom kvadrata svih ostalih H-vrednosti, i što se svaka A-vrednost deli sa zbirom kvadrata svih ostalih A-vrednosti. • Postupak se ponavlja proizvoljan broj puta od drugog koraka.
Matematička formulacija koraka 2, 3 i 4 HITS algoritma • Ako je E’ skup lukova u usmerenom podgrafu koji predstavlja hipertekstualne veze između čvorova onda se računa: • u koraku 2: • u koraku 3: • u koraku 4:
Rangiranje dokumenata u sistemima za pronalaženje – podsećenje na temu • Bulovski upiti obično vraćaju ili neuređeni skup dokumenata, ili skup koji je uređen po kriterijumu koji nema veze sa relevantnošću dokumenata – npr., prvo dokumenta koja su skorijeg datuma nastanka. • Mašine za pretraživanje na vebu koriste drugu tehnologiju – rangiranje koje se zasniva na distribuciji frekvencija upitnih termina u dokumentima kolekcije. • Grubo govoreći, ako dokument sadrži mnogo pojavljivanja termina kao što je aardvark (kapsko svinjče) koji se inače retko pojavljuje u dokumentima kolekcije (npr., u celom vebu) to nam govori da bi taj dokument verovatno bio vrlo relevantan za upit kao što je: • where do aardvarks live • S druge strane reč live se pojavljuje u mnogo više dokumenata kolekcije pa bi ona trebalo da doprinosi mnogo manje rangiranju. • (odgovor bi trebalo da bude: u Južnoj Africi)
Rangiranje dokumenata korišćenjem modela vektorskog prostora • Rangirano pronalaženje se češće primenjuje tamo gde se upiti postavljaju ne kao lista ključnih reći, već se koristi uobičajen “prirodni” jezik. • U modelu vektorskog prostora dokument se posmatra kao vektor u multidimenzionalnom prostoru koji je određen terminima indeksiranja. • Ako svaki termin definiše dimenziju, a najjednostavnije govoreći frekvencija pojavljivanja termina određuje linearnu skalu duž te dimenzije, onda se upiti i dokumenta mogu predstaviti vektorima u tom prostoru.
Primer dokumenta i njegovog vektora • Neka je jedan zamišljeni dokument kolekcije: • A dog is an animal. A dog is a man’s best friend. A man is an owner of a dog. • on bi se mogao pretstaviti sledećim vektorom: • Ako pretpostavimo da su termini nekako uređeni, na primer, u alfabetskom poretku, onda se ovaj dokument može jednostavno predstaviti kao vektor u 10-dimenzionalnom prostoru: • (5, 2, 1, 1, 3, 1, 3, 1, 2, 1)
Računanje sličnosti dokumenata i upita kao rastojanje dva vektora • Vrlo je pogodno da se pretpostavi da termini u dokumentu nisu povezani (ne postoji korelacija među njima), jer su tada sve dimenzije ortogonalne. • To olakšava posao računanja sličnosti između dva vektora jer se svodi na računanje ugla između njih što se zasniva na računanju kosinusne funkcije. • ovo je normalizovano rastojanje jer se u njemu neutrališe uticaj “dužine” vektora (npr.dužina dokumenta ili upita) na rezultat. • Pretpostavka o nepovezanosti termina je, naravno, arbitrarna i neodrživa u praksi ali se zbog toga što pojednostavljuje računanje koristi u mnogim aplikacijama koje se primenjuju u praksi. • Npr, da li su NovakiĐoković dva nepovezana termina?
Kako se računaju težine termina? • Računanje termina se može obaviti na mnoge načine, ali se u praksi najčešće svodi na indeks koji se dobija kao kombinacija dva indeksa: • frekvencija termina – tf(frekvencija datog termina u datom dokumentu) • frekvencija dokumenata – idf(frekvencija dokumenata koji sadrže dati termin) • težina termina – wij
Rangiranje pronađenih dokumenata na vebu • Moderne mašine za pretraživanje za pronalaženje na vebu koriste razne varijacije jednostavnog pristupa koji smo prikazali, a koji se zasniva na računanju frekvencija. • Na primer algoritam koji koristi Google za rangiranje rezultata se oslanja na činjenicu da crvi (worm) ili pauci (spider) prikupljaju mnoge dodatne informacije o veb stranicama, osim liste termina koje smeštaju u indekse. • Pamte se pozicije promene fonta, upotreba velikih slova, a osim toga Google pravi razliku između običnih pogodaka i izuzetnih pogodaka: • Izuzetni pogodak je kada dođe do slaganja između upitnog termina i dela URL adrese, naslova stranice, teksta s koga počinje hipertekstualna veza (polazno sidro), s meta-etiketama, itd. • običan pogodak uključuje sva druga sravnjivanja upitnog termina s tekstom dokumenta.
Rang stranice – Page rank • Google pokušava da odgovori na pitanje koliko je važna veb stranica. • Važnost se procenjuje preko broja veza između date stranice i ostatka veba, tj. polazi se od toga da je važnost svake stranice funkcija važnosti svih stranica veba koje pokazuju ka njoj (slično CLEVER pristupu i HITS algoritmu). • Ovaj način rangiranja dokumenata se može primeniti na bilo koju kolekciju dokumenata koja sadrži neku vrstu unakrsnog rangiranja.
Kako funkcioniše algoritam? • Pretpostavimo da se naš univerzum sastoji od četiri stranice: A, B, C i D. Na početku pretpostavimo da su sve stranice podjednako važne, pa im se dodeljuje PR (PageRank) = 0.25 (Sve stranice zajedno imaće uvek vrednost 1). • Ako sve stranice (dakle, B, C i D) pokazuju samo stranicu A, onda će sve tri stranice doprineti rangu stranica A sa svojih 0.25. Biće, dakle, • PR(A) = PR(B)+PR(C)+PR(D) = 0.75 • Ako stranica C pokazuje samo stranicu A, stranica B pokazuje C i A, a stranica D pokazuje sve tri stranice,onda se vrednost doprinosa veze deli na sve veze koje izlaze sa te stranice. Biće, dakle, • PR(A) = PR(B)/2+PR(C)/1+PR(D)/3 = 0.125 + 0.25 + 0.083
PageRank algoritam • Drugim rečima, PageRank koji ostvaruje jedna spoljašnja veza je jednak vrednosti PageRank same te strance kada se podeli sa normalizovanim brojem spoljašnjih veza te stranice L( ) (pretpostavlja se da se veze ka nekom određenom URL računaju samo jednom po dokumentu): • PR(A) = PR(B)/L(B)+PR(C)/L(C)+PR(D)/L(D) • Ili, u opštem slučaju: • tj. PageRank vrednost za stranicu uzavisi od vrednosti koju ima PageRank za sve stranice v iz skupa Bu (ovaj skup sadrži sve stranice koje pokazuju ka u) podeljen sa brojem L(v) veza koje polaze iz stranice v.
Damping faktor • Teorija rangiranja dokumenata na osnovu izračunavanja PageRankse zasniva na pretpostavci da će se čak i neki zamišljeni surfer koji nasumično klikće na veze u jednom trenutku zaustaviti. U svakom koraku verovatnoća da će korisnik nastaviti je taj damping faktor d. Vrednost ovog faktora se procenjuje i obično se uzima da ima vrednost 0.85. • Tako se dobija konačna formula: • PR(A) = (1-d)/N + d*(PR(B)/L(B)+PR(C)/L(C)+PR(D)/L(D)...) • Google ponovo računa vrednosti PageRank svaki put kada puzi po vebu i ažurira svoj indeks. Pošto se broj dokumenata koje Google indeksira stalno povećava, u svakom prolazu je početna vrednost PageRanksvakog dokumenta manja.
Rangiranje zasnovano na vezama i izuzetni pogoci • Istraživanja su pokazala da je rangiranje zasnovano na vezama (link-based ranking) koje se koristi za izuzetne pogotke na Google-u vrlo efikasno u pronalaženju glavnih ulaznih tačaka na vebu, • Značajan deo veb-upita traži zapravo određenu lokaciju na vebu, a ne dokument o određenoj temi, npr: • Where is the CNN home page • Istraživanja su pokazala da su metode zasnovane na vezama za ovake upite i do dva puta uspešnije od metoda zasnovanih na sadržaju.
Nešto o Google-u i računanju vrednosti PageRank • Ime PageRankje zaštićeno ime Google-a i postupak njegovog računanja je zaštićen patentom (U.S. Patent 6,285,999). • Međutim, patent je dobio Univerzitet u Stanfordu, a ne Google. Ipak, Google ima eksluzivno pravo na taj patent koje je dobio od Univerziteta u Stanfordu i za ustupanje tog prava Univerzitet je dobio 1,8 miliona akcija Google-a. • PageRank su razvili Larry Page (odatle potiče naziv, a ne od stranice na vebu!) i Sergey Brin kao deo projekta o novoj vrsti mašine za pretraživanje. Brin je imao ideju da se informacije na vebu mogu hijerarhijski urediti prema “popularnosti veza”: stranica ima viši rang ako ka njoj pokazuje više veza.
PageRank i prethodni rezultati • Prvi člank o ovom projektu u kome je opisan PageRank i prototip mašine za pretraživanje Google je objavljen 1998. Ubrzo posle toga su Page i Brin osnovali kompaniju Google, Inc. koja se nalazi u pozadine mašine za pretraživanje Google.Iako je PageRank samo jedan od mnogih faktora koji utiču na rangiranje rezultata pretrage Google-a on predstavlja osnovu za sve njegove pretraživačke alate. • Na razvoj PageRankje uticala citatna analiza koju je razvio Eugene Garfield sa Pensilvanijskog univerziteta još 1950. godine. Iste godine kada je uveden PageRankJon Kleinberg je objavio rad o svom algoritmu HITS. Za sve to postoje citati u originalnom radu o PageRank iz 1998. • Sergey Brin, Larry Page (1998). "The Anatomy of a Large-Scale Hypertextual Web Search Engine". Proceedings of the 7th international conference on World Wide Web (WWW). Brisbane, Australia. pp. 107–117