200 likes | 496 Views
Latentno semantičko indeksiranje (LSI). Ana Cvitaš Mentor: Bojana Dalbelo Bašić Verzija: 1.0 FER, 2004. Uvod. Starije tehnike klasifikacije: traže poklapanje riječi iz upita s riječima iz dokumenata Problem: individualne riječi nisu dovoljne za određivanje sadržaja dokumenta.
E N D
Latentno semantičko indeksiranje (LSI) Ana Cvitaš Mentor: Bojana Dalbelo Bašić Verzija: 1.0 FER, 2004.
Uvod Starije tehnike klasifikacije: traže poklapanje riječi iz upita s riječima iz dokumenata Problem: individualne riječi nisu dovoljne za određivanje sadržaja dokumenta. • Homonimi: imaju višestruko značenje • Sinonimi: više rezličitih izraza za isti pojam
Uvod (nastavak) Rješenje: Latentno semantičko indeksiranje (LSI): Prikaz dokumenata i pojmova pomoću “semantičkog” prostora. (Slični dokumenti međusobno su blizu.) Korištenje SVD-a radi naglašavanje bitnih i ignoriranja nepotrebnih sličnosti.
Primjer Neka se npr. riječi “latentno” i “semantičko” nalaze svaka u 100 dokumenata. U njih 95 neka s nalaze obje riječi. Pretpostavka: Dokument koji sadrži samo riječ “latentno”, također je sadržajno povezan sa pojmom “semantičko”. Cilj: Na upit “semantičko”, LSI mora tekođer vratiti sve dokumente koji sadrže samo pojam “latentno”.
LSI Postupak započinje pravokutnom matricom pojmova i dokumenata. Ona se rastavlja metodom singular-value-decomposition (SVD) u 3 specijalne matrice. Te matrice predstavljaju rastav originalnih zavisnosti u linearno nezavisne komponente. Mnoge komponente su zanemarivo male sve zavisnosti se mogu prikazati pomoću manjeg broja dimenzija
LSI (prikaz pojmova i dokumenata) Individualni pojmovi i dokumenti su prikazani pomoću vektora. Redukcijom dimenzija dokumenti s različitim riječima mogu se nalaziti blizu u prostoru.
LSI (geometrijska interpretacija) Svaki dokument ili pojam može se prikazati pomoću vektora. Njihova sličnost odgovara skalarnom umnošku ili kosinusu između vektora.
LSI (broj dimenzija) • Potrebno je izbjegavati jako velik, ali i jako mali broj dimenzija. • Nemoguće je matematički odrediti optimalan broj. • Uzima se onaj koji daje najbolje rezultate. • Zbog velikog broja dimenzija metodu teško vizualno predočiti i razumjeti.
LSI (prikaz upita) • Upit se može prikazati kao pseudo-dokument. • Njegov vektor se dobiva kao suma vektora pojmova koje sadrži. • Traži se kosinus vektora upita i dokumenata što je veći kosinus, dokument više odgovara upitu. • Rezultat upita: • N najbližih dokumenata ili • Svi dokumenti do određene vrijednosti kosinusa
Tehnički detalji Matrica pojmova i dokumenata X može se prikazati kao: X=T0S0D0’ Tako da su T0 i D0 ortogonalne (T0T0’=I), a S0 dijagonalna matrica. S0 je tako konstruirana da su sve vrijednosti pozitivne i poredane padajućim redosljedom.
Ako su singularne vrijednosti u matrici S0 poredane padajućim redosljedom: • Zadržava se prvih k najvećih vrijednosti, a ostale se postavljaju na 0. Rezultat: matrica X˜ (ranga k) Po metodi najmanjih kvadrata X˜ je najbliže X
Usporedba objekata • 3 bitne usporedbe: • Sličnosti dva pojma • Sličnosti dva dokumenta i • Povezanosti pojma i dokumenta Matrica X˜ najbolje prezentira matricu X usporedba na temelju X˜, odnosno T, D i S
Usporedba dva pojma Sličnost pojmova određuje skalarni umnožak redaka matrice X˜. Svi odnosi su vidljivi u matrici X˜X˜’=TS²T’. Element i,j matrice X˜X˜’ može se dobiti i kao skalarni produkt redaka i i j matrice TS.
Usporedba dva dokumenta Sličnost dokumenata određuje skalarni umnožak stupaca matrice X˜. Svi odnosi su vidljivi u matrici X˜’X˜=DS²D’. Element i,j matrice X˜’X˜ može se dobiti i kao skalarni produkt redaka i i j matrice DS.
Usporedba pojma i dokumenta Osnovna usporedba pojma i dokumenta radi se na temelju svakog pojedinog elementa matrice X˜=TSD’. Element i, j može se dobiti kao skalarni produkt i-tog retka matrice TS½ i j-tog retka matrice DS½. nije moguće pomoću istih vektora obavljati usporedbe samih pojmova i dokumenata i njihove međusobne usporedbe.
Usporedba pseudo-dokumenata Xq – početni vektor pseudo-dokumenta Dq – njegov prikaz u reduciranom prostoru Dq=Xq’TS¯¹ Dq se dalje tretira kao bilo koji redak matrice D.
Literatura • S. Deerwester, S. T. Dumais, G. W. Furnas, T. K. Landauer, R. Harshman: Indexing by Latent Semantic Analysis