1 / 19

Latentno semantičko indeksiranje (LSI)

Latentno semantičko indeksiranje (LSI). Ana Cvitaš Mentor: Bojana Dalbelo Bašić Verzija: 1.0 FER, 2004. Uvod. Starije tehnike klasifikacije: traže poklapanje riječi iz upita s riječima iz dokumenata Problem: individualne riječi nisu dovoljne za određivanje sadržaja dokumenta.

naeva
Download Presentation

Latentno semantičko indeksiranje (LSI)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Latentno semantičko indeksiranje (LSI) Ana Cvitaš Mentor: Bojana Dalbelo Bašić Verzija: 1.0 FER, 2004.

  2. Uvod Starije tehnike klasifikacije: traže poklapanje riječi iz upita s riječima iz dokumenata Problem: individualne riječi nisu dovoljne za određivanje sadržaja dokumenta. • Homonimi: imaju višestruko značenje • Sinonimi: više rezličitih izraza za isti pojam

  3. Uvod (nastavak) Rješenje: Latentno semantičko indeksiranje (LSI): Prikaz dokumenata i pojmova pomoću “semantičkog” prostora. (Slični dokumenti međusobno su blizu.) Korištenje SVD-a radi naglašavanje bitnih i ignoriranja nepotrebnih sličnosti.

  4. Primjer Neka se npr. riječi “latentno” i “semantičko” nalaze svaka u 100 dokumenata. U njih 95 neka s nalaze obje riječi. Pretpostavka: Dokument koji sadrži samo riječ “latentno”, također je sadržajno povezan sa pojmom “semantičko”. Cilj: Na upit “semantičko”, LSI mora tekođer vratiti sve dokumente koji sadrže samo pojam “latentno”.

  5. LSI Postupak započinje pravokutnom matricom pojmova i dokumenata. Ona se rastavlja metodom singular-value-decomposition (SVD) u 3 specijalne matrice. Te matrice predstavljaju rastav originalnih zavisnosti u linearno nezavisne komponente. Mnoge komponente su zanemarivo male  sve zavisnosti se mogu prikazati pomoću manjeg broja dimenzija

  6. LSI (prikaz pojmova i dokumenata) Individualni pojmovi i dokumenti su prikazani pomoću vektora. Redukcijom dimenzija dokumenti s različitim riječima mogu se nalaziti blizu u prostoru.

  7. LSI (geometrijska interpretacija) Svaki dokument ili pojam može se prikazati pomoću vektora. Njihova sličnost odgovara skalarnom umnošku ili kosinusu između vektora.

  8. LSI (broj dimenzija) • Potrebno je izbjegavati jako velik, ali i jako mali broj dimenzija. • Nemoguće je matematički odrediti optimalan broj. • Uzima se onaj koji daje najbolje rezultate. • Zbog velikog broja dimenzija  metodu teško vizualno predočiti i razumjeti.

  9. LSI (prikaz upita) • Upit se može prikazati kao pseudo-dokument. • Njegov vektor se dobiva kao suma vektora pojmova koje sadrži. • Traži se kosinus vektora upita i dokumenata  što je veći kosinus, dokument više odgovara upitu. • Rezultat upita: • N najbližih dokumenata ili • Svi dokumenti do određene vrijednosti kosinusa

  10. Tehnički detalji Matrica pojmova i dokumenata X može se prikazati kao: X=T0S0D0’ Tako da su T0 i D0 ortogonalne (T0T0’=I), a S0 dijagonalna matrica. S0 je tako konstruirana da su sve vrijednosti pozitivne i poredane padajućim redosljedom.

  11. Ako su singularne vrijednosti u matrici S0 poredane padajućim redosljedom: • Zadržava se prvih k najvećih vrijednosti, a ostale se postavljaju na 0. Rezultat: matrica X˜ (ranga k)  Po metodi najmanjih kvadrata X˜ je najbliže X

  12. X˜=TSD’

  13. Usporedba objekata • 3 bitne usporedbe: • Sličnosti dva pojma • Sličnosti dva dokumenta i • Povezanosti pojma i dokumenta Matrica X˜ najbolje prezentira matricu X  usporedba na temelju X˜, odnosno T, D i S

  14. Usporedba dva pojma Sličnost pojmova određuje skalarni umnožak redaka matrice X˜. Svi odnosi su vidljivi u matrici X˜X˜’=TS²T’. Element i,j matrice X˜X˜’ može se dobiti i kao skalarni produkt redaka i i j matrice TS.

  15. Usporedba dva dokumenta Sličnost dokumenata određuje skalarni umnožak stupaca matrice X˜. Svi odnosi su vidljivi u matrici X˜’X˜=DS²D’. Element i,j matrice X˜’X˜ može se dobiti i kao skalarni produkt redaka i i j matrice DS.

  16. Usporedba pojma i dokumenta Osnovna usporedba pojma i dokumenta radi se na temelju svakog pojedinog elementa matrice X˜=TSD’. Element i, j može se dobiti kao skalarni produkt i-tog retka matrice TS½ i j-tog retka matrice DS½. nije moguće pomoću istih vektora obavljati usporedbe samih pojmova i dokumenata i njihove međusobne usporedbe.

  17. Usporedba pseudo-dokumenata Xq – početni vektor pseudo-dokumenta Dq – njegov prikaz u reduciranom prostoru Dq=Xq’TS¯¹ Dq se dalje tretira kao bilo koji redak matrice D.

  18. Literatura • S. Deerwester, S. T. Dumais, G. W. Furnas, T. K. Landauer, R. Harshman: Indexing by Latent Semantic Analysis

More Related