1 / 27

LATENT SEMANTIC INDEXING

LATENT SEMANTIC INDEXING. Limiti della ricerca per parole chiave. I metodi di ranking tradizionali calcolano l’attinenza di un documento ad una query sulla base della presenza o meno di parole contenute nella query: un termine o è presente o non lo è

keelty
Download Presentation

LATENT SEMANTIC INDEXING

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. LATENT SEMANTIC INDEXING

  2. Limiti della ricerca per parole chiave • I metodi di ranking tradizionali calcolano l’attinenza di un documento ad una query sulla base della presenza o meno di parole contenute nella query: un termine o è presente o non lo è • Nel LSI la ricerca avviene per concetti: ma un concetto non è l’astrazione-generalizazzione di un termine (es: golf vestiario) bensì un insieme di termini correlati (golf, maglia, vestito) detti co-occorrenze o dominio semantico

  3. Data una collezione di documenti, LSI è in grado di rilevare che alcune n-uple di termini co-occorrono frequentemente (es: n-dimensional, manifold and topology) • Se viene fatta una ricerca con n-dimensional, manifoldvengono “automaticamente” recuperati documenti che contengono anche (e eventualmente solo!) topology Dominio Semantico k

  4. Base di documenti (20) Office Pen Desk Petrol VDU Golf Car Topgear Petrol GTI Fish Pond gold Petrol Koi Motor Bike Oil Petrol Tourer PC Dell RAM Petrol Floppy Friend Pal Help Petrol Can Golf Car Clarkson Petrol Badge Bed lace legal Petrol button Core Petrol Apple Pip Tree soft Petrol cat line yellow Golf Petrol Topgear Polo Red Paper Petrol Paste Pencil Roof Pea Pod Fresh Green French Card Stamp Glue Happy Send Golf Tiger Woods Belfry Tee wind full sail harbour beach Car Petrol Topgear GTI Polo Toil Petrol Work Time Cost report Petrol Topgear June Speed Lupin Petrol Seed May April Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Selezione dei documenti basata sul termine ‘Golf’ con il modello keyword vengono estratti 4 documenti

  5. Tutti i 20 documenti Fish Pond gold Petrol Koi Office Pen Desk Petrol VDU Golf Car Topgear Petrol GTI Motor Bike Oil Petrol Tourer Bed lace legal Petrol button PC Dell RAM Petrol Floppy Friend Pal Help Petrol Can Golf Car Clarkson Petrol Badge Paper Petrol Paste Pencil Roof Golf Petrol Topgear Polo Red Core Petrol Apple Pip Tree soft Petrol cat line yellow Pea Pod Fresh Green French Card Stamp Glue Happy Send Golf Tiger Woods Belfry Tee wind full sail harbour beach Car Petrol Topgear GTI Polo Lupin Petrol Seed May April report Petrol Topgear June Speed Toil Petrol Work Time Cost rank dei doc selezionati Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car 2 *(20/3) = 13 Topgear 2 *(20/3) = 13 Petrol 3 *(20/16) = 4 Selezione basata su ‘Golf’ vediamo quali sono le parole più rilevanti associate a Golf di questi 4 documenti. Esse sono: Car, Topgear and Petrol

  6. Tutti i 20 documenti Fish Pond gold Petrol Koi Office Pen Desk Petrol VDU Golf Car Topgear Petrol GTI Motor Bike Oil Petrol Tourer Bed lace legal Petrol button PC Dell RAM Petrol Floppy Friend Pal Help Petrol Can Golf Car Clarkson Petrol Badge Paper Petrol Paste Pencil Roof Golf Petrol Topgear Polo Red Core Petrol Apple Pip Tree soft Petrol cat line yellow Pea Pod Fresh Green French Card Stamp Glue Happy Send Golf Tiger Woods Belfry Tee wind full sail harbour beach Car Petrol Topgear GTI Polo Lupin Petrol Seed May April report Petrol Topgear June Speed Toil Petrol Work Time Cost rank dei doc selezionati Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car 2 *(20/3) = 13 Topgear 2 *(20/3) = 13 Petrol 3 *(20/16) = 4 Selezione basata su ‘Golf’ poiché le parole sono pesate anche rispettoal loro idf, risulta che : Car e Topgear sono associate a Golf più di Petrol

  7. Tutti i 20 documenti Golf Car Topgear Petrol GTI Office Pen Desk Petrol VDU Fish Pond gold Petrol Koi Motor Bike Oil Petrol Tourer PC Dell RAM Petrol Floppy Bed lace legal Petrol button Friend Pal Help Petrol Can Golf Car Clarkson Petrol Badge Paper Petrol Paste Pencil Roof Core Petrol Apple Pip Tree soft Petrol cat line yellow Golf Petrol Topgear Polo Red wind full sail harbour beach Golf Tiger Woods Belfry Tee Pea Pod Fresh Green French Card Stamp Glue Happy Send Car Petrol Topgear GTI Polo Toil Petrol Work Time Cost report Petrol Topgear June Speed Lupin Petrol Seed May April rank dei doc selezionati Selezione basata su ‘Golf’ Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car 2 *(20/3) = 13 Topgear 2 *(20/3) = 13 Petrol 3 *(20/16) = 4 selezione basata sul dominio semantico Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Wheel Topgear GTI Polo Ora cerchiamo ancora nella base di documenti, usando questo insieme di parole che rappresentano il dominio semantico di Golf . La lista ora include un nuovo documento, non catturato sulla base della semplice ricerca per keywords.

  8. Tutti i 20 documenti Motor Bike Oil Petrol Tourer Golf Car Topgear Petrol GTI Fish Pond gold Petrol Koi Office Pen Desk Petrol VDU Friend Pal Help Petrol Can Bed lace legal Petrol button Golf Car Clarkson Petrol Badge PC Dell RAM Petrol Floppy Core Petrol Apple Pip Tree soft Petrol cat line yellow Paper Petrol Paste Pencil Roof Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Pea Pod Fresh Green French wind full sail harbour beach Card Stamp Glue Happy Send Car Petrol Topgear GTI Polo Toil Petrol Work Time Cost Lupin Petrol Seed May April report Petrol Topgear June Speed rank dei doc selezionati Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car 2 *(20/3) = 13 Topgear 2 *(20/3) = 13 Petrol 3 *(20/16) = 4 Golf Car Topgear Petrol GTI Golf Car Clarkson Petrol Badge Golf Petrol Topgear Polo Red Golf Tiger Woods Belfry Tee Car Wheel Topgear GTI Polo Rank 30 17 17 0 26 Usando un ranking basato sulla co-occorrenza dei termini possiamo assegnare un miglior ranking ai documenti. Notate che: il documento più rilevante non contiene la parola Golf, e che uno dei documenti che la conteneva scompare (era infatti un senso “spurio”di Golf). Selezione basata su ‘Golf’ selezione basata sul dominio semantico

  9. Un esempio (fasi di elaborazione di un documento nel Vector Model) Documento originale O'Neill Criticizes Europe on Grants PITTSBURGH (AP) Treasury Secretary Paul O'Neill expressed irritation Wednesday that European countries have refused to go along with a U.S. proposal to boost the amount of direct grants rich nations offer poor countries. The Bush administration is pushing a plan to increase the amount of direct grants the World Bank provides the poorest nations to 50 percent of assistance, reducing use of loans to these nations. 1. Tokenizzazione o'neill criticizes europe on grants treasury secretary paul o'neill expressed irritation wednesday that european countries have refused to go along with a us proposal to boost the amount of direct grants rich nations offer poor countries the bush administration is pushing a plan to increase the amount of direct grants the world bank provides the poorest nationsto 50 percent of assistance reducing use of loans to these nations

  10. 2. Eliminazione Stop Words o'neill criticizes europe on grants treasury secretary paul o'neill expressed irritation wednesday that european countries have refused to go along with a US proposal to boost the amount of direct grants rich nations offer poor countries the bush administration is pushing a plan to increase the amount of direct grants the world bank provides the poorest nations to 50 percent of assistance reducing use of loans to these nations information -> inform presidency -> presid presiding -> presid happiness -> happi happily -> happi discouragement -> discourag battles -> battl 3. Stemming

  11. administrat amount assist bank boost bush countri (2) direct europ express grant (2) increas irritat loan nation (3) o'neill paul plan poor (2) propos push refus rich secretar treasuri US world 4. Costruzione del Vettore di termini

  12. Documenti:a b c d e f g h i j k l m n o p q r { 3000 ulteriori colonne } aa 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ... amotd 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ... aaliyah 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ... aarp 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 ... ab 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ... ... zywicki 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 ... 5. Matrice termini-documenti (per tutti i documenti) termini

  13. Documenti:a b c d e f g h i j k l m n o p q r { 3000 ulteriori colonne } aa 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ... amotd 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ... aaliyah 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ... aarp 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,321 0 0 0 ... ab 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ... ... zywicki 0 0 0 0 0,4 0 0 0 0 0 0 0 0 0 0 0 0 0 ... termini 6) Pesatura dei termini (es. tf*idf normalizzato)

  14. Osservazione • La maggioranza delle celle della matrice sono zero • La dimensionalità della matrice è elevata (t) • Con i metodi classici ogni documento o query è un vettore in uno spazio t-dimensionale • LSI tenta di proiettare questo spazio in uno spazio di dimensione ridotta, in cui, anziché termini, le dimensioni rappresentano co-occorrenze o dominii semantici • Tutte le possibili co-occorrenze sarebbero assai di più dei termini singoli: ma il metodo della singular value decomposition utilizzato da LSI consente di eliminare le co-occorrenze non significative

  15. Latent Semantic Indexing: concetti Singular Value Decomposition Definisci X come la matrice termini-documenti, con t righe (numero delle keywords) e N colonne (numero dei documenti). Data una qualsiasi matrice txN, esistono 3 matrici T, S e D', tali che: X = T0S0D0' T0 e D0 sono le matrici dei vettori singolari (eigenvectors) sinistro e destro i X T0 e D0 le colonne di T0 e le righe di D0 definiscono uno spazio ortonormale S0 è la matrice diagonale dei valori singolari diX

  16. e Autovalori e autovettori • http://www.sosmath.com/matrix/eigen0/eigen0.html • http://www.cs.ut.ee/~toomas_l/linalg/lin2/node14.html • Definizione: se A è una matrice nxm un vettore C si chiama un autovettore di A se e solo se esiste un numero l tale che AC= lC ,e l è detto autovalore

  17. Vettori singolari • Matrice aggiunta o coniugata trasposta • aij coniugato complesso di aij • Se aij (i,j)  A*=AT • Valori singolari di S: , radici degli autovalori di XTX • Vettori singolari destri: n autovettori di XT X • Vettori singolari sinistri: m autovettori di XXT • Dettagli http://www.cs.utk.edu/~dongarra/etemplates/node18.html

  18. Esempio (2) Termini e Documenti TerminiDocumenti c1 c2 c3 c4 c5 m1 m2 m3 m4 human 1 0 0 1 0 0 0 0 0 interface 1 0 1 0 0 0 0 0 0 computer 1 1 0 0 0 0 0 0 0 user 0 1 1 0 1 0 0 0 0 system 0 1 1 2 0 0 0 0 0 response 0 1 0 0 1 0 0 0 0 time 0 1 0 0 1 0 0 0 0 EPS 0 0 1 1 0 0 0 0 0 survey 0 1 0 0 0 0 0 0 1 trees 0 0 0 0 0 1 1 1 0 graph 0 0 0 0 0 0 1 1 1 minors 0 0 0 0 0 0 0 1 1 X

  19. Decomposizione SVD documenti termini

  20. 3.34 2.54 2.35 1.64 1.50 1.31 0.85 0.56 0.36 S0

  21. ~ ~ Riduzione del rango Gli elementi diagonali in S0 sono positivi e decrescenti in grandezza. Si prendono i primi k e gli altri vengono posti a zero. Si cancellano le righe e le colonne zero di S0 e le corrispondenti righe e colonne di T0 e D0. Si ottiene: X X = TSD' Interpretazione Se il valore k è selezionato opportunamente, l’aspettativa è che la nuova matrice mantenga l’informazione semantica di X, ma elimini il rumore derivante dalla sinonimia (perché sensi diversi avranno co-occorrenze diverse) e riconosca la dipendenza fra termini co-occorrenti. ^

  22. Selezione dei valori singolari t x d t x k k x k k x d S D' ^ = X T k è il numero di valori singolari scelti per rappresentare i concetti nell’insieme dei documenti In genere, k« m.

  23. Confronto fra termini ^ Il prodotto scalare di due righe di X riflette il fatto che due termini abbiano contesti di occorrenza più o meno simili ^ ^ XXT= TSDT(TSDT) T = TSDTDSTTT poichè D è ortonormale = TS(TS) T Per calcolare la cella i, j, si fa il prodotto scalare fra le righe i e j di TS

  24. Confronto fra documenti ^ Il prodotto scalare di due colonne di X ci informa di quanto due colonne abbiano contesti di occorrenza comuni. ^ ^ XTX = (TSDT) TTSDT = DS(DS) T Per calcolare le cellei, j, si esegue il prodotto scalare fra le colonne i e j di DS.

  25. Confronto fra termini e documenti Il confronto fra un termine e un documento è rappresenatto dal valore di una cella X. X = TSD' = TS(DS)' dove S è una matrice diagonale i cui valori sono la radice quadrata dei corrispondenti elementi di S. ^ - - -

  26. Esempio: Query Terms Query xq human 1 interface 0 computer 0 user 0 system 1 response 0 time 0 EPS 0 survey 0 trees 1 graph 0 minors 0 Query: "humansystem interactions on trees" Nello spazio termini-documenti, una query è rappresentata da xq, un vettore t x 1. Nello spazio dei concetti, una query è rappresentata da dq, un vettore 1 x k.

  27. Query Per il ranking dei documenti ripetto alla query, semplicemente si considera la query come uno pseudo-documento, e lo si modella come la la prima colonna della matrice (d0=q) X Quindi, la prima riga della matrice fornisce il ranking dei documenti ripetto alla query.

More Related