1 / 62

( Laboratorio di ) Sistemi Informatici Avanzati

( Laboratorio di ) Sistemi Informatici Avanzati. Giuseppe Manco. Search. Approcci alle reti di grandi dimensioni. Heavy-tails e power laws ( su scale di grandi imensioni ): forte eterogeneità locale, mancanza di struttura base per i modelli preferential attachment

tracey
Download Presentation

( Laboratorio di ) Sistemi Informatici Avanzati

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. (Laboratorio di )SistemiInformaticiAvanzati Giuseppe Manco

  2. Search

  3. Approcciallereti di grandidimensioni Heavy-tails e power laws (su scale di grandiimensioni): • forte eterogeneità locale, mancanza di struttura • base per imodellipreferential attachment Local clustering/structure (su scale di piccoledimensioni): • situazionilocalihannounastruttura “geometrica” • punto di partenza per modellismall worldchepartono con una “geometria” globale e aggiungono link random per ottenere un diametro piccolo e preservare la geometria a livello locale

  4. Le problematiche di interesse • Qualisono le statistiche di base (degree distributions, clustering coefficients, diametro, etc.)? • Cisonoraggruppamenti/partizioninaturali? • Come evolvono/rispondonoalleperturbazionile reti? • Come avvengono I processidinmaici - search, diffusion, etc. – nellereti? • Come fare classificazione, regressione, ranking, etc.?

  5. Osservazionisulleretireali • Diametro • Costante • Coefficiente di clustering • Costante • Degree distribution • Power-law

  6. Applicazioni: Search • Small world • Èpossibilenavigare la rete • Preferential attachment • Cisonoalcunigrossi hubs • Come sfruttaretaliinformazioni?

  7. Singular Value Decomposition • Tecnica di decomposizionematriciale • Basatasull’analisispettrale • Tanteapplicazioni

  8. La Singular Value Decomposition (SVD) • Data unamatrice A, m x n, essapuòesseredecomposta come prodotto di trematrici: • p: rango di A • U, V: matriciortogonali (UTU=Im, VTV=In) contenentirispettivamenteivettorisingolaridestri e sinistri di A • ∑: matricediagonalecontenenteivalorisingolari di A, in ordine non-crescente σ1≥σ2≥... ≥σp ≥0

  9. Interpretazione a Layer della SVD m x n A mxn u1vT1 u1vT1 σ1 σ2 + +... = Importanza decrescente

  10. Vettori Singolari, Intuizione I cerchi blu rappresentano m punti nello spazio euclideo. La SVD della matrice mx2 sarà costituita da: - Primo vettore singolare (destro): direzione della varianza max - Secondo vettore singolare (destro): direzione della max varianza dopo aver rimosso la proiezione dei dati lungo il primo vettore singolare

  11. VettoriSingolari, Intuizione • σ1: misura quanta varianza dei dati è “catturata/spiegata” dal primo vettore singolare • σ2: misura quanta varianza dei dati è “catturata/spiegata” dal secondo vettore singolare

  12. Low Rank Approximation • Si tronca la SVD aiprimi k termini: • k= rango della decomposizione • Uk, Vk: matrici ortogonali contenenti rispettivamente i primi k vettori singolari destri e sinistri di A • ∑k: matrice diagonale contenente i primi valori k singolari di A

  13. Proprietà • Anche per matrici con dati positivi, la SVD è mista in segno + + +/- +/- • U e V sono dense • Unicità: nonostante ci siano diversi algoritmi, questi producono la stessa SVD (A troncata) • Proprietà: mantenere i primi k valori singolari di A fornisce la migliore rank-k approximation di A rispetto alla Frobenius norm

  14. Low Rank Approximation • Usa Ak al posto di A ∑kk VT kxn nxn A mxn Umm Ukm ∑ mxn VT nxn ≈

  15. Sommario della Truncated SVD • Pro: • Usare Ak al posto di A implica un aumento delle performance generale degli algoritmi di mining • la riduzione del rumore isola le componenti essenziali della matrice dati • Best rank-k approximation • Ak è unica e ottima secondo la Frobenious norm • Contro: • Storage (Uk e Vk sono dense) • L’interpretazione di U e V è difficile perchè hanno segno misto • Un buon punto di troncamento k è difficile da determinare

  16. Applicazionidella SVD all’analisideidati • Dimensionality reduction: la truncated SVD fornisceunarappresentazionecompressa di dati ad altadimensionalità (con moltiattributi). • La compressione SVD minimizza la perdita di informazione, misurata secondo la Frobenious norm • Se idatioriginalicontengonorumore, la riduzione di dimensionalitàpuòessereconsiderata come unatecnica di attenuazione del rumore • Se fissiamo k=2 o k=3, alloraèpossibileplottare le righe di U. La rappresentazionegraficarendepossibile un’interpretazionevisualedellastruttura del dataset

  17. SVD e Latent Semantic Indexing

  18. SVD e Latent Semantic Indexing

  19. SVD e Latent Semantic Indexing Affinitàdocumento-concetto

  20. SVD e Latent Semantic Indexing Importanza del concetto

  21. SVD e Latent Semantic Indexing Affinitàtermine-concetto

  22. Riduzione di dimensionalità

  23. Riduzione di dimensionalità Varianzalungol’asse v1

  24. Riduzione di dimensionalità • Eliminiamoelementi a bassavarianza

  25. Riduzione di dimensionalità • Eliminiamoglielementi a bassavarianza

  26. Riduzione di dimensionalità • Eliminiamoglielementi a bassavarianza

  27. Riduzione di dimensionalità • Eliminiamoglielementi a bassavarianza

  28. Applicazioni della SVD all’analisi dei dati • Clustering: nello spazio della trasformazione SVD troncata, la relazioni tra i punti sono più evidenti e il processo di clustering ne trae diretto vantaggio • Applicazioni al clustering: • Clustering sul nuovo spazio • Utilizzo diretto delle proprietà dell’SVD • Spectral clustering: i punti che giacciono nel cono intorno al primo asse (prodotto con il primo asse <1/2) sono raggruppati in un cluster • Quelli con la stessa proprietà rispetto al secondo asse vengono raggruppati nel secondo cluster e così via

  29. Raggruppamenti, blocchi

  30. Raggruppamenti, blocchi

  31. Raggruppamenti, blocchi

  32. Applicazioni della SVD all’analisi dei dati • Ranking: • Ogniriga di U puòessererappresentata come un puntonellospazio k-dimensionale. Supponiamo di tracciareunafrecciadall’origine verso ciascunodeipunti • L’angolo (coseno) trai due vettoridenota la correlazionetraipunti • Oggettialtamentecorrelati o altamente non correlati con altripuntitendono a piazzarsiintorno all’origine • Punticollocatilontanodall’originecorrispondono ad oggetticheesibisconounacorrelazioneinusuale con altrioggetti • Punticollocativicino all’originesonomeno“interessanti” • Il rank deglioggettipuòessereeffettuatotenendocontodelladistanzadall’origine

  33. Proprietà (A)

  34. Proprietà (B) • Similaritàdocumento-documento • Similaritàtermine-termine

  35. Proprietà (B) • Inoltre: • v1autovettorerelativo a σ1 (l’autovalorepiùgrande)

  36. Proprietà (C) • Per qualsiasivettore v • Conseguenza: proceduraiterativa per ilcalcolodegliautovettori

  37. Proprietà (C) • Ammettesoluzione

  38. Proprietà (C) • conseguentemente

  39. PCA e MDS • Principal Components Analysis (PCA) • Dati{Xi}i=1,…,ncon Xivettorireali, • trovailsottospaziok-dimensionale P e il mapping Yi=PXi • t.c.. Variance(Y) èmassima (o Error(Y) èminimo) • SVD sullamatrice di covarianza C =XXT • Multidimensional Scaling (MDS) • Dati {Xi}i=1,…,ncon Xivettorireali, • trovailsottospaziok-dimensionale P e il mapping Yi=PXi • t.c. Dist(Yi-Yj) = Dist(Xi-Xj)(ovverodistanzepreservate) • SVD sullamatrice matrix G = XTX

  40. LSI/SVD e power laws • Gliautovaloripiùgrandidellamatrice di adiacenza di un grafo scale-free sonodistribuiti con una power-law.

  41. Caso di Studio: Social Network Analysis • Obiettivo: identificare proprietà e relazioni tra i membri di al Qaeda • Il dataset fornito da Marc Sageman contiene informazioni su 366 membri dell’associazione terorristica all’inizio del 2004 • Attributi:

  42. al Qaeda Dataset • Grafodellerelazioni: 366 nodi e 2171 archi. • Il gradomassimo del grafoè 44, mentrequellomedioè 6.44. • Il diametroè 11 • Bavelas-Leavitt Centrality: rapportotra la sommadeicamminigeodesiciaventi come sorgente/destinazioneilnodoconsiderato e la sommadeicamminigeodesici dell’interodataset

  43. al Qaeda Dataset:

  44. al Qaeda Dataset: Link Analysis • Analisi della matrice di adiacenza 366 x 366 • Contatti e relazioni tra i membri • 4 cluster • Hambali ha un ruolo di connessione • bin Laden non è l’elemento estremo del cluster che identifica la leadership South East Asian Algerians Leaders and core Arabs Plot of the low rank (3) SVD of al Qaeda members using only relationship attribute

  45. SVD e centralità Misural’importanza di un nodo • degree centrality– numero di link di un nodo • betweenness centrality–numero di camminiche lo contengono • closeness centrality - potenziale di comunicazioneindipendente • eigenvector centrality– connessioni a nodi con high-degree, iterativamente

  46. Eigenvector centrality • Riformulato, risultaessere

  47. Il web

  48. Struttura del Web Source: David Easley, Jon Kleinberg Networks, Crowds, and Markets, Cambridge University Press (2010)

  49. Struttura del web Source: David Easley, Jon Kleinberg Networks, Crowds, and Markets, Cambridge University Press (2010)

More Related