620 likes | 757 Views
( Laboratorio di ) Sistemi Informatici Avanzati. Giuseppe Manco. Search. Approcci alle reti di grandi dimensioni. Heavy-tails e power laws ( su scale di grandi imensioni ): forte eterogeneità locale, mancanza di struttura base per i modelli preferential attachment
E N D
(Laboratorio di )SistemiInformaticiAvanzati Giuseppe Manco
Approcciallereti di grandidimensioni Heavy-tails e power laws (su scale di grandiimensioni): • forte eterogeneità locale, mancanza di struttura • base per imodellipreferential attachment Local clustering/structure (su scale di piccoledimensioni): • situazionilocalihannounastruttura “geometrica” • punto di partenza per modellismall worldchepartono con una “geometria” globale e aggiungono link random per ottenere un diametro piccolo e preservare la geometria a livello locale
Le problematiche di interesse • Qualisono le statistiche di base (degree distributions, clustering coefficients, diametro, etc.)? • Cisonoraggruppamenti/partizioninaturali? • Come evolvono/rispondonoalleperturbazionile reti? • Come avvengono I processidinmaici - search, diffusion, etc. – nellereti? • Come fare classificazione, regressione, ranking, etc.?
Osservazionisulleretireali • Diametro • Costante • Coefficiente di clustering • Costante • Degree distribution • Power-law
Applicazioni: Search • Small world • Èpossibilenavigare la rete • Preferential attachment • Cisonoalcunigrossi hubs • Come sfruttaretaliinformazioni?
Singular Value Decomposition • Tecnica di decomposizionematriciale • Basatasull’analisispettrale • Tanteapplicazioni
La Singular Value Decomposition (SVD) • Data unamatrice A, m x n, essapuòesseredecomposta come prodotto di trematrici: • p: rango di A • U, V: matriciortogonali (UTU=Im, VTV=In) contenentirispettivamenteivettorisingolaridestri e sinistri di A • ∑: matricediagonalecontenenteivalorisingolari di A, in ordine non-crescente σ1≥σ2≥... ≥σp ≥0
Interpretazione a Layer della SVD m x n A mxn u1vT1 u1vT1 σ1 σ2 + +... = Importanza decrescente
Vettori Singolari, Intuizione I cerchi blu rappresentano m punti nello spazio euclideo. La SVD della matrice mx2 sarà costituita da: - Primo vettore singolare (destro): direzione della varianza max - Secondo vettore singolare (destro): direzione della max varianza dopo aver rimosso la proiezione dei dati lungo il primo vettore singolare
VettoriSingolari, Intuizione • σ1: misura quanta varianza dei dati è “catturata/spiegata” dal primo vettore singolare • σ2: misura quanta varianza dei dati è “catturata/spiegata” dal secondo vettore singolare
Low Rank Approximation • Si tronca la SVD aiprimi k termini: • k= rango della decomposizione • Uk, Vk: matrici ortogonali contenenti rispettivamente i primi k vettori singolari destri e sinistri di A • ∑k: matrice diagonale contenente i primi valori k singolari di A
Proprietà • Anche per matrici con dati positivi, la SVD è mista in segno + + +/- +/- • U e V sono dense • Unicità: nonostante ci siano diversi algoritmi, questi producono la stessa SVD (A troncata) • Proprietà: mantenere i primi k valori singolari di A fornisce la migliore rank-k approximation di A rispetto alla Frobenius norm
Low Rank Approximation • Usa Ak al posto di A ∑kk VT kxn nxn A mxn Umm Ukm ∑ mxn VT nxn ≈
Sommario della Truncated SVD • Pro: • Usare Ak al posto di A implica un aumento delle performance generale degli algoritmi di mining • la riduzione del rumore isola le componenti essenziali della matrice dati • Best rank-k approximation • Ak è unica e ottima secondo la Frobenious norm • Contro: • Storage (Uk e Vk sono dense) • L’interpretazione di U e V è difficile perchè hanno segno misto • Un buon punto di troncamento k è difficile da determinare
Applicazionidella SVD all’analisideidati • Dimensionality reduction: la truncated SVD fornisceunarappresentazionecompressa di dati ad altadimensionalità (con moltiattributi). • La compressione SVD minimizza la perdita di informazione, misurata secondo la Frobenious norm • Se idatioriginalicontengonorumore, la riduzione di dimensionalitàpuòessereconsiderata come unatecnica di attenuazione del rumore • Se fissiamo k=2 o k=3, alloraèpossibileplottare le righe di U. La rappresentazionegraficarendepossibile un’interpretazionevisualedellastruttura del dataset
SVD e Latent Semantic Indexing Affinitàdocumento-concetto
SVD e Latent Semantic Indexing Importanza del concetto
SVD e Latent Semantic Indexing Affinitàtermine-concetto
Riduzione di dimensionalità Varianzalungol’asse v1
Riduzione di dimensionalità • Eliminiamoelementi a bassavarianza
Riduzione di dimensionalità • Eliminiamoglielementi a bassavarianza
Riduzione di dimensionalità • Eliminiamoglielementi a bassavarianza
Riduzione di dimensionalità • Eliminiamoglielementi a bassavarianza
Applicazioni della SVD all’analisi dei dati • Clustering: nello spazio della trasformazione SVD troncata, la relazioni tra i punti sono più evidenti e il processo di clustering ne trae diretto vantaggio • Applicazioni al clustering: • Clustering sul nuovo spazio • Utilizzo diretto delle proprietà dell’SVD • Spectral clustering: i punti che giacciono nel cono intorno al primo asse (prodotto con il primo asse <1/2) sono raggruppati in un cluster • Quelli con la stessa proprietà rispetto al secondo asse vengono raggruppati nel secondo cluster e così via
Applicazioni della SVD all’analisi dei dati • Ranking: • Ogniriga di U puòessererappresentata come un puntonellospazio k-dimensionale. Supponiamo di tracciareunafrecciadall’origine verso ciascunodeipunti • L’angolo (coseno) trai due vettoridenota la correlazionetraipunti • Oggettialtamentecorrelati o altamente non correlati con altripuntitendono a piazzarsiintorno all’origine • Punticollocatilontanodall’originecorrispondono ad oggetticheesibisconounacorrelazioneinusuale con altrioggetti • Punticollocativicino all’originesonomeno“interessanti” • Il rank deglioggettipuòessereeffettuatotenendocontodelladistanzadall’origine
Proprietà (B) • Similaritàdocumento-documento • Similaritàtermine-termine
Proprietà (B) • Inoltre: • v1autovettorerelativo a σ1 (l’autovalorepiùgrande)
Proprietà (C) • Per qualsiasivettore v • Conseguenza: proceduraiterativa per ilcalcolodegliautovettori
Proprietà (C) • Ammettesoluzione
Proprietà (C) • conseguentemente
PCA e MDS • Principal Components Analysis (PCA) • Dati{Xi}i=1,…,ncon Xivettorireali, • trovailsottospaziok-dimensionale P e il mapping Yi=PXi • t.c.. Variance(Y) èmassima (o Error(Y) èminimo) • SVD sullamatrice di covarianza C =XXT • Multidimensional Scaling (MDS) • Dati {Xi}i=1,…,ncon Xivettorireali, • trovailsottospaziok-dimensionale P e il mapping Yi=PXi • t.c. Dist(Yi-Yj) = Dist(Xi-Xj)(ovverodistanzepreservate) • SVD sullamatrice matrix G = XTX
LSI/SVD e power laws • Gliautovaloripiùgrandidellamatrice di adiacenza di un grafo scale-free sonodistribuiti con una power-law.
Caso di Studio: Social Network Analysis • Obiettivo: identificare proprietà e relazioni tra i membri di al Qaeda • Il dataset fornito da Marc Sageman contiene informazioni su 366 membri dell’associazione terorristica all’inizio del 2004 • Attributi:
al Qaeda Dataset • Grafodellerelazioni: 366 nodi e 2171 archi. • Il gradomassimo del grafoè 44, mentrequellomedioè 6.44. • Il diametroè 11 • Bavelas-Leavitt Centrality: rapportotra la sommadeicamminigeodesiciaventi come sorgente/destinazioneilnodoconsiderato e la sommadeicamminigeodesici dell’interodataset
al Qaeda Dataset: Link Analysis • Analisi della matrice di adiacenza 366 x 366 • Contatti e relazioni tra i membri • 4 cluster • Hambali ha un ruolo di connessione • bin Laden non è l’elemento estremo del cluster che identifica la leadership South East Asian Algerians Leaders and core Arabs Plot of the low rank (3) SVD of al Qaeda members using only relationship attribute
SVD e centralità Misural’importanza di un nodo • degree centrality– numero di link di un nodo • betweenness centrality–numero di camminiche lo contengono • closeness centrality - potenziale di comunicazioneindipendente • eigenvector centrality– connessioni a nodi con high-degree, iterativamente
Eigenvector centrality • Riformulato, risultaessere
Struttura del Web Source: David Easley, Jon Kleinberg Networks, Crowds, and Markets, Cambridge University Press (2010)
Struttura del web Source: David Easley, Jon Kleinberg Networks, Crowds, and Markets, Cambridge University Press (2010)