1 / 39

ANALISI DEI GRUPPI seconda parte

ANALISI DEI GRUPPI seconda parte. Argomenti della lezione. Distanze. Metodi gerarchici: legame singolo e legame completo. Per i dati di tipo quantitativo si ricorre alle distanze. identità d ii = 0. simmetria d ij = dji. non negatività d ij ≥ = 0.

christmas
Download Presentation

ANALISI DEI GRUPPI seconda parte

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ANALISI DEI GRUPPI seconda parte

  2. Argomenti della lezione • Distanze • Metodi gerarchici: legame singolo e legame completo

  3. Per i dati di tipo quantitativo si ricorre alle distanze

  4. identità dii= 0 simmetria dij= dji non negatività dij≥ = 0 disuguaglianza triangolare dil + dlj ≤ = dij Una distanza possiede le seguenti proprietà:

  5. p 1/r r  rdij = xik - xjk k=1 Distanza di Minkowski

  6. p 1/r 2  2dij = xik - xjk k=1 Per r = 2si ha la distanza euclidea

  7. p p 1/2   shk = dij (xik - xjk) (xih - xjh) k=1 h=1 Distanza di Mahalanobis in cui shk indica il generico elemento della matrice inversa delle varianze-covarianze tra le pvariabili

  8. d12 d1n 0 d21 0 … d2n D = … … … … … dn1 0 dn2 Matrice delle dissomiglianze

  9. Gli algoritmi gerarchici procedono sia per mezzo di una serie di aggregazioni successive o una serie di successive divisioni. Gli algoritmi aggregativi iniziano con tutte le unità distinte, così vi sono tanti gruppi quanti sono gli oggetti da classificare Algoritmi gerarchici

  10. I passaggi di un algoritmo aggregativo gerarchico applicato ad un insieme di nunità sono i seguenti:

  11. Si inizia con ngruppi contenenti ciascuno una sola unità e una matrice di distanze simmetrica nxn 2 1 Si individua nella matrice delle distanze la coppia più vicina (più simile), ad esempio quella formata dai gruppi U e V

  12. Si raggruppano U e V in un unico gruppo etichettato come (UV). Si aggiorna la matrice delle distanze cancellando le righe e le colonne corrispondenti ai clusters U e V e aggiungendo una riga e una colonna che riporta le distanze tra il gruppo (UV) e i restanti clusters 3

  13. Si ripetono i passi 2 e 3 per un totale di n-1 volte. Tutti gli oggetti sono raggruppati in un unico gruppo al termine della procedura. 4

  14. Metodi di aggregazione gerarchica: • legame semplice • legame completo • legame medio • di Ward

  15. Distanza tra gruppi (dissimilarità) per (a) legame singolo, (b) legame completo, e (c) legame medio

  16. 3 1 4 d24 5 2 (a) 3 1 d15 4 5 2 (b) 3 1 4 5 2 (c) d13+d14 +d15 +d23 +d24 +d25 6 Cluster distance

  17. Legame semplice Le distanze tra i gruppi sono formate considerando la più piccola delle distanze istituibili a due a due tra tutti gli elementi dei due gruppi: d(UV)W = min [ dUW , dVW]

  18. individui A B C D E A 0 B 9 0 C 3 7 0 D 6 5 9 0 E 11 10 2 8 0 Esempio Passo 1

  19. I due individui più vicini sono l'individuo Ce l'individuo E min ij (dij) = dCE = 2

  20. Passo 2 d(CE),A = min [ d CA, d EA] = min [3,11] =3 d(CE),B = min [ d CB, d EB] = min [7,10] =7 d(CE),D = min [ d CD, d ED] = min [9,8] =8 Le distanze tra il gruppo (CE) e i rimanenti oggetti sono calcolate con il metodo del legame singolo:

  21. (CE) A B D (CE) 0 3 0 A 0 B 7 9 D 0 8 6 5 Si ottiene quindi la nuova matrice delle dissomiglianze

  22. Passo 3 d (ACE)B = min [d(CE)B, d AB] = min[7,9] = 7 d (ACE)D = min [d(CE)D, d AD] = min[8,6] =6 La distanza minima è ora quella d(CE)A = 3 e quindi uniamo il gruppo A al gruppo CE. Procediamo successivamente a calcolare le nuove distanze:

  23. B D (ACE) (ACE) 0 7 0 B 0 D 6 5 La nuova matrice delle dissomiglianze è la seguente:

  24. Passo 4 d(ACE)(BD) = min [d(ACE)B, d(ACE),D] = = min [7,6] = 6 Ora la distanza minore tra i cluster è dBD =5, e a questo punto otteniamo due gruppi, (ACE) e (BD). La loro distanza secondo la regola del legame singolo è

  25. (BD) (ACE) (ACE) 0 6 (BD) 0 La matrice finale è la seguente:

  26. Passo 5 La fusione finale avviene quindi ad una distanza pari 6

  27. I risultati di una procedura di cluster gerarchica possono essere rappresentati dal dendrogrammao diagramma ad albero I rami dell'albero rappresentano i cluster. I rami si uniscono in nodi le cui posizioni lungo l'asse delle distanze (o delle dissomiglianze) indicano il livello in cui avviene la fusione

  28. 6 4 Distanza 2 0 1 3 5 2 4 Individui Dendrogramma della procedura di aggregazione con il legame singolo

  29. Legame completo

  30. Ad ogni passo la distanza (similarità)tra i gruppi è stabilita considerando i due elementi più lontani (dissimili) nei due gruppi. In questo modo la procedura del legame completo assicura che tutti gli elementi all'interno di un gruppo siano comprese ad una distanza massima (o somiglianza minima) l'uno dall'altro d(UV)W = max [dUW, dVW]

  31. individui A B C D E A 0 B 9 0 C 3 7 0 D 6 5 9 0 E 11 10 2 8 0 Esempio Passo 1

  32. I due individui più vicini sono l'individuo Ce l'individuo E min ij (dij) = dCE = 2

  33. Passo 2 d(CE),A = max [ d CA, d EA] = max [3,11] =11 d(CE),B = max [ d CB, d EB] = max [7,10] =10 d(CE),D = max [ d CD, d ED] = max [9,8] =9 Calcoliamo le distanze tra il gruppo (CE) e i restanti con il metodo del legame completo

  34. (CE) A B D (CE) 0 11 0 A 0 B 10 9 D 0 9 6 5 La nuova matrice delle distanze è la seguente:

  35. Passo 3 d(BD)(CE) = max [d B(CE), d D(CE)] == max =[10,9] =10 La fusione successiva avviene tra i gruppi B e D. Le nuove distanze da calcolare sono le seguenti:

  36. (BD) A (ACE) (ACE) 0 10 0 (BD) 0 A 11 9 e la matrice delle distanze è la seguente:

  37. Passo 4 La fusione seguente produce il gruppo (ABD). Nel passo finale i gruppi (CE) e (ABD) sono raggruppati nella fusione finale. Il dendrogramma che rappresenta la procedura di aggregazione è il seguente

  38. Dendrogramma della procedura di aggregazione con il legame completo

  39. 12 10 8 Distanze 6 4 2 0 5 1 2 4 3 Individui

More Related