1 / 33

ANALISI DEI GRUPPI III

ANALISI DEI GRUPPI III. Argomenti della lezione. Algoritmi gerarchici: legame medio e metodo di Ward. Algoritmi non gerarchici. Determinazione del numero dei gruppi e valutazione dei risultati.

adelio
Download Presentation

ANALISI DEI GRUPPI III

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ANALISI DEI GRUPPI III

  2. Argomenti della lezione • Algoritmi gerarchici: legame medio e metodo di Ward • Algoritmi non gerarchici • Determinazione del numero dei gruppi e valutazione dei risultati

  3. La procedura del legame medio considera la distanza tra due individui come la media aritmetica delle distanze tra tutte le coppie in cui ogni elemento della coppia appartiene a un gruppo diverso Legame medio

  4. dik ∑ ∑ k i d(UV)W = N(UV)NW Le distanze tra il gruppo (UV) e il gruppo Wsono determinate da:

  5. dove dikè la distanza tra l'unità i appartenente al cluster (UV) e l'unità k appartenente al cluster W N(UV) e NW sono rispettivamente il numero degli elementi appartenenti a ciascun gruppo

  6. Metodo di Ward

  7. Secondo questo metodo si riuniscono, ad ogni tappa del processo, i due gruppi dalla cui fusione deriva il minimo incremento della devianza entro. Date nunità statistiche, suddivise inG gruppi di numerosità variabile Ng (g = 1,2,…G) rispetto a p caratteri osservati la devianza totale è pari a:

  8. Dev(totale) = ng p G ∑ ∑ ∑ = ( xikg - xk )2 g=1 i=1 k=1 La devianza totale è scomponibile in devianza entro (within) e devianza tra (between)

  9. Dev(entro) = ng p G ∑ ∑ ∑ = ( xikg - xk )2 g=1 i=1 k=1 La devianza entro è data da

  10. Dev(tra)= p G ∑ ∑ = ( xikg - xk )2 g=1 k=1 e la devianza tra da

  11. ng G 1 ∑ ∑ xk = xikg n g=1 i=1 dove è il valore medio della variabile nell'intero collettivo e

  12. ng 1 ∑ xkg = xikg ng i=1 è il valor medio della stessa variabile nel g-mo gruppo

  13. Metodi non gerarchici

  14. I metodi non gerarchici (o di partizionamento iterativo) mirano a classificare direttamente le n unità in un numero G di gruppi generando una sola partizione. Una volta che sia stato fissato a priori il numero G, le procedure non gerarchiche si articolano nelle fasi seguenti:

  15. determinazione di una partizione iniziale degli n individui inG gruppi (o determinazione dei seed points che costituiscono i nuclei dei gruppi) B A spostamento successivo delle unità tra i G gruppi, in modo da ottenere la partizione che meglio risponde ai concetti di omogeneità interna ai gruppi e di eterogeneità tra gli stessi

  16. Algoritmo di McQueen (o delle k-medie)

  17. si ripartiscono le unità in G gruppi iniziali o si determinano Gcentroidi iniziali A

  18. si esamina la lista delle unità assegnandole rispettivamente al cluster il cui centroide è il più vicino (usualmente si impiega la distanza euclidea). Si ricalcola il centroide sia per il gruppo che riceve la nuova unità che per il gruppo che la cede B

  19. si ripete il passo b) fino a quando non si verificano più cambiamenti di assegnazione ai gruppi C Se si utilizza la distanza euclidea la procedura di McQueen minimizza implicitamente la devianza entro i gruppi relativamente alle p variabili

  20. ESEMPIO Sia dato un insieme di quattro unità (A,B,C,D) sulle quali sono state misurate le variabili x1 e x2

  21. Caratteri Unità x1 x2 5 3 A B -1 1 C 1 -2 D -3 -2 L’obiettivo è di dividere l’insieme in due gruppi connotati dalla massima omogeneità

  22. Caratteri Gruppi x1 x2 (AB) 2 2 (CD) -1 -2 Dividiamo arbitrariamente il collettivo in due gruppi (AB) e (CD) Le coordinate dei centroidi sono rispettivamente

  23. d2(A, (AB) = 10 d2(A, (CD) = 61 Poiche il punto A è piu vicino al centroide del gruppo (AB) rispetto all’altro gruppo non viene effettuata la riassegnazione Calcoliamo la distanza euclidea del punto A da ciascun centroide:

  24. d2(A, (AB) = 10 d2(A, (CD) = 9 Poiché il punto Bè più vicino al gruppo (CD) che al gruppo (AB) si procede alla sua riassegnazione dando origine al gruppo (BCD) Continuiamo calcolando le distanze per il punto B

  25. Caratteri Gruppi x1 x2 A 5 3 (BCD) -1 -1 Le nuove coordinate dei centroidi sono le seguenti:

  26. Di nuovo ciascuna unità è controllata per la riassegnazione. Le distanze di ciascuna unità dai centroidi dei gruppi sono le seguenti

  27. Unità C D Gruppi A B A 0 40 41 89 5 5 4 (BCD) 52 Non è necessaria alcuna riassegnazione e il processo termina

  28. E’ buona norma di comportamento replicare l’applicazione dell’algoritmo utilizzato con diverse partizioni iniziali e scegliere la migliore secondo la regola di ottimizzazione adottata E’ opportuno rappresentare in forma tabellare le coordinate dei centroidi dei gruppi e le varianze interne a ciascun gruppo

  29. A Rappresentazioni grafiche per valutare il numero ottimale di gruppi Individuazione del numero dei gruppi

  30. Distanza tra i due gruppi che si uniscono per le soluzioni da dieci a uno gruppi con l’algoritmo gerarchico di Ward

  31. 10 9 8 7 6 Numero dei gruppi 5 4 3 2 1 400 600 800 900 300 500 700 Distanza tra i gruppi

  32. Analisi degli incrementi della distanza tra gruppi B dg = g-1d – g d (con g = 2,…, n-1) Il numero g per cui è massima la differenza dg identifica il numero ottimo di gruppi, in quanto questi sono ottimamente separati

  33. Rapporto tra la devianza tra i gruppi e la devianza totale C Tale valore è tendenzialmente decrescente al decrescere dei gruppi. Si considera l’aggregazione che mostra l’aggregazione relativa più consistente. La procedura va arrestata al passo che precede tale aggregazione

More Related