330 likes | 488 Views
ANALISI DEI GRUPPI III. Argomenti della lezione. Algoritmi gerarchici: legame medio e metodo di Ward. Algoritmi non gerarchici. Determinazione del numero dei gruppi e valutazione dei risultati.
E N D
Argomenti della lezione • Algoritmi gerarchici: legame medio e metodo di Ward • Algoritmi non gerarchici • Determinazione del numero dei gruppi e valutazione dei risultati
La procedura del legame medio considera la distanza tra due individui come la media aritmetica delle distanze tra tutte le coppie in cui ogni elemento della coppia appartiene a un gruppo diverso Legame medio
dik ∑ ∑ k i d(UV)W = N(UV)NW Le distanze tra il gruppo (UV) e il gruppo Wsono determinate da:
dove dikè la distanza tra l'unità i appartenente al cluster (UV) e l'unità k appartenente al cluster W N(UV) e NW sono rispettivamente il numero degli elementi appartenenti a ciascun gruppo
Secondo questo metodo si riuniscono, ad ogni tappa del processo, i due gruppi dalla cui fusione deriva il minimo incremento della devianza entro. Date nunità statistiche, suddivise inG gruppi di numerosità variabile Ng (g = 1,2,…G) rispetto a p caratteri osservati la devianza totale è pari a:
Dev(totale) = ng p G ∑ ∑ ∑ = ( xikg - xk )2 g=1 i=1 k=1 La devianza totale è scomponibile in devianza entro (within) e devianza tra (between)
Dev(entro) = ng p G ∑ ∑ ∑ = ( xikg - xk )2 g=1 i=1 k=1 La devianza entro è data da
Dev(tra)= p G ∑ ∑ = ( xikg - xk )2 g=1 k=1 e la devianza tra da
ng G 1 ∑ ∑ xk = xikg n g=1 i=1 dove è il valore medio della variabile nell'intero collettivo e
ng 1 ∑ xkg = xikg ng i=1 è il valor medio della stessa variabile nel g-mo gruppo
I metodi non gerarchici (o di partizionamento iterativo) mirano a classificare direttamente le n unità in un numero G di gruppi generando una sola partizione. Una volta che sia stato fissato a priori il numero G, le procedure non gerarchiche si articolano nelle fasi seguenti:
determinazione di una partizione iniziale degli n individui inG gruppi (o determinazione dei seed points che costituiscono i nuclei dei gruppi) B A spostamento successivo delle unità tra i G gruppi, in modo da ottenere la partizione che meglio risponde ai concetti di omogeneità interna ai gruppi e di eterogeneità tra gli stessi
si ripartiscono le unità in G gruppi iniziali o si determinano Gcentroidi iniziali A
si esamina la lista delle unità assegnandole rispettivamente al cluster il cui centroide è il più vicino (usualmente si impiega la distanza euclidea). Si ricalcola il centroide sia per il gruppo che riceve la nuova unità che per il gruppo che la cede B
si ripete il passo b) fino a quando non si verificano più cambiamenti di assegnazione ai gruppi C Se si utilizza la distanza euclidea la procedura di McQueen minimizza implicitamente la devianza entro i gruppi relativamente alle p variabili
ESEMPIO Sia dato un insieme di quattro unità (A,B,C,D) sulle quali sono state misurate le variabili x1 e x2
Caratteri Unità x1 x2 5 3 A B -1 1 C 1 -2 D -3 -2 L’obiettivo è di dividere l’insieme in due gruppi connotati dalla massima omogeneità
Caratteri Gruppi x1 x2 (AB) 2 2 (CD) -1 -2 Dividiamo arbitrariamente il collettivo in due gruppi (AB) e (CD) Le coordinate dei centroidi sono rispettivamente
d2(A, (AB) = 10 d2(A, (CD) = 61 Poiche il punto A è piu vicino al centroide del gruppo (AB) rispetto all’altro gruppo non viene effettuata la riassegnazione Calcoliamo la distanza euclidea del punto A da ciascun centroide:
d2(A, (AB) = 10 d2(A, (CD) = 9 Poiché il punto Bè più vicino al gruppo (CD) che al gruppo (AB) si procede alla sua riassegnazione dando origine al gruppo (BCD) Continuiamo calcolando le distanze per il punto B
Caratteri Gruppi x1 x2 A 5 3 (BCD) -1 -1 Le nuove coordinate dei centroidi sono le seguenti:
Di nuovo ciascuna unità è controllata per la riassegnazione. Le distanze di ciascuna unità dai centroidi dei gruppi sono le seguenti
Unità C D Gruppi A B A 0 40 41 89 5 5 4 (BCD) 52 Non è necessaria alcuna riassegnazione e il processo termina
E’ buona norma di comportamento replicare l’applicazione dell’algoritmo utilizzato con diverse partizioni iniziali e scegliere la migliore secondo la regola di ottimizzazione adottata E’ opportuno rappresentare in forma tabellare le coordinate dei centroidi dei gruppi e le varianze interne a ciascun gruppo
A Rappresentazioni grafiche per valutare il numero ottimale di gruppi Individuazione del numero dei gruppi
Distanza tra i due gruppi che si uniscono per le soluzioni da dieci a uno gruppi con l’algoritmo gerarchico di Ward
10 9 8 7 6 Numero dei gruppi 5 4 3 2 1 400 600 800 900 300 500 700 Distanza tra i gruppi
Analisi degli incrementi della distanza tra gruppi B dg = g-1d – g d (con g = 2,…, n-1) Il numero g per cui è massima la differenza dg identifica il numero ottimo di gruppi, in quanto questi sono ottimamente separati
Rapporto tra la devianza tra i gruppi e la devianza totale C Tale valore è tendenzialmente decrescente al decrescere dei gruppi. Si considera l’aggregazione che mostra l’aggregazione relativa più consistente. La procedura va arrestata al passo che precede tale aggregazione