Analisi dei gruppi – Cluster Analisys

Analisi dei gruppi – Cluster Analisys Con analisi dei gruppi si definiscono molte tecniche di analisi multivariata Obiettivo di queste tecniche è assegnare i casi (le unità) di una matrice di dati ad un numero ristretto di gruppi, massimizzando l’omogeneità all’interno dei gruppi e massimizzando l’eterogeneità tra i gruppi Ciò è possibile attraverso l’uso di variabili discriminanti o variabili criterio e attraverso l’individuazione del metodo per arrivare a questa classificazione in gruppi.

Analisi dei gruppi (adg) La scelta delle variabili criterio sulle quali operare la classificazione è il momento cruciale dell’adg Sta al ricercatore scegliere le variabili adatte: il ricercatore deve fare ricorso alla sua conoscenza del fenomeno in esame. A livello computazionale e matematico i software applicano tutte le tecniche di analisi multivariata generando dei risultati. Sta al ricercatore valutare se i risultati sono buoni e se la tecnica applicata porta dei miglioramenti per l’interpretazione del fenomeno.

Analisi dei gruppi (adg) A livello computazionale esiste una difficoltà di calcolo: applicare una adg su una matrice di 1000/2000 unità e 200/300 variabili risulta poco possibile. Per questo solitamente si opera una riduzione sulle variabili e si applica la adg sui risultati dall’analisi delle componenti principali o sui risultati dell’analisi delle corrispondenze multiple. Se l’acm ha operato una riduzione delle variabili (passando da m variabili a pochi fattori, di solito 3 o 4), l’adg opera una riduzione sulle unità passando da n unità a k gruppi Si raggiunge così la massima economia di rappresentazione dei risultati

Fasi dell’adg • Scelta delle variabili con le quali discriminare i casi (le unità) • Costruzione di una matrice di distanza (quadrata e simmetrica) dove si riportano tutte le distanze tra i casi. • Scelta della tecnica per aggregare i casi • Interpretazione di risultati Ci sono centinaia di tecniche di aggregazione e possono essere usate anche diversi tipi di distanza. Nelle tecniche classiche, l’assegnazione delle unità ai gruppi è univoca o mutuamente esclusiva (una unità appartiene ad un solo gruppo) ed esaustiva (ogni unità deve essere assegnata ad un gruppo) Nelle tecniche basate sulla logica fuzzy gli insiemi possono essere sfocati e le appartenenze possono essere multiple.

Famiglie di tecniche di adg Le varie tecniche che si possono utilizzare si basano su: • Il coefficiente usato per calcolare la matrice di distanza • Il criterio per la costruzione dei gruppi La distanza tra i casi è calcolata soltanto sulle variabili inserite nell’analisi. La più comune distanza utilizzata per le variabili quantitative è la distanza euclidea. Generalizzando la distanza euclidea tra due casi (due unità) rispetto ad un numero m di variabili si calcola come radice quadrata della somma di tutte le differenze tra i valori dei due casi per ogni m variabile

Proprietà della distanza Altre distanze, che sono leggere variazioni della distanza euclidea sono la distanza di Manhattan, la distanza di Mahalanobis, la distanza di Minkovski. In ogni caso la distanza ha le seguenti proprietà: • La distanza di una unità da se stessa è nulla • La distanza tra due casi è speculare (la distanza tra a e b è uguale alla distanza tra b e a) • Tra le distanze vale la disuguaglianza triangolare

Tecniche di classificazione Una volta decisa la distanza si deve decidere la tecnica di clustering da applicare. Si hanno tecniche gerarchiche e tecniche non gerarchiche Le tecniche gerarchiche procedono: • per aggregazioni successive partendo da n unità (n gruppi di partenza) fino ad arrivare ad un gruppo unico che contiene tutte le unità. Un gruppo formato non si può più sciogliere - tecniche gerarchiche aggregative • per scissioni successive partendo da un gruppo unico che contiene tutte le unità fino ad arrivare a n gruppi (ossia alle n unità della matrice di dati) - tecniche gerarchiche scissorie

Tecniche gerarchiche aggregative • Si costruisce la matrice delle distanza • Si considerano all’inizio n gruppi = n unità • Si aggregano i gruppi che risultano più vicini e, dopo ogni aggregazione, si ricalcola la matrice delle distanze • Si reitera il processo fino a n-1 volte, ossia fino a formare un unico gruppo La rappresentazione grafica di questi passaggi si chiama dendogramma Sarà il ricercatore a scegliere la partizione di gruppi migliore

Criterio di aggregazione I criteri di aggregazione possono essere di vario tipo: • Criterio del legame singolo: dalla matrice delle distanze si individuano i gruppi più vicini che si fondono insieme a formare un nuovo gruppo. Successivamente si ricalcola la matrice delle distanze in modo che contenga anche le distanze dei gruppi rimasti dal nuovo gruppo. La distanza tra il gruppo formato e i gruppi sarà data dalla distanza minore tra le distanze dei gruppi che si sono aggregati. • Criterio del legame completo: dalla matrice delle distanze si individuano i gruppi più vicini che si fondono insieme a formare un gruppo. Successivamente si ricalcola la matrice delle distanze in modo che contenga anche le distanze dei gruppi rimasti dal nuovo gruppo. La distanza tra il gruppo e i gruppi sarà data dalla distanza maggiore tra le distanze dei gruppi che si sono aggregati.

Criterio di aggregazione I criteri di aggregazione possono essere di vario tipo: • Criterio del legame medio: dalla matrice delle distanze si individuano i gruppi più vicini che si fondono insieme a formare un gruppo. Successivamente si ricalcola la matrice delle distanze in modo che contenga anche le distanze dei gruppi rimasti dal nuovo gruppo. Per determinare la distanza tra i gruppi si calcola la media delle distanze tra tutte le coppie (considerate una sola volta) di casi che appartengono ai gruppi. Es. gruppo formato da AB e gruppo formato da CD, la distanza sarà la media tra le distanze (A da C), (A da D), (B da C), (B da D).

Criterio di aggregazione • Criterio della media dentro i gruppi: unisce i gruppi facendo si che la distanza media tra tutti i casi a due a due interni ad un gruppo sia la minore possibile. • Criterio della mediana: calcola la mediana all’interno di ogni gruppo; la distanza tra i gruppi è pari alla distanza tra le mediane dei gruppi • Criterio di Ward: ogni nuova aggregazione porta una aumento della varianza per ogni variabile. Si aggregano quindi i casi che minimizzano questo incremento di varianza. • Criterio del centroide: per ogni gruppo si calcola il centroide (baricentro) che è la media delle coordinate di tutti i casi che fanno parte del gruppo: si calcola la distanza tra i centroidi.

Vantaggi e svantaggi tecniche gerarchiche • Danno una visione di insieme dei casi • Non richiedono una scelta a priori del numero di gruppi, posso scegliere in un secondo tempo il numero • Non possono trattare gran numero di casi • Non è possibile scindere i gruppi una volta che si sono formati

Tecniche di aggregazione non gerarchiche Le tecniche non gerarchiche, dette anche a partizioni ripetute, conducono direttamente da n casi a k gruppi, con k fissato a priori. Si possono usare tecniche migliorative di riallocazione delle unità. Il ricercatore stabilisce a priori la partizione iniziale, imponendo i centri dei gruppi iniziali. Se la nuvola di punti unità presenta dei cluster naturali (cioè dei gruppi separati tra loro) è facile definire e indicare i gruppi di partenza. In caso contrario (solitamente il più frequente) si possono scegliere casualmente i centri di partenza. Se non esistono cluster naturali è meglio procedere con delle tecniche esplorative iniziali per vedere le relazioni tra i gruppi.

Tecniche di aggregazione non gerarchiche Le tecniche per spostare casi da un gruppo all’altro sono: • Tecniche di aggregazione intorno a centri mobili (o k-medie): si calcolano i centroidi dei gruppi e si spostano via via le unità che si trovano più vicine ad un centroide di un altro gruppo. Il procedimento di interrompe quando non ci sono più spostamenti. • Tecniche delle nuvole dinamiche: è simile al precedente soltanto che invece di definire il gruppo con un solo punto, ossia il centroide, si definisce il gruppo in base ad un nucleo centrale costituito da più casi e individuato a priori perché significativo del gruppo. • Tecniche che si basano sull’ottimizzazione di una funzione obiettivo: si realizzano gli spostamenti tra unità nei gruppi fino a quando si registra un miglioramento nella funzione obiettivo. Le funzioni obiettivo servono a costituire gruppi il più possibile omogenei al loro interno, ossia dove sia minima la varianza, mentre sia massima l’eterogeneità tra i gruppi e quindi la varianza tra i gruppi (la varianza totale del collettivo esaminato è data dalla varianza interna ai gruppi più la varianza esterna)

Vantaggi e svantaggi tecniche non gerarchiche • Possono trattare grandi matrici di dati • Bisogna determinare a priori il numero di gruppi

operativamente Quando si ha una matrice di dati in cui le unità non sono gli individui ma sono ad esempio, le regioni, i comuni, gli stati ecc. si parla di dati su unità ecologiche e si parla di tipologie macro. Il ricercatore ha in questo caso molte notizie in più che possono indirizzarlo nell’analisi Quando si ha una matrice di dati in cui le unità sono gli individui si parla di tipologia micro. La lettura micro e macro dei risultati è leggermente diversa

Lettura dei risultati Per ogni gruppo si individuano: a livello macro - le unità che ne fanno parte; a livello micro – la % di individui nel gruppo Si individuano per ogni gruppo le caratteristiche peculiari del gruppo attraverso le seguenti frequenze: • La percentuale Mod/Cla cioè la % che esprime il numero di casi che presentano la modalità all’interno del gruppo in riferimento al numero di casi nel gruppo; • La percentuale Cla/Mod cioè la % che esprime il numero di casi che presentano la modalità all’interno del gruppo in riferimento a quanti la presentano nel collettivo totale; • La percentuale Global cioè la % della modalità nel collettivo.

Analisi dei gruppi – Cluster Analisys