290 likes | 452 Views
ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie specifiche. Impieghi della Cluster Analysis. segmentazione del mercato. analisi della concorrenza. analisi della concorrenza.
E N D
La Cluster analysisè uno strumento di classificazionecapace di scomporre una realtà complessa di osservazioni plurime in tipologie specifiche.
Impieghi della Cluster Analysis • segmentazione del mercato • analisi della concorrenza • analisi della concorrenza
La Cluster Analysisè una tecnica di tipo esplorativo e pertanto, a differenza di quanto si verifica con altre tecniche statistiche multivariate, non è necessaria alcuna assunzione a priori sulle tipologie fondamentali esistenti nell'insieme delle unità esaminate
Punto di partenza di ogni applicazione di Cluster Analysisè la disponibilità di un collettivo statistico (anche campionario) di n elementi, ciascuno rappresentato da p variabili
La matrice dei dati x11 x12 … x1p x21 x22 … x2p X = ... ... … ... xn1 xn2 … xnp
Ad ogni unità statistica è associato un vettore di p osservazioni, i cui valori sono configurabili come coordinate dell'unità considerata in uno spazio a pdimensioni.
selezione degli elementi del collettivo • scelta delle variabili ed eventuale trasformazione • scelta del criterio di valutazione della dissomiglianza • scelta dell'algoritmo di raggruppamento • determinazione del numero di gruppi
Scale di misurazione delle variabili: • nominale • ordinale • ad intervallo • a rapporti
variabili quantitative: coefficiente di correlazione di Bravais- Pearson • variabili qualitative: correlazione tra ranghi di Spearman o coefficiente di cograduazione di Gini • variabili miste: coefficiente di cograduazione di Gini, previa sostituzione dei valori delle variabili quantitative con i rispettivi ranghi
Ricondurre tutti i caratteri alla stessa scala, ovvero a quella contraddistinta dai minori requisiti La scelta delle variabili di input condiziona anche la necessità di una loro eventuale standardizzazione: è infatti opportuno che le variabili siano rese indipendenti dal loro ordine di grandezza
xi - m zi = sx zi è il valore della variabile standardizzata per l'unità i-ma, xi è il valore originario della variabile per l'unità i-ma, m è la media aritmetica del carattere sx è lo scarto quadratico medio dove
misurano la somiglianza tra unità quando i caratteri sono espressi su scala nominale binaria. Quando i caratteri hanno più modalità si ricorre alla codifica disgiuntiva completa Coefficienti di associazione
individuo j 1 0 a b 1 individuo i c d 0 Tabella tetracorica
coefficiente di Jaccard A B a Jsij = a b c + + coefficiente di Dice 2a Dsij = 2a b c + + Misure di associazione:
p Œ wkskij k=1 G s = ij p Œ wk k=1 Quando i caratteri sono sia qualitativi che quantitativi si ricorre al coefficiente di Gower:
skijè un indicatore di somiglianza tra le unità i e j rispetto alla variabile k che vale uno se l variabile è di tipo nominale o ordinale e vi è concomitanza di presenza o assenza per i e j zero se la variabile è di tipo nominale o ordinale e non vi è concomitanza di presenza o assenza per i e j dove
xik xjk - 1 - Rk con Rk che è il campo di variazione della variabile k wk è un peso arbitrario
Variabili 2 1 3 4 5 Unità i 1 0 1 1 0 1 1 0 1 0 Unità j Esempio di calcolo dei coefficienti di associazione
individuo j 1 0 2 1 1 individuo i 1 1 0 Tabella tetracorica
Coefficiente di Jaccard = 1/2 Coefficiente di Dice = 2/3 Coefficiente di associazione semplice = 3/5
identità dii= 0 simmetria dij= dji non negatività dij≥ = 0 disuguaglianza triangolare dil + dlj ≤ = dij Una distanza possiede le seguenti proprietà:
p 1/r r = rdij xik - xjk k=1 1/r p 2 = 2dij xik - xjk k=1 Distanza di Minkowski Per r = 2 si ha la distanza euclidea
p p 1/2 shk = dij (xik - xjk) (xih - xjh) k=1 h=1 Distanza di Mahalanobis in cui shk indica il generico elemento della matrice inversa delle varianze-covarianze tra le pvariabili