1 / 29

ANALISI DEI GRUPPI I

ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie specifiche. Impieghi della Cluster Analysis. segmentazione del mercato. analisi della concorrenza. analisi della concorrenza.

Download Presentation

ANALISI DEI GRUPPI I

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ANALISI DEI GRUPPI I

  2. La Cluster analysisè uno strumento di classificazionecapace di scomporre una realtà complessa di osservazioni plurime in tipologie specifiche.

  3. Impieghi della Cluster Analysis • segmentazione del mercato • analisi della concorrenza • analisi della concorrenza

  4. La Cluster Analysisè una tecnica di tipo esplorativo e pertanto, a differenza di quanto si verifica con altre tecniche statistiche multivariate, non è necessaria alcuna assunzione a priori sulle tipologie fondamentali esistenti nell'insieme delle unità esaminate

  5. Punto di partenza di ogni applicazione di Cluster Analysisè la disponibilità di un collettivo statistico (anche campionario) di n elementi, ciascuno rappresentato da p variabili

  6. La matrice dei dati x11 x12 … x1p x21 x22 … x2p X = ... ... … ... xn1 xn2 … xnp

  7. Ad ogni unità statistica è associato un vettore di p osservazioni, i cui valori sono configurabili come coordinate dell'unità considerata in uno spazio a pdimensioni.

  8. Fasi del processo di segmentazione

  9. selezione degli elementi del collettivo • scelta delle variabili ed eventuale trasformazione • scelta del criterio di valutazione della dissomiglianza • scelta dell'algoritmo di raggruppamento • determinazione del numero di gruppi

  10. Scale di misurazione delle variabili: • nominale • ordinale • ad intervallo • a rapporti

  11. Contributo informativo delle variabili

  12. variabili quantitative: coefficiente di correlazione di Bravais- Pearson • variabili qualitative: correlazione tra ranghi di Spearman o coefficiente di cograduazione di Gini • variabili miste: coefficiente di cograduazione di Gini, previa sostituzione dei valori delle variabili quantitative con i rispettivi ranghi

  13. Trattamento preliminare delle variabili

  14. Ricondurre tutti i caratteri alla stessa scala, ovvero a quella contraddistinta dai minori requisiti La scelta delle variabili di input condiziona anche la necessità di una loro eventuale standardizzazione: è infatti opportuno che le variabili siano rese indipendenti dal loro ordine di grandezza

  15. Standardizzazione(variabili quantitative)

  16. xi - m zi = sx zi è il valore della variabile standardizzata per l'unità i-ma, xi è il valore originario della variabile per l'unità i-ma, m è la media aritmetica del carattere sx è lo scarto quadratico medio dove

  17. misurano la somiglianza tra unità quando i caratteri sono espressi su scala nominale binaria. Quando i caratteri hanno più modalità si ricorre alla codifica disgiuntiva completa Coefficienti di associazione

  18. individuo j 1 0 a b 1 individuo i c d 0 Tabella tetracorica

  19. coefficiente di Jaccard A B a Jsij = a b c + + coefficiente di Dice 2a Dsij = 2a b c + + Misure di associazione:

  20. p Œ wkskij k=1 G s = ij p Œ wk k=1 Quando i caratteri sono sia qualitativi che quantitativi si ricorre al coefficiente di Gower:

  21. skijè un indicatore di somiglianza tra le unità i e j rispetto alla variabile k che vale uno se l variabile è di tipo nominale o ordinale e vi è concomitanza di presenza o assenza per i e j zero se la variabile è di tipo nominale o ordinale e non vi è concomitanza di presenza o assenza per i e j dove

  22. xik xjk - 1 - Rk con Rk che è il campo di variazione della variabile k wk è un peso arbitrario

  23. Variabili 2 1 3 4 5 Unità i 1 0 1 1 0 1 1 0 1 0 Unità j Esempio di calcolo dei coefficienti di associazione

  24. individuo j 1 0 2 1 1 individuo i 1 1 0 Tabella tetracorica

  25. Coefficiente di Jaccard = 1/2 Coefficiente di Dice = 2/3 Coefficiente di associazione semplice = 3/5

  26. Per i dati di tipo quantitativo si ricorre alle distanze

  27. identità dii= 0 simmetria dij= dji non negatività dij≥ = 0 disuguaglianza triangolare dil + dlj ≤ = dij Una distanza possiede le seguenti proprietà:

  28. p 1/r r  = rdij xik - xjk k=1 1/r p 2  = 2dij xik - xjk k=1 Distanza di Minkowski Per r = 2 si ha la distanza euclidea

  29. p p 1/2   shk = dij (xik - xjk) (xih - xjh) k=1 h=1 Distanza di Mahalanobis in cui shk indica il generico elemento della matrice inversa delle varianze-covarianze tra le pvariabili

More Related