1 / 65

Capitolo 3 e par. 5.1

Capitolo 3 e par. 5.1. La matrice dei dati e le analisi preliminari I metodi di classificazione La matrice dei dati Qualità dei dati e mancate risposte parziali Analisi sui profili di colonna Analisi sui profili di riga Analisi dei gruppi. La matrice dei dati.

Download Presentation

Capitolo 3 e par. 5.1

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Capitolo 3 e par. 5.1 • La matrice dei dati e le analisi preliminari • I metodi di classificazione • La matrice dei dati • Qualità dei dati e mancate risposte parziali • Analisi sui profili di colonna • Analisi sui profili di riga • Analisi dei gruppi Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  2. La matrice dei dati E’ una tabella contenente le informazioni disponibili relativamente ad un insieme di unità statistiche • Ciascuna riga della matrice contiene le informazioni relative ad una determinata unità • Ciascuna colonna contiene le modalità assunte da un determinato carattere nelle diverse unità Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  3. La matrice dei dati Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  4. La matrice dei dati I caratteri che figurano nella matrice possono essere: - qualitativi (in scala nominale o in scala ordinale) - quantitativi (in scala ad intervalli o in scala di rapporti) Spesso la matrice contiene variabili miste, alcune qualitative e altre quantitative Le unità possono pure essere di varia natura. Esempi: - le singole aziende che producono un dato prodotto - i singoli consumatori di un prodotto - i singoli prodotti o stabilimenti di una azienda Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  5. La matrice dei dati La matrice dei dati può derivare da: • rilevazioni primarie (indagini campionarie) • fonti secondarie - interne (dati aziendali) - esterne (fonti statistiche ufficiali o non ufficiali) Principali problemi di qualità: • presenza di valori errati • valori mancanti Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  6. I valori errati Possono essere segnalati da: - valori fuori dominio (non appartenenti all’insieme dei valori ammissibili) - valori anomali o outliers(valori che si discostano molto da quelli assunti dalla maggior parte delle altre unità) - valori incompatibili (contraddittori con altre risposte) Possono essere individuati, rispettivamente, attraverso: - controlli di validità o di range - controlli per gli outlier - controlli di consistenza Una volta individuati, i valori errati possono essere • corretti attraverso una nuova rilevazione • considerati come valori mancanti Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  7. Le mancate risposte parziali Mancanza di uno o più dati: - nelle indagini campionarie (mancate risposte parziali) - nelle fonti secondarie (“buchi” informativi) Le possibili soluzioni: • Utilizzare soltanto il sottoinsieme di unità senza dati mancanti riduzione numerosità; possibili distorsioni • Utilizzare diversi sottoinsiemi (completi) di unità per le diverse analisi (univariate, bivariate, multivariate)  numerosità diverse per le diverse analisi Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  8. Le mancate risposte parziali - Esempio Soluzione 1: Tutte le analisi su 4 unità • Soluzione 2: • Analisi univariate: • su 6 o 7 unità • Analisi bivariate: • x1 e x2 (o x3): su 5 unità; • x2 e x3 su 6 unità. • Analisi multivariate: • x1, x2, x3 su 4 unità Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  9. Tecniche di imputazione • Assegnare al dato mancante un valore plausibile (imputazione) • Imputazione di un valore medio: media aritmetica o mediana (per i caratteri quantitativi o qualitativi ordinali), moda (per i caratteri qualitativi) calcolate: - sul complesso delle unità - o su un sottoinsieme più omogeneo  Conseguenza indesiderata: riduce la variabilità • Imputazione con prelievo da donatore: invece del valore medio si imputa un valore individuale, “donato” da una unità il più possibile simile in base alle altre caratteristiche (indici di similarità o distanza: vedi oltre) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  10. Tecniche di imputazione • Imputazione da modello Passi: - scelta di una o più variabili esplicative di quella con dati mancanti - stima dei parametri di un modello di regressione sui dati presenti nella matrice Regressione (semplice): Modello teorico: Modello stimato: - assegnazione del valore predetto dal modello in base ai valori assunti dalla variabile esplicativa nella unità i con dato mancante Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  11. Tecniche di imputazione • Imputazione stocastica assegnazione al dato mancante di un valore estratto casualmente da una distribuzione ritenuta plausibile Caso più semplice: estrazione casuale di una unità per ogni dato mancante dalla distribuzione empirica della caratteristica Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  12. Le analisi sui profili di colonna Analisi bivariate: studio dell’associazione esistente tra le diverse coppie di variabili Si ottiene una matrice di associazione (p x p): L’indice con cui misurare l’associazione dipende dal tipo di variabili presenti nella matrice dei dati Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  13. Variabili quantitative La covarianza: Indica se tra le due variabili esiste concordanza, discordanza o indipendenza Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  14. Variabili quantitative Il segno della covarianza: • positivo, se prevalgono prodotti di segno + : valori di xh e xjcongiuntamente o maggiori delle rispettive medie o minori di esse concordanza • negativo se prevalgono prodotti di segno - : a valori di xh maggiori della media tendono a corrispondere valori di xj minori della media discordanza • valore nullo: né discordanza, né concordanza  indipendenza lineare Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  15. Le variabili quantitative La matrice (p x p) delle covarianze: simmetrica sulla diagonale le varianze: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  16. Le variabili quantitative Esempio NB: I valori assunti dalle covarianze dipendono dalle scale di misura dei caratteri non sono direttamente confrontabili Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  17. Le variabili quantitative Per ovviare al problema della confrontabilità Coefficiente di correlazione lineare di Bravais-Pearson: (covarianza diviso il prodotto delle due deviazioni standard) Il coefficiente di correlazione lineare: • assume lo stesso segno della covarianza • è compreso tra –1 e 1 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  18. Le variabili quantitative Esempio Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  19. Le variabili quantitative Matrice (p x p) delle correlazioni simmetrica sulla diagonale valori unitari: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  20. Le analisi sui profili di riga Obiettivo: misurare la distanza (differenza) o la similarità tra coppie di unità, in relazione alle caratteristiche osservate Si ottiene una matrice delle distanzeD (n x n) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  21. Le analisi sui profili di riga Valori non negativi:dir ≥ 0 Valori sulla diagonale pari a zero:dii= 0 Simmetria:dir = dri Diseguaglianza triangolare:dir ≤ dis + dsr Misura di distanza definita in uno spazio metrico Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  22. Variabili qualitative sconnesse politomiche Indice di distanza di Sneath Per il generico carattere k si pone: dir,k = 1 se xik  xrk dir,k = 0 se xik = xrk - E’ dato dalla frequenza relativa dei caratteri per i quali le unità i ed r presentano modalità diverse - Di conseguenza: compreso tra 0 e 1 In alternativa, indice disimilarità: cir = 1- dir Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  23. Variabili qualitative sconnesse politomiche - Esempio Distanza o similarità tra coppie di aziende esportatrici in relazione ai caratteri: forma giuridica; settore di attività; area di esportazione Indice di distanza tra le aziende 1 e 2: d12,1=0; d12,2=1; d12,3=1 d12= (0+1+1)/3 =0.66 [c12 = 1-d12=0.33] Indice di distanza tra le aziende 2 e 3: d23,1=1; d23,2=0; d23,3=0 d23=(1+0+0)/3 =0.33 [c23 = 1-d23 =0.66] Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  24. Variabili qualitative dicotomiche Nella matrice dei dati, per ogni carattere: valore 1 (presenza) valore 0 (assenza) Le generiche righe ied r possono essere sintetizzate nella seguente tabella di contingenza: unità i 1        0 unità r 1 ab 0 cd a = numero di caratteri presenti in entrambe le unità b = numero di caratteri presenti in rma assenti in i c = numero di caratteri assenti in r ma presenti in i d = numero di caratteri assenti in entrambe le unità Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  25. Variabili qualitative dicotomiche Esempio Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  26. Variabili qualitative dicotomiche Indice di distanza: Simple matching (frequenza relativa degli attributi presenti in una unità e assenti nell’altra) Come indice di Sneath: frequenza relativa dei caratteri per i quali le unità ied r presentano modalità diverse Il medesimo indice di distanza per variabili qualitative politomiche o dicotomiche: numero di caratteri che nelle due unità assumono valore diverso su numero totale dei caratteri considerati Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  27. Variabili qualitative Esempio:Politomiche Dicotomiche Indice di distanza tra le aziende 1 e 2: d12= (0+1+1+1+1+1+1)/7 = 0.86 [c12 = 1-d12=0.14] Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  28. Variabili qualitative dicotomiche unità i 10 unità r 1 ab 0 cd Nel caso di variabili dicotomiche sono calcolabili anche indici diversi dal Simple matching: Indice di Jaccard: escluded dal denominatore: assenza in entrambe non indica similarità E’ sempre vero ? Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  29. Variabili qualitative dicotomiche- Esempio Distanza tra coppie di aziende per le quali è stato rilevato: • se hanno delocalizzato • se hanno fatto investimenti • se hanno apportato innovazioni • se hanno fatto assunzioni Simple matching: d23 = 1/4 = 0.25; Jaccard: d23= 1/3 = 0.33 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  30. Variabili qualitative ordinali Due possibilità: a) Trasformare le variabili in quantitative Si attribuisce un punteggio crescente (1, 2, 3, …) al crescere della misurazione ordinale e si utilizza un indice di distanza per dati quantitativi (vedi oltre) Limite: si introducono elementi di arbitrarietà (si assume che sia costante la differenza tra due modalità contigue) b)Considerare la misurazione su scala nominale Si considerano le variabili come qualitative politomiche e si utilizza l’indice di Sneath Limite: notevole perdita di informazione Preferibile la prima alternativa Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  31. Variabili quantitative (e qualitative ordinali) Misure di distanza fondate sulle differenze tra i valori assunti dalle modalità di tutti i caratteri nelle due unità Esempio: distanza tra due aziende in relazione ad alcuni indici di bilancio e alle aspettative della produzione Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  32. Variabili quantitative Distanza euclidea Fondata sulle differenze tra i valori assunti dalle modalità di tutti i caratteri nelle due unità Esempio: distanza tra due aziende in relazione ad alcuni indici di bilancio d12 = 15.7 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  33. Variabili quantitative I principali problemi della distanza euclidea: • Problema di scala – sommate differenze (al quadrato) relative a caratteri misurati in unità di misura diverse Una possibile soluzione: preventiva standardizzazione delle variabili • Correlazione tra le variabili – uno stesso fenomeno • misurato tramite più variabili viene implicitamente • pesato di più nella misura della distanza • Una possibile soluzione: distanza euclidea ponderata Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  34. Variabili quantitative Distanza euclidea ponderata: dove wk : coefficiente di ponderazione della k-esima variabile (tanto maggiore quanto più la variabile è incorrelata con le altre p-1) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  35. Variabili quantitative Un indice più generale:Distanza di Minkowski dove il parametro λ è una sorta di peso assegnato alle differenze maggiori λ = 2 distanza euclidea: λ = 1 distanza della città a blocchi: λ = distanza di Lagrange-Tchebychev: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  36. Variabili miste Indice di distanza di Gower dir,k: misura di distanza tra le unità ie rin relazione al k-esimo attributo (misura diversa a seconda della tipologia di carattere) Confronto non ammissibile (almeno un dato mancante) Tutti gli altri casi Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  37. Variabili miste Caratteri quantitativi: Range(k) è il campo di variazione della variabile k Caratteri qualitativi ordinali: Si trasformano le variabili in quantitative attribuendo punteggi crescenti al crescere delle modalità del carattere e ci si riconduce al caso dei caratteri quantitativi Caratteri qualitativi sconnessi (politomici o dicotomici): dir,k= 1 seierpresentano modalità diverse del caratterek dir,k = 0 se presentano modalità uguale (distanza di Sneath, Simple matching, Jaccard) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  38. Variabili miste - Esempio Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  39. Analisi dei gruppi Obiettivi: - raggruppare un insieme di unità in un certo numero di gruppi sulla base delle loro similarità - ridurre la dimensionalità di una matrice dei datiXnel senso delle righe attraverso l’individuazione di righe (unità) simili • Possibili applicazioni per le analisi aziendali: • segmentazione del mercato, segmentazione per omogeneità dei consumatori  offerta di prodotti differenziati o strategie di marketing specifiche per le diverse tipologie di consumatori - classificazione di un insieme di aziendeconcorrenti in un numero ridotto di tipologie ai fini di una analisi di posizionamento sulla base di una pluralità di indicatori Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  40. Analisi dei gruppi I dati di partenza: - la matrice delle distanzeD(n x n) - in alcuni casi la matrice dei datiX(n x p) I metodi di raggruppamento: - gerarchici (MG): raggruppamento ottenuto per passaggi successivi - agglomerativi (MGA): aggregazioni successive - divisivi (MGD): divisioni successive - non gerarchici (MNG): raggruppamento direttamente nel numero prefissato di gruppi Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  41. Metodi gerarchici agglomerativi • Procedono per agglomerazioni successive delle unità statistiche • Prendono come input la matrice delle distanze D (n x n) • Prevedono i seguenti step, eseguiti in modo iterativo: • Punto di partenza: n gruppi, ognuno formato da una unità • Si identificano le due unità più simili (minimo valore nella matrice delle distanze, esclusa la diagonale) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  42. Metodi gerarchici agglomerativi 3. Si fondono le due unità in un gruppo, eliminandole dalla matrice delle distanze, che diventa: Dn-2,n-2 4. Si aggiunge una nuova riga e una nuova colonna con le distanze tra il nuovo gruppo e tutte le altre unità, ottenendo Dn-1,n-1 • Si torna ad eseguire lo step 2 e i seguenti in modo iterativo, riducendo la matrice D di una unità ad ogni iterazione (fino alla soluzione finale costituita da un solo gruppo composto da tutte le unità) Due questioni aperte: - Come eseguire lo step 4 ovvero: come calcolare le distanze tra il gruppo e tutte le altre unità (diversi metodi) - Come decidere quando fermarsi ovvero: in quanti gruppi realizzare la classificazione Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  43. Metodi gerarchici agglomerativi Metodi per eseguire lo step 4 Esempio Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  44. Metodi gerarchici agglomerativi Metodi per eseguire lo step 4 Notazioni: CK: K-esimo gruppo (inizialmente, k-esima unità) CL: L-esimo gruppo (inizialmente, l-esimaunità) DKL: misura di distanza tra il gruppo CK e il gruppo CL CM: gruppo derivante dalla fusione dei gruppi CK e CL (nella ipotesi che DKL sia il minimo valore nella matrice delle distanze) DjM : distanza tra un generico gruppo preesistente j e il gruppoCM derivante dalla fusione dei gruppi CK e CL N.B.: Dopo la prima aggregazione: CM : gruppo derivante dalla fusione delle due unità per le quali si è osservata la minore distanza nella matrice D DjM : distanza tra la generica unità preesistente je tale gruppo Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  45. Metodi gerarchici agglomerativi • Metodo del legame singolo (distanza minore) DJM = min(DJK,DJL) Isola i valori anomali, ma tende a produrre gruppi allungati Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  46. Metodi gerarchici agglomerativi Rappresentazione grafica della classificazione Dendrogramma: • Asse delle ascisse (non quantitativo): le unità • Asse delle ordinate: livelli di distanza a cui sono avvenute le successive fusioni Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  47. Metodi gerarchici agglomerativi • Metodo del legame completo (distanza maggiore) DJM = max(DJK,DJL) Influenzato dai valori anomali, tende a produrre molti gruppi di dimensioni simili Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  48. Metodi gerarchici agglomerativi Dendrogramma Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  49. Metodi gerarchici agglomerativi • Metodo di McQuitty (distanza media) DJM = (DJK + DJL) / 2 Intermedio tra il legame singolo e il legame completo Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

  50. Metodi gerarchici agglomerativi • Metodo del legame medio (distanza media ponderata) DJM = (DJKNK + DJLNL) / NM (NK , NL , NM: n. di unità nei gruppi CK, CL, CM, rispettivamente) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

More Related