840 likes | 996 Views
Campus di Arcavacata. Università della Calabria. Corso di statistica. Dott. Massimiliano Giacalone. ARCAVACATA a.a 2009-2010. IL CONCETTO DI MEDIA. Criterio di internalità (Chisini)
E N D
Campus di Arcavacata Università della Calabria Corso di statistica Dott. Massimiliano Giacalone ARCAVACATA a.a 2009-2010
IL CONCETTO DI MEDIA • Criterio di internalità (Chisini) • La media di una variabile X è qualunque valore reale M intermedio tra il minimo x(1) ed il massimo x(n) di una distribuzione. • Logica della trasferibilità di una variabile (Chisini) • La media di una variabile X è quel valore M,intermedio tra il minimo x(1) ed il massimo x(n) di una distribuzione che, rispetto ad una funzione sintetica delle osservazioni, ne lascia inalterato il valore. Il valore della funzione f(•) non cambia se si sostituisce ad ogni intensità di X il valore M.
Principio della equiripartizione (Naguno-Kolmogorov-De Finetti) • La media di una variabile X è quel valore M che realizza l’equiripartizione rispetto ad una funzione • Minimizzazione della perdita globale (Wald) • La media di una variabile X è quel valore M che minimizza la funzione di perdita complessiva che si ottiene quando alle singole osservazioni (x1,………,xn) si sostituisce M. Perdita subita nel sottrarre da xi, per i=1,2,……..,n Funzione che sintetizza le singole perdite in un unico valore
LA MEDIA ARITMETICA La sua individuazione deriva dalla logica della trasferibilità di una variabile (Chisini). Se la funzione f(•) corrisponde alla somma:
Media aritmetica: modalità di calcolo Successione di n intensità Distribuzione di frequenze Frequenze assolute Frequenze relative Distribuzioni in classi Valore centrale dell’i-esima classe Il calcolo dei valori centrali introduce un’approssimazione perché equivale ad attribuire una ripartizione uniforme delle frequenze all’interno di ciascuna classe.
Carattere NUMERO DI BOTTIGLIE 1 1 1 2 2 2 2 3 3 3 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6
Carattere PREZZO CH, classi equiampie (primi 20 consumatori)
Proprietà della media aritmetica • Internalità Dim: • Proprietà Baricentrica Dim:
Linearità Dim: Corollari: a) b)
Per i soli succhi di frutta MM considerare il carattere PREZZO MM. La casa produttrice decide di cambiare il prezzo di vendita del prodotto: per ogni acquirente il nuovo prezzo sarà pari al prezzo di vendita mediano attuale più il 18.75% del prezzo attuale. Qual è la media dei nuovi prezzi di vendita? La nuova serie dei prezzi p* sarà dunque ottenuta dalla trasformazione lineare: p* = 2,09 + 0,1875 p
Associatività G = numero di gruppi nj = numerosità del j-esimo gruppo (j=1,….,G) Dim: xij = j-esima intensità dell’i-esimo gruppo Scomposizione della media generale Media aritmetica delle medie dei gruppi
45 36 16 32
Minimizzazione della somma degli scarti al quadrato Dim: Termine nullo per la II proprie-tà della media arit-metica
Quale indice di posizione scegliere? La mediana è un indice robusto: non subisce l’influenza di valori anomali La mediana minimizza la somma degli scarti in valore assoluto: esempio: Scelta del luogo in cui situare il deposito di n punti vendita, in modo da minimizzare le distanze complessive (quindi i costi): il luogo che soddisfa tale condizione è la mediana dei punti vendita CRITERIO: • Se occorre un indice che tenga conto di tutti i valori, si utilizza la media. • Se non si vuole che i valori estremi alterino il valore dell’indice, allora si utilizza la mediana
INDICI STATISTICI DI VARIABILITA’ Variabilità: Attitudine di un fenomeno ad assumere diverse intensità • Dispersione rispetto ad un centro • Mutua variabilità • Mutevolezza delle frequenze (Concentrazione per caratteri trasferibili) Come si misura la variabilità? Caratteristiche di un indice di variabilità V(): Indice di variabilità; c: costante nota N.B. Un indice di variabilità è sempre maggiore o uguale a zero.
Variabilità e funzione di ripartizione empirica Una funzione di ripartizione empirica molto ripida (che subito raggiunge 1) indica scarsa variabilità. Viceversa, una funzione di ripartizione empirica che raggiunge 1 molto lentamente indica elevata variabilità. Campo di Variazione È molto sensibile alla presenza di valori anomali Differenza Interquantile r > s Differenza tra due quantili equidistanti dagli estremi della distribuzione Via via meno sensibile alla presenza di valori anomali, ma mano che r ed s si avvicinano.
Differenza Interquartile È un indice più robusto del campo di variazione Coefficiente di Variazione Interquartile • Non dipende dall’unità di misura del carattere osservato (come il Range e l’IQR) ma solo dal rapporto tra quartili • Se Me 0 allora CQV
Variabilità rispetto ad un centro Obiettivo: Sintetizzare una opportuna funzione degli scarti delle singole intensità dall’indice di posizione M prescelto Successione degli scarti: Ogni scarto esprime la distanza di ciascuna intensità dall’indice M. La variabilità rispetto ad un centro può essere definita specificando in diversi modi M. Ricordiamo che:
VARIANZA • Misura la dispersione media intorno alla media aritmetica. • Si calcola come media aritmetica dei quadrati degli scarti. 1. Per una successione di valori: 2. Per una distribuzione di frequenza: 3. Per una distribuzione in classi di frequenza:
Proprietà della varianza II) Esprime la variabilità nella stessa unità di misura del carattere osservato, ma elevata al quadrato Formula alternativa per il calcolo della varianza Dim:
Dim: quindi:
Esempio Nuovo prezzo = prezzo mediano attuale + 18.75% del prezzo attuale. Qual è la varianza del nuovo prezzo? = 2,09; = 0,1875 Trasformazione lineare: p* = 2,09 + 0,1875 p Calcolo della nuova varianza:
Decomposizione della varianza • La varianza di X è data dalla somma della media delle varianze di gruppo (varianza interna) e dalla varianza delle medie di gruppo (varianza esterna). Se: G = numero di gruppi; j: media dell’i-esimo gruppo; nj = numerosità dell’j-esimo gruppo (j = 1,….,G); allora: ossia:
Dim: Media aritmetica delle intensità appartenenti all’i-esimo gruppo.
1° Addendo 2° Addendo 3° Addendo Quindi:
Esempio G = 2 (1 = CH; 2 = MM)
SCARTO QUADRATICO MEDIO (o scostamento quadratico medio, o deviazione standard) • E’ uguale alla radice quadrata della varianza. • Esprime la variabilità nella stessa unità di misura del carattere osservato. 1. Per una successione di valori: 2. Per una distribuzione di frequenza: 3. Per una distribuzione in classi di frequenza: • è interpretabile come scarto medio intorno alla media; la maggior parte dei valori sono compresi nell’intervallo: [ - ; + ]
MASSIMA VARIABILITA’ Nella situazione di massima variabilità 2 = 2(n-1) e Quindi:
INDICI DI VARIABILITA’ RELATIVA Coefficiente di variazione E’ un indice indipendente dall’unità di misura (è un numero puro) e può essere utilizzato per confrontare distribuzioni diverse Poiché: INDICE DI VARIABILITA’ RELATIVI NORMALIZZATI (compresi tra 0 ed 1) Scarto quadratico medio relativo Si ottiene come rapporto tra il valore assunto dallo scarto ed il valore massimo che esso può assumere per la distribuzione:
Esempio Scarto quadratico medio: Scarto quadratico medio relativo: Coefficiente di variazione:
INDICI DI MUTUA VARIABILITÀ Misurano quanto le unità statistiche differiscono tra di loro (non più rispetto ad un punto fisso). Il calcolo si basa sulle differenze tra tutte le coppie di unità statistiche. DIFFERENZE MEDIE Differenza Media Semplice (senza ripetizione) Successione di valori Distribuzione di frequenza Differenza Media Quadratica Successione di valori Distribuzione di frequenza
Calcolo della Differenza Media Semplice: Scarti semplici in valore assoluto
Equidistribuzione degli addetti Massima concentrazione di addetti = 2 xi = xj i,j = 0
INDICE DI CONCENTRAZIONE 0 R 1 R = 0 se = 0 Caso di equidistribuzione del carattere R = 1 se = 2 Caso di massima concentrazione del carattere Se:
Caso di distribuzione di frequenza X = NUMERO DI AUTO POSSEDUTE relativo ad un collettivo di 20 famiglie Scarti semplici in valore assoluto
INDICI DI ETEROGENEITÀ ED OMOGENEITÀ Mutabilità: Attitudine di un fenomeno ad assumere diverse modalità Distribuzione Massimamente Omogenea: le n unità statistiche presentano tutte la stessa modalità Distribuzione Massimamente Eterogenea: nella distribuzione di frequenza appaiono tutte le k modalità, e ad ognuna di esse è associata la medesima frequenza. Caratteristiche di un indice di mutabilità M(): Indice di mutabilità
INDICI DI ETEROGENEITA’ ED OMOGENEITA’ INDICE DI GINI X: carattere qualitativo con k modalità INDICE DI GINI NORMALIZZATO
Massima eterogeneità (minima omogeneità) Minima eterogeneità (massima omogeneità)
Esempio 1 Indice di eterogeneità di Gini Indice di eterogeneità normalizzato di Gini (0 ≤ G* ≤1) Conclusione G* è abbastanza elevato la distribuzione è abbastanza eterogenea: entrambe le modalità sono presenti, ma con frequenze non equilibrate tra loro.
Esempio 2 Conclusione G* molto prossimo ad 1 la distribuzione è molto eterogenea: tutte le modalità sono presenti e con frequenze molto simili tra loro.
FORMA DI UNA DISTRIBUZIONE Due distribuzioni che presentano gli stessi valori degli indici di posizione e degli indici di variabilità possono differire per il peso dei valori più grandi e/o più piccoli rispetto al valore centrale a causa del comportamento differenziato nelle code della distribuzione. La forma di una distribuzione è importante proprio per valutare l’effetto delle intensità posizionate sulle code della distribuzione. Obiettivo dello studio della forma di una distribuzione è misurare se una distribuzione è simmetrica oppure di quanto essa si discosta dalla situazione di simmetria. In una distribuzione simmetrica le intensità posizionate alla stessa distanza da un indice di posizione (ad es. la media aritmetica) ma in posizione opposta rispetto a tale indice presentano la stessa frequenza (o densità di frequenza). Una distribuzione che non risulta simmetrica si dice asimmetrica
SIMMETRIA E ASIMMETRIA Distribuzione simmetrica Proprietà: N.B. Queste proprietà valgono in una sola direzione
Distribuzioni asimmetriche Asimmetria positiva • Le intensità si attardano sulla coda di destra della distribuzione • Per distribuzioni unimo-dali: Asimmetria negativa • Le intensità si attardano sulla coda di sinistra della distribuzione • Per distribuzioni unimo-dali:
INDICI DI FORMA Forniscono informazioni sulla forma di una distribuzione (simmetria, asimmetria positiva o negativa). Indice di Hotelling e Solomon Poiché vale la seguente relazione: allora: N.B. Nel caso in cui AHS = 0 la distribuzione non è necessariamente simmetrica Indice di Yule e Bowley
INDICI DI FORMA BASATI SULLA STANDARDIZZAZIONE Tale indici neutralizzano l’effetto di qualunque indice di posizione e di variabilità attraverso una operazione di standardizzazione del tipo: Z è la variabile standardizzata. Essa, oltre a non dipendere dall’unità di misura del carattere osservato, presenta sempre media pari a zero e varianza pari ad uno. Infatti:
Indice di Fisher Successione di valori Distribuzione di frequenza