250 likes | 457 Views
TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli. LEZIONE A.4 Modalità rappresentative. In questa lezione. In questa lezione proseguiremo nella procedura di sintesi delle informazioni. Abbiamo già conosciuto i primi tre passi di sintesi:
E N D
TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli LEZIONE A.4 Modalità rappresentative
In questa lezione.. • In questa lezione proseguiremo nella procedura di sintesi delle informazioni. • Abbiamo già conosciuto i primi tre passi di sintesi: • La ricodifica in matrice; • La classificazione in forma di variabile statistica • La rappresentazione grafica. • Il quarto passo è quello della individuazione e calcolo di misure di sintesi delle distribuzioni di frequenza. Esse sono come i tratti identificativi di una carta d'identità. • In questa lezione acquisteremo familiarità con la media e la moda. • Ne vedremo le proprietà e le procedure di calcolo. • Infine calcoleremo tali misure per miscugli di popolazioni.
Tratti identificativi NOTA: sintetizzando perdiamo sempre informazioni. Se di un ricercato sappiamo solo che è alto 1.70, pesa 63 kg. e ha occhi castani, quanti di voi potrebbero essere "vittime di errore giudiziario"? Tratti identificativi: Quanto è alto? __ Quanto pesa?___ Colore occhi____ ………….. _____ Carta di identità di Pippo Superman Tratti identificativi: Quale è il reddito medio? ________ Quanta è la disuguaglianza?_ E’ asimmetrica?__ ………….. _____ • Come in una carta d'identità, non po-tendo descrivere la persona o variabile statistica nei minimi dettagli, ci limi-teremo a identificarla mediante alcune misure sintetiche: • misure di posizione (centro) • misure di dispersione o variabilità • altre misure di forma (simmetria,...) Carta di identità di Distribuzione dei redditi di XLand
Misure di posizione Le misure di posizione misurano l'attitudine di un fenomeno X a localizzarsi in un intorno delimitato dell'asse reale, che siamo indotti a ritenere il centro di X. Quale è il partito di maggioranza? La lunghezza delle gonne varia di anno in anno. Qual è la moda di quest’anno? A che età avviene ‘di regola’ l’andata in pensione? Qual è il numero medio di figli per donna in Italia? Possiamo chiamare queste misure genericamente "medie".
Due definizioni di media Una media M = g(x1, x2,..., xm) è un indice sintetico di una di-stribuzione statistica, che alle diverse modalità del carattere ne sostituisce una sola che, per il modo in cui è stata scelta, possa ritenersi rappresentativa o tipica. Se la v.s. è quantitativa la media indicherà l'ordine di grandezza del carattere studiato. In caso di v.s. quantitative definiamo: Media in senso stretto di una v.s. X è una qualsiasi funzione reale M = (x1,.., xm; n1,.., nm) che soddisfi 3 proprietà: Moltiplicatività [o in-varianza rispetto all’u-nità di misura]: se C è una costante reale e o-gni modalità xi è mol-tiplicata per C, anche la media è moltiplicata per C. Monotonicità: date due v.s. X e Y, con osserva-zioni identiche salvo (al-meno) una per la quale sia yi >xi, la media di Y non può essere più pic-cola della media di X. Internalità [Cauchy]: la media deve essere compresa tra il mini-mo e il massimo valo-re assunto dalla varia-bile.
Medie analitiche, medie lasche La definizione di media in senso stretto è restrittiva. Può essere soddisfatta da medie calcolate su v.s. quantitative, che quindi possono «coinvolgere in un'unica funzione di sintesi matematica tutti i termini della distribuzione, xi e ni». Una media calcolata in questo modo si dice analitica. Una media che non coinvolge nel calcolo tutti i termini della distribuzione si dice media lasca. Grazie alla loro procedura di costruzione, alcune medie lasche possono essere calcolate anche per mutabili. In compenso potranno non godere della terza proprietà (di monotonicità). Medie lasche (o "medie in senso lato“) sono la moda e la mediana. Di medie analitiche ce n’è una gran varietà. La più ‘naturale’ e di uso comune è la media aritmetica ponderata. In questa lezione faremo conoscenza della Media aritmetica e della Moda.
Medie come modalità rappresentative • Di medie, s’è detto, sia generiche che in senso stretto, se ne possono de-finire molte. Noi ci fermeremo su alcune, a cui corrisponde un significato logico comprensibile e utile. Medie che siano per noi davvero rappresen-tative della popolazione analizzata. In particolare definiremo medie che: • Corrispondono alla modalità più osservata (es. partito di mag-gioranza, abbigliamenti ‘in’ o di moda…). • Corrispondono alla modalità ‘di mezzo’ della popolazione, quella che sta ‘al centro del plotone’ (vedi l’immagine oraziana dell’”in medio stat virtus”, o ‘l’uomo medio’ di Quetelet o di Asimov). • Corrispondono a una modalità ‘virtuale’ che, se sostituita a tutte le modalità di fatto osservate, lascia immutata una misura ‘di sin-tesi’ della popolazione (es.: il reddito medio è quello che sostituito ai diversi redditi lascia inalterato il reddito complessivo della col-lettività; il tasso di incremento del costo della vita negli anni ’90 è quello che, sostituito ai diversi tassi annui, lascia inalterato il tasso di incremento sull’intero decennio..).
Medie e livelli di misurazione I tre significati di media corrispondono a livelli diversi di misurazione.
Medie e funzione obiettivo • Anche se si possono applicare solo a variabili quantitative, medie del terzo tipo (le medie analitiche) corrispondono all’idea più diffusa e all’uso comune delle medie. Esse implicano l’esistenza di una sintesi algebrica delle proprietà individuali in una corrispondente proprietà del collettivo, che abbia un significato utile e condiviso. • Media obiettivo (o secondo Chisini) rispetto a una data funzione o-biettivo è quel valore numerico che, sostituito a ogni modalità osservata, lascia inalterata la funzione obiettivo stessa. Una media analitica richiede: • la possibilità di maneggiare algebricamente le modalità individuali osservate, • una scelta ragionata della misura di sintesi. • Dunque non esiste una media buona “per tutte le stagioni”, ma la media giusta per ogni “funzione obiettivo”.
Intensità totale e media aritmetica La funzione obiettivo più diffusa è l’intensità totale del carattere studiato, cioè la somma delle modalità osservate nelle N unità della popolazione. L’intensità totale ripartita tra le N unità è la media aritmetica. Media aritmetica ‘pon-derata’: le modalità so-no ‘ponderate’ con le rispettive frequenze
Calcolo della media aritmetica L’intensità totale del ca-rattere studiato si ottiene facendo la somma della colonna delle intensità specifiche: T =xi ni La media aritmetica si ot-tiene dividendo T per N, oppure facendo la somma della colonna delle inten-sità specifiche relative: m =xi fi m = T/N Per calcolare una media aritmetica usere-mo la rappresentazione incolonnata di una v.s.. Alle colonne già note dovremo ag-giungere quella delle intensità specifiche (xi ni) o, equivalentemente, delle intensità specifiche relative (xi fi).
Un esempio su variabili discrete (e 3 annotazioni) Torniamo ai 46 azionisti e loro azioni (I) Le intensità specifiche (assolute) han-no un significato concreto: 350 è il monte totale di azioni possedute dai piccoli azionisti (10 azioni a testa), mentre 200 è il monte azioni dei grandi azionisti. m=21,739 ni (II) L’uso di frazioni come le frequenze relative nel calcolo richiede di portarsi dietro un ‘congruo’ numero di decimali m = xi fi = 21,74 m =T/N=1000/46 =21,74 xi (III) La media aritmetica è una modalità ‘virtuale’! Essa può non corrispondere a nessun valore osservato e nemmeno osservabile (cfr 2,1 figli per donna..)
Variabili per classi Il calcolo della media aritmetica coinvolge nel conto tutte le modalità e numerosità. Che fare, se una variabile è per classi? Quale valore assumiamo per ogni intervallo? Il minimo? Il massimo? Uno a caso? Anche se comporta rischi di errore, si sceglie di prendere il valore centrale di ogni intervallo, cioè la semisomma degli estremi: vci = (xiINF+ xiSUP)/2. hi mx=15,6 xi Pazienti anoressiche per età di insorgenza Nota: prendere il valore centrale delle classi non è solo una scelta pragmatica. Abbiamo costruito l’istogramma con l’ipotesi di distribuzione uniforme entro ogni intervallo, e la mediadi una distribuzione rettangolare è proprio la semisomma.
Un secondo esempio hi Famiglie per reddito annuo (milioni lire) mx=4,36 mx = T/N = 47910/1099 = 43,6 (il grafico è espresso in decine di milioni) xi
Un esempio riassuntivo Possiamo ora fare confronti tra medie: mxM=381,2/114=3,34 mxP=1760,0/628=2,80 Il reddito medio di Mi-lano è assai più elevato di quello dei piccoli co-muni della Regione Una cosa da notare: La classe di reddito a cui corrisponde il maggiore ammontare di reddito non è per forza l’ultima, quella dei più ricchi: è quella dei numerosi ceti medi (2,4-2,8 milioni)
Proprietà della media aritmetica • La media aritmetica rispetta le tre proprietà di base delle medie analitiche. • Internalità: m=21,74 azioni sta in mezzo tra x1 (10) e xm (100) • Invarianza alle trasformazioni: se ogni azioni vale 1,5 euro, la v.s. “Valore azionario posseduto in euro” è una trasformata Y=1,5*X. La media di Y è effettivamente = 1,5*m(X) • Monotonicità: se i due grandi azionisti incrementano il loro pac-chetto portandolo a 150 azioni ciascuno, il monte azioni totale di-venta T=1100 e la media aritmetica diventa 23,9. La spe-requazione del mercato cresce, ma la media procapite aumenta! • Ma essa possiede anche altre due proprietà assai importanti : • Baricentricità: la media a. è il ‘baricentro’ della distribuzione • Minimizzazione del danno: la media a. rende minima una funzione di errore o di perdita di informazioni
Il concetto di baricentro La rana è più grassa della gru: l’altalena non è in equilibrio. Come fare per portarla in equilibrio? A sinistra possono appollaiarsi più gru a diverse di-stanze: ora la somma dei pesi delle gru moltiplica-te per le loro distanze dal cuneo che fa da punto di appoggio è pari al prodotto del peso della rana per la sua distanza dal cuneo. L’altalena è in equilibrio. Più semplicemente, basta spostare il fulcro dell’al-talena: ora la distanza della rana, moltiplicata per il suo peso, pareggia il peso della gru moltiplicato per la distanza dal fulcro. L’altalena è in equilibrio. Il fulcro è il baricentro dell’altalena
Media aritmetica come baricentro La media aritmetica ponderata è il baricentro di una v.s.: essa cioè si situa nel punto di equilibrio centrale della distribuzione, così che la somma delle modalità (distanze dal fulcro) alla sua sinistra, ponderate per le rispettive numerosità (pesi), pareggia la somma delle modalità alla sua destra, ponderate per le rispettive numerosità. Algebricamente questa proprietà si esprime così: "la somma degli scarti semplici delle modalità osservate dalla media aritmetica, ponderati per le rispettive frequenze (o numerosità) è zero" Infatti: C.V.D.
Un esempio Verifichiamo la proprietà della media come baricentro con un esempio già conosciuto: m=21,739 • Nota: • La proprietà è soddisfatta sia ponderando con le numerosità che pe-sando con le frequenze relative. • La media aritmetica è l’unica media che possiede questa proprietà.
Il concetto di funzione di perdita Supponete che una grande azienda di abbigliamento basi la propria pro-duzione di giacche sulle statistiche dell’ufficio Leva nazionale, da cui ri-sulta che la taglia media dei giovani italiani è la 48. L’azienda produca allora giacche ‘giovanili’ solo di taglia 48. I giovani di taglia 46 ci staranno larghi, i ’50’ stretti e brontoleranno. Ma tutti gli altri (i 44, i 52..) si incavoleranno proprio e cambieranno marca.. Data un v.s. X e un indice di posizione , misuro la perdita di informazione con una "funzione di perdita": L(Sk) = L(xk – )k > 0 k, per k = 1,...N Ci sono tante "leggi di perdita“ secondo il valore di k. Per esempio: scarti assoluti: L(Sk)=|xk–|; o scarti quadratici: L(Sk)=(xk–)² Data una funzione di perdita definita per un k definiamo DANNO la media aritmetica della perdita. Scegliamo la media che minimizza il danno.
Media aritmetica come misura di minimo danno La media aritmetica è la misu-ra di posizione che rende mini-ma una funzione quadratica di perdita di informazione. = i(xi -)2fi min m La media m è il valore di in cui la funzione quadratica pervie-ne al suo minimo. In tal punto la tangente alla curva (cioè la deri-vata) ha pendenza nulla. Quindi: =min dove d/d =0
Medie di miscugli Torniamo all’esempio delle province secondo il tasso di disoccupazione • Nel nord le 55 province hanno un tasso medio mN(x)=357,5/55=6,5 • Nel sud le 45 province hanno un tasso medio mS(x)=642,5/45= 14,278 • In Italia le 100 province hanno un tasso medio mT(x)=1000/100= 10 • Ma il tasso nazionale si ottiene anche come media ponderata dei tassi delle due ripartizioni: mT(x)= [mN(x)nN . mS(x)nS]/N. In generale: La media di un miscuglio è pari alla media delle medie delle singole subpopolazioni, ponderate per le rispettive numerosità.
Variabili qualitative: la moda e il suo calcolo Per variabili qualitative la Moda è la modalità con la massima frequenza.
Calcolo della moda per variabili quantitative Per v.s. discrete la Moda è il valore più frequente-mente osservato. Per v.s. per classi Moda è la semisomma della clas-se con massima densità di frequenza Max hi = 15,00 Md = (11+14)/2 = 12,5 m=21,74 Mx=15,6 Md=10 Md=12,5
Proprietà della moda La moda (Md) è la modalità a cui corrisponde la massima frequenza (v.s. discrete) o la massima densità di frequenza (v.s. per classi)(si distingue una classe modale (max den-sità) e un valore modale (valore centrale classe). Un fenomeno può avere più di una moda; si dirà bi-modale, tri-modale, amodale (tutte le modalità con uguale frequenza). Variabile bimodale La moda è data a ogni livello di misurazione.Ma non soddisfa la proprietà di monotonicità. Esempio: Nel tema in classe ci sono stati 10 quattro, 11 cinque, 6 sei, 2 sette, 1 otto. Md=5, M=5,1. Se il prof alza due voti da 5 a 6, M=5,17 ma Md=4. Il fatto è che la moda non coinvolge nel conto tutte le modalità. Per lo stesso motivo la moda di un miscuglio si comporta in modo imprevisto (pensate a un corridore al Giro che vince la classifica ‘a punti’ senza vincere neanche una tappa)