200 likes | 358 Views
TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli. LEZIONE A.6 Le distribuzioni cumulate. In questa lezione. In questa lezione impareremo a costruire e a interpretare una fun-zione derivata dalla funzione di frequenza f(x).
E N D
TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli LEZIONE A.6 Le distribuzioni cumulate
In questa lezione.. In questa lezione impareremo a costruire e a interpretare una fun-zione derivata dalla funzione di frequenza f(x). • Dapprima definiremo e costruiremo funzioni cumulate di frequenza (dette anche funzioni di ripartizione), • Di seguito estenderemo definizioni e procedure di co-struzione alla funzione speculare, detta funzione retro-cumulata. Funzioni cumulate e retrocumulate ci consentiranno, nella prossima lezione, di introdurre l’ultimo pacchetto di ‘misure centrali’ di una variabile statistica.
Dalla frequenza alla frequenza cumulata Si dice frequenza cumulata associata alla modalità xi la frequenza di osservare modalità di X inferiori o al più uguali ad xi :
Una tipologia di scale di misurazione L’operazione di cumulazione implica il concetto di ordinamento gerar-chico delle modalità, quindi ha senso per le v.s. quantitative e per le v.s. qualitative (o mutabili) che siano ordinali. Per brevità faremo solo esempi di variabili quantitative, discrete e per intervalli. Soprattutto per la rappresentazione grafica che introdurremo, è buon senso applicarla solo a variabili quantitative.
Rappresentare le frequenze cumulate Ni Riprendiamo l’esempio di 46 azionisti, distribuiti secondo la dimensione del loro pacchetto azionario. Per rappresentare graficamente la cu-mulata di una variabile discreta seguia-mo queste regole di costruzione: Questo è il bruco che striscia e si arrampica.. xi La funzione esiste da -, ma fino al pri-mo valore osservato ha valore 0: F(X<10)=0 Quindi la curva viaggia terra terra come un bruco fino alle soglie di x=10. Solo a quel punto la curva si impenna e sale a frequenza 35. Infatti F(X10)=f(10)=35.
Variabili discrete, diagrammi a scalini Ni Continuiamo a seguire il nostro bruco, che striscia lungo la funzione cumulata. Tra X=10 e X=50 di nuovo la curva pro-seuguea lungo una retta parallela alla ascissa: nessuna modalità è infatti os-servata dopo X=10 e prima di X=50. Di nuovo a X=50 esatto (punto di di-scontinuità della funzione) la curva si impenna in verticale e raggiunge F(X50)= f(10)+f(50)= 44. (100,46) (50,44) (10,35) xi E così via… Risultato di questo per-corso è una funzione spezzata con la caratteristica forma di una scala. Per costruire il grafico è sufficiente individuare i tre punti incorniciati, a partire dalle loro coordinate (xi, Ni), e poi congiungere i diversi tratti della spezzata.
Ancora sui diagrammi a scalini Diagramma a ‘scalini’ Diagramma ad ‘aste’ Ni (100,46) (50,44) (10,35) xi Confrontiamo allora il diagramma (ad aste) delle frequenze con quello (a scalini) delle cumulate: Nel diagramma a scalini: La lunghezza delle tratte verticali è pro-porzionale ancora a ni o a fi, dato che è pari alla differenza tra due cumulate successive: fi=Fi-Fi-1 La funzione assume valore anche per modalità non osservate. Es. F(40)=F(10) La funzione cumulata assume valore an-che al di fuori del campo di variazione della v.s.: F(-)=0 e F()=1. Nel diagramma ad aste: La lunghezza delle barre è proporziona-le a ni oppure a fi. La v.s. discreta assume solo valori di-screti: non esiste per es. f(x) per X=40 La distribuzione di frequenza assume va-lori solo entro il campo di variazione di X
Una definizione e un esempio La distribuzione cumu-lativa di frequenze (funzione di ripar-tizione) di una v.s. di-screta è una funzione continua compresa tra 0 e + (tra – e + se il carattere può assumere valori <0), con m punti di di-scontinuità. 0.35 (2,0.60) (1,0.25) Studenti del II anno secondo il numero di esami già sostenuti • F2=F(X2)=0,60 cioè: “Il 60% degli studenti ha dato non più di due esami” o anche “ha dato due esami o meno” • F1=F(X1)=0,25 cioè: “un quarto degli studenti ha dato al massimo 1 esame” o anche “ha dato un numero di esami inferiore a 2” • La differenza tra le due cumulate è pari alla frequenza dell’ultima modalità sommata: F2-F1 = F(X2)- F(X1) = f(X2) = f2
Se una variabile è per classi Leggiamo la tabella a fianco: il 74% delle province italiane ha una densità inferiore ai 1000 abitanti per kmq. Ma entro quel 74% una parte (quanti?) ha densità molto minore, per es. compresa tra 0 e 550 Ab/kmq. Posso calcolarla? Costruendo l’istogramma avevamo sottin-teso un’ipotesi importante: entro un inter-vallo il carattere si presume distribuirsi u-niformemente (distribuzione rettangolare) Quindi se tra x=400 e x=1000 stanno 40 province, noi ipotizziamo che tra x=400 e x=700 (cioè metà dell’intervallo) stiano 20 province, e tra x=400 e x=550 (cioè un quarto della classe) stiano 10 province e così via, segmentando all’infinito… hi fi= 0,40
Partendo dall’ipotesi di distribuzione uniforme Se entro ciascuna classe le osservazioni si distribuiscono in modo uniforme al crescere continuo di X (cioè a intervalli i piccoli quanto si vuole di X corrisponde una fre-quenza fi=hi·i sempre uguale) allora la cu-mulazione di incrementi infinitesimi co-stanti di frequenza produce una funzione cumulata rettilinea. Fi fi= Fi-Fi-1 Area: fi= ihi i hi i i
Variabili per classi e spezzata delle cumulate • Per costruire il grafico della cumulata di fre-quenza di una v.s. per classi occorre quindi • Segnare i punti di coordinate (xi, Fi) (il punto corrispondente all’estremo su-periore di una classe coincide con il punto corrispondente all’estremo supe-riore della classe successiva) • Congiungere i punti successivi della spezzata, prolungando a volontà a . Fi La funzione di ripartizione di una v. per classi è una spezzata che congiunge i punti di coor-dinate (xi+1,Fi) partendo dal punto (x1,F0=0). L'ipotesi di distribuzione uniforme diventa ipotesi di crescita uniforme. La densità di frequenza corrisponde al coefficiente ango-lare (tang) della spezzata in ogni segmento. xi
Un primo esempio • Esempi di lettura dei dati e del grafico: • Il 65,4% degli immigrati ha meno di 35 anni. • I ‘giovani’ immigrati (che non rag-giungono i 25 anni) sono il 15,7%. Fi 10xhi xi xi
Un secondo esempio hi Fi • Leggere dati e grafici: • L’11,5% delle famiglie lombarde ha un reddito inferiore ai 20 milioni (di lire) annue. • Il 99,5% ha entrate in-feriori ai 100 milioni. Famiglie lombarde per reddito annuo NB: la classe a max densità di frequenza (20-40) nell’i-stogramma è quella a max pendenza della spezzata xi
Un terzo esempio Attenzione: Il 10% degli intervistati (25 su 250) im-piega meno di un quarto d’ora. Ma il 12% (30 su 250) impiega più di 2 ore. Questa frase corrisponde a una funzione ‘cumulata a rovescio’. Approfondiamo questo aspetto.
Retrocumulare • Il 10% (30 su 250) impiega più di due ore. Ma anche: quasi la metà (il 48%) impiega non meno di un’ora. • I dati sono gli stessi, ma cumulati a rovescio aprono a giudizi differenti: • Quasi ¼ (22%) impiega meno di ½ ora • Ma quasi la metà impiega più di 1 ora Si dice frequenza retrocumulata as-sociata alla modalità xi la fre-quenza di osservare modalità di X siperiori o almeno uguali a xi cumulata NB: Fr(i+1)=1-Fi retrocumulata
Un secondo esempio (un classico) Graunt per primo nel 1662 stima una ‘ta-vola di mortalità’ della città di Londra. Essa consiste in una funzione retrocumu-lata. Da essa si può risalire alla distri-buzione di frequenza dell’età di morte (se 100 nascono e 64 vivono almeno6 anni, 100-64=36 sono i decessi tra 0 e 6). Dalla distribuzione di frequenza si può ovviamente costruire la curva cumulata. Di 100 bambini nati a Londra nel 1662: 64 sopravvivevano a 6 anni 40 sopravvivevano a 16 anni 25 sopravvivevano a 26 anni 16 sopravvivevano a 36 anni 10 sopravvivevano a 46 anni 6 sopravvivevano a 56 anni 3 sopravvivevano a 66 anni 1 sopravviverà a 76 anni Di 100 nati, ben 36 muoiono prima di 6 anni. In altre parole: di 100 nati solo 64 hanno età di morte maggiore o pari a 6
Curve (retrocumulate) di “eliminazione” Questi sono tutti anni ‘guadagnati’! In rosso a tratto continuo la curva retro-cumulata di sopravvivenza (o di ‘elimina-zione’) della città di Londra nel 1662. In blu tratteggiata la stessa curva per la po-polazione italiana maschile nel 1985. Un confronto eloquente..
Un terzo esempio: industrial demography La funzione retrocumulata non è esclusiva di demografia e epidemiologia. Interessa anche la ricerca operativa (curve di affidabilità di uno stock di pneumatici), l’economia del lavoro (funzione di anzianità di forza lavoro prima della pensione), l’economia industriale (cicli di vita delle imprese). Es.:‘mortalità’ di imprese nate nel 1983. Domanda: la curva non va a zero ma tende a un asintoto intorno a 25. Che vuol dire? Altra domanda: tracciate l’istogramma della densità di frequenza di X. Che significato ha? (Fonte: Biggiero, Caroli, 1995)
Ultimo esempio: slittamento dei passaggi In Friuli, nella coorte di donne nate nel 1946, le % di quelle che non avevano ancora un figlio rispettivamente a 20, 25, 30 e 35 anni era-no del 93%, 49%, 14% e 9%. Questa espressione equivale a leggere una funzione retrocumulata (in rosso). Il confronto con la retrocumu-lata della coorte del 1960 (in blu) è davvero significativo. La % di donne che non hanno esperito la mater-nità cresce (quasi) a ogni età. La % di ‘childles-sness’ (non maternità definitiva) si alza. Se prendiamo le don-ne che stanno al cen-tro della distribuzione ordinata secondo l’età di maternità (50% della cumulata), la lo-ro età si sposta da 25 a 27 anni.