290 likes | 460 Views
Appunti sulla concentrazione. a.a . 2011-2012. Sommario. Introduzione La curva di concentrazione Indici di concentrazione Confronti Riferimenti. Introduzione.
E N D
Appunti sulla concentrazione a.a. 2011-2012
Sommario • Introduzione • La curva di concentrazione • Indici di concentrazione • Confronti • Riferimenti
Introduzione La concentrazione viene solitamente studiata per caratteri trasferibili, ovvero caratteri quantitativi che, almeno in linea di principio, possono essere trasferiti tra le unità considerate. Es: il reddito è un carattere trasferibile (tra gli individui), come lo sono il patrimonio, il numero di azioni di una certa azienda (tra gli azionisti) e i finanziamenti ricevuti dalle regioni italiane (tra le regioni stesse). Es: l’età non è un carattere trasferibile (tra gli individui) e non lo è neppure l’intensità delle precipitazioni (tra le località considerate).
Introduzione • Intuitivamente un carattere statistico (si pensi ad esempio al reddito) è tanto più concentrato quanto più risulta suddiviso tra poche unità della popolazione. • Ogni situazione reale sarà intermedia tra due situazioni estreme che chiameremo di concentrazione massima e di equi-ripartizione. Si ha massima concentrazione quando una sola unità statistica possiede la totalità del carattere. Si parla invece di equi-ripartizione quando tutte le unità della popolazione possiedono la stessa quantità di carattere. • Uno strumento che permette di rappresentare in modo sintetico la concentrazione di un carattere collocandola tra questi due estremi è la curva di concentrazione.
Curva di concentrazione Consideriamo un carattere quantitativo trasferibile e sia xi la quantità di carattere posseduta dall’unità i-esima, i=1,…,N. Ordiniamo le quantità del carattere (intensità) possedute dalle unità statistiche in senso non decrescente: e definiamo:
Curva di concentrazione Se rappresentiamo le coppie in un grafico cartesiano e le congiungiamo otteniamo una spezzata che prende il nome di curva di concentrazione (o curva di Lorenz-Gini). Esempio: I redditi di 7 individui sono: 80, 90, 21, 23, 16, 32, 62. Dopo aver ordinato i redditi si ottengono le coppie di punti: (0,0), (0.14,0.04),(0.28,0.11), (0.42,0.18),(0.57,0.28),(0.71,0.47),(0.85,0.72), (1,1). Unendole si ottiene la curva di concentrazione:
Curva di concentrazione Osservazioni: • (F0,Q0)=(0,0) e (FN,QN)=(1,1) • Qi≤ Fi Dimostrazione
Curva di concentrazione • Il generico punto (Fi ,Qi) della curva si può interpretare nel seguente modo: l’ (Fi·100)% più povero di carattere possiede il (Qi· 100)% del carattere totale. • La curva parte sempre da (0,0) e termina sempre in (1,1). Inoltre, essendo Qi≤ Fi, la curva giace sempre al di sotto della retta passante per questi due punti (bisettrice). La curva è sempre comprese tra le due seguenti (potendo eventualmente coincidere): • La curva che giace sulla bisettrice. Essa è tale per cui Fi=Qi per ogni i da cui segue che ogni unità possiede una quantità di carattere pari alla media del carattere. Rappresenta quindi la situazione di equiripartizione. • La curva passante per i punti (Fi,0) i=1,…,N-1 ed (1,1). Essa corrisponde alla situazione in cui tutto il carattere è concentrato in una sola unità statistica (l’N-esima) e rappresenta quindi la situazione di massima concentrazione. aa 2011-2012
Indici di concentrazione La curva di Lorenz-Gini è un utile strumento grafico per apprezzare la concentrazione di un carattere. Tuttavia può essere comodo valutare la concentrazione attraverso un indice numerico. Intuitivamente, quanto più la bisettrice si discosta dalla curva di concentrazione tanto più aumenta la concentrazione del carattere. E’ naturale quindi costruire indici di concentrazione basati sullo “scostamento” della curva dalla bisettrice. Ad esempio si potrebbero usare: • Le distanze verticali tra la curva di concentrazione e la bisettrice; • L’area compresa tra la curva di concentrazione e la bisettrice. Mostreremo ora come costruire due indici di questo tipo e verificheremo la loro equivalenza. aa 2011-2012
Indici di concentrazione (1) Le distanze verticali tra la curva di concentrazione e la bisettrice sono date da Fi – Qi , i=1,2,…,N Si noti come Fi-Qi ≥ 0 per ogni i
Indici di concentrazione (1) La somma delle differenze (Fi-Qi), divisa per il valore massimo che tali differenze possono assumere è nota come rapporto di concentrazione di Gini e solitamente indicato con la lettera R: • Si ha e in particolare: • R vale 0 nel caso di equi-ripartizione (Fi - Qi=0 per ogni i) • R vale 1 nel caso di massima concentrazione (Fi - Qi= Fi i=1,2,…,N-1; FN - QN= 0)
Indici di concentrazione (2) L’area tra la curva di concentrazione e la retta di equidistribuzione prende il nome di area di concentrazione. • Si noti come l’area di concentrazione sia sempre maggiore o uguale a zero. In particolare: • nel caso di equiripartizione è pari a zero; • al crescere della concentrazione cresce senza mai superare il valore 1/2.
Indici di concentrazione (2) Una misura esatta dell’areaAdi concentrazione può essere ottenuta sottraendo all’area del triangolo la somma delle aree degli n trapezi delimitati dai punti (Fi,Qi) per i =0,1,…,n. Area del trapezio: ½ x Somma delle basi x altezza A
Indici di concentrazione (2) Un indice di concentrazione si può ottenere dividendo l’area di concentrazione per il valore assunto da tale area nel caso di concentrazione massima: Dove si ottiene considerando x1 =…=xN-1 =0 e xN=Nμ e risulta pari a (N-1)/2N. Si può dimostrare che il rapporto così costruito è uguale ad R ovvero l’indice di concentrazione di Gini si può ricavare anche dividendo l’area di concentrazione per il suo valore massimo.
Indici di concentrazione (2) Un altro indice di concentrazione basato sull’area si può ottenere osservando che l’area di concentrazione non può superare il valore 1/2. Possiamo quindi rapportare l’area di concentrazione a questo valore: Osservazione: Ingenerale (perché?) con i due indici che tendono a coincidere per N grande.
i x F Q (F -Q ) i i i i i 1 16 0,1429 0,0494 0,0935 2 21 0,2857 0,1142 0,1715 3 23 0,4286 0,1852 0,2434 4 32 0,5714 0,2840 0,2875 5 62 0,7143 0,4753 0,2390 6 80 0,8571 0,7222 0,1349 7 90 Totale 324 3 1,1698 Un esempio Data le modalità di X: Pe calcolare R anzitutto si ordinano le xi in senso non decrescente ( ad esempio X1=16 perché l’unità più povera possiede 16) e poi si trovano i corrispondenti valori di Fi e Qi (ad esempio F1=1/7=0.1429 e Q1=16/324=0,0494). Infine si calcolano le differenze Fi - Qi e si applica la formula vista prima
Estensione a dati raggrupati Finora abbiamo considerato N dati non raggruppati. Supponiamo ora di organizzare i dati in una distribuzione di frequenza, per cui abbiamo k valori distinti ordinati in modo non decrescente con numerosità , ovviamente vale k ≤ N e . Definiamo: • Le quantità così definite sono le versioni ponderate di Fi e Qi • Le ultime uguaglianze danno le formule per distribuzioni statistiche con frequenze relative.
Estensione a dati raggruppati Possiamo usare le coppie (Fi* ,Qi*) per ottenere un indice analogo ad R: • In generale R≠R*. Infatti la situazione di massima concentrazione è diversa rispetto al caso non ponderato: usando le frequenze relative la massima concentrazione si ha quando tutto il carattere è contenuto nella k-esima classe, e quindi da nk unità statistiche (e non da una sola).
Estensione a dati raggruppati • Unendole coppie (Fi* ,Qi*) si ottiene la stessa curva di concentrazione che si otterrebbe lavorando con i dati unitari. L’unica differenza è che ora per ottenere la spezzata si devono congiungere k punti e non N punti. • Ne segue che l’area di concentrazione sarà la stessa e quindi il valore degli indici ed è identico.
Estensione a dati raggruppati Si pensi ad un carattere come il reddito: se N è grande è poco pratico costruire la curva di concentrazione (o il rapporto o l’area) a partire dai redditi individuali: si procede pertanto ad accorpare gli individui in classi di reddito. A questo punto però sorge il problema di valutare la concentrazione per una variabile continua (per intervalli). Il modo più semplice di procedere consiste nel “discretizzare” la variabile continua concentrando tutta la massa sui punti medi degli intervalli per poi procedere come nei casi precedenti. Osservazione: Nel caso in cui si disponga dell’ammontare totale di carattere in un intervallo si può sfruttare questa informazione per discretizzare gli intervalli in modo “coerente” con tale ammontare totale. Es: nell’intervallo [5,15) di numerosità Ni=10 si sa che il carattere totale è pari a 60. E’ preferibile discretizzare l’intervallo su Xi=6. Si noti che devono essere note le numerosità degli intervalli per poter procedere in questo modo.
Confronti Può essere interessante confrontare la concentrazione di un carattere al variare del tempo e dello spazio. Es: il reddito risulta più concentrato in Italia o in Francia? Es: la concentrazione del reddito in Italia era maggiore negli anni ‘80 o negli anni ‘90? Allo scopo è possibile confrontare tra loro le curve di concentrazione del carattere nei due ambiti territoriali (o temporali) per stabilire quale si trovi al di sotto dell’altra. In questo caso si dice che le due curve sono ordinabili. Osservazioni: • Non è sempre possibile stabilire un ordinamento delle curve. Si può mostrare che se il carattere varia linearmente tra gli ambiti allora le curve sono ordinate. • Se le curve si intersecano si può usare l’indice di Gini per confrontare la concentrazione nei due casi.
Confronti Esempio: la concentrazione del reddito nel mondo usando l’indice R. Fonte: CIA, The world Factbook 2009
Confronto Tra Distribuzioni Si riportano di seguito le distribuzioni dei finanziamenti concessi da un istituto bancario per l’acquisto della prima casa a giovani coppie residenti in Campania ed in Sardegna: • In quale regione risulta più elevata la concentrazione dei finanziamenti concessi? • Confrontare graficamente i diversi livelli di concentrazione dei finanziamenti nelle due regioni
La concentrazione è più elevata in Sardegna La curva di Lorenz conferma questo risultato
Riferimenti • C.Gini (1909) Variabilità e mutabilità C. Cuppini, Bologna,. Ristampato in Memorie di metodologica statistica (Ed. Pizetti E, Salvemini, T). Roma: Libreria Eredi Virgilio Veschi (1955). • G. Leti. (1983) Statistica descrittiva. Bologna, Il Mulino. • Per ulteriori riferimenti si possono consultare utilmente le pagine di Wikipedia relative all’indice di Gini e alla curva di Lorenz.