260 likes | 359 Views
Indice di concentrazione di Gini Data una variabile y misurata su N individui Si ordinano i dati in ordine crescente Si considera la quota di Y detenuta dai primi i individui (i=1,2,…N) E la quota di individui con y y i Definiamo le seguenti quantità:
E N D
Indice di concentrazione di Gini Data una variabile y misurata su N individui Si ordinano i dati in ordine crescente Si considera la quota di Y detenuta dai primi i individui (i=1,2,…N) E la quota di individui con y yi Definiamo le seguenti quantità: pi = frazione di A “fino” alla classe i qi = frazione di unità “fino” alla classe i Indice di concentrazione di Gini Compreso tra 0 e 1
Spiegazione grafica: Curva di Lorentz Se rappresentiamo le coppie pi ; qi in un grafico cartesiano e le congiungiamo otteniamo una spezzata che prende il nome di curva di concentrazione (o curva di Lorenz-Gini). Esempio: I redditi di 7 individui sono: 80, 90, 21, 23, 16, 32, 62. Dopo aver ordinato i redditi si ottengono le coppie di punti: pi ; qiIn questo modo E questo grafico:
Curva di concentrazione • Osservazioni: • (p0,q0)=(0,0) e (pN,qN)=(1,1) • qi ≤ pi • Dimostrazione
Il generico punto (pi ,qi) della curva si può interpretare nel seguente modo: • Il (pi·100)% più povero possiede il (qi· 100)% del reddito totale. • La curva parte sempre da (0,0) e termina sempre in (1,1). Inoltre, essendo qi≤ pi, la curva giace sempre al di sotto della retta passante per questi due punti (bisettrice). La curva è sempre comprese tra le due seguenti (potendo eventualmente coincidere): • La curva che giace sulla bisettrice. Essa è tale per cui pi=qi per ogni i da cui segue che ogni unità possiede una quantità di carattere pari alla media del carattere. Rappresenta quindi la situazione di equiripartizione. • La curva passante per i punti (Fi,0) i=1,…,N-1 ed (1,1). Essa corrisponde alla situazione in cui tutto il carattere è concentrato in una sola unità statistica (l’N-esima) e rappresenta quindi la situazione di massima concentrazione.
Intuitivamente, quanto più la bisettrice si discosta dalla curva di concentrazione tanto più aumenta la concentrazione del carattere. • E’ naturale quindi costruire indici di concentrazione basati sullo “scostamento” della curva dalla bisettrice. • Ad esempio si potrebbero usare: • Le distanze verticali tra la curva di concentrazione e la bisettrice; • L’area compresa tra la curva di concentrazione e la bisettrice. • In ambedue i casi arriviamo all’indice di concentrazione di Gini.
Le distanze verticali tra la curva di concentrazione e la bisettrice sono date da pi – qi Si noti come pi-qi ≥ 0 per ogni i Sommando le differenze e dividendo per il valore Massimo che tali differenze possono assumere ( tuuti i qi sono nulli tranne l’ultimo) otteniamo una formulazione dell’indice di concentrazione di Gini • R vale 0 nel caso di equi-ripartizione (pi - qi =0 per ogni i) • R vale 1 nel caso di massima concentrazione • pi - qi = pi i • (pi - qn )= (pi )
In alternativa misuriamo l’area tra la curva di concentrazione e la retta di equidistribuzione prende il nome di area di concentrazione. • Si noti come l’area di concentrazione sia sempre maggiore o uguale a zero. In particolare: • nel caso di equiripartizione è pari a zero; • al crescere della concentrazione cresce senza mai superare il valore 1/2.
Una misura esatta dell’areaAdi concentrazione può essere ottenuta sottraendo all’area del triangolo la somma delle aree degli n trapezi delimitati dai punti (Fi,Qi) per i =0,1,…,n. Area del trapezio: ½ x Somma delle basi x altezza A altezza Somma basi
Un indice di concentrazione si può ottenere dividendo l’area di concentrazione per il valore assunto da tale area nel caso di concentrazione massima: Dove si ottiene considerando x1 =…=xN-1 =0 e xN=Nμ e risulta pari a (N-1)/2N. Si può dimostrare che il rapporto così costruito è uguale all’indice definito in precedenza ovvero l’indice di concentrazione di Gini si può ricavare anche dividendo l’area di concentrazione per il suo valore massimo.
Il Fattore (N-1)/N Tende molto rapidamente ad 1 al crescere di N, quindi per N “grande” l’area di concentrazione sarà data dalla differenza tra l’area del triangolo sotteso alla bisettrice pari a 1/2 e la somma delle aree dei singoli “trapezi” senza normalizzazione otteniamo l’indice di concentrazione di Gini in altra formulazione: Per N=25 la differenza tra gli indici è del 4% e per N=50 è del 2% Vedi esempio Excell
Vi sono molti modi per calcolare l’indice di Gini: Ad esempio riprendiamo la definizione di una misura di variabilità (poco usata) DIFFERENZA MEDIA ASSOLUTA (CON RIPETIZIONE): Questa misura può essere interpretata come la differenza attesa tra i redditi di due individui selezionati in modo casuale dalla popolazione. E’ immediato dimostrare che in caso di equidistribuzione = 0 E in casi di massima concentrazione = 2
Rapportando al suo massimo ottengo un indice di concentrazione che è proprio l’indice G di Gini Questa formulazione calcolatoriamente più complicata, si presta però ad una SCOMPOSIZIONE IMPORTANTE DELL’INDICE Tra una componente “entro” e una “tra” in modo simile alla scomposizione della Varianza. Come vedremo
Prima (usuale) scomposizione Sia data una popolazione di N unità distinte in K gruppi su cui è misurata una variabile “trasferibile” Y (es. reddito) con media . L’indice G sarà: Definiamo due “nuovi indici”: L’indice di Gini “ENTRO” il gruppo j-esimo di numerosità nj e media µj Derivato dalle differenze tra gli appartenenti al gruppo j-esimo L’indice di Gini “TRA” il gruppo j-esimo e h-esimo : Derivato dalle differenze di tutti gli appartenenti al gruppo J e tutti gli apparteneti al gruppo h
Scomposizione (proposta Dagum) Ovviamente l’indice G (generale) sarà una media ponderata degli indici “IN” e “TRA” Definiamo i seguenti pesi: = quota della popolazione del gruppo j = quota di reddito della popolazione del gruppo j Allora l’indice G può essere scomposto in:
Questa scomposizione ha, tuttavia, un problema molto rilevante: Normalmente i gruppi in cui viene suddivisa la popolazione, dal punto di vista dello ammontare del reddito hanno aree di sovrapposizione: Ad esempio vi saranno alcuni pensionati che percepiscono un reddito superiore a quello di alcuni lavoratori dipendenti, PUR ESSENDO IL REDDITO MEDIO DEI LAVORATORI DIPENDENTI SUPERIORE A QUELLO DEI PENSIONATI Come è noto, questo fenomeno va sotto il nome di TRANSVARIAZIONE Il problema nasce dl fatto che essendo la differenza media calcolata in base ai valori assoluti, essa è “adirezionale” cioè da lo stesso peso alla differenza di reddito dipendente maggiore di un reddito di pensione e viceversa. Un pensionato che guadagna 2000 euro contro un dipendente che ne percepisce 1000 Contribuisce alla misura della differenza TRA come un dipendente che guadagna 2000 e un pensionato che percepisce 1000 E’ evidente che il primo caso dovrebbe “abbassare” l’indice, mentre il secondo dovrebbe incrementarlo
Dagum propone una una ulteriore e diversa scomposizione dell’indice per tener conto della transvariazione. Seguiamo la sua proposta riprendendo il problema dall’inizio:
Sia data una popolazione Q di n percettori con reddito yi con media partizionata in K gruppi essendo il gruppo j caratterizzato da numerosità nj e media j (j=1…..K). Si supponga che i gruppi siano ordinati in ordine crescente di valor medio Siano Le quote di popolazione e di reddito di ciascun gruppo Definiamo: Differenza media tra i gruppi j e h, generalizzazione della differenza media di Gini Indice di Gini della differenza TRA i gruppi j e k Naturalmente sarà:
Definiamo la relazione “più ricca di” (more affluent than) Un gruppo j sarà “più ricco di” un gruppo k se j > k Definiamo una misura di “gross affluence” tra due gruppi j e k Media delle differenze tra i redditi dei soggetti j che hanno un reddito superiore ai soggetti k E una misura della “transvariazione” tra i gruppi j e k (attenzione agli indici!) Media delle differenze tra i redditi dei soggetti k che hanno un reddito superiore ai soggetti j
Dato che le due misure “scompongono” le differenze in valore assoluto, è agevole dimostrare che dato j > k sia ha: Inoltre se non vi è sovrapposizione tra i redditi dei gruppi (transvariazione=0) e se j = k
Possiamo adesso definire la “net affluence” cioè la misura della maggiore ricchezza del gruppo j rispetto a lgruppo h AL NETTO DELLA TRANSVARIAZIONE come differenza tra le due componenti: E sarà: Infine, definiamo la “Relative Net Affluence (REA)” come il rapporto tra la “net affluence” e il suo massimo:
Questa misura: È adimensionale (sia i p che i i d sono differenze di reddito e quindi il loro rapporto è un “puro numero” Può essere definita come una misura di “distanza economica direzionale” In sostanza REA misura la proporzione di Gjh (indice di Gini “tra” j e h) con cui le sottopopolazioni j e h contribuiscono alla disuguaglianza tra i gruppi, opportunamente ponderata per le numerosità e l’ammontare dei redditi (1-REA) misura la proporzione di Gjh dovuta alla transvariazione tra i gruppi, che ovviamente nella valutazione della “concentrazione TRA” i gruppi, costituisce un “fattore di disturbo”, o meglio una componente da isolare. Opportunamente ponderati, i prodotti (Gjh Djh) e [Gjh (1-Djh)] consentono di scomporre l’indice generale di Gini in 3 componenti: Conc. TOT = Conc. IN + Conc. TRA (NETTA) + Conc. Da TRANSVARIAZIONE
La scomposizione chiarisce il meccanismo che determina la diseguaglianza: Consideriamo come sempio i gruppi Lavoratori Dipendenti e Lavoratori autonomi e supponiamo che il reddito medio dei dipendenti sia maggiore di quello degli autonomi Gw = Concentrazione ENTRO i gruppi, quota di concentrazione dovuta alla disuguaglianza interna a ciascun gruppo, cioè la parte di diseguaglianza legata DISTINTAMENTE alla differenza tra i redditi dei lavoratori dipendenti e i redditi dei lavoratori autonomi. Gnb = Concentrazione TRA NETTA (al netto della trans-variazione). E’ la parte dovuta alla differenza tra i redditi dei dipendenti e i redditi degli autonomi per i quali il redditi dei dipendenti è MAGGIORE. Gt = TRANSVARIAZIONE E’ la parte dovuta alla differenza tra i redditi dei dipendenti e i redditi degli autonomi per i quali il redditi dei dipendenti è MINORE.
Semplificando (troppo) con uno slogan potremmo dire: In generale i dipendenti sono più “ricchi” degli “autonomi” Gw = Misura la differenza ricchi-poveri dentro ciascuna categoria, indipendentemente dalla tendenza generale, cioè all’interno dei dipendenti e all’interno degli autonomi Gnb = misura la differenza ricchi-poveri tra coloro che rispettano la tendenza generale (le medie) cioè tra i dipendenti “ricchi” e gli autonomi “poveri” Gt = misura la differenza ricchi-poveri tra coloro che “invertono” la tendenza generale (quella delle medie) cioè tra autonomi “ricchi” e dipendenti “poveri”
Nel caso di diversi gruppi il calcolo è complesso ma Per calcolare le diverse componenti della scomposizione proposta da Dagum è disponibile una “macro” di Excell messa a punto da S. Mussard, F. Seyte e M. Terraza nel 2003. Il programma può essere scaricato gratuitamente al seguente indirizzo: http://www.lameta.univ-montp1.fr/online/gini.html. C’è anche a disposizione un codice SAS e R.