Lezione 8 Più di due variabili

TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli Lezione 8 Più di due variabili

In questa lezione.. • In questa lezione accenneremo a due ultime strategie per migliorare la goodness of fit di una funzione interpolante, e ad alcune conseguenze. • La prima strategia consiste nella scomposizione della popolazione analizzata per gruppi omogenei. Rientra così in scena il concetto di eterogeneità della popolazione già usato nell’analisi univariata. Ci rifletteremo a partire da alcuni paradossi applicati a distribu-zioni congiunte anche non quantitative discrete. • La seconda strategia consiste nell’aumento delle variabili prese come esplicative. Entriamo così nel mondo dell’analisi multivariata, con il modello di regressione lineare multipla. • Parlando dei limiti di utilizzo della regressione multipla ragioniamo infine su due errori in cui si è facilmente indotti nell’analisi multi-variata. Il primo è quello della collinearità. Il secondo è quello delle correlazioni spurie.

Ripartiamo da un esempio Torniamo al solito esempio età-reddito e aggiungiamo al database una informazione in più: la variabile Z = numero di anni di istruzione dei 9 individui. Per i primi 4 sia Z=8 (L=bassa scolarizzazione), per gli ultimi 4 sia Z=18 (H=alta scolarizzazione), mentre il quinto individuo sia di media scolarità (13 anni di studio). Se teniamo conto di questa informazione, e depuriamo il data-base del quinto individuo (visto come outlier), i dati ci appaiono sotto una nuova prospettiva. Sia i primi quattro punti tra loro che gli ultimi quattro tra loro sembrano ottimamente inter-polabili con rette di diversa pendenza. Le equa-zioni delle due rette MQ (calcolatele anche voi!) rispettivamente per L e M sono: YL = -1,45 + 0,12XL (R2 = 0,941) YH =-11,96+ 0,47XL (R2 = 0,999)

Scomposizione per gruppi omogenei Almeno nel grup-po H l’adatta-mento è altissimo (99,9% di varian-za spiegata): la scolarità pare in-fluire sulla rela-zione reddito-età. Ma sul problema delle differenti pendenze torneremo tra poco.. Sovrapponiamo i due grafici. Le due popo-lazioni hanno inter-cette diverse ma an-che pendenze molto diverse tra loro: il che crea l’effetto di curvilineità. outlier

Un secondo esempio Facciamo un secondo esempio, un ‘classico’ della ricerca sociale. Per 20 città americane (8 piccole, 12 grandi) siano date due infor-mazioni: X sia il reddito pro capite in migliaia di dollari, Y sia il tasso di criminalità. L’equazione della retta MQ stimata sulle 20 città è: Y = 0,468 + 0,138 X (R2 = 0,488) Il coefficiente di determinazione non è altissimo.. Che succede se se-pariamo le due po-polazioni di piccole e grandi città? [Per inciso, non abbiate la mas-simizzazione di R2 come unica stella polare. Per esempio la grande città da 38mila dollari di reddito potrebbe essere un dato anomalo, ma se (correttamente) la eliminassimo la retta (verde) ai MQ avrebbe R2=0,226, minore di quello complessivo].

Rette parallele o a diversa pendenza L’equazione della retta MQ stimata separata-mente per piccole e grandi città risulta: YP=-0,402+0,140 XP (R2 = 0,635) YG=+1,340+0,120 XG (R2 = 0,567) Piccole città Grandi città In questo caso le due relazioni lineari sono di-verse nettamente per la intercetta ma più o me-no scorrono parallele con pendenze simili. Tra poco questa diffe-renza si rivelerà impor-tante. Possiamo anche leggere il grafico in modo assai pregnante: il tasso di criminalità sale comun-que col reddito ma nelle grandi città – a parità di reddito – la criminalità è un punto e ½ più alta in percentuale.

Regressione multipla Ripartiamo allora dai due esempi fatti. Il reddito è funzione dell’età ma varia an-che col livello di scolarità. La criminalità è funzione del reddito ma varia anche con la dimensione urbana. In entrambi i casi una terza variabile si intromette tra explanans e explanandum, migliorando la goodness of fit. Possiamo pensare quindi a una estensione del modello di regressione lineare, che tenga conto non di una ma di due o più variabili indipendenti. Nei nostri esempi il modello da minimizzare diventa Y=aYX+bYX.ZX+cYZ.XZ e i parametri a, b, c saranno quelli che minimizzino la funzione di danno: D = (yj - i)2fij = (yj – aYX–bYX.xi-cYZ. zi)2 .fij = minimo Ancora una volta si tratta di un modello in cui i regressori entrano in modo lineare e additivo. Come per i precedenti modelli lineari (retta, parabola) le stime che si ottengono col MMQ godono delle proprietà note.

I parametri di una regressione a due variabili Se la procedura di stima dei parametri è la stessa sviluppata per la retta, ci aspettiamo che i tre parametri abbiano formule composte da statistiche a noi familiari (medie, varianze delle tre variabili in gioco, e covarianze tra di loro), ma forse un po’ troppo complesse. In realtà noi le abbiamo già conosciute, quando nella stima della parabola abbiamo considerato i quadrati come un nuovo regressore a sé stante. Se il secondo regressore è la nostra seconda variabile indipendente Z, le stime MQ dei parametri della regressione multipla sono: Ancora, notate che le formule dei due coefficienti di regressione sono speculari tra loro, con poche inversioni di variabili E ovviamente aY.XZ=mY–bYXmX-cYZmZ

Calcolo dei parametri La grande simmetria delle formule rende più facile la memorizzazione. In particolare il denominatore dei due coefficienti di regressione è lo stesso ed è tutto espresso in termini delle variabili indipendenti x e z. Dividendo numeratori e denominatori dei due coefficienti per il prodotto delle varianze delle variabili indipendenti (varX.varZ), li si può esprimere in termini di coefficienti di correlazione lineare tra variabili, a meno di un fattore moltiplicativo legato alle misure di dispersione delle variabili stesse: Per stimare i parametri di una regressione multipla con due variabili indipendenti basta dunque avere a disposizione medie e varianze delle variabili coinvolte e i coefficienti di correlazione lineare di ordine zero YX YZ XZ

Correlazione multipla Come valutare il modello di regressione multiplo che stimiamo così? Si può cal-colare una misura analoga al coefficiente di determinazione formulata anch’esso in termini di coefficienti di correlazione lineare semplice. La chiamiamo coeffi-ciente di correlazione multipla. Esso misura quanta parte della varianza di Y è spiegata dalla dipendenza lineare di Y dalle due variabili esplicative X e Z: Poiché la regressione multipla rientra nella famiglia delle regressioni lineari nelle variabili valgono le proprietà dei MQ e in particolare il principio di scomposizione della varianza. R2Y.XZ è quindi comparabile con il coefficiente R2YX di determina-zione della retta e si può valutare l’eventuale miglioramento di goodness of fit. Svolgiamo l’esempio criminalità(Y)–reddito (X)–urbanizzazione(Z) [misuriamo Z come variabile dicotomica (dummy variable) pari a 0 nelle piccole città, a 1 nelle grandi]: mY=2,705; mX=16,2; mZ=0,6; Y=1,4354; X=7,2636; Z=0,4899; YX=+0,699; YZ=+0,572; ZX=+0,135 Y=-0,176+0,125X+1,425Z R2=0,7209 R2 è assai più consistente dei due coefficienti di determina-zione. Il modello quindi migliora la sua capacità esplicativa.

Collinearità Attenzione al denominatore dei coefficienti di re-gressione multipla. Se le variabili indipendenti so-no linearmente correlate tra loro (e quindi YX1), il denominatore sarà pericolosamente 0, e farà ‘esplodere’ i coefficienti, rendendoli estremamente ‘ballerini’! Riprendiamo l’esempio reddito(Y)–Età (X) (ponendo y9=6 per renderle ancor più correlate) e studiamo un indicatore di performance (P) in funzione di entrambi. mY=3,111;mX=30;mP=13,33;Y=1,7622;X=6,4636;P=4,5216; YX=+0,977;YP=+0,534;PX=+0,555. Il modello di regressione È: P = -0,826 + 0,525X – 0,514Y (R2 =0,310) Ma le due variabili indipendenti sono davvero molto correlate: il modello stimato risentirà di variazioni anche piccole delle variabi-li. Per es. se p3=12 invece che 15 il modello stimato diventa: P = +2,094 + 0,322X + 0,397Y (R2 =0,380) Il piano di regressione cambia molto: non ci si può certo fidare!

Coeteris paribus Conviene riflettere sul fatto che nel modello Yi=+yx.z Xi+yz.xZi si assume che X abbia un effetto pari a yx.z quale che sia il valore di Z. Supponiamo per esempio che Z sia una variabile dicotomica (come nel nostro caso della criminalità per città grandi e piccole). Si assume quindi che X (dimensione urbana) abbia il medesimo effetto su Y, sia per Z=0 (piccole città) che per Z=1 (grandi città). Infatti, per Z=0 si ottiene: Yi(X,Z=0) =+yx.zXi Mentre, per Z=1: Yi(X,Z=1)= +yz.xXi+yx.z =(+yz.x)+yx.zXi L’unica cosa che cambia in tali due situazioni è infatti l’intercetta, men-tre il coefficiente angolare (effetto di X) rimane invariato.

Y(X,Z=1) = ( + yz.x) + yx.z X Y Y Y(X,Z=1)=(+yz.x)+(yx.z+)X Y(X,Z=0) =  + yx.z X Y(X,Z=0) =  + yx.z X X X Effetti di “interazione” E’ quello che abbiamo osservato nel nostro esempio: la criminalità cresce col reddito urbano grossomodo con una velocità di crescita simile per grandi e piccole città. Potrebbe però accadere che nei grandi centri l’effetto del benessere complessivo risulti assai più influente, determinando una regressione semplice (criminalità funzione del reddito) con pendenza più forte. Per tener conto di ciò il modello di regressione multipla deve assumere una forma più complessa, con un fattore in più: Yi(X,Z) =  + yx.z Xi + yz.x Zi +  Xi Zi Senza interazione Con interazione yx.z e zx.y sono detti effetti prin-cipali, η è detto effetto interazione

Dalla retta al piano di regressione Y=-5,215+0,267X+0,0313Z R2=0,941 Ma R2 della retta era 0,94: non c’è praticamente nessun guada-gno di capacità esplicativa!!! Svolgiamo l’esempio reddito(Y) – Età (X) –Scolarizzazione(Z=numero anni studio): mY=3,2; mX=30; mZ=13; Y=1,9189; X=6,4636; Z=4,7; YX=+0,969; YZ=+0,897; ZX=+0,912 Per capire il perché di questo fiasco ragioniamo sulla rappresentazione grafica del-l’equazione: Y=aYX+bYX.ZX+cYZ.XZ. Y E’ intuitivo che non abbiamo più a che fare con l’equazione di una retta, bensì con quella di un piano di regressione. Ma un piano “retto” o un piano “curvo”? Nel caso della criminalità, le due rette di-stinte per grandi e piccole città hanno pendenze se non uguali assai simili, con una differenza costante di 1,5%. L’effetto della terza variabile Z è quindi pura-mente additivo. Z Grandi città X Piccole

Modelli additivi L’effetto di Z è additivo se possiamo passare da un modello lineare sem-plice Yi=a+byx.xi a un modello di re-gressione multipla per puro incre-mento di un fattore ki additivo, funzione della variabile z: ki = cyz.x..zi La rappresentazione dell’equazione del piano di regressione Yi = a + byx.z.xi + cyz.x.zi corrisponde alla rappresentazione dell’equazione di più rette con diffe-renti intercette ma uguali pendenze Yi = a+ ki + byx.z.xi Y Z Y=a+cz (ferma x) Y=a+bx (ferma z) a X Y Z=z1 Z=z2 Z=z3 X

Regressione ‘parziale’ • Il piano di regressione multipla (limitata quindi a due sole variabili esplicative; non siamo capaci di immaginare iperpiani) è un piano in cui, per definizione, ogni sezione rispetto alla dimensione Z traccia una retta, funzione di X, parallela a quella ricavata con altre sezioni e, specularmente, ogni sezione rispetto alla dimensione X traccerà rette, funzioni di Z, tutte tra loro parallele. • Questa spiega anche perché i coefficienti di regressione multipla byx.z vengono anche definitiCOEFFICIENTI DI REGRESSIONE PARZIALE. • Un coefficiente di regressione byx.z misura l’influenza di X su Y • ferma restando z (ovvero) • tenuta sotto controllo z (ovvero) • depurata dell’effetto di z (ovvero) • posta costante entro ogni subgruppo definito in base a z • (sono tutti sinonimi tra loro). Ma che succede se al variare di Z varia non solo l’intercetta ma anche la pendenza della relazione lineare?

Modelli moltiplicativi e effetto interazione Il modello diventa: Yi = a+ki + byx.z+hi.xi Entrambi i coefficienti di variazione ki e hi dipendono ora da Z, cioè: ki=+zi e hi=+zi Allora: Yi=a++zi + byx.z++zi.xi = =a+ + byx.z+.xi + zi + zixi o con le notazioni oramai familiari: Yi=ayx.z+byx.z.xi+cyz.x.zi+ dy.zxxizi Compare un fattore moltiplicativo in più, e la superficie di regressione NON è piana, ma curva. Le sezioni non sono più parallele tra loro ma variano al variare “sinergico”, cioè moltiplicativo delle due variabili. Y Z X Y Z=z1 Z=z2 Z=z3 X

yx Il modello di regressione semplice può allora essere rappresentato graficamente nel seguente modo: Y X Mentre in generale per il modello di regressione multipla con variabili espli-cative X e Z (indicando con xy il lega-me tra le due variabili esplicative)si ha: yxz X xy Y yzx Z Effetti “diretti” e “indiretti” Insomma, la criminalità dipende dallo stato di ricchezza di una città, ma anche dalla sua dimensione. Proviamo a riflettere ancora su ciò. Indichiamo con un segmento la presenza di una relazione tra due variabili. Utilizziamo invece una freccia quando individuiamo un verso in tale relazione (ovvero un ordine causale). Nella regressione multipla l’effetto totale di X su Y (yx) è distinto in due parti: a) un effetto diretto di X su Y (rappresentato da yx.z); b) un effetto indiretto di X su Y (pari al prodotto .yz.x).

X Y yx Z Due situazioni particolari (a) Il coefficiente della regressione multipla coincide con quello della re-gressione semplice (yx.z = yx) quando l’effetto indiretto è nullo. Ciò può accadere in due situazioni particolari. a) Z non ha alcun effetto (diretto) su Y. In tal caso infatti µi =  + yx.z Xi + 0 Zi =  + yx.z Xi In tal caso la regressione multipla si riduce di fatto ad una regressione semplice, e quindi yx.z = yx Attenzione!! In genere non osserviamo casi-limite ma un mix in cui valutare la significatività del contributo di ogni effetto particolare Se infatti è assente il legame tra Z e Y l’unico percorso che da X porta ad Y è quello dell’azione diretta. Quindi Z risulta ininfluente nello studio della relazione tra X ed Y.

yx yz X Y Z Due situazioni particolari (b) b) Il secondo caso particolare è quello in cui Z ed X non sono cor-relate tra loro. Si ottiene infatti in tal caso: yx.z = [covYX varZ – covYZ covZX] / [varX varZ – cov2XZ] = = [covYX varZ – covYZ 0] / [varX varZ – 0] = = [covYX varZ ] / [varX varZ] = = covYX / varX = yx Anche in questo caso l’azione indiretta di X su Y attraverso Z non è praticabile (questa volta perché manca il legame tra X e Z: =0). Essendo incorrelate tra di loro, le due variabili esplicative X e Z forniscono due contributi indipendenti nello spiegare Y. Pertanto i parametri della regressione multipla coincidono con quelli delle due distinte regressioni semplici di X su Y e di Z su Y.

Correlazione parziale Ricordate che il coefficiente di correlazione lineare XY si può ricavare an-che dalla media geometrica dei coefficienti di regressione opposti bXY, bYX: XY = bXYbYX? Qualcosa del genere vale anche i coefficienti di regressione multipla, tra loro complementari, bXY.Z e bYX.Z, definiti – abbiamo appena visto - in modo speculare in termini di coefficienti di correlazione lineare semplice. La media geometrica tra questi due coefficienti si chiama Coefficiente di correlazione parziale e ha forma: IL COEFFICIENTE DI CORRELA-ZIONE PARZIALE misura la cor-relazione tra y e x ferma restando z, o tenuta sotto controllo z, o de-purata dell’effetto di z. Torniamo all’esempio Reddito (Y) – Età (X) – Scolarità (Z), dove: Y=1,9189; X=6,4636; Z=4,7; YX=+0,969; YZ=+0,897; ZX=+0,912 . Risulta: Cioè: reddito ed età sono davvero correlati, anche a parità di scolarità

Correlazione spuria Se YX.Z0 pur essendo YX0 allora la correlazione tra y e x è SPURIA o FITTIZIA. Una correlazione tra Y e X è spuria se è totalmente spiegata dalle relazioni di Y e X con una terza variabile Z. Per esempio, tra tre variabili intercorrono tre coefficienti di correlazione lineare di grado zero (YX,YZ,XZ) e tre coefficienti di correlazione parziale (YX.Z,YZ.X,XZ.Y). Se i 6 coefficienti sono tutti significativamente 0, tranne che XZ=0 (c’è cioè incorrelazione tra le due variabili indipendenti) possiamo adottare il modello di regressione multipla (A). Ma se si annulla un coefficiente di correlazione parziale YX.Z=0 allora si possono avere due situazioni assai diverse: Il caso (B) è quello di correlazione spuria: Z è qui una variabile antecedente Il caso (C) è quello di una catena causale: qui Z è una variabile interveniente Y X Y Y C A Z X Z Z B X

Se Z non è correlato con X (=0), oppure se Z non ha alcun effetto su Y (z.x=0), allora non esiste alcuna azione indiretta di X su Y attraverso Z. Ne consegue che l’effetto di X al netto di Z coincide con l’effetto totale di X (x.z=x). La regressione multi-pla si riduce a quella semplice. Se Z è correlato con X e insieme ha un effetto su Y, allora l’effet-to totale di X può essere scom-posto in un’azione diretta e una indiretta (tramite Z). In tal caso, se Z è interveniente, è casuale l’effetto totale di X (diretto + in-diretto), se Z è antecedente è causale solo l’effetto diretto. Riepiloghiamo Sia il nostro obiettivo la stima dell’effetto causale di una data variabile X (explanans) su Y (explanandum). Supponiamo inoltre che Z (variabile unica o insieme di variabili) sia il solo potenziale fattore che può influenzare la dipendenza di Y da X. Operiamo nel seguente modo: Conduciamo una regressione semplice e misuriamo in tal modo l’effetto totale di X su Y (x). Passiamo poi ad una regressione multipla aggiungendo nel modello Z.

Due esempi per concludere Primo esempio. Dati i coefficienti di correlazione lineare YX=0,42, YZ=0,70, XZ=0,60 tra tre variabili X, Y e Z, ha senso stimare il modello di regressione multipla Y=a+bX+cZ? In questo caso basta analizzare il numeratore del coefficiente di correlazione parziale (YX-XZ.YZ)=[0,42-(0,6x0,7)]=0. Dunque la correlazione tra Y e X è spuria, il sentiero causale corretto non potrà essere quello A della regressione multipla ma uno degli altri (quale dei due pro-posti? Si tratta di identificare il ruolo di Z, se antecedente o interveniente: ma spesso nella valutazione entra in gioco l’equazione personale del ricercatore). Secondo esempio. Riprendiamo la base dati reddito(Y)–Età (X)-Perfor-mance(P), dove era YX=+0,977; YP=+0,534; PX=+0,555. Date le varianze e i coefficienti di correlazione, le correlazioni parziali di P con le due variabili “tenendo ferma l’altra” sono rispettivamente: YP.X=-0,0464; PX.Y=+0,1846 La correlazione tra performance e reddito “tenendo ferma l’età” si avvicina molto a zero (e cambia anche segno). E’ una correlazione spuria.

Lezione 8 Più di due variabili

Lezione 8 Più di due variabili

Presentation Transcript

Variabili aleatorie discrete e continue

Introduzione alla statistica descrittiva

Metodi Quantitativi per Economia, Finanza e Management Lezione n°9

Capitolo 1

Lezione 2/1

Lezione n° 1

Accenni di colorimetria

Matlab

Variabili in Javascript

Le variabili in Java

CALCOLO DIFFERENZIALE PER FUNZIONI DI PIÙ VARIABILI. ESTREMI VINCOLATI, ESEMPI.

LEZIONE DEL GIORNO: VENERDI’ 27/09/2013 15.00 / 19.00 TITOLO DELLA LEZIONE:

VARIABILI ALEATORIE

Shell: variabili di sistema PATH HOME USER PWD SHELL HOSTNAME HOSTTYPE

Lezione B.8 Regressione lineare

I costi di produzione

STATISTICA PER LA RICERCA SPERIMENTALE E ECNOLOGICA

Terza lezione sul genitivo

LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2

LEZIONE 3

Variabili Globali