1.22k likes | 1.85k Views
LA REGRESSIONE LINEARE MULTIPLA. Osservazioni introduttive. I fenomeni collettivi (economici, demografici, ecc.) sono strettamente legati da una complessa rete di relazioni . Pertanto risulta spesso insufficiente lo studio della relazione tra due sole variabili.
E N D
Osservazioni introduttive • I fenomeni collettivi (economici, demografici, ecc.) sono strettamente legati da una complessa rete di relazioni. Pertanto risulta spesso insufficiente lo studio della relazione tra due sole variabili. • In questi casi, una volta individuato il carattere dipendente, sarà opportuno studiare come esso varia in media al variare degli altri caratteri. Questo studio viene denominato regressione multipla e costituisce una generalizzazione della regressione semplice. 2
ESEMPI DI RICORSO A MODELLI DI REGRESSIONE MULTIPLA Ad esempio: • Il prezzo di una merce sui vari mercati (o in una serie di anni o in diverse zone territoriali) è collegato con la produzione, le scorte esistenti, il prezzo di altre merci, la domanda dei consumatori e così via; • Il consumo per abitante di energia elettrica (in varie regioni) dipende dal reddito per abitante, dalla incidenza degli occupati addetti al terziario sugli occupati in complesso, ecc.; 3
Modelli I modelli sono una rappresentazione matematica della realtà George Box “All models are wrong, but some are useful” 4
Modello empirico o statistico (Empirical Model) Di solito non si conosce la relazione esatta che esiste fra due variabili Per questo motivo si adatta un modello empirico 5
Modello di regressione lineare multipla Lo studio della regressione multipla consiste nel determinare una funzione che esprima nel modo migliore il legame (in media) tra le variabili indipendenti X1, X2, …., Xk e la variabile dipendente Y. Per fare questo occorre incominciare con lo stabilire il tipo di funzione che lega la variabile dipendente a quelle indipendenti. In analogia con quanto già esposto sulla regressione semplice, ipotizziamo il tipo più semplice, quello lineare. 7
Regressione lineare multipla Idea: Esaminare le relazione lineare fra 1 dipendente (Y) e 2 o più variabili independenti (Xi) Modello di regressione multiplacon k variabili indipendenti: Coefficiente di regressione parziale Errore casuale Y-intercetta 8
Modello lineare multiplo I coefficienti del modello sono stimati sulla base di dati campionari Modello di regressione multiplacon k variabili indipendenti: Stima (o valore previsto di Y Stima dell’intercetta Stima dei coefficienti di regressione parziale In questo capitolo utilizzeremo sempre Excel per ottenere i parametri del modello di regressione e altre statistiche (regression summary measures). 9
PARAMETRI • yied x1 , x2 ….xk sono i valori, rispettivamente, della variabile dipendente e delle k variabili indipendenti, rilevate con riferimento alla i-esima unità statistica; • B0è la costante; • B1, B2,… Bk sono i coefficienti di regressione parziale (indicano di quanto varia in media la Y quando Xj aumenta di un’unità, a parità di valori delle altre variabili esplicative); • ei è il “residuo non spiegato” relativo all’osservazione i-esima; • n è il numero di osservazioni. 10
INTERPRETAZIONE Nel modello di regressione multipla si assume che ciascun valore osservato della variabile dipendente sia esprimibile come funzione lineare dei corrispondenti valori delle variabili esplicative, più un termine residuo che traduce l’incapacità del modello di riprodurre con esattezza la realtà osservata. 11
Modello lineare nel caso di tre variabili: piano di regressione Nel caso particolare di due sole variabili esplicative X1 e X2 si ha il piano di regressione: 12
Modello lineare nel caso di tre variabili: piano di regressione Y Modello con due variabili Pendenza per la variabile X1 X2 Pendenza per la variabile X2 X1 13
Esempio: estensione di un modello da 2 a 3 variabili indipendenti Con riferimento a 20 famiglie si cerca di spiegare il consumo alimentare (Y) utilizzando come variabile esplicativa il reddito (X1). Il modello stimato è il seguente: Ora estendiamo il modello per considerare anche la dimensione della famiglia (X2), misurata in termini di numero di componenti della famiglia. Il modello diventa: Spesa alimentare = B0 + B1 Reddito + B2Numero Componenti 14
Esempio: estensione di un modello da 2 a 3 variabili indipendenti • Dovremmo aspettarci che i segni di B1 e di B2 siano entrambi positivi, cioè che sia il reddito sia la dimensione della famiglia abbiano effetti positivi sulla spesa alimentare della famiglia. Ciò vale nel caso di singole regressioni lineari semplici; • Invece B1 misura l'effetto parziale del reddito sulla spesa alimentare, tenendo costante la dimensione della famiglia, e B2 misura l'effetto parziale della dimensione della famiglia sulla spesa, tenendo costante il reddito. 16
Esempio: estensione di un modello da 2 a 3 variabili indipendenti In definitiva, sia la teoria economica sia il buonsenso dovrebbero costituire una base per la selezione delle variabili esplicative da inserire nel modello. L’analisi grafica sia del tipo che della struttura di correlazione fra le variabili può essere compiuta con il ricorso alla matrice degli scatterplot, uno strumento grafico che presenta i diagrammi di dispersione per ogni coppia delle variabili nel modello (http://www.wessa.net/rwasp_cloud.wasp#output) La matrice degli Scatterplot è un importante strumento grafico per l’analisi esplorativa dei dati e per mettere in risalto: 1. Tipo di relazione fra ciascuna coppia di variabili: diretta o inversa 2. Forma del legame: lineare o non lineare 3. Intensità della relazione fra ciascuna coppia di variabili - da perfettamente forte e diretta (r = +1) a perfettamente forte ed inversa (r = -1). Nessun rapporto affatto se r = 0 4. Presenza di valori anamoli (outliers) nell'insieme di dati. 17
La matrice degli scatterplot suggerisce le seguenti conclusioni: 1. La relazione fra spesa alimentare della famiglia e la dimensione è diretta, lineare e relativamente forte con la presenza di un possibile outlier. 2. La relazione fra Spesa alimentare della famiglia e reddito è diretta, lineare e relativamente forte senza la presenza apparente di outliers. 3. La relazione fra la dimensione della famiglia ed il reddito annuo è diretta, lineare e debole con la visibile presenza di un outlier. Così dovremmo prevedere il problema di collinearity nella regressione 18
La matrice dei coefficienti di correlazione 14 Il modello di regressione lineare multipla
Stima del vettore dei coefficienti (parametri del modello) CONDIZIONE DEI MINIMI QUADRATI ORDINARI (OLS): SVOLGENDO LA CONDIZIONE DI MINIMO SI OTTIENE LA SOLUZIONE: Stime dei coefficienti B con i minimi quadrati 20 14 Il modello di regressione lineare multipla
Stima del vettore dei parametri del modello di Regressione multipla • Utilizzando Excel per stimare i coefficienti e la misura della bontà dell’adattamento per il modello di regressione • Excel: • Strumenti / Analisi Dati... / Regressione 14 Il modello di regressione lineare multipla 14 Il modello di regressione lineare multipla 21
Risultati della regressione multipla 14 Il modello di regressione lineare multipla 14 Il modello di regressione lineare multipla 22
L’equazione di regressione multipla Dove SPESA è in Euro*1000 REDDITO è in Euro*1000 NC è in numero di componenti. b2 = 0,793:la SPESA alimentare aumenta, in media, di 793 Euro all’anno all’aumentare di 1 di NC , al netto (fermo restando) degli effetti dovuti alle variazioni del REDDITO b1 = 0,148: la SPESA alimentare aumenta, in media, di 148 Euro all’anno all’aumentare di 1000 Euro del REDDITO, al netto (fermo restando) degli effetti dovuti alle variazioni di NC 14 Il modello di regressione lineare multipla 14 Il modello di regressione lineare multipla 23
Commento e significato dei parametri 1. a = -1,118 nessun significato interpretabile perché il livello medio della spesa alimentare della famiglia non può essere negativo anche quando nessun componente ha una occupazione remunerata. Inoltre, non è realistico pensare all'esistenza di una famiglia che pur non avendo reddito e zero componenti presenta una spesa per alimentazione. Ciò nonostante, questo valore non dovrebbe essere scartato; svolge un ruolo importante quando si utilizza la equazione di regressione stimata per la previsione. 2. b1 = 0,148 Rappresenta l'effetto parziale del reddito annuale della famiglia sulla spesa per alimentazione, tenendo costante la dimensione. Il segno positivo stimato implica che tale effetto è positivo mentre il valore assoluto implica che il consumo alimentare aumenta di euro 148 per ogni 1000 euro di aumento nel reddito. 3. b2 =0,793 rappresenta l'effetto parziale della dimensione della famiglia sulla spesa per alimentazione , tenendo costante il reddito della famiglia. Il segno positivo stimato implica che tale effetto sia positivo mentre il valore assoluto implica che la spesa alimentare aumenta di 793 euro per ogni componente della famiglia in più ( per matrimonio, nascita, adozione, ecc.). Si noti che l'aggiunta ad una famiglia per matrimonio è una possibilità perché vi sono alcune famiglie nel campione con soltanto una persona. 14 Il modello di regressione lineare multipla 14 Il modello di regressione lineare multipla 24
Piano di regressione e valori osservati 14 Il modello di regressione lineare multipla
Quale variabile ha la maggior influenza sulla SPESA ? La risposta si ottiene dal confronto dei coefficienti di regressione parziale b1 e b2. Il confronto però non è possibile in quanto essi hanno unità di misura diversa (unità di misura della var. dipendente/ unità di misura della variabile esplicativa). Per rendere possibile il confronto è necessario fare ricorso a dei coefficienti di regressione parziali che sono numeri puri e ottenuti partendo da una equazione di regressione multipla in termini di variabili standardizzate Z. 14 Il modello di regressione lineare multipla
Stima modello in termini di Z con GRETL Coefficienti di regressione Standardizzato. Una variazione unitaria di ZREDDITO determina una variazione di 0,07612 nello ZSPESA 14 Il modello di regressione lineare multipla
Stima modello in termini di Z con GRETL Pertanto il modello in termini di scarti standardizzati delle variabili diventa: In tal caso, i coefficienti di regressione Beta sono puri numeri e quindi confrontabili. Ne deriva che la variabile che fornisce il contributo più elevato alla spiegazione della Spesa alimentare delle famiglie è il reddito! Al contrario di quanto si poteva pensare guardando erroneamente ai valori dei coefficienti di regressione parziali 14 Il modello di regressione lineare multipla
Piano di regressione in termini di scarti standardizzati 14 Il modello di regressione lineare multipla
Metodo indiretto per calcolare i coefficienti di regressione standardizzati (Beta) Un modo più rapido di ottenere i valori dei coefficienti Beta e di ottenerli in funzione dei coefficienti B. La formula per standardizzare un coefficiente di regressione parziale è: Il coefficiente di regressione è moltiplicato per il rapporto delle deviazioni standard della variabile indipendente Xj e della variabile dipendente Y 14 Il modello di regressione lineare multipla
Significato (interpretazione ) dei coefficienti di regressione parziali standardizzati Poiché i coefficienti di regressione parziali sono espressi nella stessa metrica (sono numeri puri), si può determinare la loro capacità relativa di spiegare la variabile dipendente. Conseguentemente, la variabile indipendente con il più elevato valore del coefficiente Beta ha il elevato impatto sulla variabile dipendente Y. 14 Il modello di regressione lineare multipla
STATISTICHE DESCRITTIVE CON GRETL 14 Il modello di regressione lineare multipla
Metodo indiretto per calcolare i coefficienti di regressione standardizzati (Beta) La variabile che fornisce il contributo più elevato alla spiegazione della Spesa alimentare delle famiglie è il reddito! Al contrario di quanto si poteva pensare guardando erroneamente ai valori dei coefficienti di regressione parziali. 14 Il modello di regressione lineare multipla
Quale variabile ha la maggior influenza sulla SPESA ? Si possono utilizzare diversi metodi: 1) Confronto dei coefficienti di regressione parziale standardizzati; 2) Confronto dei valore della t di Student: il coefficiente con il più alto t di Student identifica la variabile più importante; 3) Scomposizione del coefficiente di determinazione multipla R2 nei contributi delle diverse variabili. Posto uguale a 100 la variabilità della variabile dipendente, la variabile X1 (REDDITO), spiega il 77% e la variabile X2 (NC) il restante 23%. 14 Il modello di regressione lineare multipla
Impiego della equazione di regressione per fare previsioni Prevedere la spesa alimentare nel caso in cui il reddito è 90000 € e NC = 5 Attenzione che il REDDITO è in €*1000, pertanto €90000 significano che REDDITO = 90 La SPESA alimentare prevista è di 16167 Euro 14 Il modello di regressione lineare multipla 14 Il modello di regressione lineare multipla 35
ANOVA(scomposizione della devianza) DEV. TOTALE DEV. REGRESSIONE DEV. RESIDUA (ERRORE) SST = SSR + SSE • Significatività del test F • Valore di R2 GIUDIZIO GLOBALE SUL MODELLO 14 Il modello di regressione lineare multipla 14 Il modello di regressione lineare multipla 36
R2 = indice di determinazione multiplo Segnala la quota di devianza (varianza) della variabile dipendente Y spiegata dalla relazione lineare con le variabili esplicative. Si può ritenere R2 come misura della bontà dell’adattamento (closeness of fit) del piano di regressione ai punti osservati. Vale a dire, più prossimo a 1 è il valore di R2, più piccolo è la dispersione dei punti intorno al piano di regressione e migliore sarà l’adattamento 14 Il modello di regressione lineare multipla 14 Il modello di regressione lineare multipla 37
Coefficiente di Determinazione multipla Il 93,5% della variabilità del consumo alimentare è spiegata dalla variazione del Reddito e della numerosità famigliare (NC) 14 Il modello di regressione lineare multipla 14 Il modello di regressione lineare multipla 38
Il coefficiente di correlazione multipla (the multiple correlation coefficient ) Da notare che : R =0,967 misura l’entità della relazione (the degree of relationship) fra i valori osservati (yi) e i previsti (ýi) della Spesa alimentare delle famiglie. Poichè I valori di ýi sono ottenuti come combinazione lineare del Reddito (X1) e NC (X2), un valore del coefficiente pari a 0,967 indica che la relazione lineare fra Spesa alimentare e le due variabili esplicative è abbastanza forte (is quite strong) e positiva. 14 Il modello di regressione lineare multipla 14 Il modello di regressione lineare multipla 39
Confronto fra modello con una variabile e due variabili esplicative Nel modulo della regressione semplice si era visto che utilizzando una sola variabile esplicativa (il Reddito) la quota di variabilità spiegata della variabile dipendente era pari all’89,4% (R2 = 0,894). Introducendo una seconda variabile indipendente (modello multiplo), la quota di variabilità spiegata aumenta al 93,5%. (R2y.x1,x2 = 0,935) ma si perde un grado di libertà. L’incremento in quota di variabilità spiegata introducendo NC controbilancia la perdita di gradi di libertà? Per dare una risposta, bisogna confrontare 0,894 con R2 corretto (Adjusted R-Square or R2 with a bar over it) che nel nostro caso è pari a 0,927). 14 Il modello di regressione lineare multipla 14 Il modello di regressione lineare multipla 40
R2 Adjusted (modificato o corretto) • R2non diminuisce mai quando una nuova variabile X è aggiunta al modello • Ciò può essere uno svantaggio se si desidera confrontare modelli con un numero di variabili esplicative diverso • Qual è l'effetto netto dovuto all’introduzione di una nuova variabile ? Infatti, quando si aggiunge una nuova variabile indipendente X nel modello si perde un grado di libertà. Bisogna allora valutare se la nuova variabile X fornisce un contributo esplicativo sufficiente a controbilanciare la perdita di un grado di libertà. 14 Il modello di regressione lineare multipla 14 Il modello di regressione lineare multipla 41
R2 Adjusted (modificato o corretto) Mostra la proporzione di variabilità di Y spiegata da tutte le variabili indipendenti X, corretta per il numero di variabili di X utilizzate (dove n = dimensione campione, k = numero di variabili indipendenti). • Penalizza l‘impiego eccessivo di variabili indipendenti poco importanti • Più piccolo di R2 • Utile nel confronto fra modelli 14 Il modello di regressione lineare multipla 14 Il modello di regressione lineare multipla 42
R2 Adjusted (modificato o corretto) AGGIUNGENDO UNA VARIABILE NEL MODELLO R2 CORRETTO PUO’ ANCHE DIMINUIRE 14 Il modello di regressione lineare multipla 14 Il modello di regressione lineare multipla 43
R2 Adjusted (modificato o corretto) Il 92,7% della variabilità nella spesa alimentare è spiegato tramite la variazione nel reddito e nella dimensione della famiglia, tenendo conto della dimensione del campione e del numero di variabili indipendenti 14 Il modello di regressione lineare multipla 14 Il modello di regressione lineare multipla 44
Cosa dicono e non dicono R2e R2-corretto? L’R2e R2-corretto dicono se le variabili esplicative sono idonee a prevedere (o “spiegare”) i valori della variabile dipendente L’R2 e R2 corretto non dicono se 1.Una variabile inclusa è statisticamente significativa; 2. Le variabili esplicativesono la vera causa dei movimenti della variabile dipendente; 3.Il modello è ben specificato; 4.Il gruppo di variabili esplicative è il più appropriato 45 14 Il modello di regressione lineare multipla
Errore standard della stima (la notazione standard è Se) Questa statistica riassuntiva misura l'esattezza o la qualità generale del modello multiplo valutata in termini di media/variabilità standardizzata non spiegata nella variabile dipendente che può essere dovuta a errori che potrebbero provenire da errori di campionamento. Errori che causano valori delle stime b dei parametri che differiscono significativamente dai valori B non noti; Se questi errori sono piccoli, in media, quindi il valore di Se potrebbe avvicinarsi a zero (uguaglia esattamente a zero se i valori teorici ýi del modello sono esattamente uguali ai valori osservati y per tutti i = 1, 2,…, n). Se al contrario, i valori di Se si avvicinano a +∞; il modello non è utilizzabile.. Si noti che Se è uno stimatore corretto dello scarto quadratico medio intorno al vero piano di regressione condizionato µy/x 14 Il modello di regressione lineare multipla 14 Il modello di regressione lineare multipla 46
LE IPOTESI (ASSUNZIONI) NEL MODELLO DEI MINIMI QUADRATI • Assunzioni sulla natura delle variabili esplicative ( regressori) X: • Assunzione A: I regressori Xi sono non stocastici, in altre parole i valori delle X osservati nel campione non hanno natura stocastica (la variabile X è fissa). • Assunzione B: I regressori Xi sono stocastici, in altre parole i valori delle X osservati nel campione sono estratti in maniera casuale e indipendente da una data popolazione (ipotesi più realistica) 14 Il modello di regressione lineare multipla
LE ASSUNZIONI DEL MODELLO DEI MINIMI QUADRATI ( X non stocastico) • A1: Gli errori hanno media zero • A2: Gli errori sono omoschedastici • A3: Gli errori sono indipendenti • A4: Gli errori si distribuiscono in modo normale 14 Il modello di regressione lineare multipla
TYPES OF REGRESSION MODEL AND ASSUMPTIONS FOR MODEL A Le ipotesi (Assumptions) per il Modello A A.1 Gli errori hanno media zero E(ei) = 0 per ogni i Si assume che il valore medio del termine di errore per tutte le osservazioni dovrebbe essere zero. A volte il termine di errore sarà positivo, a volte negativo, ma non dovrebbe presentare una tendenza sistematica in uno o nell’altro senso. Infatti, il ruolo dell'intercetta è di prendere tutta la tendenza sistematica ma costante in Y non rappresentato dai regressor. Il ruolo dell'intercetta è di prendere in conto ogni tendenza sistematica ma costante in Y non tenuta presente (spiegata) dalle variabili esplicative. 14 Il modello di regressione lineare multipla 10
TYPES OF REGRESSION MODEL AND ASSUMPTIONS FOR MODEL A Assumptions for Model A A.2 Il termine di errore è omoschedastico Si assume che la varianza del termine di errore per tutte le osservazioni sia omoschedastica, intendendo che il valore di ogni osservazione è ricavato da una distribuzione con varianza costante. Questo è un concetto beforehand, vale a dire stiamo pensando al comportamento potenziale del termine di dispersione prima che il campione realmente sia generato. Una volta che abbiamo generato il campione, il termine di dispersione risulterà essere maggior in alcune osservazioni e più piccolo in altre, ma ci non dovrebbe essere alcun motivo affinchè sia più erratico erratico erratico in alcune osservazioni che in altre. Se il presupposto non è soddisfatto, le stime dei coefficienti di regressione di OLS saranno inefficienti. Per ottenere risultati più certi occorre introdurre una correzione. 14 Il modello di regressione lineare multipla 17