300 likes | 727 Views
Statistik Lektion 17 Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test . Multipel lineær regression. x 1 ,x 2 ,…,x k uafhængige variable (forklarende variable). Model : Dagens spørgsmål
E N D
Statistik Lektion 17Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test
Multipel lineær regression x1,x2,…,xk uafhængige variable (forklarende variable). Model: Dagens spørgsmål • Hvad kan man gøre hvis sammenhængen mellem Y og X ikke er beskrevet ved en ret linie? • I tilfælde af heteroskedasdiske data – hvad kan man da gøre? • Er residualerne data auto-korrelerede?
Polynomiel regression • Nogle gange er sammenhængen mellem Y og en enkelt forklarende variabel X utilstrækkeligt beskrevet ved en ret linie, men bedre ved et polynomie. • I disse tilfælde bruger vi polynomiel regression, hvor modellen er på formen • Modellen er stadig lineær!!! (Et m’te grads polynomie)
Polynomiel Regression: Illustration 2. grads polynomie 3. grads polynomie Y Y • Brug kun polynomiel regression, hvis der er et godt argument for det – fx relevant baggrundsviden. • Brug helst ikke over 2. grads polynomie (dvs X2) og aldrig mere end 6. grads polynomie (dvs X6) . X1 X1
Polynomiel Regression som Modelkontrol • Vi har en forventning om lineær sammenhængen mellem Y og X. • Et simpelt tjek er at tilføje det kvadratiske led X2 til modellen. • Hvis X2 ledet ikke er signifikant har vi lidt mere grund til at tro på antagelsen om lineær sammenhæng.
Polynomiel regression: Eksempel • Body Mass Index: hvor v er vægten målt i kg og h er højden målt i meter. • Omskrivning: v=BMI ∙ h2. • Model: hvor Y er vægten og X er højden. • I SPSS skabes en ny variabel X2 vha. Transform→Compute…
Skabe X2 i SPSS • På baggrund af variablen ’hojdeim’ skabes • hoejdeim2 = hojdeim*hojdeim
Scatterplot og estimater Et 2. grads polynomie tilpasset data →
Modellen forklarer kun ca 38% af variationen – ikke imponerende. …men modellen er stadig ”besværet værd”.
Polynomiel regression med mere end en variabel • Det er muligt at anvende polynomier bestående af mere end en variabel. • Fx to variable X1 og X2 – herved kan regressions fladen fx få form som en paraboloide.
Ikke-lineære modeller og transformation • For nogle ikke-lineære modeller er det muligt at transformere modellen, så den bliver lineær. • Vi skal se på • Den multiplikative model • Den eksponentielle model • Den reciprokke model
Den Multiplikative Model • Den multiplikative model hvor e er et fejlled. • Logaritme-transformation: Vi tager (den naturlige) logaritme på begge sider af ligningen: • Vi har nu en lineær model! • Hvis loge ~ N(0,s2) så kan vi udføre multipel lineær regression som sædvanligt! Vi skal bare logaritme-transformere vores variable først.
Den Multiplikative Model • Den multiplikative model kan skrives som hvor , osv. • Eksempel: Vi kan omskrive BMI formlen (igen): hvor Y = log v og X = log h. • Er mon β0 ≈ log(23) og β1 ≈ 2 ? ■Model:
Resultat • β0= 3,069 ”Forventet”β0= ln(23)=3,13 • β1 = 2,156 ”Forventet”β1 = 2 • Fortolkning:v = e3,069h2,156 = 21.52 h2,156 • Bemærk: E(v|h) 21.52 h2,156
Den Eksponentielle Model • Den eksponentielle model • En logaritme transformation senere: • Vi antager loge ~ N(0,σ2) • Vi logaritme-transformerer kunY, men ikke X1 og X2! • Derefter kan vi foretage almindelig multipel lineær regression.
Den Eksponentielle Model - fortolkning • Antag vi har estimeret • Fortolkning af bk = 3.2: Hvis xkstiger med 1 (og alle andre x’er holdes fast), så stiger Y med en faktor e3.2.
Den Reciprokke Model • Hvis så er • Tag reciprokværdien af Y og lad X’erne være. • Kør derefter multipel lineære regression som sædvanligt.
y Variansstabiliserende transformationer • I tilfælde, hvor residualerne ser heteroskedastiske ud, kan man forsøge sig med følgende transformationer: • Kvadratrods-transformation: god når variansen er proportional med middelværdien. • Logaritme-transformation: god når variansen er proportional med middelværdien i 2. • Reciprokke-transformation: god når variansen er proportional med middelværdien i 4.
Multikolinearitet • To variable X1 og X2 er perfekt kolineære, hvis for to reelle tal a og b. Corr(X1,X2) = 1 (eller -1) • Eksempel: Perfekt kolinearitet (sjældent problem) • X1 = Indkomst i kr. og X2 = Indkomst i $ • Eksempel: Ret kolineære variable (reelt problem) • X1 = Alder og X2 = Anciennitet
Konsekvenser af Multikolinearitet • Variansen af regressions-koefficienterne (bj’erne) ”eksploderer”. • Størrelsen på regressions-koefficienterne kan afvige meget fra hvad man ville forvente. • Tilføje/fjerne variable resulterer i store ændringer i regressions-koefficienterne. • Fjerne et data-punkt kan resultere i store forandringer i regressions-koefficienterne. • I nogle tilfælde er F-testet signifikant mens ingen t-test er.
Variance Inflation Factor (VIF) • Antag vores regressionsmodel allerede indeholder de forklarende variable X1,…,Xk. • Hvor meget ekstra kolinearitet introduceres, hvis medtager en ekstra forklarende variabelXh? • Foretag en multipel lineær regression med Xh som afhængig variable og X1,…,Xk som forklarende. • Lad Rh2 være den tilsvarende determinations koefficient. • Da er VIF givet ved • Jo mere Xh er kolinear med X1,…,Xk , jo højere Rh2 og jo højere VIF.
VIF: Eksempel • Model: hvor X1 er højde og X2 er alder. • I SPSS: I ’Linear Regression’ vælger man ’Statistics…’ og der ’Colinearity diagnostics’. • X1 og X12 ser ud til at være (indbyrdes) kolineare, mens X2 (som forventet) ikke ser ud til at være det.
VIF: Eksempel - fortsat • Scatter-plot af mod
Multikolinearitet: Løsninger • Fjern en kolineær variabel fra modellen.
Auto-korrelation • Antag at Xisvarer til i’te måling af variabel X, fx temperaturen kl. 12 på den i’te, fx dag. • Lag-h auto-korrelationen er defineret ved dvs. korrelationen mellem temperaturer målt med hdages mellemrum. • Bemærk: Vi har antaget at fejlledene er uafhængige, dvs.rh = Corr(ei , ei+h) = 0 for alle h. • Dvs. vi forventer rh = Corr(ei , ei+h) ≈ 0 for alle h.
Eksempler hvor residualerne udviser • Stærk auto-korrelation (øverst) • Ringe auto-korrelation (nederst) Residualer Data
Durbin-Watson Test • Test for om lag-1 auto-korrelationen er nul • H0: r1 = 0 • H1: r1 0 • Teststørrelsen er • Bemærk at dikke er et stikprøve-estimatet af lag-1 auto-korrelationen
Kritiske værdier for Durbin-Watson • Efter at have udregnet d finder vi dLog dU i Tabel 7 i Appendix C. • Derefter sammenligner vi d med punkterne i skemaet nedenfor. • Erd i det grønne område forkaster vi H0. Positiv Autokorrelation Test uden Konklusion Ingen Autokorrelation Test uden Konklusion Negativ Autokorrelation d 0 dL dU 4-dU 4-dL 4
Durbin-Watson: Eksempel • For n=100 og h=1 giver tabelopslag dL=1,65 og dU=1,69. Positiv Autokorrelation Test uden Konklusion Ingen Autokorrelation Test uden Konklusion Negativ Autokorrelation d 0 dL dU 4-dU 4-dL 4 1,69 1,65 2,35 2,31 Her afviser vi H0 – dvs. ρ1≠0, altså auto-korrelation. Her kan vi ikke afvise H0 – dvs. igen auto-korrelation.