350 likes | 494 Views
Statistik II 3. Lektion. Variansanalyse Modelkontrol. Multipel Lineær Regression. Y afhængig skala variabel X 1 ,…,X k k forklarende variable, skala eller binære Multipel Lineær Regressionsmodel : x j,i er j ’te forklarende variabel for i ’te observation.
E N D
Statistik II3. Lektion Variansanalyse Modelkontrol
Multipel Lineær Regression • Y afhængig skala variabel • X1,…,Xkk forklarende variable, skala eller binære • Multipel Lineær Regressionsmodel: • xj,i er j’te forklarende variabel for i’te observation. • Fejlleddet ei”opsamler” den uforklarede del af modellen. • Antagelser: • e1,…,en er uafhængige og identisk fordelt ei~ N(0,s2) • Konsekvens:
Lidt mere om F-testet • Formål: Sammenligne en komplet model med en reduceret model. • Kompletmodel: • Reduceret model: • Bemærk: Reduktionen består i at fjerne (de sidste) q forklarende variable fra den komplette model. • Spørgsmål: Er det ok at fjerne de q variable?
Hypotesen • Hypotese: Den reducerede model er tilstrækkelig: • H0 : bk-q+1 = … = bk = 0 • H1 : Mindst et bj 0 , j = k-q+1,…,k. • Determinationskoefficienten (R2) for de to modeller: • komplette model. • reducerede model. • F-teststørrelse: Bemærk:
Afgørelsens time… • Intuition: Hvis H0 er sand så… • bk-q+1 = … = bk = 0 • De forklarende variable xk-q+1 , …, xk har lille betydning • Konklusion: • Hvis H0 er sand forventer vi altså en lille F-værdi • Er F-værdien ”stor” afviser vi H0.
Variansanalyse (ANOVA ) Analysis of Variance • Setup: Kun kategoriske forklarende variable • Eksempel: • Y: Månedlige forbrug (Amountspent - amtspend) • X1: Shoppestil (Shopping style - style) • Hver anden uge: Biweekly (B) • Hver uge: Weekly (W) • Ofte: Often (O) • Spørgsmål: Påvirker ’style’ forbruget?
Omkodning vha. Dummies • For at kunne anvende en MLR model må den kategoriske style variabel omkodes til dummy variable: • To binære dummy variable: XB og XW • Bemærk: k kategorier omkodes til k-1 dummy variable • Model:
Hypotesen • Model: • E[Y | Style = B] = a + bB • E[Y | Style = W] = a + bW • E[Y | Style = O] = a • Hypotese: Middelværdien er den samme for alle styles: • H0: bB = bW = 0 • H1: bB 0 og/eller bW 0 • Afgøres vha. et F-test, hvor q = 2.
To-sidet Variansanalyse • Ide: Tage højde for køn • X2: Køn (Mand/Kvinde) (Gender - gender) • Omkodes til dummy variabel: XM = 1 hvis X2 = Mand • Model: • Tester to nul-hypoteser: • H0: bB = bW = 0 (Ingen effekt af style) • H0: bM = 0 (Ingen effekt af gender)
Interaktion? • Er der en vekselvirkning mellem gender og style?
Model med Interaktion • Model: • Hypotese: Ingen interaktion • H0: bBM = bWM = 0 • Hypotese: Ingen hovedeffekt af style • H0: bB = bW = 0 • Hypotese: Ingen hovedeffekt af gender • H0: bM = 0 • Det hierarkiske princip: • Det giver ikke mening at teste hovedeffekter, når de indgår i en interaktion.
SPSS • Bemærk: Hoved-effekter før interaktioner!
SPSS • Ifølge det hierarkiske princip er det kun test af interaktionen, der giver mening. • Konklusion?
Estimerede model • Estimerede model er: • = 405,727 + 2,048 XM -61,751XB-44,006 XW+ 67,042XBM+ 77,196XWM
F-testen igen igen • F-testen også skrives som • SSq er ”Sum of Squares” for de q variable vi vil fjerne. • MSqogMSEer ”MeanSqaures…” SSq q MSq = SSq/q F=MSq/MSE SSE n-k-1 MSE=SSE/(n-k-1)
Modelform • Modellen for forbrug forklaret ved shoppe-stil og køn kan altså skrives som • Her er xB, xW og xM dummy variable. • At skrive formlen op kan hurtigt blive uoverskueligt. • Modellens modelform kan skrives som Forbrug = Stil+ Køn+ Stil*Køn • I forbindelse med analyse eller fortolkning af model-parametre er det stadig nyttigt at skrive den matematiske formel op.
Modelkontrol - Motivation • Vores konklusioner om variables vigtighed baseres på p-værdi. • p-værdien er en ”halesandsynlighed” i en fordeling, fx F-fordelingen. • F-fordelingen baserer sig på antagelser om at fejlleddet e er normalfordelt og har konstant varians (homoskedastisk). • Med andre ord: For at kunne stole på vores konklusioner, skal vi checke at antagelserne om normalfordelte og homoskedasktiskefejlled passer!
Residual • I den sande model har vi • Det kan vi skrive om til • Residualet, ei, er derfor et estimat af fejlleddet: • Da ei’erne er normalfordelte bør ei’erne også være det (hvis modellen da ellers er korrekt).
Modelkontrol • For at kunne stole på test og estimater skal vi sikre os, at modellens antagelser er overholdt! • Antagelse:Middelværdi-strukturen i modellen er • Kan være svært at checke direkte, hvis vi har mange forklarende variable. • Hvis middelværdi-strukturen i modellen er korrekt, så bør middelværdien af ei’erne være ca. nul uanset værdien af . ’erne eller x’erne. • Grafisk check: plot af afei mod .
Modelkontrol • Antagelse: Fejlleddenee1,…, enuafhænige? • Der må ikke vær nogen systematisk sammenhæng mellem ei’erne og ’erne eller x’erne. • Grafisk check: Et plot at ei mod eller x. • Antagelse: Fejlleddenee1,…, en ~N(0,s2)? • Hvis sandt regner vi med at ei’erne er cirka normalfordelte. • Et plot at ei mod kan afsløre om variansen er konstant (homoskedatiskefejlled). • Et histogram eller QQ-plot kan afsløre om ei’erne er normalfordelte
Residualplot Residualer Residualer √ ٪ 0 0 Homoskedastisk: Residualerne ser udtil at variereufahængigtafhinandenogx (eller ). Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig. ٪ Residualer Residualer ٪ 0 0 Tid Residualerneudviserlineær trend med tiden (eller en andenvariabel vi ikkeharbrugt). Detteindikerer at tidskulleinkluderesimodellen. Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.
Eksempel: Salg og Reklame • Data: n = 30par af observationer (xi,yi) • yi= Ugentlige salg • xi= Ugentlige reklame-budget • Model: • Hvor ei ~N(0,s2)
Residualer i SPSS • I ’Linear Regression’ vinduet vælges ’Save…’ • I ’Save’ vinduet vælges ’Unstandardized’ både under • ’Reresiduals’ (ei’erne) og • ’Predicted Values’ ( ’erne) .
Efter endt regression skaber SPSS to nye søjler i ’Data Editor’, der indeholder • residualer (’RES_1’) • prædiktioner (’PRE_1’) . • Derefter kan man fx lave scatter plots.
Scatter plot af • residualer (ei’erne) mod ’højde’ (xi’erne) (øverst) • residualer (ei’erne) mod prædiktionerne ( ’erne) (nederst). • Ser jo ganske usystematisk ud!
Histogram af residualer Histogrammet burde ligne en normalfordeling. Det gør det også sådan cirka – så ingen problemer her
Normalfordelingsplot (Q-Q plot) • Konstruer et ”kunstige” data u1,u2,…,unsom følger en normalfordeling. • I et Q-Q plot plotter man ui. mod ei. • Bemærk at både ui’erneog ei’erneer sorterede. • Hvis residualerne er normalfordelte, vil vi have ei≈ ui. • Dvs (ei,ui) ligge usystematisk omkring en linje med hældning 1 og skæring 0.
Normalfordelingsplot (Q-Q plot) • Det kunstige data (ui’erne) opnås ved at inddele normalfordelingen i n+1 lige store stykker. Areal = 1/(n+1) u5
Vælg ’Analyze → Descriptive Statistics → Q-Q plots’ • Ser helt fint ud – snor sig ikke alt for systematisk omkring linjen. • Punkterne ligger rimlig usystematisk omkring linjen: Altså ca. normalfordelt
Modelsøgning • Formål: Find den simplest mulig model, der beskriver data tilfredsstillende. • Kandidater: Vi vil kun bruge modeller der overholder det hierarkiske princip: Hvis en model indeholder en interaktion, så skal hovedeffekterne også være med. • Fx. Hvis modellen indeholder interaktionen A*B, så skal den også indeholde A og B. Hvis modellen indeholder A*B*C, så skal A*B, A*C, B*C, A, B og C være med. Osv… • Naiv søgning: Gennemgå alle modeller og vælg den der er bedst efter et eller andet kriterie, fx R2. • Backwards søgning: Start med en kompliceret model og fjern derefter en efter en led, der ikke er signifikante.
Justeret R2 • Modelsøgning mht. R2 er ikke ideelt. • Definition: • Trade-off mellem forklaringsgrad, R2, og antallet af parametre, k. • Fordel: Vokser kun, hvis ekstra forklarende variabels forklaringsgrad er stor i forhold til antal ekstra parametre. • Ulempe: Ikke samme simple fortolkning som R2.
Backwards søgning • Backwards-søgning: • Startmodel: Vælg til at starte med en model, der indeholder alle variable og vekselvirkninger, der menes at være (fagligt) interessante som forklaring den afhængige variabel. Undgå at specificere en model der er vanskelig at fortolke. • Test hvilke led i modellen, der kan fjernes. Mindst signifikante led fjernes, dvs F-test med højest p-værdi, dog så • Det hierarkiske princip er overholdt • p-værdien > a (typisk a = 0.10) • Reduceret model: Når et led er fjernet udføres en ny analyse på den nye og mindre model. • Slutmodel: Når ikke flere led kan fjernes har vi vores slutmodel. • Forbehold: Før hver ”test-runde” skal man afklare om modellens antagelser er opfyldt – ellers kan man ikke stole på p-værdierne.