Statistik Lektion 4

StatistikLektion 4 Variansanalyse Modelkontrol

Eksempel • Spørgsmål: Er der sammen-hæng mellem udetempe-raturen og forbruget af gas? • Y: Forbrug af gas (gas) • X : Udetemperatur (temp) • Scatterplot→ • SPSS: • Estimerede model: • Både skæring (a) og hældning (b1) er signifikante! • Fortolkning? R2 = 0.467

Eksempel – nu med isolering! • Y : Forbrug af gas, skala (gas) • XTemp : Udetemperatur, skala (temp) • XIsolering: {Før, Efter}, kategorisk (insulate) • OmkodXIsoleringtil binær dummy variabel XFør • XFør = 1 hvis XIsolering = Før • XFør = 0 hvis XIsolering = Efter • Model:

Fortolkning af model • Når XIsolering = Før • Når XIsolering = Efter • To linjer med forskellig skæringspunkter! • Før angiver forskellen i skæringspunkt.

To regressionslinjer med forskellige skæringer, men samme hældning Y Linje for XFør=1 a+ bFør Linje for XFør=0 a X1

Eksempel og SPSS • SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’ • Som ventet er F-testet stadig signifikant. • Som ventet er R2vokset – med nye variable kan modellen aldrig forklare mindre end før. • Bemærk at R2 er meget større!

Eksempel og SPSS • Estimater • Estimeret model: • Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):

Vekselvirkning / Interaktion • Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. • Y, XTemp og XFør er som før. • Introducer: XTemp,Før= XTemp∙XFør • Model

Fortolkning • Når XIsolering= Før: • Når XIsolering = Efter: • bTemp,Førbeskriver forskellen i hældningen mellem de to regressionslinjer.

SPSS • Hoved-effekt: ”Ensom” variabel • Interaktionsled: Produkt af to eller flere variable • I SPSS: Under ’Model’ angiv hoved-effekter og interaktionsled. • Indsæt altid hoved-effekter først!

Scatterplot → • Estimater • Estimeret model:

Variansanalyse (ANOVA ) Analysis of Variance • Setup: Kun kategoriske forklarende variable • Eksempel: • Y: Månedlige forbrug (Amountspent - amtspend) • X1: Shoppestil (Shopping style - style) • Hver anden uge: Biweekly (B) • Hver uge: Weekly (W) • Ofte: Often (O) • Spørgsmål: Påvirker ’style’ forbruget?

Grafisk overblik

Omkodning vha. Dummies • For at kunne anvende en MLR model må den kategoriske style variabel omkodes til dummy variable: • To binære dummy variable: XB og XW • Bemærk: k kategorier omkodes til k-1 dummy variable • Model:

Hypotesen • Model: • E[Y | Style = B] = a + bB • E[Y | Style = W] = a + bW • E[Y | Style = O] = a • Bemærk: bB og bW angiver hvordan Bi-weekly og Weekly adskiller sig fra Often. Often er referencekategori. • Hypotese: Middelværdien er den samme for alle styles: • H0: bB = bW = 0 • H1: bB 0 og/eller bW 0 • Afgøres vha. et F-test.

SPSS • Fortolkning? a bB bW

To-sidet Variansanalyse • Ide: Tage højde for køn • X2: Køn (Mand/Kvinde) (Gender - gender) • Omkodes til dummy variabel: XM = 1 hvis X2 = Mand • Model: • Tester to nul-hypoteser: • H0: bB = bW = 0 (Ingen effekt af style) • H0: bM = 0 (Ingen effekt af gender)

SPSS

Interaktion? • Er der en vekselvirkning mellem gender og style?

Model med Interaktion • Model: • Hypotese: Ingen interaktion • H0: bBM = bWM = 0 • Hypotese: Ingen hovedeffekt af style • H0: bB = bW = 0 • Hypotese: Ingen hovedeffekt af gender • H0: bM = 0 • Det hierarkiske princip: • Det giver ikke mening at teste hovedeffekter, når de indgår i en interaktion.

SPSS • Bemærk: Hoved-effekter før interaktioner!

SPSS • Ifølge det hierarkiske princip er det kun test af interaktionen, der giver mening. • Konklusion?

Estimerede model • Estimerede model er: • = 405,727 + 2,048 XM -61,751XB-44,006 XW+ 67,042XBM+ 77,196XWM

Modelform • Modellen for forbrug forklaret ved shoppe-stil og køn kan altså skrives som • Her er xB, xW og xM dummy variable. • At skrive formlen op kan hurtigt blive uoverskueligt. • Modellens modelform kan skrives som Forbrug = Stil + Køn + Stil*Køn • I forbindelse med analyse eller fortolkning af model-parametre er det stadig nyttigt at skrive den matematiske formel op.

Modelkontrol - Motivation • Vores konklusioner om variables vigtighed baseres på p-værdi. • p-værdien er en ”halesandsynlighed” i en fordeling, fx F-fordelingen. • F-fordelingen baserer sig på antagelser om at fejlleddet e er normalfordelt og har konstant varians (homoskedastisk). • Med andre ord: For at kunne stole på vores konklusioner, skal vi checke at antagelserne om normalfordelte og homoskedasktiskefejlled passer!

Residual • I den sande model har vi • Det kan vi skrive om til • Residualet, ei, er derfor et estimat af fejlleddet: • Da ei’erne er normalfordelte bør ei’erne også være det (hvis modellen da ellers er korrekt).

Modelkontrol • For at kunne stole på test og estimater skal vi sikre os, at modellens antagelser er overholdt! • Antagelse:Middelværdi-strukturen i modellen er • Kan være svært at checke direkte, hvis vi har mange forklarende variable. • Hvis middelværdi-strukturen i modellen er korrekt, så bør middelværdien af ei’erne være ca. nul uanset værdien af . ’erne eller x’erne. • Grafisk check: plot af afei mod .

Modelkontrol • Antagelse: Fejlleddenee1,…, enuafhænige? • Der må ikke vær nogen systematisk sammenhæng mellem ei’erne og ’erne eller x’erne. • Grafisk check: Et plot at ei mod eller x. • Antagelse: Fejlleddenee1,…, en ~N(0,s2)? • Hvis sandt regner vi med at ei’erne er cirka normalfordelte. • Et plot at ei mod kan afsløre om variansen er konstant (homoskedatiskefejlled). • Et histogram eller QQ-plot kan afsløre om ei’erne er normalfordelte

Residualplot Residualer Residualer √ ٪ 0 0 Homoskedastisk: Residualerne ser udtil at variereufahængigtafhinandenogx (eller ). Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig. ٪ Residualer Residualer ٪ 0 0 Tid Residualerneudviserlineær trend med tiden (eller en andenvariabel vi ikkeharbrugt). Detteindikerer at tidskulleinkluderesimodellen. Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.

Eksempel: Kriminalitet og Urbanisering • Data for n = 67 distrikter i Florida. • yi= Crime rate • xi= Urbanisering • Model: • Hvor ei ~N(0,s2)

Residualer i SPSS • I ’Univariate’ vinduet vælges ’Save…’ • I ’Save’ vinduet vælges ’Unstandardized’ både under • ’Reresiduals’ (ei’erne) og • ’PredictedValues’ ( ’erne) .

Efter endt regression skaber SPSS to nye søjler i ’Data Editor’, der indeholder • residualer (’RES_1’) • prædiktioner (’PRE_1’) . • Derefter kan man fx lave scatter plots.

Scatter plot af • residualer (ei’erne) mod ’urbanisering’ (xi’erne). • residualer (ei’erne) mod prædiktionerne ( ’erne) . • Ser jo ganske usystematisk ud med jævn variation!

Histogram af residualer Histogrammet burde ligne en normalfordeling. Det gør det ikke helt… men det er ikke katestrofalt.

Statistik Lektion 4