440 likes | 599 Views
Statikstik II 4. Lektion. Generelle Lineære Modeller. Generel Lineær Model. Y afhængig skala variabel X 1 ,…,X k forklarende variable, skala eller binære Model: Middelværdien af Y givet X Mere præcist: i ’te observation ud af n er givet ved
E N D
Statikstik II4. Lektion Generelle Lineære Modeller
Generel Lineær Model • Y afhængig skala variabel • X1,…,Xk forklarende variable, skala eller binære • Model: Middelværdien af Y givet X • Mere præcist: i’te observation ud af n er givet ved • xj,i er j’te forklarende variabel for i’te observation. • e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2) IID
Simpel lineær regression • GLM med én skala forklarende variabel (k=1) Y E[Y|X] = a + β1X • Modellen er { Yi β1 εi 1 • Modellen siger: • E(Y|X) = a + b1X • V(Y|X) = σ2 • Y|X ~ N(a + β1X, σ2) a0 X Xi
x1 x2 x3 x4 x5 Endnu en tegning… Y Yi|xi~N(a + β1xi,σ2) i.i.d. normalfordelte fejlled X x1 i=1 i=1
Estimation • Model: • yi = a + b1xi + ei • εier i.i.d. N(0,σ2) • a, β1ogσ2 er modellens parametre – ukendte! • Estimation af aogb1svarer til at vælge den linje, der passer bedst til de observerede punkter. • Estimerede regressions linje • aer estimat for aog b1 er estimat for β1. • ”Y hat” er estimat for E(Y|X) • Spørgsmål: Hvordan estimerer vi aog b1?
Residual led • er den lodrette afstanden fra den estimerede linie til datapunktet (xi,yi). Y Den estimerede regressionslinje X Xi
Mindste kvadraters metode • Vi vil finde a ogb1 så summen af de kvadrerede fejl bliver mindst mulig. • Dvs, vi vil minimere • SSE er Sum of Squared Errors. • Skrevet ud: • Bemærk: Funktion af to variable (a og b1).
Minimering SSE er en funktion af a og b1. Vi vil finde a og b1 så SSE er mindst mulig. a SSE b1
Test af hældning (β1) • Test for om hældningen, β1er forskellig fra nul: • Teststørrelse: • Numerisk store værdier af t er ufordelagtige for H0. • SE(b1) er standardfejlen for estimatet b1. • Hvis H0 er sand følger t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.
Test af hældning (β1) • Vælg et signifikansniveau, typisk α=0.05. • Udregn teststørrelsen • Bestem p-værdien (SPSS). • Beslutning: Hvis p-værdien < α afvises H0. t-fordeling med n-2 frihedsgrader 0 . 8 0 . 7 0 . 6 0 . 5 0 . 4 0 . 3 0 . 2 0 . 1 0 . 0 Orange område = p-værdi
Fortolkning/Eksempler på H0 Er der en lineær sammenhæng mellem X og Y? H0: b1 = 0ingen lineær sammenhæng H1: b1 0lineær sammenhæng Følgende er eksempler, hvor H0 accepteres. Konstant Y Usystematisk variation Ikke-lineærsammenhæng Y Y Y X X X
SPSS • Analyze → General Linear Models → Univariate… Kategoriske forklarende variable Skala forklarende variable
Eksempel • Y : Forbrug af gas (gas) • X : Udetemperatur (temp) • Scatterplot → • SPSS: • Estimerede model: • Både skæring (a) og hældning (b1) er signifikante!
Forklaret og uforklaret afvigelse • Lad være gennemsnittet af alle yi’er • yi’s afvigelse fra kan opdeles i to. Y . Uforklaret afvigelse Totale afvigelse Forklaret afvigelse X
Y Y X X Total og forklaret variation - illustration Den totale variation ses når vi “kigger langs” x-aksen Den uforklarede variation ses når vi “kigger langs” regressionslinjen
Den totale variation • Lad være gennemsnittet af alle yi’er • Den totale variation for data er • ”Variationen i data omkring datas middelværdi” • SST = Sum of Squares Total
Opslitning af den totale variation • Den totale variation kan opslittes: • er den uforklarede variation. • er den forklarede variation. • SSR = Sum of Squares Regression
Total og forklaret variation • Opsplitning af variationen
Determinations koeffcienten R2 • Determinations Koeffcienten: Andelen af den totale variation, der er forklaret. • Pr definition: 0 ≤ R2 ≤ 1. • Jo tættere R2 er på 1, jo mere af variationen i data er forklaret af modellen. • R2 >0.8 er godt! … R2 meget tæt på 1 er dog mistænkeligt.
Eksempler på R2 Y Y Y X X X SST SST SST S S E R2 = 0 SSE SSE SSR R2 = 0.90 R2 = 0.50 SSR
Er modellen besværet værd? Der er ingen (lineær) sammenhæng mellem Y og de forklarende variable • H0: b1 = b2 = … = bk= 0 • H1: Mindst et bi≠ 0 • Teststørrelse: • Store værdier af Fer ufordelagtige for H0. Der er (lineær) sammenhæng mellem Y og mindst én af de forklarende variable Mean Squared Regression Mean Squared Error
Eksempel: R2og F-test MSR SSR p-værdi SSE F=MSR/MSE SST MSE
F-fordelingen F-fordeling 0 . 7 0 . 6 0 . 5 0 . 4 ) F ( f 0 . 3 Areal = p-værdi 0 . 2 0 . 1 0 . 0 F 0 1 2 3 4 5 F
Eksempel - fortsat • Y : Forbrug af gas, skala (gas) • XTemp : Udetemperatur, skala (temp) • XIsolering: {Før, Efter}, kategorisk (insulate) • Omkod XIsolering til binær variabel XFør • XFør = 1 hvis XIsolering = Før • XFør = 0 hvis XIsolering = Efter • Model:
Fortolkning af model • Når XIsolering = Før • Når XIsolering = Efter • To linjer med forskellig skæringspunkter! • Før angiver forskellen i skæringspunkt.
To regressionslinjer med forskellige skæringer, men samme hældning Y Linje for XFør=1 a+ bFør Linje for XFør=0 a X1
Eksempel og SPSS • SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’ • Som ventet er F-testet stadig signifikant. • Som ventet er R2vokset – med nye variable kan modellen aldrig forklare mindre end før. • Bemærk at R2 er meget større!
Eksempel og SPSS • Estimater • Estimeret model: • Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):
Vekselvirkning / Interaktion • Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. • Y, XTemp og XFør er som før. • Introducer: XTemp,Før= XTemp∙XFør • Model
Fortolkning • Når XIsolering= Før: • Når XIsolering = Efter: • bTemp,Førbeskriver forskellen i hældningen mellem de to regressionslinjer.
SPSS • Hoved-effekt: ”Ensom” variabel • Interaktionsled: Produkt af to eller flere variable • I SPSS: Under ’Model’ angiv hoved-effekter og interaktionsled. • Indsæt altid hoved-effekter først!
Scatterplot → • Estimater • Estimeret model:
Variansanalyse (ANOVA) • En Generel Lineær Model, der kun har kategoriske forklarende variable, kaldes en variansanalyse. • På engelsk: Analysis of Variance (ANOVA) • Eksempel: • Y: Månedlige forbrug • Shoppingstil: Hver 2. uge, Ugentligt, Oftere • Køn: Mand, Kvinde
Dummy-variable • To kategoriske variable: • Omkodning til dummy variable. • Referencekategorier: ”Kvinde” og ”Ofte” • (SPSS vælger altid sidste kategori som reference)
Model • Den generelle lineære model er: • E(Y|x) = a + bKvindeXKvinde + bH2UXH2U + bUgeXUge • Fortolkning: Sammenligning and mand og kvinde med samme ”Stil”: • E(Y|Køn=Mand, Stil) - E(Y|Køn=Kvinde, Stil) = (a + bMand∙1 + bH2U XH2U+ bUgeXUge) – (a + bMand∙0 + bH2U XH2U+ bUgeXUge) = bKvinde • Dvs. bMandangiver forskellen i gennemsnits-forbruget for mænd i forhold til kvinder (uagtet deres shopping-stil).
Mere fortolkning • bH2U angiver forskellen i gennemsnits-forbrug for folk der handler hver 2. uge i forhold til folk der handler ofte. • bUgeangiver forskellen i gennemsnits-forbrug for folk der handler ugentligt i forhold til folk der handler ofte.
Hypotesetest • Hypoteser • H0: bH2U = bUge = 0 Dvs. ingen effekt af shoppe-stil. • H1:bH2U≠ 0og/ellerbUge≠ 0 • Teststørrelse: • SSstiler forskellen i den forklarede variation (SSR) med og uden ”Stil” i modellen. • Intuition: Jo mere af den totale variation ”Stil” forklarer, jo større er SSStilog dermedF. • Store værdier af F er dermed ufordelagtige for H0. SSStil : Sum of Squares for ’Stil’ q : Antal parametre forbundet med ’Stil’ (2)
SPSS • Analyze→ General Linear Model → Univarite • ’amtspend’ som ’dependent’ • ’style’ og ’gender’ som ’fixed factor’ • Bemærk at ’style’ ikke er signifikant! • Bemærk: R2 = 0.118, dvs. kun 11,8% af den totale variation er forklaret af modellen! SSR SSStil SSE SST
Estimerede model • Den estimerede model: • E(Y|x) = 374,133+61,183XMand-27,703 XH2U-4,271 XUge • Prædiktion: Gennemsnitsforbruget for en mand, der shopper ugentligt er: • E(Y|Køn = Mand, Shopping = Ugentligt ) = 374,133 + 61,183 ∙1 -27,703 ∙0 -4,271∙1 = 431,045
Vekselvirkning • Introducer vekselvirkning: Køn*Stil • Nye dummy variable: XKøn,Stil = Xkøn* XStil. • Bemærk: Dummy-variable XKøn,Stil= 0 hvis reference-kategori er indblandet.
Model • Den generelle lineære model er: • E(Y|x) = a + bMandXMand + bH2U XH2U + bUgeXUge + bMand,H2U XMand,H2U + bMand,UgeXMand,Uge • Bemærk: Alle X’er er dummy variable.
SPSS • Bemærk: Hoved-effekter før interaktioner!
SPSS • R2 er nu 0,138. • Bemærk: Interaktionen ’Køn*Stil’ er signifikant, mens hovedeffekten ’Stil’ ikke er! • ”Normalt”: Fjerne led med højest p-værdi, dvs. mindst signifikante led. • Hierarkiske princip: Vi fjerner ikke en hoved-effekt, hvis den indgår i en interaktion.
Estimerede model • Estimerede model er: • = 405,727 + 2,048 XMand -61,751 XH2U-44,006 XUge + 67,042 XMand,H2U + 77,196 XMand,Uge