1 / 44

Statikstik II 4. Lektion

Statikstik II 4. Lektion. Generelle Lineære Modeller. Generel Lineær Model. Y afhængig skala variabel X 1 ,…,X k forklarende variable, skala eller binære Model: Middelværdien af Y givet X Mere præcist: i ’te observation ud af n er givet ved

ulmer
Download Presentation

Statikstik II 4. Lektion

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statikstik II4. Lektion Generelle Lineære Modeller

  2. Generel Lineær Model • Y afhængig skala variabel • X1,…,Xk forklarende variable, skala eller binære • Model: Middelværdien af Y givet X • Mere præcist: i’te observation ud af n er givet ved • xj,i er j’te forklarende variabel for i’te observation. • e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2) IID

  3. Simpel lineær regression • GLM med én skala forklarende variabel (k=1) Y E[Y|X] = a + β1X • Modellen er { Yi β1 εi 1 • Modellen siger: • E(Y|X) = a + b1X • V(Y|X) = σ2 • Y|X ~ N(a + β1X, σ2) a0 X Xi

  4. x1 x2 x3 x4 x5 Endnu en tegning… Y Yi|xi~N(a + β1xi,σ2) i.i.d. normalfordelte fejlled X x1 i=1 i=1

  5. Estimation • Model: • yi = a + b1xi + ei • εier i.i.d. N(0,σ2) • a, β1ogσ2 er modellens parametre – ukendte! • Estimation af aogb1svarer til at vælge den linje, der passer bedst til de observerede punkter. • Estimerede regressions linje • aer estimat for aog b1 er estimat for β1. • ”Y hat” er estimat for E(Y|X) • Spørgsmål: Hvordan estimerer vi aog b1?

  6. Residual led • er den lodrette afstanden fra den estimerede linie til datapunktet (xi,yi). Y Den estimerede regressionslinje X Xi

  7. Mindste kvadraters metode • Vi vil finde a ogb1 så summen af de kvadrerede fejl bliver mindst mulig. • Dvs, vi vil minimere • SSE er Sum of Squared Errors. • Skrevet ud: • Bemærk: Funktion af to variable (a og b1).

  8. Minimering SSE er en funktion af a og b1. Vi vil finde a og b1 så SSE er mindst mulig. a SSE b1

  9. Test af hældning (β1) • Test for om hældningen, β1er forskellig fra nul: • Teststørrelse: • Numerisk store værdier af t er ufordelagtige for H0. • SE(b1) er standardfejlen for estimatet b1. • Hvis H0 er sand følger t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.

  10. Test af hældning (β1) • Vælg et signifikansniveau, typisk α=0.05. • Udregn teststørrelsen • Bestem p-værdien (SPSS). • Beslutning: Hvis p-værdien < α afvises H0. t-fordeling med n-2 frihedsgrader 0 . 8 0 . 7 0 . 6 0 . 5 0 . 4 0 . 3 0 . 2 0 . 1 0 . 0 Orange område = p-værdi

  11. Fortolkning/Eksempler på H0 Er der en lineær sammenhæng mellem X og Y? H0: b1 = 0ingen lineær sammenhæng H1: b1  0lineær sammenhæng Følgende er eksempler, hvor H0 accepteres. Konstant Y Usystematisk variation Ikke-lineærsammenhæng Y Y Y X X X

  12. SPSS • Analyze → General Linear Models → Univariate… Kategoriske forklarende variable Skala forklarende variable

  13. Eksempel • Y : Forbrug af gas (gas) • X : Udetemperatur (temp) • Scatterplot → • SPSS: • Estimerede model: • Både skæring (a) og hældning (b1) er signifikante!

  14. Forklaret og uforklaret afvigelse • Lad være gennemsnittet af alle yi’er • yi’s afvigelse fra kan opdeles i to. Y . Uforklaret afvigelse Totale afvigelse Forklaret afvigelse X

  15. Y Y X X Total og forklaret variation - illustration Den totale variation ses når vi “kigger langs” x-aksen Den uforklarede variation ses når vi “kigger langs” regressionslinjen

  16. Den totale variation • Lad være gennemsnittet af alle yi’er • Den totale variation for data er • ”Variationen i data omkring datas middelværdi” • SST = Sum of Squares Total

  17. Opslitning af den totale variation • Den totale variation kan opslittes: • er den uforklarede variation. • er den forklarede variation. • SSR = Sum of Squares Regression

  18. Total og forklaret variation • Opsplitning af variationen

  19. Determinations koeffcienten R2 • Determinations Koeffcienten: Andelen af den totale variation, der er forklaret. • Pr definition: 0 ≤ R2 ≤ 1. • Jo tættere R2 er på 1, jo mere af variationen i data er forklaret af modellen. • R2 >0.8 er godt! … R2 meget tæt på 1 er dog mistænkeligt.

  20. Eksempler på R2 Y Y Y X X X SST SST SST S S E R2 = 0 SSE SSE SSR R2 = 0.90 R2 = 0.50 SSR

  21. Er modellen besværet værd? Der er ingen (lineær) sammenhæng mellem Y og de forklarende variable • H0: b1 = b2 = … = bk= 0 • H1: Mindst et bi≠ 0 • Teststørrelse: • Store værdier af Fer ufordelagtige for H0. Der er (lineær) sammenhæng mellem Y og mindst én af de forklarende variable Mean Squared Regression Mean Squared Error

  22. Eksempel: R2og F-test MSR SSR p-værdi SSE F=MSR/MSE SST MSE

  23. F-fordelingen F-fordeling 0 . 7 0 . 6 0 . 5 0 . 4 ) F ( f 0 . 3 Areal = p-værdi 0 . 2 0 . 1 0 . 0 F 0 1 2 3 4 5 F

  24. Eksempel - fortsat • Y : Forbrug af gas, skala (gas) • XTemp : Udetemperatur, skala (temp) • XIsolering: {Før, Efter}, kategorisk (insulate) • Omkod XIsolering til binær variabel XFør • XFør = 1 hvis XIsolering = Før • XFør = 0 hvis XIsolering = Efter • Model:

  25. Fortolkning af model • Når XIsolering = Før • Når XIsolering = Efter • To linjer med forskellig skæringspunkter! • Før angiver forskellen i skæringspunkt.

  26. To regressionslinjer med forskellige skæringer, men samme hældning Y Linje for XFør=1 a+ bFør Linje for XFør=0 a X1

  27. Eksempel og SPSS • SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’ • Som ventet er F-testet stadig signifikant. • Som ventet er R2vokset – med nye variable kan modellen aldrig forklare mindre end før. • Bemærk at R2 er meget større!

  28. Eksempel og SPSS • Estimater • Estimeret model: • Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):

  29. Vekselvirkning / Interaktion • Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. • Y, XTemp og XFør er som før. • Introducer: XTemp,Før= XTemp∙XFør • Model

  30. Fortolkning • Når XIsolering= Før: • Når XIsolering = Efter: • bTemp,Førbeskriver forskellen i hældningen mellem de to regressionslinjer.

  31. SPSS • Hoved-effekt: ”Ensom” variabel • Interaktionsled: Produkt af to eller flere variable • I SPSS: Under ’Model’ angiv hoved-effekter og interaktionsled. • Indsæt altid hoved-effekter først!

  32. Scatterplot → • Estimater • Estimeret model:

  33. Variansanalyse (ANOVA) • En Generel Lineær Model, der kun har kategoriske forklarende variable, kaldes en variansanalyse. • På engelsk: Analysis of Variance (ANOVA) • Eksempel: • Y: Månedlige forbrug • Shoppingstil: Hver 2. uge, Ugentligt, Oftere • Køn: Mand, Kvinde

  34. Dummy-variable • To kategoriske variable: • Omkodning til dummy variable. • Referencekategorier: ”Kvinde” og ”Ofte” • (SPSS vælger altid sidste kategori som reference)

  35. Model • Den generelle lineære model er: • E(Y|x) = a + bKvindeXKvinde + bH2UXH2U + bUgeXUge • Fortolkning: Sammenligning and mand og kvinde med samme ”Stil”: • E(Y|Køn=Mand, Stil) - E(Y|Køn=Kvinde, Stil) = (a + bMand∙1 + bH2U XH2U+ bUgeXUge) – (a + bMand∙0 + bH2U XH2U+ bUgeXUge) = bKvinde • Dvs. bMandangiver forskellen i gennemsnits-forbruget for mænd i forhold til kvinder (uagtet deres shopping-stil).

  36. Mere fortolkning • bH2U angiver forskellen i gennemsnits-forbrug for folk der handler hver 2. uge i forhold til folk der handler ofte. • bUgeangiver forskellen i gennemsnits-forbrug for folk der handler ugentligt i forhold til folk der handler ofte.

  37. Hypotesetest • Hypoteser • H0: bH2U = bUge = 0 Dvs. ingen effekt af shoppe-stil. • H1:bH2U≠ 0og/ellerbUge≠ 0 • Teststørrelse: • SSstiler forskellen i den forklarede variation (SSR) med og uden ”Stil” i modellen. • Intuition: Jo mere af den totale variation ”Stil” forklarer, jo større er SSStilog dermedF. • Store værdier af F er dermed ufordelagtige for H0. SSStil : Sum of Squares for ’Stil’ q : Antal parametre forbundet med ’Stil’ (2)

  38. SPSS • Analyze→ General Linear Model → Univarite • ’amtspend’ som ’dependent’ • ’style’ og ’gender’ som ’fixed factor’ • Bemærk at ’style’ ikke er signifikant! • Bemærk: R2 = 0.118, dvs. kun 11,8% af den totale variation er forklaret af modellen! SSR SSStil SSE SST

  39. Estimerede model • Den estimerede model: • E(Y|x) = 374,133+61,183XMand-27,703 XH2U-4,271 XUge • Prædiktion: Gennemsnitsforbruget for en mand, der shopper ugentligt er: • E(Y|Køn = Mand, Shopping = Ugentligt ) = 374,133 + 61,183 ∙1 -27,703 ∙0 -4,271∙1 = 431,045

  40. Vekselvirkning • Introducer vekselvirkning: Køn*Stil • Nye dummy variable: XKøn,Stil = Xkøn* XStil. • Bemærk: Dummy-variable XKøn,Stil= 0 hvis reference-kategori er indblandet.

  41. Model • Den generelle lineære model er: • E(Y|x) = a + bMandXMand + bH2U XH2U + bUgeXUge + bMand,H2U XMand,H2U + bMand,UgeXMand,Uge • Bemærk: Alle X’er er dummy variable.

  42. SPSS • Bemærk: Hoved-effekter før interaktioner!

  43. SPSS • R2 er nu 0,138. • Bemærk: Interaktionen ’Køn*Stil’ er signifikant, mens hovedeffekten ’Stil’ ikke er! • ”Normalt”: Fjerne led med højest p-værdi, dvs. mindst signifikante led. • Hierarkiske princip: Vi fjerner ikke en hoved-effekt, hvis den indgår i en interaktion.

  44. Estimerede model • Estimerede model er: • = 405,727 + 2,048 XMand -61,751 XH2U-44,006 XUge + 67,042 XMand,H2U + 77,196 XMand,Uge

More Related