1 / 36

Statistik II 2. Lektion

Statistik II 2. Lektion. Multipel Lineær Regression. Middelværdi og Varians. Antag at X er en kontinuert stokastisk variabel Antag at X har tæthedsfunktion f(x). Middelværdien (eller den forventede værdi) for X er Variansen for X er

Download Presentation

Statistik II 2. Lektion

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistik II2. Lektion Multipel Lineær Regression

  2. Middelværdi og Varians • Antag at X er en kontinuert stokastisk variabel • Antag at X har tæthedsfunktion f(x). • Middelværdien (eller den forventede værdi) for X er • Variansen for X er • Variansen er altså den forventede kvadrerede afstand fra middelværdien. kaldes standardafvigelsen.

  3. Normalfordelingen • Normal fordelingen har tæthedsfunktionen • hvor • m er middelværdien og • s er standardafvigelsen 95% 2.5% 2.5% m m-1.96s m+1.96s

  4. Regneregler • Antag X er en stokastisk variabel. • Antag a og b er konstanter • Regneregel for middelværdi: • Regneregel for varians: • Eksempel: Håndboldspiller tjener 10,000kr/md + 250kr/mål. • Lad X være det (tilfældige) antal mål/md. • E[X] = 12 og V[X] = 4 • Hvad er middelværdi og varians for indkomst?

  5. Sammen gennemsnit og standardafv. (ca.)

  6. Middelværdi og Varians for en Stikprøve • Middelværdi for en stikprøve: • Varians for en stikprøve: • Interessante fakta:

  7. Multipel Lineær Regression • Y afhængig skala variabel • X1,…,Xkk forklarende variable, skala eller binære • Multipel Lineær Regressionsmodel: • xj,i er j’te forklarende variabel for i’te observation. • Fejlleddet ei”opsamler” den uforklarede del af modellen. • Antagelser: • e1,…,en er uafhængige og identisk fordelt ei~ N(0,s2) • Konsekvens:

  8. Simpel lineær regression • MLR med én skala forklarende variabel (k = 1) Y E[Y | X] = a + β1X • Modellen er { Yi b1 ei 1 • Modellen siger: • E(Y | X) = a+b1 X • V(Y | X) = s2 • Y | X~ N(a+b1X ,s2) a X Xi

  9. x1 x2 x3 x4 x5 Endnu en tegning… Y Yi|xi~N(a + β1xi,σ2) i.i.d. normalfordelte fejlled X x1 i=1 i=1

  10. Estimation • Model: • yi = a + b1xi + ei • εier i.i.d. N(0,σ2) • a, β1ogσ2 er modellens parametre – ukendte! • Estimation af aogb1svarer til at vælge den linje, der passer bedst til de observerede punkter. • Estimerede regressions linje • aer estimat for aog b1 er estimat for β1. • ”Y hat” er estimat for E(Y|X) • Spørgsmål: Hvordan estimerer vi aog b1?

  11. Residual led • er den lodrette afstanden fra den estimerede linje til datapunktet (xi,yi). Y Den estimerede regressionslinje X Xi

  12. Mindste kvadraters metode • Vi vil finde a ogb1 så summen af de kvadrerede fejl bliver mindst mulig. • Dvs, vi vil minimere • SSE er Sum of Squared Errors. • Skrevet ud: • Bemærk: Funktion af to variable (a og b1).

  13. Minimering SSE er en funktion af a og b1. Vi vil finde a og b1 så SSE er mindst mulig. a SSE b1

  14. Hypotestestaf hældning (β1) • Spørgsmål: Har den forklarende variabel xj virkelig en betydning for y? • Testfor om hældningen, β1er forskellig fra nul: • Teststørrelse: • Intuition: Værdier af tlangt fra nul er ufordelagtige for H0. • SE(b1) er standardfejlen for estimatet b1. • Hvis H0 er sand er stikprøvefordelingen af ten såkaldt t-fordeling med n-k-1frihedsgrader, hvor n er antal observationer.

  15. Test af hældning (β1) • Vælg et signifikansniveau, typisk α=0.05. • Udregn teststørrelsen • Bestem p-værdien (SPSS). • Beslutning: Hvis p-værdien < aafvises H0. t-fordeling med n-2 frihedsgrader 0 . 8 0 . 7 0 . 6 0 . 5 0 . 4 0 . 3 0 . 2 0 . 1 0 . 0 Orange område = p-værdi

  16. Fortolkning/Eksempler på H0 Er der en lineær sammenhæng mellem X og Y? H0: b1 = 0ingen lineær sammenhæng H1: b1  0lineær sammenhæng Følgende er eksempler, hvor H0ikke kan afvises. Konstant Y Usystematisk variation Ikke-lineærsammenhæng Y Y Y X X X

  17. SPSS • Analyze → General Linear Models → Univariate… Kategoriske forklarende variable Skala forklarende variable

  18. Eksempel • Spørgsmål: Er der sammen-hæng mellem udetempe-raturen og forbruget af gas? • Y: Forbrug af gas (gas) • X : Udetemperatur (temp) • Scatterplot→ • SPSS: • Estimerede model: • Både skæring (a) og hældning (b1) er signifikante! • Fortolkning?

  19. Forklaret og uforklaret afvigelse • Lad være gennemsnittet af alle yi’er • yi’s afvigelse fra kan opdeles i to. Y . Uforklaret afvigelse Totale afvigelse Forklaret afvigelse X

  20. Den Totale Variation Den totale variation i y’erne er givet ved Sum of Squares Total (SST):

  21. Den Uforklarede Variation Den uforklarede variation i y’erne er givet ved Sum of Squares Errors (SSE):

  22. Den Forklarede Variation • Den forklarede variation er betegnes Sum of Squares Regression (SSR) • Man kan vise: • Dvs. • Dvs. Total variation = Forklaret variation + Uforklaret variation

  23. Determinations koeffcienten R2 • Determinations Koefficienten: Andelen af den totale variation, der er forklaret. • Pr definition: 0 ≤ R2 ≤ 1. • Jo tættere R2 er på 1, jo mere af variationen i data er forklaret af modellen. • R2 >0.8 er godt! … R2 meget tæt på 1 er dog mistænkeligt.

  24. Eksempler på R2 Y Y Y X X X SST SST SST S S E R2 = 0 SSE SSR R2 = 0.90 R2 = 0.50 SSE SSR

  25. Er modellen besværet værd? Der er ingen (lineær) sammenhæng mellem Y og de forklarende variable • H0: b1 = b2 = … = bk= 0 • H1: Mindst et bi≠ 0 • Teststørrelse: • Store værdier af Fer ufordelagtige for H0. Der er (lineær) sammenhæng mellem Y og mindst én af de forklarende variable Mean Squared Regression Mean Squared Error

  26. Eksempel: R2og F-test MSR SSR p-værdi SSE F=MSR/MSE SST MSE

  27. F-fordelingen F-fordeling 0 . 7 0 . 6 0 . 5 0 . 4 ) F ( f 0 . 3 Areal = p-værdi 0 . 2 0 . 1 0 . 0 F 0 1 2 3 4 5 F

  28. Eksempel - fortsat • Y : Forbrug af gas, skala (gas) • XTemp : Udetemperatur, skala (temp) • XIsolering: {Før, Efter}, kategorisk (insulate) • OmkodXIsoleringtil binær dummy variabel XFør • XFør = 1 hvis XIsolering = Før • XFør = 0 hvis XIsolering = Efter • Model:

  29. Fortolkning af model • Når XIsolering = Før • Når XIsolering = Efter • To linjer med forskellig skæringspunkter! • Før angiver forskellen i skæringspunkt.

  30. To regressionslinjer med forskellige skæringer, men samme hældning Y Linje for XFør=1 a+ bFør Linje for XFør=0 a X1

  31. Eksempel og SPSS • SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’ • Som ventet er F-testet stadig signifikant. • Som ventet er R2vokset – med nye variable kan modellen aldrig forklare mindre end før. • Bemærk at R2 er meget større!

  32. Eksempel og SPSS • Estimater • Estimeret model: • Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):

  33. Vekselvirkning / Interaktion • Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. • Y, XTemp og XFør er som før. • Introducer: XTemp,Før= XTemp∙XFør • Model

  34. Fortolkning • Når XIsolering= Før: • Når XIsolering = Efter: • bTemp,Førbeskriver forskellen i hældningen mellem de to regressionslinjer.

  35. SPSS • Hoved-effekt: ”Ensom” variabel • Interaktionsled: Produkt af to eller flere variable • I SPSS: Under ’Model’ angiv hoved-effekter og interaktionsled. • Indsæt altid hoved-effekter først!

  36. Scatterplot → • Estimater • Estimeret model:

More Related