1 / 35

Simpel Lineær Regression

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse – F -test Model-kontrol. Opbygning af statistisk model. Specificer model Ligninger og antagelser. Estimer parametre. Nej. Modelkontrol Er modellen passende. Ja. Anvend modellen. +.

Download Presentation

Simpel Lineær Regression

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Simpel Lineær Regression Opsplitning af variationen Determinations koefficient Variansanalyse – F-test Model-kontrol

  2. Opbygning af statistisk model Specificer model Ligninger og antagelser Estimer parametre Nej Modelkontrol Er modellen passende Ja Anvend modellen

  3. + Stokastisk komponent Systematisk komponent Simpel Lineær Regression - repetition Spørgsmål: ”Afhænger ylineært af x ?”. Model:

  4. Estimation - repetition • Vha. Mindste Kvadraters Metode finder vi regressionslinien hvor Residual:

  5. Forklaret og uforklaret afvigelse • Yi’s afvigelse fra kan opdeles i to. Y . Forklaret afvigelse Totale afvigelse Forklaret afvigelse X

  6. Y Y X X Total og forklaret variation - illustration Den totale variation ses når vi “kigger langs” x-aksen Den uforklarede variation ses når vi “kigger langs” regressionslinien

  7. Den totale variation • Den totale variation for data er • ”Variationen i data omkring datas middelværdi” • SST = Sum of Squares Total

  8. Opslitning af den totale variation • Den totale variation kan opslittes: • er den uforklarede variation. • er den forklarede variation. • SSR = Sum of Squares Regression

  9. Total og forklaret variation • Opslitning a variationen

  10. Determinations koeffcienten • Determinations Koeffcienten: Andelen af den totale variation, der er forklaret. • Pr definition: 0 ≤ r2 ≤ 1. • Jo tættere r2 er på 1, jo mere af variationen i data er forklaret af modellen. • r2 >0.8 er godt! … r2 meget tæt på 1 er dog mistænkeligt.

  11. Eksempler på r2 Y Y Y X X X SST SST SST S S E r2 = 0 SSE SSE SSR r2 = 0.90 r2 = 0.50 SSR

  12. r2 og Korrelationskoefficienten r • Den estimerede korrelationskoefficienten • Vis at r2 = r2…. :-s • Ingredienser:

  13. Variansanalyse-tabel • Hypoteser: • H0: β=0 ”Lineær regression er ikke besværet værd.” • H1: β≠0 • Under H0 gælder SSE/s2og SSR/s2er uafhængige og Antal observationer minus totale antal parametre. Antal parametre involveret i testen.

  14. Variansanalyse - fortsat • Af forrige slide følger: • Store værdier af F er kritiske for H0. • Med signifikansniveau α afviser vi H0, hvis

  15. SPSS output F-teststørresle Sums of Squares Frihedsgrader Mean Sums of Squares

  16. Modelkontrol • For at kunne stole på test og estimater skal vi sikre os, at modellens antagelser er overholdt! • Er der en lineær sammenhæng mellem X og Y ? • Er fejlleddene ε1,…, ε1 uafhænige? • Følger fejlleddene ε1,…, ε1 alle N(0,s2)?

  17. Residualanalyse Bemærk at residualet er et estimat for εi. Dvs. ei’erne groft sagt skal opføre sig som uafhængige N(0,s2) variable! Grafisk kontrol: Plot ei’erne mod xi eller .

  18. Residualplot Residualer Residualer √ ٪ 0 0 Homoskedastisk: Residualerne ser ud til at variere ufahængigt af hinanden og x. Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig. ٪ Residualer Residualer ٪ 0 0 Tid Residualerne udviser lineær trend med tiden (ellern anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen. Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.

  19. TV-Statistik-Køkken • Jeg har snydt og lavet mit eget data… • Det ligner reklame/salg data, men med flere observationer (n=30).

  20. Residualer i SPSS • I ’Linear Regression’ vinduet vælges ’Save…’ • I ’Save’ vinduet vælges ’Unstandardized’ både under • ’Reresiduals’ (ei’erne) og • ’Predicted Values’ ( ’erne) .

  21. Efter endt regression skaber SPSS to nye søjler i ’Data Editor’, der indeholder • residualer (’RES_1’) • prædiktioner (’PRE_1’) . • Derefter kan man fx lave scatter plots.

  22. Scatter plot af • residualer (ei’erne) mod ’højde’ (xi’erne) (øverst) • residualer (ei’erne) mod prædiktionerne (^yi’erne) (nederst). • Ser jo ganske usystematisk ud!

  23. Grafiske check for Normalfordeling For at tjekke holdbarheden af antagelsen om normalfordelte fejlled: ( εi~N(0,σ2) ) • Lav et histogram over residualerne og se efter om det normalfordelt ud. • Lave et normalfordelingsplot (Q-Q plot). • Lav et formelt χ2-test for ”goodness of fit” til en normalfordeling for residualerne

  24. Histogram af residualer Det ser jo ca normalfordelt ud…

  25. Normalfordelingsplot (Q-Q plot) • For hvert residual ei udregner vi hvor lier antallet af residualer der er mindre end ei, og mi er antallet af residualer med samme værdi som ei. • For hvert qi finder vi zi , så P(Z≤ zi )= qi , hvor Z~N(0,1). • Hvis ei’erne er normalfordelte vil et plot af (ei, zi) ligge på en ret linie.

  26. Normalfordelingsplot (Q-Q plot) • Nemmere med en tegning…

  27. Vælg ’Analyze → Descriptive Statistics → Q-Q plots’ • Ser helt fint ud – snor sig ikke alt for systematisk omkring linjen.

  28. Prædiktion i SLR-modellen • Punktprædiktion: • Hvilken værdi vil yforventeligt antage, hvis x antager en bestemt værdi, fx x=10 ? • Svar: • Dvs. vi prædikterer som bedste bud på punktets værdi. • Bedst ikke at prædiktere for x–værdier for langt fra, hvor vi har data Ganske simpelt ved at indsætte x i den estimerede regressions linje!

  29. Prædiktionsinterval for observationen Et (1-α)100% prædiktions interval for Y|X=x er Hvor s=√MSE. Et (1-α)100% konfidens interval for E(Y|X=x) er

  30. Prædiktionsbånd Prædiktionsbånd for E[Y|X] Y Regressions- linie Prædiktionsbånd for Y|X X Prædiktionsbåndene fremkommer ved at betragte konfidensintervallets endepunkter som funktion af x.

  31. SLR og lineær algebra • Den simple lineære regressions model siger: • Hvor e1,...,ener uafhængige og enfordelte e2~N(0,s2) . • Det kan vi skrive som to søjle-vektore!

  32. SLR og lineær algebra • Sådan! • Den sidste vektor kan vi skrive som en sum af vektore…

  33. SLR og lineær algebra • Modellen kan skrives vha. matrixer og vektore: • Hvor • Matricen X kaldes Design-matricen.

  34. SLR og lineær algebra • Regneregel fra lineære algebra: • Estimatet for er:

More Related