350 likes | 560 Views
Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse – F -test Model-kontrol. Opbygning af statistisk model. Specificer model Ligninger og antagelser. Estimer parametre. Nej. Modelkontrol Er modellen passende. Ja. Anvend modellen. +.
E N D
Simpel Lineær Regression Opsplitning af variationen Determinations koefficient Variansanalyse – F-test Model-kontrol
Opbygning af statistisk model Specificer model Ligninger og antagelser Estimer parametre Nej Modelkontrol Er modellen passende Ja Anvend modellen
+ Stokastisk komponent Systematisk komponent Simpel Lineær Regression - repetition Spørgsmål: ”Afhænger ylineært af x ?”. Model:
Estimation - repetition • Vha. Mindste Kvadraters Metode finder vi regressionslinien hvor Residual:
Forklaret og uforklaret afvigelse • Yi’s afvigelse fra kan opdeles i to. Y . Forklaret afvigelse Totale afvigelse Forklaret afvigelse X
Y Y X X Total og forklaret variation - illustration Den totale variation ses når vi “kigger langs” x-aksen Den uforklarede variation ses når vi “kigger langs” regressionslinien
Den totale variation • Den totale variation for data er • ”Variationen i data omkring datas middelværdi” • SST = Sum of Squares Total
Opslitning af den totale variation • Den totale variation kan opslittes: • er den uforklarede variation. • er den forklarede variation. • SSR = Sum of Squares Regression
Total og forklaret variation • Opslitning a variationen
Determinations koeffcienten • Determinations Koeffcienten: Andelen af den totale variation, der er forklaret. • Pr definition: 0 ≤ r2 ≤ 1. • Jo tættere r2 er på 1, jo mere af variationen i data er forklaret af modellen. • r2 >0.8 er godt! … r2 meget tæt på 1 er dog mistænkeligt.
Eksempler på r2 Y Y Y X X X SST SST SST S S E r2 = 0 SSE SSE SSR r2 = 0.90 r2 = 0.50 SSR
r2 og Korrelationskoefficienten r • Den estimerede korrelationskoefficienten • Vis at r2 = r2…. :-s • Ingredienser:
Variansanalyse-tabel • Hypoteser: • H0: β=0 ”Lineær regression er ikke besværet værd.” • H1: β≠0 • Under H0 gælder SSE/s2og SSR/s2er uafhængige og Antal observationer minus totale antal parametre. Antal parametre involveret i testen.
Variansanalyse - fortsat • Af forrige slide følger: • Store værdier af F er kritiske for H0. • Med signifikansniveau α afviser vi H0, hvis
SPSS output F-teststørresle Sums of Squares Frihedsgrader Mean Sums of Squares
Modelkontrol • For at kunne stole på test og estimater skal vi sikre os, at modellens antagelser er overholdt! • Er der en lineær sammenhæng mellem X og Y ? • Er fejlleddene ε1,…, ε1 uafhænige? • Følger fejlleddene ε1,…, ε1 alle N(0,s2)?
Residualanalyse Bemærk at residualet er et estimat for εi. Dvs. ei’erne groft sagt skal opføre sig som uafhængige N(0,s2) variable! Grafisk kontrol: Plot ei’erne mod xi eller .
Residualplot Residualer Residualer √ ٪ 0 0 Homoskedastisk: Residualerne ser ud til at variere ufahængigt af hinanden og x. Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig. ٪ Residualer Residualer ٪ 0 0 Tid Residualerne udviser lineær trend med tiden (ellern anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen. Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.
TV-Statistik-Køkken • Jeg har snydt og lavet mit eget data… • Det ligner reklame/salg data, men med flere observationer (n=30).
Residualer i SPSS • I ’Linear Regression’ vinduet vælges ’Save…’ • I ’Save’ vinduet vælges ’Unstandardized’ både under • ’Reresiduals’ (ei’erne) og • ’Predicted Values’ ( ’erne) .
Efter endt regression skaber SPSS to nye søjler i ’Data Editor’, der indeholder • residualer (’RES_1’) • prædiktioner (’PRE_1’) . • Derefter kan man fx lave scatter plots.
Scatter plot af • residualer (ei’erne) mod ’højde’ (xi’erne) (øverst) • residualer (ei’erne) mod prædiktionerne (^yi’erne) (nederst). • Ser jo ganske usystematisk ud!
Grafiske check for Normalfordeling For at tjekke holdbarheden af antagelsen om normalfordelte fejlled: ( εi~N(0,σ2) ) • Lav et histogram over residualerne og se efter om det normalfordelt ud. • Lave et normalfordelingsplot (Q-Q plot). • Lav et formelt χ2-test for ”goodness of fit” til en normalfordeling for residualerne
Histogram af residualer Det ser jo ca normalfordelt ud…
Normalfordelingsplot (Q-Q plot) • For hvert residual ei udregner vi hvor lier antallet af residualer der er mindre end ei, og mi er antallet af residualer med samme værdi som ei. • For hvert qi finder vi zi , så P(Z≤ zi )= qi , hvor Z~N(0,1). • Hvis ei’erne er normalfordelte vil et plot af (ei, zi) ligge på en ret linie.
Normalfordelingsplot (Q-Q plot) • Nemmere med en tegning…
Vælg ’Analyze → Descriptive Statistics → Q-Q plots’ • Ser helt fint ud – snor sig ikke alt for systematisk omkring linjen.
Prædiktion i SLR-modellen • Punktprædiktion: • Hvilken værdi vil yforventeligt antage, hvis x antager en bestemt værdi, fx x=10 ? • Svar: • Dvs. vi prædikterer som bedste bud på punktets værdi. • Bedst ikke at prædiktere for x–værdier for langt fra, hvor vi har data Ganske simpelt ved at indsætte x i den estimerede regressions linje!
Prædiktionsinterval for observationen Et (1-α)100% prædiktions interval for Y|X=x er Hvor s=√MSE. Et (1-α)100% konfidens interval for E(Y|X=x) er
Prædiktionsbånd Prædiktionsbånd for E[Y|X] Y Regressions- linie Prædiktionsbånd for Y|X X Prædiktionsbåndene fremkommer ved at betragte konfidensintervallets endepunkter som funktion af x.
SLR og lineær algebra • Den simple lineære regressions model siger: • Hvor e1,...,ener uafhængige og enfordelte e2~N(0,s2) . • Det kan vi skrive som to søjle-vektore!
SLR og lineær algebra • Sådan! • Den sidste vektor kan vi skrive som en sum af vektore…
SLR og lineær algebra • Modellen kan skrives vha. matrixer og vektore: • Hvor • Matricen X kaldes Design-matricen.
SLR og lineær algebra • Regneregel fra lineære algebra: • Estimatet for er: