2. Enkel regressionsanalys

Regressionsanalysens grunder 2. Enkel regressionsanalys Enkel regression

Vad är regressionsanalys? • Regressionsanalys behandlar studiet av en variabels beroende, den beroende variabeln, av en eller flera andra variabler, de förklarande variablerna, i syfte att skatta och/eller förutsäga populationsmedelvärdet eller medelvärdet för den beroende variabeln givet vissa värden på de förklarande variablerna (eller att mäta den marginella effekten på den beroende variabeln av förändringar i de förklarande variablerna). Enkel regression

Vad är regressionsanalys? • Exempel: • Skatta privata konsumtionens beroende av reell disponibel inkomst. • Skatta hur efterfrågan påverkas av prisförändringar (elasticitet). • Skatta sambandet mellan reklam och försäljning. Enkel regression

Begrepp, termer och datatyper • Deterministiska – statistiska samband • Statistiska – kausala samband • Terminologi: • Beroende variabel, Yi (eller Yt) • Förklarande variabel, Xi (eller Xt) • Datatyper: • Tidsseriedata • Tvärsnittsdata • Poolat data Enkel regression

Populationens regressionskurva och funktion • Populationens regressionskurva beskriver sambandet mellan de förklarande variablerna och det förväntade värdet för den beroende variabeln, E(Y | X = Xi) • Om sambandet är linjärt kan vi skriva populationens regressionsfunktion,E(Y | X = Xi) = b0 + b1Xi • Detta är ekvationen för en rät linje Enkel regression

Populationens regressionskurva och funktion Enkel regression

Linjär i variablerna/parametrarna • Linjär i variablerna: • X men ej: X2, X½, X·Z • Linjär i parametrarna: • b1 men ej: • Med linjär regression avses en modell som är linjär i parametrarna. Enkel regression

Den linjära regressionsmodellen • Stokastisk specifikation av populationens regressionsfunktion • Det faktiska värdet på Y avviker i regel från det förväntade. Detta kan uttryckas med hjälp av en stokastisk felterm:ei= Yi – E(Y | Xi) eller Yi = E(Y | Xi) + ei • Den linjära regressionsmodellen kan då skrivas som:Yi = b0 + b1Xi + ei där E(ei | Xi) = 0 Enkel regression

Stokastisk felterm • Varför behövs den stokastiska feltermen, ei? • Vag teori • Otillgängliga data • Centrala kontra perifera variabler • Inre slumpmässighet i det mänskliga beteendet • Dåliga proxyvariabler • Sparsamhetsprincipen • Fel funktionell form Enkel regression

Stickprovets regressionsfunktion • Stickprovets regressionsfunktion: • Den skattade modellen (utifrån ett stickprov) kan skrivas som, eller där är en residualterm (residual), dvs en skattning av ei. Enkel regression

Skattningsproblemet • Vi önskar skatta en regressionslinje som på ”bästa” sätt beskriver vårt datamaterial. Tänkbara kriterier för ”bästa” sätt: • Minsta kvadratmetoden innebär att vi minimerarsom är en funktion av estimatorerna och . Enkel regression

Regressionslinjens egenskaper • Regressionslinjens egenskaper: • Linjen går genom punkten . • Medelvärdet av alla skattade Y-värden = medelvärdet för alla observerade Y. • Medelvärdet för (och summan av) alla residualer är noll. • Residualerna är okorrelerade med de skattade Y-värdena. • Residualerna är okorrelerade med Xi. Enkel regression

Antaganden bakom minsta-kvadratmetoden • Antaganden bakom minsta-kvadratmetoden: • ia) Linjär regressionsmodell • ib) Regressionsmodellen är korrekt specificerad, dvs ingen specifikationsbias eller fel i modellen b b Y = + (1/ X ) i 1 2 i a a Y = + X i 1 2 i Förändring i lönenivå, % Arbetslöshet, % Enkel regression

Antaganden bakom minsta-kvadratmetoden • iia) X-värdena är fixa vid upprepade stickprov • iib) variation i X-värdena • iiia) Medelvärdet är noll för ei, E(ei) = 0, Enkel regression

iiib) Homoskedasticitet, lika varians för alla ei V(ei) = s2, Enkel regression

Antaganden bakom minsta-kvadratmetoden • iiic) Ingen (auto)korrelation mellan ei:na Enkel regression

Antaganden bakom minsta-kvadratmetoden • iiid) Ofta antar vi att feltermen är normal- fördelad, ei ~ N(0,s2) • Anm. ii) & iiia) | E(Xiei) = Xi E(ei) = 0, dvs ingen kovarians mellan ei och Xi Den konstanta variansen s2 i iiib) är en okänd parameter | tre okända parametrar i modellen Antagandena i iii) kan uttryckas i Y i stället för e Ant. ia)-iiic) definerar den klassiska regressionsmodellen. iiid) viktig för inferensen Enkel regression

Standardfel och BLUE • Gauss-Markovs sats: Då ia) – iiic) gäller är minsta kvadrat (OLS) skattningarna de bästa (effektivaste) linjära väntervärdesriktiga skattningarna (BLUE) för b0 resp. b1 • OLS-skattningarna är linjära eftersom de är linjärafunktioner av en stokastisk variabel (Y) Enkel regression

Medelfel och BLUE • Standardavvikelse och kovarians för minsta-kvadratskattningarna Enkel regression

Standardfel och BLUE • enligt iiid) har vi Yi ~ N(b0 + b1Xi , s2) och enligt iiic) är Yi och Yj oberoende • | och • OBS! Detta gäller asymptotiskt även om Yi inte normalfördelad • Standardavvikelsen s skattas med Enkel regression

Standardfel och BLUE • s brukar även kallas regressionens medelfel • Substituerar vi s för s i uttrycken ovan för vi skattade standardavvikelser för skattningarna vilka kallas medelfelen för skattningarna. På samma sätt får en skattning för kovariansen mellan Korrelationskoefficienten skattas med Enkel regression

Konfidensintervall • Konfidensintervall för regressions-koefficienterna och feltermens varians • då skattningarna är normalfördelade standardiserar vi och får • standardavvikelsen (sd) för skattningen innehåller • s, vilken är okänd och ersätts med skattningen s så • att vi får medelfelet för parameterskattningen (s.e) Enkel regression

Konfidensintervall • då gäller att • Ett 100 · (1–a) procents konfidensintervall för bi • ges av, • För variansen gäller Enkel regression

Konfidensintervall • vilket alltså ger konfidensintervallet för s2 med konfidensgraden 1 - a Enkel regression

Test • Då vi testar på signifikansnivån a har vi att H0 förkastas om för ett tvåsidigt test och för ett ensidigt om testvariabeln är Enkel regression

OBS! Ofta testas H0: bi = 0, H1: bi0 • t-kvoten i datorutskrifter Enkel regression

R2,variansanalys och korrelation • Anpassningsgraden • residualerna anger hur bra regressionslinjen anpassas till observationerna| • liten spridning |’små’ residualer | ’bra’ anpassning, eller en stor del av variationen i Y förklaras med regressions-linjen • stor spridning |’stora’ residualer | ’dålig’ anpassning, eller endast en liten del av variationen i Y förklaras med regressionslinjen och en stor del blir oförklarad • residualernas värde (storlek) beror på mätenhet • residualvariansen är Enkel regression

R2,variansanalys och korrelation • residualkvadratsumman 3(Yi – Yi)2 utnyttjas för att mäta variationen i residualerna • variationen i Y mäts med kvadratsumman 3(Yi – Y )2 • korsproduktsumman är 0, så vi får eller Enkel regression

R2,variansanalys och korrelation • totala = residual (fel) + förklarade (regr.) kvadratsumman kvadratsumman kvadratsumman TSS = ESS + RSS • Vi dividerar med TSS | • 1 = ESS/TSS + RSS/TSS • Determinationskoefficienten, R2, definieras som R2 = den del av variationen i Y som förklaras av Y:s regression på X. Enkel regression

R2,variansanalys och korrelation 0 £ R2 £ 1. R2 = 0 då Yi = Y, dvs b1 = 0 R2 = 1 då Yi = Yi, dvs observetionerna ligger på den räta linjen Då vi, som här, har endast en oberoende variabel X har vi då att Enkel regression

R2,variansanalys och korrelation • Uppdelningen av kvadratsumman (och variansen) ovan kan sammanfattas i en variansanalystabell Enkel regression

R2,variansanalys och korrelation • Testar H0: b1 = 0; H1: b1 0 H0 förkastas om F > F1-a(1,n-2) F- och t-testen för b1 är ekvivalenta Enkel regression

Konfidensintervall E(Y|Xi), Yi • Yi~N(b0 + b1 Xi,s2) . • Prediktion av medelvärdet E(Y | X = Xi) • E(Y | X = Xi) skattas med • Prediktion av ett individuellt Y-värde • Y för ett givet X predikteras på samma sätt somovan • Konfidensintervallen beräknas därefter på vanligt sätt. Enkel regression

Konfidensintervall Enkel regression

Rapportering av resultat • Utvärdering av regressionsanalysens resultat • Är tecken på de skattade koefficienterna rimliga? • Är koefficienterna statistiskt signifikant ¹ 0? • Är andelen förklarad variation tillfredsställande? • Är feltermen normalfördelad? Enkel regression

Normalfördelningstest • Jarque-Beras (JB) normalfördelningstest • Teststatistika: där S är snedheten och K är toppigheten för residualerna (toppigheten är 3 för en normal-fördelad variabel) • JB är asymptotiskt c2-fördelad med 2 frihetsgr. • Förkasta nollhypotesen om JB > kritiskt värde. Enkel regression

Funktionell form Modell Linjär Log-linjär Ekvation Lutning Elasticitet • Log-lin, Lin-log, Reciprok Enkel regression

Tolkning av SPSS-utskrift Enkel regression

Maximum-likelihoodskattningar • Maximum likelihoodskattningen för en parameter q definieras som det värde q, vilket med största sannolikhet skulle generera de observerade stickprovsobservationerna Y1, Y2, ..., Yn. • Är stickprovet slumpmässigt kan observationerna betraktas som observationer på oberoende och identiskt fördelade s.v. Yi , med snlsfördelningen p(Yi). Maximum-likelihoodskattningen maximerar Enkel regression

Maximum-likelihoodskattningar • För vår regr.modell har vi Yi ~N(b0 + b1Xi, s2 ) Täthetsfunktionen för Yi är Likelihoodfunktionen Enkel regression

Maximum-likelihoodskattningar Vi maximerar L( ), m.a.p. b0, b1, s2. Blir enklare om vi logaritmerar L( ) Enkel regression

Maximum-likelihoodskattningar Vi deriverar log-likelihoodfunktionen partiellt m.a.p. parametrarna och sätter derivatorna = 0 | Enkel regression

2. Enkel regressionsanalys