1 / 44

2. Enkel regressionsanalys

Regressionsanalysens grunder. 2. Enkel regressionsanalys. Vad är regressionsanalys?.

feoras
Download Presentation

2. Enkel regressionsanalys

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Regressionsanalysens grunder 2. Enkel regressionsanalys Enkel regression

  2. Vad är regressionsanalys? • Regressionsanalys behandlar studiet av en variabels beroende, den beroende variabeln, av en eller flera andra variabler, de förklarande variablerna, i syfte att skatta och/eller förutsäga populationsmedelvärdet eller medelvärdet för den beroende variabeln givet vissa värden på de förklarande variablerna (eller att mäta den marginella effekten på den beroende variabeln av förändringar i de förklarande variablerna). Enkel regression

  3. Vad är regressionsanalys? • Exempel: • Skatta privata konsumtionens beroende av reell disponibel inkomst. • Skatta hur efterfrågan påverkas av prisförändringar (elasticitet). • Skatta sambandet mellan reklam och försäljning. Enkel regression

  4. Begrepp, termer och datatyper • Deterministiska – statistiska samband • Statistiska – kausala samband • Terminologi: • Beroende variabel, Yi (eller Yt) • Förklarande variabel, Xi (eller Xt) • Datatyper: • Tidsseriedata • Tvärsnittsdata • Poolat data Enkel regression

  5. Populationens regressionskurva och funktion • Populationens regressionskurva beskriver sambandet mellan de förklarande variablerna och det förväntade värdet för den beroende variabeln, E(Y | X = Xi) • Om sambandet är linjärt kan vi skriva populationens regressionsfunktion,E(Y | X = Xi) = b0 + b1Xi • Detta är ekvationen för en rät linje Enkel regression

  6. Populationens regressionskurva och funktion Enkel regression

  7. Linjär i variablerna/parametrarna • Linjär i variablerna: • X men ej: X2, X½, X·Z • Linjär i parametrarna: • b1 men ej: • Med linjär regression avses en modell som är linjär i parametrarna. Enkel regression

  8. Den linjära regressionsmodellen • Stokastisk specifikation av populationens regressionsfunktion • Det faktiska värdet på Y avviker i regel från det förväntade. Detta kan uttryckas med hjälp av en stokastisk felterm:ei= Yi – E(Y | Xi) eller Yi = E(Y | Xi) + ei • Den linjära regressionsmodellen kan då skrivas som:Yi = b0 + b1Xi + ei där E(ei | Xi) = 0 Enkel regression

  9. Stokastisk felterm • Varför behövs den stokastiska feltermen, ei? • Vag teori • Otillgängliga data • Centrala kontra perifera variabler • Inre slumpmässighet i det mänskliga beteendet • Dåliga proxyvariabler • Sparsamhetsprincipen • Fel funktionell form Enkel regression

  10. Stickprovets regressionsfunktion • Stickprovets regressionsfunktion: • Den skattade modellen (utifrån ett stickprov) kan skrivas som, eller där är en residualterm (residual), dvs en skattning av ei. Enkel regression

  11. Skattningsproblemet • Vi önskar skatta en regressionslinje som på ”bästa” sätt beskriver vårt datamaterial. Tänkbara kriterier för ”bästa” sätt: • Minsta kvadratmetoden innebär att vi minimerarsom är en funktion av estimatorerna och . Enkel regression

  12. Regressionslinjens egenskaper • Regressionslinjens egenskaper: • Linjen går genom punkten . • Medelvärdet av alla skattade Y-värden = medelvärdet för alla observerade Y. • Medelvärdet för (och summan av) alla residualer är noll. • Residualerna är okorrelerade med de skattade Y-värdena. • Residualerna är okorrelerade med Xi. Enkel regression

  13. Antaganden bakom minsta-kvadratmetoden • Antaganden bakom minsta-kvadratmetoden: • ia) Linjär regressionsmodell • ib) Regressionsmodellen är korrekt specificerad, dvs ingen specifikationsbias eller fel i modellen b b Y = + (1/ X ) i 1 2 i a a Y = + X i 1 2 i Förändring i lönenivå, % Arbetslöshet, % Enkel regression

  14. Antaganden bakom minsta-kvadratmetoden • iia) X-värdena är fixa vid upprepade stickprov • iib) variation i X-värdena • iiia) Medelvärdet är noll för ei, E(ei) = 0, Enkel regression

  15. iiib) Homoskedasticitet, lika varians för alla ei V(ei) = s2, Enkel regression

  16. Antaganden bakom minsta-kvadratmetoden • iiic) Ingen (auto)korrelation mellan ei:na Enkel regression

  17. Antaganden bakom minsta-kvadratmetoden • iiid) Ofta antar vi att feltermen är normal- fördelad, ei ~ N(0,s2) • Anm. ii) & iiia) | E(Xiei) = Xi E(ei) = 0, dvs ingen kovarians mellan ei och Xi Den konstanta variansen s2 i iiib) är en okänd parameter | tre okända parametrar i modellen Antagandena i iii) kan uttryckas i Y i stället för e Ant. ia)-iiic) definerar den klassiska regres- sionsmodellen. iiid) viktig för inferensen Enkel regression

  18. Standardfel och BLUE • Gauss-Markovs sats: Då ia) – iiic) gäller är minsta kvadrat (OLS) skattningarna de bästa (effektivaste) linjära väntervärdesriktiga skattningarna (BLUE) för b0 resp. b1 • OLS-skattningarna är linjära eftersom de är linjärafunktioner av en stokastisk variabel (Y) Enkel regression

  19. Medelfel och BLUE • Standardavvikelse och kovarians för minsta-kvadratskattningarna Enkel regression

  20. Standardfel och BLUE • enligt iiid) har vi Yi ~ N(b0 + b1Xi , s2) och enligt iiic) är Yi och Yj oberoende • | och • OBS! Detta gäller asymptotiskt även om Yi inte normalfördelad • Standardavvikelsen s skattas med Enkel regression

  21. Standardfel och BLUE • s brukar även kallas regressionens medelfel • Substituerar vi s för s i uttrycken ovan för vi skattade standardavvikelser för skattningarna vilka kallas medelfelen för skattningarna. På samma sätt får en skattning för kovariansen mellan Korrelationskoefficienten skattas med Enkel regression

  22. Konfidensintervall • Konfidensintervall för regressions-koefficienterna och feltermens varians • då skattningarna är normalfördelade standardiserar vi och får • standardavvikelsen (sd) för skattningen innehåller • s, vilken är okänd och ersätts med skattningen s så • att vi får medelfelet för parameterskattningen (s.e) Enkel regression

  23. Konfidensintervall • då gäller att • Ett 100 · (1–a) procents konfidensintervall för bi • ges av, • För variansen gäller Enkel regression

  24. Konfidensintervall • vilket alltså ger konfidensintervallet för s2 med konfidensgraden 1 - a Enkel regression

  25. Test • Då vi testar på signifikansnivån a har vi att H0 förkastas om för ett tvåsidigt test och för ett ensidigt om testvariabeln är Enkel regression

  26. OBS! Ofta testas H0: bi = 0, H1: bi0 • t-kvoten i datorutskrifter Enkel regression

  27. R2,variansanalys och korrelation • Anpassningsgraden • residualerna anger hur bra regressionslinjen anpassas till observationerna| • liten spridning |’små’ residualer | ’bra’ anpassning, eller en stor del av variationen i Y förklaras med regressions-linjen • stor spridning |’stora’ residualer | ’dålig’ anpassning, eller endast en liten del av variationen i Y förklaras med regressionslinjen och en stor del blir oförklarad • residualernas värde (storlek) beror på mätenhet • residualvariansen är Enkel regression

  28. R2,variansanalys och korrelation • residualkvadratsumman 3(Yi – Yi)2 utnyttjas för att mäta variationen i residualerna • variationen i Y mäts med kvadratsumman 3(Yi – Y )2 • korsproduktsumman är 0, så vi får eller Enkel regression

  29. R2,variansanalys och korrelation • totala = residual (fel) + förklarade (regr.) kvadratsumman kvadratsumman kvadratsumman TSS = ESS + RSS • Vi dividerar med TSS | • 1 = ESS/TSS + RSS/TSS • Determinationskoefficienten, R2, definieras som R2 = den del av variationen i Y som förklaras av Y:s regression på X. Enkel regression

  30. R2,variansanalys och korrelation 0 £ R2 £ 1. R2 = 0 då Yi = Y, dvs b1 = 0 R2 = 1 då Yi = Yi, dvs observetionerna ligger på den räta linjen Då vi, som här, har endast en oberoende variabel X har vi då att Enkel regression

  31. R2,variansanalys och korrelation • Uppdelningen av kvadratsumman (och variansen) ovan kan sammanfattas i en variansanalystabell Enkel regression

  32. R2,variansanalys och korrelation • Testar H0: b1 = 0; H1: b1 0 H0 förkastas om F > F1-a(1,n-2) F- och t-testen för b1 är ekvivalenta Enkel regression

  33. Konfidensintervall E(Y|Xi), Yi • Yi~N(b0 + b1 Xi,s2) . • Prediktion av medelvärdet E(Y | X = Xi) • E(Y | X = Xi) skattas med • Prediktion av ett individuellt Y-värde • Y för ett givet X predikteras på samma sätt somovan • Konfidensintervallen beräknas därefter på vanligt sätt. Enkel regression

  34. Konfidensintervall Enkel regression

  35. Rapportering av resultat • Utvärdering av regressionsanalysens resultat • Är tecken på de skattade koefficienterna rimliga? • Är koefficienterna statistiskt signifikant ¹ 0? • Är andelen förklarad variation tillfredsställande? • Är feltermen normalfördelad? Enkel regression

  36. Normalfördelningstest • Jarque-Beras (JB) normalfördelningstest • Teststatistika: där S är snedheten och K är toppigheten för residualerna (toppigheten är 3 för en normal-fördelad variabel) • JB är asymptotiskt c2-fördelad med 2 frihetsgr. • Förkasta nollhypotesen om JB > kritiskt värde. Enkel regression

  37. Funktionell form Modell Linjär Log-linjär Ekvation Lutning Elasticitet • Log-lin, Lin-log, Reciprok Enkel regression

  38. Tolkning av SPSS-utskrift Enkel regression

  39. Tolkning av SPSS-utskrift Enkel regression

  40. Tolkning av SPSS-utskrift Enkel regression

  41. Maximum-likelihoodskattningar • Maximum likelihoodskattningen för en parameter q definieras som det värde q, vilket med största sannolikhet skulle generera de observerade stickprovsobservationerna Y1, Y2, ..., Yn. • Är stickprovet slumpmässigt kan observationerna betraktas som observationer på oberoende och identiskt fördelade s.v. Yi , med snlsfördelningen p(Yi). Maximum-likelihoodskattningen maximerar Enkel regression

  42. Maximum-likelihoodskattningar • För vår regr.modell har vi Yi ~N(b0 + b1Xi, s2 ) Täthetsfunktionen för Yi är Likelihoodfunktionen Enkel regression

  43. Maximum-likelihoodskattningar Vi maximerar L( ), m.a.p. b0, b1, s2. Blir enklare om vi logaritmerar L( ) Enkel regression

  44. Maximum-likelihoodskattningar Vi deriverar log-likelihoodfunktionen partiellt m.a.p. parametrarna och sätter derivatorna = 0 | Enkel regression

More Related