1 / 63

Regressionsanalys

Regressionsanalys. Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än x kan påverka y Fånga upp ceteris paribus samband mellan y och x. Regressionsanalys. Linjärt samband mellan y och x

etana
Download Presentation

Regressionsanalys

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Regressionsanalys • Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. • Sambandets funktionsform • Tillåta att andra saker än x kan påverka y • Fånga upp ceteris paribus samband mellan y och x.

  2. Regressionsanalys • Linjärt samband mellan y och x • ”Error term” inkluderas för att fånga upp att andra saker än x påverkar y • ”Zero conditional mean” antagandet möjliggör för oss att skatta ceteris paribus effekter.

  3. Härledning av parametrar • Utgår från ”Zero Conditional Mean” antagandet

  4. Sample Regression Line y . y4 { û4 . û3 y3 } . y2 û2 { û1 } . y1 x2 x1 x4 x3 x

  5. Väntevärdesriktigt om… • populationsmodellen är linjär i parametrarna: y = b0 + b1x + u • ett slumpmässigt urval av storleken n • E(u|x) = 0 och således E(ui|xi) = 0 • det finns en variation i xi

  6. Tolkning • Ekonomisk tolkning • 0: det förväntade värdet av y om x är lika med noll • 1: om x ökar med en enhet så ökar y med b enheter (mätt i samma enhet som y)

  7. Exempel: Hedonisk Prisekvation • Priset på en fastighet är en funktion av de underliggande värdepåverkande attributen. • Sambandet mellan pris och attribut skattas mha regressionsanalys. • Estimerade parametrar är attributens implicita priser (hedoniska priser).

  8. Den Hedoniska Prisekvationen • Fastighetsknutna egenskaper (F) • Områdesknutna egenskaper (O) • Tidsberoende egenskaper (T)

  9. Exempel

  10. Precision • Säkerheten hos modellen kan bl.a. mätas med hur stor spridningen i modellen är. Ju mindre spridning desto bättre modell. Spridningen mäts med variansen och standardavvikelsen. • Antar homoskedasticitet • Variansen hos a och b beror på modellens varians, antalet observationer samt medelvärdet och spridningen i den oberoende variabeln.

  11. Precision • Standardfel hos skattningen av y • Standardfelet hos skattningarna b0 och b1

  12. Modellen förklaringsgrad • Determinationskoefficienten, ”goodness of fit”, R-square, R2 • SST: Total variation i den beroende variabeln • SSE: Variation som kan förklaras av modellen • SSR: Oförklarad variation • TSS=SSE+SSR • R2=SSE/SST=1-SSR/SST

  13. Modellen förklaringsgrad • Determinationkoefficient (R2)

  14. Justerat R-Squared • R2 ökar alltid ju fler variabler vi har med I modellen • Justerat R2 tar hänsyn till detta genom att ställa antalet oberoende variabler i relation till antalet observationer

  15. Exempel

  16. Hypotestest • Kan vi dra några slutsatser angående populationen med hjälp av urvalet? • Till vår hjälp använder vi både lägesmått (medelvärdet) och spridning (standardavvikelsen). • Genom att skatta en teststorhet och jämför det mot ett kritiskt värde kan vi förkasta eller acceptera en hypotes. • Om förkastas, den oberoende variabeln har en inverkan.

  17. Hypotestest Modell: y = a + b1*x1 + b2*x2 Hypotes: H0: 1= 0 H1: 1 0 Vi antar att parametrarna har en normalfördelning med det förväntade värdet  och variansen 2b, dvs b1 N(1,2b1) Normalisera

  18. Hypotestest Om, b1 är okänd använder vi oss av skattningen av b1 istället, vilket innebär att kvoten är t-fördelad istället för normalfördelad, dvs t är teststorheten tn-k-1 () är det kritiska värdet Förkasta H0 om t > tn-k ()

  19. Hypotestest

  20. Hypotestest • Om teststorheten är större än det kritiska värdet  förkasta nollhypotesen. • Kritiskt värde (dubbelsidigt test): t/2 (n-k-1) • där  är signifikansnivån och (n-k-1) antalet frihetsgrader. Vanligtvis använder man sig av signifikansnivån 5% och 1%. • Jmf. H0: Ej begått mord • 5% chans att vi förkastar nollhypotesen att den åtalade ej begått mord, dvs vi dömer en oskyldig för mord.

  21. Exempel

  22. Funktionsform • Inte troligt att vi har ett linjärt samband mellan y och x i den meningen att y ökar med lika mycket oberoende hur mycket av x vi har initialt. • I tillämpade studier finner vi oftast att variablerna är transformerade, tex att alla kontinuerliga variabler är logaritmerade. Varför? • Vi vill att effekten skall uttryckas som en procentuell effekt.

  23. Sammanfattning av olika funktionsformer • ln(y) = b0 + b1ln(x) + u y ökar med b1 procent om x ökar med 1 procent • ln(y) = b0 + b1x + u y ökar med (100b1) procent om x ökar med 1 enhet • y = b0 + b1ln(x) + u y ökar med (b1/100) enheter om x ökar med 1 procent.

  24. Dummyvariabel • En binär variabel som indikerar om en viss enskild observation (objekt) har en viss egenskap eller ej. • Om koefficientskattningen är signifikant skild från noll så innebär det att regressionsmodellen skiftar • Går att kombinera dummyvariabeln med kontinuerliga variabler.

  25. Dummy variabel som oberoende variabel • Antag en enkel modell där vi har en kontinuerlig variabel (x) och en dummy variabel (d) • y = b0 + d0d + b1x + u • Kan tolkas som ett skift i konstanten • Om d = 0, y = b0 + b1x + u • Om d = 1, y = (b0 + d0) + b1x + u

  26. Exempel om d0 > 0 y = (b0 + d0) + b1x y d = 1 lutning = b1 { d0 d = 0 } y = b0 + b1x b0 x

  27. Interaktion med dummyvariabler • Man kan också kombinera en dummy variabel, d, med en kontinuerlig variabel, x • y= b0 + d1d + b1x + d2d*x + u • Om d = 0,  y= b0 + b1x + u • Om d = 1, y= (b0 + d1) + (b1+ d2) x + u • Tolkas som om lutningen ändras

  28. Exempel om d0 > 0 and d1 < 0 y y = b0 + b1x d = 0 d = 1 y = (b0 + d0) + (b1 + d1) x x

  29. Residualanalys

  30. Varför bekymra sig för Heteroskedasticitet? • OLS ger fortfarande väntevärdesriktiga och konsistenta skattningar även om vi inte antar homoskedasticitet • MEN, standardavvikelsen avseende våra estimat är icke väntevärdesriktiga om vi har heteroskedasticitet • Om standardavvikelsen är icke väntevärdesriktig klan vi EJ genomföra våra hypotesprövningar.

  31. Breusch-Pagan Test • Ett test som avser att undersöka om heteroskedasticitet förekommer eller ej. • Feltermen är okänd men vi har residualerna från OLS regressionen. • Om vi kör regressionen residualerna i kvadrat mot alla oberoende variabler så kan vi nyttja R2 och göra ett F test • F-värdet anger om regressionsmodellen som helhet är statistiskt signifikant eller ej. • Ett ”högt” F-värde innebär att de oberoende variablerna kan förklara variationen i residualerna, vilket vi inte vill. • F = [R2/k]/[(1 –R2)/(n – k – 1)], med fördelningen Fk, n – k – 1

  32. Exempel

  33. Exempel - test

  34. Tidsserieanalys

  35. Tidsseriedata vs. Tvärsnittsdata • Tidsseriedata har en tidsordning till skillnad mot tvärsnittsdata. Det är av stor vikt att inte ändra ordningen. • Vi måste ha en modell som tillåter att historien kan påverka framtiden, men inte tvärtom. • Eftersom vi har data som är ordnande i tiden måste vi lägga till antaganden om hur feltermen (residualen) får bete sig över tiden.

  36. DATA Tvärsnittsdata Tidsseriedata Autokorrelation Icke-stationär Heteroskedasticitet PROBLEM AR(1)-Test Breusch-Pagan Test TEST

  37. Exempel på tidsseriedata modeller • En statisk modell där variablerna påverkar y direkt: yt = b0 + b1zt + ut • En laggad (dynamisk) modell tillåter att en eller flera variabler påverka y med en lag: yt = a0 + d0zt + d1zt-1 + d2zt-2 + ut

  38. Statisk Modell • FPIt = b0 + b1BNPIt + ut OBS! INDEX Tolkning: Procentenhet

  39. Tolkning • FPI och BNP är index med 1967=100 • Ekonomisk tolkning – om BNP gick upp med en procentenhet föregående år så kommer FPI att gå upp med 0.69 procentenheter. • Statistisk tolkning – modellens förklaringsgrad, genomsnittligt fel, statistisk signifikans av enskilda parametrar.

  40. Statisk Modell • Ln(FPIt) = b0 + b1l(BNPIt) + ut Tolkning: Procent

  41. Dynamisk modell • Ln(FPIt )= b0 + b1Ln(BNPt-1) + ut Tolkning: Procent

  42. Antaganden • Linjär i parametrarna • Det förväntade värdet av feltermen betingat på den oberoende variabeln skall vara lika med noll.  X strikt exogena • Ej perfekt linjärt samband mellan oberoende variabler • Homoskedasticitet • Ingen autokorrelation • Normalfördelning NYTT!

  43. OLS skattningarnas varians • Homoskedasticitet • Var(ut|X) = Var(ut) = s2 • Variansen är oberoende av alla x samt konstant över tiden • Ingen autokorrelation: • Corr(ut,us| X)=0 for t  s

  44. Autokorrelation • Om antagandet inte är uppfyllt: om ut-1>0 kommer feltermen i nästa period också att vara positiv i genomsnitt.

  45. Varför problem? • Effektivitet – det finns andra metoder än OLS som ger mer effektiva skattningar, dvs med lägre varians. Dock är OLS parameterskattningar väntevärdesriktiga. • Hypotesprövning – variansen är inte väntevärdesriktig vilket innebär att hypotesprövning och konfidensintervall inte längre är tillförlitliga.

  46. Hur testa för autokorrelation? • AR(1)-test • AR(1) = Autoregressive modell där den beroende variabeln är en funktion av den beroende variabeln laggad 1 år. yt = ryt-1 + et , t = 1, 2,… • Test av AR(1) autokorrelation • Vi vill testa nollhypotesen r = 0 i ut = rut-1 + et, t =2,…, n • Om ej förkasta H0 (lågt t-värde)  ingen autokorrelation

  47. Exempel – Dynamisk modell Autoregressive modell Residualen idag är en funktion av residualen igår. Om signifikant parameter-autokorrelation.

  48. Exempel – Dynamisk modell Under viss perioder är fastighetspriserna betydligt lägre än vad BNP predicerar och ibland högre. Verkar dock finnas ett mönster, vilket inte är bra.

  49. Orsaker? • Tröghet – tidsseriedata, av psykologiska skäl har historiska händelser en stor effekt på dagens händelser så att ett positivt fel i föregående period påverkar aktiviteten idag. • Långsiktigheten – tidsseriedata, en slumpmässig chock på en marknad kan ha långsiktiga effekter, tex krig. • Specifikationsfel – val av ingående variabler, funktionsform.

  50. Fel funktionsform

More Related