1 / 39

Kapittel 4 - Regresjonsanslyse

Kapittel 4 - Regresjonsanslyse. Introduksjon til regresjonsanalyse Spredningsdiagram Enkel lineær regresjon Hvor godt treffer modellen? Regresjon og PC Forutsetninger i modellen Testing for signifikans Multippel regresjon Dummy variable Litt om ikkelineær regresjon. Regresjonsanalyse.

Download Presentation

Kapittel 4 - Regresjonsanslyse

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kapittel 4 - Regresjonsanslyse • Introduksjon til regresjonsanalyse • Spredningsdiagram • Enkel lineær regresjon • Hvor godt treffer modellen? • Regresjon og PC • Forutsetninger i modellen • Testing for signifikans • Multippel regresjon • Dummy variable • Litt om ikkelineær regresjon

  2. Regresjonsanalyse • Regresjonsanalyse brukes for å analysere sammenhenger mellom variabler • Predikere størrelsen på en variabel ut fra størrelsen på en annen (kostnadsestimering) • I regresjonsanalyse har vi en avhengig, eller respons variabel og en uavhengig, eller forklaringsvariabel Avhengig variabel = f(Uavhengig variabel eller variabler)

  3. Spredningsdiagram • Spredningsdiagram brukes ofte for å illustrere sammenhengen mellom avhengig og uavhengig variabel • Plott avhengig variabel på X-aksen og uavhengig variabel på Y-aksen

  4. Eksempel fra lærebok • Sammenheng mellom en bedrifts omsetning og total inntekt som opptjenes i et område • Hva er avhengig og hva er uavhengig variabel? • For å se om det kan være noen sammenheng, lager vi et spredningsdiagram

  5. Spredningsdiagram

  6. Regresjonsanalyse • Regresjonsanalyse brukes for å teste sammenhengen mellom variablene Y = 0 + 1X + error Where, Y = avhengig variabel (respons) X = uavhengig variabel (forklaringsvariabel) 0 = konstantledd (verdi på Y når X = 0) 1 = helning på regresjonslinjen Error = random error = feilledd

  7. Regresjonsanalyse • Vi bruker tilgjengelige data for å estimere verdier på konstantleddet og stigningsforholdet • Forskjellen mellom faktisk og predikert verdi på X er feilleddete = Y - Y Y = b0 + b1X hvor Y = anslått (predikert) verdi på Y

  8. Minste kvadraters metode (MKM) • Minste kvadraters metode minimerer summen av kradratfeilene:

  9. Minste kvadraters metode

  10. Minste kvadraters metode Y = 2 + 1,25 X

  11. Regresjonslinjens forklaringskraft • For å klarlegge hvor god forklaringskraft regresjonsligningen har, må vi kjenne til: • SST – Total variansen (variasjonen) til Y • SSE – Summen av kvadrerte feilledd • SSR – Variansen forklart av regresjonsmodellen • SST = SSR + SSE • Determinasjonskoeffisienten (r2) = SSR/SST • Korrelasjonskoeffisient r er styrken på sammenhengen mellom X og Y variablene

  12. Regresjonslinjens forklaringskraft

  13. Løsning med PC • Lineær regresjon kan også utføres enkelt ved hjelp av Excel eller QM • Verktøy – Dataanalyse – Regresjon

  14. Utdata Excel

  15. Viktige forutsetninger i modellen • Det er viktig å undersøke feilleddene for å se om modellens forutsetninger holder • Feilleddene er uavhengige • Feilleddene er normalfordelt • Feilleddene har gjennomsnittlig verdi 0 • Feilleddene har konstant varians • Plotting av feilleddene i et diagram kan avsløre om forutsetningene er brutt

  16. X 0 ”Pene” feilledd

  17. 0 X Tydelig mønster i feilleddene

  18. 0 X Feilleddene øker med økende X

  19. Estimering av varians • Gjennomsnittlig kvadratfeil (Mean Squared Error MSE) er et estimat for feilvariansen i regresjonsligningen • s2 = MSE = SSE/(n – k – 1) • n = antall observasjoner • k = antall uavhengige variabler • I vårt eksempel er MSE = 1,7188 • Standardavviket s = 1,71880,5 = 1,31.

  20. Signifikans – F test • Vi kan bruke en F test for å teste nullhypotesen om at det ikke er lineær sammenheng mellom X og Y variablene, dvs. at β = 0 • Hvis signifikansen til F testen er lav, vil vi forkaste nullhypotesen og si at det er en lineær sammenheng • F = MSR/MSE, hvor MSR = SSR/k • MSR = 15,625/1 = 15,625 • F = 15,625/1,7188 = 9,0909

  21. Signifikans – F test • Vi må se påantallfrihetsgrader • Frihetsgraderi teller df1 = k (her 1) • Frihetsgraderinevner df2 = n – k – 1 (her 6 – 1 – 4) • Vi finnerkritiskverdi for F itabell, her 7.71 med 5 % signifikans • Vi forkasternullhypotesenom at detikkeersammenhengmellom X og Y hvisberegnet F > kritisk F for et gittsignifikansnivå • 9.09 > 7.71, vi forkasternullhypotesenogsier at deter en lineærsammenheng • Signifikansnivået for F = 9,0909 er 0,0394

  22. http://faculty.vassar.edu/lowry/tabs.html

  23. Signifikans – R2 • R2 er det beste mål på om det er sammenheng mellom X og Y variablene • Jo nærmere R2 er 1, jo bedre forklarer modellen variasjonen i den avhengige variabelen • En god regresjonsmodell har høy R2 og en signifikant F test

  24. Signifikans - koeffisienter • Det er også viktig å teste koeffisientene i regresjonsligningen for signifikans • Nullhypotesen er at β = 0 • En t-test kan gjennomføres ved å dividere koeffisienten med dens standardfeil. Hvis verdien er > 2 (absoluttverdi) kan nullhypotesen som en tommelfingerregel forkastes • Vi kan også se på P verdiene for å teste nullhypotesen • De fleste programpakkene utarbeider en ANOVA tabell for relevant informasjon fremkommer

  25. Excel output

  26. Utdata Excel

  27. Multippel regresjon • I de langt fleste praktiske tilfellene vil det være aktuelt å inkludere mer enn en forklaringsvariabel i modellen – multippel regresjon • Y = β0+β1X1+β2X2+..+βnXn • Konklusjonene vi har kommet med mht enkel lineær regresjon kan vi videreføre

  28. Multippel regresjon - eksempel

  29. Excel output

  30. Multippel regresjon - eksempel • Det er en signifikant lineær sammenheng mellom prisen på en bolig (avhengig variabel) og boligens størrelse og alder (uavhengige variabler) • Hver kvadratfot øker prisen med 21,91 og hvert år økt alder reduserer prisen med 1449,34 • Et hus på 1900 kvadratfot som er 10 år gammelt, bør koste • Ŷ = 60815.45 + 21.91(1900) – 1449.34 (10) = 87 951

  31. Binære eller dummy variabler • Dersom vi har kvalitative data, kan vi benytte binære variabler (også kalt dummy variabler). Variabelen settes til 1 hvis en gitt betingelse er oppfylt, og 0 ellers, for eksempel 1 hvis en observasjon gjelder en mann og 0 ellers • Antall dummy variable må være 1 lavere enn antall kategorier kvalitative data

  32. Binære eller dummy variabler • I boligeksemplet var boligene klassifisert etter 3 gruppe, mint, excellent og good • Vi innfører følgende variabler • X3 = 1 hvis boligen er excellent og 0 ellers • X4 = 1 hvis boligen er mint og 0 ellers • Hvis både X3 og X4 = 0, er boligen good

  33. Dummy variabler

  34. Excel output

  35. Kollienaritet og multikollienaritet • Dette oppstår når en eller flere av de uavhengige variablene er korrelert • Modellen kan samlet fremdeles være god, men det er vanskelig å fortolke koeffisientene

  36. Ikkelineær regresjon • I noen situasjoner vil sammenhengen mellom den avhengige og de uavhengige variablene ikke være lineær • Det kan være mulig å omforme en ikke lineær funksjon til en lineær funksjon, for eksempel ved logaritmiske transformasjoner

  37. Eksempel – vekt og bensinforbruk • Sammenheng mellom bilens bensinforbruk og vekten • Hvor godt forklarer bilens vekt bensinforbruket?

  38. Automobile Example (continued) Perhaps a nonlinear relationship exists? Linear regression line Nonlinear regression line

  39. Vekt og bensinforbruk • Lineær regresjonsmodell:MPG = 47.8 – 8.2 (weight) • F significans = 0.0003 • r2 = 0.7446 • Ikkelineær regresjon (transformert variabel) MPG = 79.8 – 30.2(weigth) + 3.4 (weight) F significans = 0.0002 • R2 = 0.8478 2

More Related