1 / 91

STATISIK

STATISIK. LV Nr.: 1852 WS 2005/06 12. Jänner 2006. Regressionsanalyse. Beziehung zwischen zwei oder mehr metrisch skalierten Merkmalen. Art der Abhängigkeit bestimmen, mathematische Funktion, durch die sich die Abhängigkeit zwischen den Variablen am besten beschreiben lässt.

blaine
Download Presentation

STATISIK

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006

  2. Regressionsanalyse • Beziehung zwischen zwei oder mehr metrisch skalierten Merkmalen. • Art der Abhängigkeit bestimmen, mathematische Funktion, durch die sich die Abhängigkeit zwischen den Variablen am besten beschreiben lässt.

  3. Regressionsanalyse • Abhängige Variable (Regressand): Y • „zu erklärende Variable“ • Unabhängige Variable/n (Regressor): X • „erklärende Variable/n“ • Regressionsfunktion: Mathematische Funktion, die die Abhängigkeit zwischen den Variablen beschreibt. • Regression von Y auf X, Y=f(X).

  4. Regressionsanalyse • Art der Beziehung zw. den Variablen? • Welche Form hat die Regressionsfunktion? • Antworten darauf aus: • Theorie • Empirische Beobachtung, z.B. Punktwolke zeichnen, welche Funktion passt sich gut an die Punktwolke an? Durch welche Funktion lässt sich die Grundtendenz des Zusammenhangs darstellen?

  5. Regressionsanalyse • Punktwolke • Regressionsfunktion

  6. Regressionsanalyse • Lineare Regression: • Regressionsfunktion ist linear • Nichtlineare Regression: • Regressionsfunktion ist nicht linear

  7. Regressionsanalyse • Einfachregression: • Beziehung zwischen 2 Variablen • Regressand: Y • Regressor: X • Mehrfachregression = multiple Regression: • Beziehung zwischen 3 oder mehr Variablen • Regressand: Y • Regressoren: X1, X2, …, Xk

  8. Regressionsanalyse • Lineare Einfachregression: • Lineare Regressionsfunktion (Regressionsgerade) beschreibt die Abhängigkeit zwischen der Variablen Y und X. • Zwei Merkmale X und Y werden an n Objekten der Grundgesamtheit beobachtet => Realisationen x1, …, xn und y1, …, yn.

  9. Regressionsanalyse • Wahre Funktion: yi‘ = α + βxifür i = 1, …, n • α … Absolutglied • β … Steigungsparameter • Beobachtet wird: yi = yi‘ + εi für i = 1, …, n • εi … Störterm, Realisationen einer Zufallsvariable Wahre Koeffizienten, Parameter der Grundgesamtheit

  10. Regressionsanalyse • Modell der linearen Einfachregression: yi = α + βxi + εi für i = 1, …, n • α … Absolutglied • β … Steigungsparameter • εi … Störterm

  11. Regressionsanalyse • Annahmen: • E(εi) = 0 für i=1,…,n • Var(εi) = σ² für i=1,…,n (Homoskedastizität) • Cov(εi,εj) = 0 für alle ij (unkorrelierte Fehler) • xi nicht stochastisch • xi xj für mindestens ein ij

  12. Regressionsanalyse • Aus den Annahmen folgt für die abhängige Zufallsvariable Yi: • E(Yi) = E(α + βxi + εi) = α + βxi + E(εi) = yi‘ für i=1,…,n • Var(Yi) = Var(εi) = σ² für i=1,…,n = 0

  13. Regressionsanalyse • Regressionsfunktion/-gerade: ŷi = a + bxifür i = 1, …, n • a … Schätzer für Absolutglied • b … Schätzer für Steigungsparameter • ŷi … Schätzer für Ausprägung yi von Y

  14. Regressionsanalyse • Abweichung zwischen den beobachteten Werten yi und den geschätzten Werten ŷi: Residuen ei = yi – ŷi = yi – (a + bxi)

  15. Regressionsanalyse • Regressionsgerade: • unendlich viele mögliche Geraden durch eine Punktwolke • Wähle jene, die die vorhandene Tendenz am besten beschreibt, d.h. wähle jene, die eine möglichst gute Schätzung ŷ für die Ausprägung y des Merkmals Y eines Objekts, das die Ausprägung x des Merkmals X trägt, bestimmt.

  16. Regressionsanalyse Methode der Kleinsten Quadrate • Kriterium für die Güte der Schätzung: Summe der Abweichungsquadrate (Residual-Quadratsumme) • Wähle die Schätzer a und b für α und βso, dass S² minimal wird.

  17. Regressionsanalyse

  18. Regressionsanalyse • Minimiere S² (= Summe der vertikalen quadratischen Abweichungen der beobachteten Werte yi von den durch die Regressionsgerade an den Stellen xi bestimmten Werten ŷi).

  19. Regressionsanalyse • Bedingung 1. Ordnung: 1. Ableitung = 0. Schätzer a und b ergeben sich als Lösungen des Normalengleichungssystems: • Bedingung 2. Ordnung: 2. Ableitung positiv, d.h. Determinante der Hesse-Matrix > 0

  20. Regressionsanalyse • Kleinste Quadrate Schätzer für β: • Kleinste Quadrate Schätzer für α: • Kleinste Quadrate Regressionsfunktion:

  21. Regressionsanalyse • Eigenschaften der KQ Schätzer: • Summe der Residuen eiist Null. • Summe xiei ist Null. • Das arithmetische Mittel der beobachteten Werte ist gleich dem arithmetischen Mittel der geschätzten Werte • Die Regressionsgerade läuft durch den Schwerpunkt der Punktwolke (x,y).

  22. Regressionsanalyse Quadratsummenzerlegung: • Ziel der Regressionsfunktion: Variation der abhängigen Variable soll aus der Variation der unabhängigen Variablen erklärt werden. • Zu erklärende Variation: yi –y • Erklärte Variation: ŷi–y • Nicht erklärte Variation: yi – ŷi • (yi – y) = (ŷi–y) + (yi – ŷi) für i=1,…,n

  23. Regressionsanalyse

  24. Regressionsanalyse • Maß der Variation: Quadratsumme der Abweichungen • SST =  (yi –y)² • Sum of Squares Total • SSE =  (ŷi–y)² • Sum of Squares Explained • SSR =  (yi – ŷi)² • Sum of Squares Residual • Es gilt: SST = SSE + SSR

  25. Regressionsanalyse • Einfaches Bestimmtheitsmaß: • Maß für die durch die lineare Regressionsfunktion geliefert Erklärung der Variation der abhängigen Variablen • r² = SSE / SST = 1 – SSR / SST • r² = Anteil der durch die Regressionsfunktion erklärten Variation an der zu erklärenden gesamten Variation.

  26. Regressionsanalyse • Es gilt: 0 ≤ r² ≤ 1 • Extremfälle: • r² = 0  SSE = 0  ŷi =ŷ (=y) für alle i, d.h. ŷi hängt nicht von i ab  b = 0, d.h. Regressionsgerade ist horizontal. Kein Erklärungsbeitrag • r² = 1  SSE = SST  SSR = 0  ei = 0 für alle i  ŷi= yi für alle i  die Daten liegen auf der Regressionsgeraden. Vollständige Erklärung

  27. Regressionsanalyse

  28. Regressionsanalyse • Linearer Einfachkorrelationskoeffizient: r = + r² und r  [0 ; 1] • Extremfälle: • r = 0, d.h. fehlende Erklärung, fehlende Korrelation • r = 1, d.h. vollständige Erklärung, vollständige Korrelation • r wird das Vorzeichen der Steigung der Regressionsgeraden zugewiesen.

  29. Regressionsanalyse Eigenschaften der KQ Schätzer: • Da yi Zufallsvariable sind, sind auch a und b Zufallsvariable. • Erwartungswerte der KQ Schätzer: • E(b) = β • E(a) = α • D.h. a und b sind unverzerrte Schätzer

  30. Regressionsanalyse • Varianzen der KQ Schätzer: • Beides sind theoretische Größen, da σ² (=Var(εi)) unbekannt ist.

  31. Regressionsanalyse • Kovarianz der KQ Schätzer: Die Kovarinaz ist proportional zu σ², sie hängt vom Vorzeichen von x ab.

  32. Regressionsanalyse • Frage: Gibt es bessere Schätzer als die KQ Schätzer für α und β? • Besser im Sinne einer kleineren Varianz, denn je kleiner die Varianz des Schätzers, umso besser ist er.

  33. Regressionsanalyse Gauss-Markov-Theorem: • Einfaches lineares Regressionsmodell, • Es gelten Annahmen 1-5 • Der KQ Schätzer ist der beste lineare erwartungstreue Schätzer, BLUE (Best linear unbiased Estimator) • Best: Var(b*)  Var(b) • Linear: b* =ciyi • Unbiased: E(b*) = β • Analoge Aussage für Schätzer a* von α.

  34. Regressionsanalyse • Schätzung der Fehlervarianz σ² • Wären εi beobachtbar, dann Schätzer für σ² = 1/n εi². • Aber: εi nicht beobachtbar, daher σ² durch s² schätzen.

  35. Regressionsanalyse • Diesen Schätzer von σ² verwendet man, um unverzerrte Schätzer für Var(a) und Var(b) zu konstruieren.

  36. Regressionsanalyse Inferenz im linearen Regressionsmodell: • Ann (1-5) • Ann (6): εi ~ N(0,σ²) • Testprobleme: • Einseitig: z.B. H0: b = b* gegen H1: b > b* • Zweiseitig: H0: b = b* gegen H1: b  b* • Teststatistik:

  37. Regressionsanalyse • Verteilung der Teststatistik: • sb bekannt: T ~ N(0,1) • sb geschätzt: T ~ tn-2 • Kritische Werte bestimmen • Entscheidung: Lehne H0 ab, wenn Teststatistik im kritischen Bereich liegt. • Gleiche Vorgehensweise bei Tests für Schätzer a.

  38. Regressionsanalyse KonfidenzintervallRegressionskoeffizienten • Interzept: • Es gilt P(a – t sa α a + t sa) = 1 – α • KI für α: [a – t sa; a + t sa] • Steigungsparameter: • Es gilt P(b – t sb β b + t sb) = 1 – α • KI für β: [b – t sb; b + t sb] • t = t1- α/2; n-2 (Werte der t-Verteilung)

  39. Regressionsanalyse • F-Test • Hypothese: Kein Zusammenhang zwischen den Variablen X und Y in der Grundgesamtheit • Basiert auf der Quadratsummenzerlegung SST = SSE + SSR

  40. Regressionsanalyse • Mittlere erklärte Quadratsumme: • MSE = SSE / 1 • Mittlere nicht erklärte Quadratsumme: • MSR = SSR / (n – 2) • Teststatistik: • F = MSE / MSR • F ~ F1;n-2;1-α

  41. Regressionsanalyse • Beispiel: Körpergröße (X), Gewicht (Y) • Modell: Y = α + Xβ + ε • Parameterschätzer: a = -105,75, b = 0,98 • Regressionsfunktion: Ŷ = -105,75 + 0,98X • Interpretation der Koeffizienten: • a = -105,75: Verschiebung • b = 0,98: Steigung, steigt X um eine Einheit (1cm), steigt Y um 0,98 Einheiten (kg). Vorsicht: Umkehrung gilt nicht! • Bestimmtheitsmaß: 0,577 • Korrelationskoeffizient: 0,759

  42. Regressionsanalyse • Beispiel: Körpergröße (X), Gewicht (Y) • Koeffiziententests (t-Tests): • H0: α = 0 ablehnen (p-Wert < 0,05) => α 0 • H0: β = 0 ablehnen (p-Wert < 0,05) => β 0 • F-Test: H0 ablehnen (Prüfgröße > kritischer Wert) => Zusammenhang zw. den Variablen

  43. Regressionsanalyse • Prognose • Ziel: bei gegebenen Werten der unabhängigen Variable, zugehörigen Wert der abhängigen Variable prognostizieren. • Schätzung des Erwartungswertes E(yf) an der Stelle xf. • Schätzung eines Einzelwertes yf an der Stelle xf.

  44. Regressionsanalyse • Geg. xf (weiterer Wert von X) • Ges. zugehöriger Wert yf von Y und/oder „mittleres“ Verhalten E(yf) = a + bxf. • Weitere Annahmen: • yf = α + βxf + εf • E(εf) = 0 • E(εf²) = σ² • Cov(εf, εi) = 0 • xf nicht stochastisch

  45. Regressionsanalyse • Parameter α und β bekannt: • Prognose der Einzelwerte: yf = α + βxf • Prognose des Erwartungswertes: E(yf) = α + βxf • Parameter unbekannt. • Prognose der Einzelwerte: ŷf = a + bxfŷf ist ein unverzerrter Prediktor für yf • Prognose des Erwartungswertes: E(ŷf ) = a + bxf ŷf ist ein unverzerrter Prediktor für E(yf)

  46. Regressionsanalyse • Prognose Erwartungswert: E(ŷf ) = a + bxf • Varianz des durchschnittlichen Prognosewertes sŷf²: • Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)

  47. Regressionsanalyse • Prognose Einzelwert: ŷf= a + bxf • Prognosefehler: ef = yf – ŷf • Varianz des individuellen Prognosefehlers sf²: • Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)

  48. Regressionsanalyse • Zusätzlich Ann: Störvariable εf ~ N(0,σ²) • 1-α Konfidenzintervall für E(ŷf): [ŷf – t sŷf ; ŷf + t sŷf] t = t1-α/2;n-2 • 1-α Prognoseintervall für ŷf: [ŷf – t sf ; ŷf + t sf] t = t1-α/2;n-2

  49. Regressionsanalyse • Residuenanalyse • Ex-post Überprüfung der Modellannahmen. • Ann 1: E(εi) = 0 • Ann 2: Var(εi) = σ² • Ann 3: Cov(εi,εj) = 0

  50. Regressionsanalyse • Grafische Residualanalyse • Residuen der KQ Schätzer: ei = yi – ŷi • Streudiagramm: Residuen gegen X (Werte der unabhängige Variable) • Streudiagramm: Residuen gegen Ŷ (Prognosewerte). • Es gilt: ei= 0 und arithm. Mittel der ei = 0

More Related