1 / 65

STATISIK

STATISIK. LV Nr.: 0028 SS 2005 8. Juni 2005. Regressionsanalyse. Eigenschaften der KQ Schätzer: Da y i Zufallsvariable sind, sind auch a und b Zufallsvariable. Erwartungswerte der KQ Schätzer: E(b) = β E(a) = α D.h. a und b sind unverzerrte Schätzer. Regressionsanalyse.

eagan
Download Presentation

STATISIK

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. STATISIK LV Nr.: 0028 SS 2005 8. Juni 2005

  2. Regressionsanalyse Eigenschaften der KQ Schätzer: • Da yi Zufallsvariable sind, sind auch a und b Zufallsvariable. • Erwartungswerte der KQ Schätzer: • E(b) = β • E(a) = α • D.h. a und b sind unverzerrte Schätzer

  3. Regressionsanalyse • Varianzen der KQ Schätzer: • Beides sind theoretische Größen, da σ² (=Var(εi)) unbekannt ist.

  4. Regressionsanalyse • Kovarianz der KQ Schätzer: Die Kovarinaz ist proportional zu σ², sie hängt vom Vorzeichen von x ab.

  5. Regressionsanalyse • Frage: Gibt es bessere Schätzer als die KQ Schätzer für α und β? • Besser im Sinne einer kleineren Varianz, denn je kleiner die Varianz des Schätzers, umso besser ist er.

  6. Regressionsanalyse Gauss-Markov-Theorem: • Einfaches lineares Regressionsmodell, • Es gelten Annahmen 1-5 • Der KQ Schätzer ist der beste lineare erwartungstreue Schätzer, BLUE (Best linear unbiased Estimator) • Best: Var(b*)  Var(b) • Linear: b* =ciyi • Unbiased: E(b*) = β • Analoge Aussage für Schätzer a* von α.

  7. Regressionsanalyse • Schätzung der Fehlervarianz σ² • Wären εi beobachtbar, dann Schätzer für σ² = 1/n εi². • Aber: εi nicht beobachtbar, daher σ² durch s² schätzen.

  8. Regressionsanalyse • Diesen Schätzer von σ² verwendet man, um unverzerrte Schätzer für Var(a) und Var(b) zu konstruieren.

  9. Regressionsanalyse Inferenz im linearen Regressionsmodell: • Ann (1-5) • Ann (6): εi ~ N(0,σ²) • Testprobleme: • Einseitig: z.B. H0: b = b* gegen H1: b > b* • Zweiseitig: H0: b = b* gegen H1: b  b* • Teststatistik:

  10. Regressionsanalyse • Verteilung der Teststatistik: • sb bekannt: T ~ N(0,1) • sb geschätzt: T ~ tn-2 • Kritische Werte bestimmen • Entscheidung: Lehne H0 ab, wenn Teststatistik im kritischen Bereich liegt. • Gleiche Vorgehensweise bei Tests für Schätzer a.

  11. Regressionsanalyse KonfidenzintervallRegressionskoeffizienten • Interzept: • Es gilt P(a – t sa α a + t sa) = 1 – α • KI für α: [a – t sa; a + t sa] • Steigungsparameter: • Es gilt P(b – t sb β b + t sb) = 1 – α • KI für β: [b – t sb; b + t sb] • t = t1- α/2; n-2 (Werte der t-Verteilung)

  12. Regressionsanalyse • Lineare Einfachregression: • 2 metrisch skalierte Variablen Y, X • Modell: yi = α + βxi + εi • Regressionsfunktion:ŷi = a + bxi • Schätzung: min. Residual-Quadratsumme • KQ-Schätzer a und b: BLUE • Tests für a und b: t-Tests

  13. Regressionsanalyse • F-Test • Hypothese: Kein Zusammenhang zwischen den Variablen X und Y in der Grundgesamtheit • Basiert auf der Quadratsummenzerlegung SST = SSE + SSR

  14. Regressionsanalyse • Mittlere erklärte Quadratsumme: • MSE = SSE / 1 • Mittlere nicht erklärte Quadratsumme: • MSR = SSR / (n – 2) • Teststatistik: • F = MSE / MSR • F ~ F1;n-2;1-α

  15. Regressionsanalyse • Beispiel: Körpergröße (X), Gewicht (Y) • Modell: Y = α + Xβ + ε • Parameterschätzer: a = -95,89, b = 0,93 • Regressionsfunktion: Ŷ = -95,89 + 0,93X • Interpretation der Koeffizienten: • a = -95,89: Verschiebung • b = 0,93: Steigung, steigt X um eine Einheit (1cm), steigt Y um 0,93 Einheiten (kg). Vorsicht: Umkehrung gilt nicht! • Bestimmtheitsmaß: 0,597 • Korrelationskoeffizient: 0,77

  16. Regressionsanalyse • Beispiel: Körpergröße (X), Gewicht (Y) • Koeffiziententests (t-Tests): • H0: α = 0 ablehnen (p-Wert < 0,05) => α 0 • H0: β = 0 ablehnen (p-Wert < 0,05) => β 0 • F-Test: H0 ablehnen (Prüfgröße > kritischer Wert) => Zusammenhang zw. den Variablen

  17. Regressionsanalyse • Prognose • Ziel: bei gegebenen Werten der unabhängigen Variable, zugehörigen Wert der abhängigen Variable prognostizieren. • Schätzung des Erwartungswertes E(yf) an der Stelle xf. • Schätzung eines Einzelwertes yf an der Stelle xf.

  18. Regressionsanalyse • Geg. xf (weiterer Wert von X) • Ges. zugehöriger Wert yf von Y und/oder „mittleres“ Verhalten E(yf) = a + bxf. • Weitere Annahmen: • yf = α + βxf + εf • E(εf) = 0 • E(εf²) = σ² • Cov(εf, εi) = 0 • xf nicht stochastisch

  19. Regressionsanalyse • Parameter α und β bekannt: • Prognose der Einzelwerte: yf = α + βxf • Prognose des Erwartungswertes: E(yf) = α + βxf • Parameter unbekannt. • Prognose der Einzelwerte: ŷf = a + bxfŷf ist ein unverzerrter Prediktor für yf • Prognose des Erwartungswertes: E(ŷf ) = a + bxf ŷf ist ein unverzerrter Prediktor für E(yf)

  20. Regressionsanalyse • Prognose Erwartungswert: E(ŷf ) = a + bxf • Varianz des durchschnittlichen Prognosewertes sŷf²: • Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)

  21. Regressionsanalyse • Prognose Einzelwert: ŷf= a + bxf • Prognosefehler: ef = yf – ŷf • Varianz des individuellen Prognosefehlers sf²: • Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)

  22. Regressionsanalyse • Zusätzlich Ann: Störvariable εf ~ N(0,σ²) • 1-α Konfidenzintervall für E(ŷf): [ŷf – t sŷf ; ŷf + t sŷf] t = t1-α/2;n-2 • 1-α Prognoseintervall für ŷf: [ŷf – t sf ; ŷf + t sf] t = t1-α/2;n-2

  23. Regressionsanalyse • Residuenanalyse • Ex-post Überprüfung der Modellannahmen. • Ann 1: E(εi) = 0 • Ann 2: Var(εi) = σ² • Ann 3: Cov(εi,εj) = 0

  24. Regressionsanalyse • Grafische Residualanalyse • Residuen der KQ Schätzer: ei = yi – ŷi • Streudiagramm: Residuen gegen X (Werte der unabhängige Variable) • Streudiagramm: Residuen gegen Ŷ (Prognosewerte). • Es gilt: ei= 0 und arithm. Mittel der ei = 0

  25. Regressionsanalyse • Residuen gegen X:

  26. Regressionsanalyse • Residuen gegen Ŷ:

  27. Regressionsanalyse • Ann (2) verletzt, Varianzen nicht homogen, Hetroskedastizität

  28. Regressionsanalyse • Ann. linearen Regressionsfunktion verletzt.

  29. Regressionsanalyse • Streudiagramm: ei gegen ei-1 • Autokorrelation der Residuen

  30. Regressionsanalyse • Normalverteilung der εi: QQ-Plot • Empirische- und Theoretische Quantile

  31. Regressionsanalyse • Linear Mehrfachregression • Eine abhängige Variabel Y • Mehrere unabhängige Variabeln x1,…,xk-1. • Modell: Yi = β0 + β1x1 + β2x2 + …+ βk-1xk-1 + εi für i=1,…,n • β0… Absolutglied, Interzept • βj … Steigungsparameter (j=1,…,k-1) • xj … unabhängige Variable (j = 1,…,k-1) • εi … Störterm, zufälliger Fehler

  32. Regressionsanalyse • Beispiel: Körpergröße soll durch die Körpergröße der Eltern erklärt werden. • Abhängige Variable: Y = Größe, • Unabhängige Variablen: X1 = Größe Mutter und X2 = Größe Vater • Modell: yi = β0 + β1x1 + β2x2 + εi

  33. Regressionsanalyse • Matrixschreibweise: Y = Xβ + ε • Y … n1 Vektor der abhängigen Variable • X … nk Matrix der unabhängigen Variable, X=[1:Xj] mit j=1,…,k-1 • β … k1 Parametervektor, β=[β0:βj]´ mit j=1,…,k-1 • ε … n1 Vektor der zufälligen Störungen

  34. Regressionsanalyse • Annahmen: • E(ε) = 0 • Var(ε) = σ² • Cov(ε) = E(εε´) = σ²I • X nicht stochastisch • rang(X) = k (X sind nicht linear abhängig)

  35. Regressionsanalyse • Kleinste Quadrate Schätzung: • Minimierung der Abweichungsquadratsumme • (Y-Xb)‘(Y-Xb) = (yi-xi.b)²  min

  36. Regressionsanalyse • Normalengleichungssystem: (X´X)b = X´y • Daraus ergibt sich als Kleinste Quadrate Schätzer für β: b = (X´X)-1X´y b … k1 Vektor der Schätzer

  37. Regressionsanalyse • Konsequenzen aus den Normalgleichungen: • X‘e = 0 • Ŷ‘e = 0 • e = MY mit M = I – X(X‘X)-1X‘

  38. Regressionsanalyse • Statistische Eigenschaften: • E(e) = 0 • VC(e) = σ²M ( σ²I = VC(ε)) • E(b) = β • VC(b) = σ²(X‘X)

  39. Regressionsanalyse • Schätzung von σ²: • E(s²) = σ² • Schätzung der Varianz-Kovarianz Matrix von b: VC(b)est. = s²(X‘X)-1 (unverzerrt für VC(b))

  40. Regressionsanalyse • Gauss-Markov Theorem: • Y=Xβ+ε • Es gelten Ann. 1-4 und β kist beliebig • b* sei ein linearer unverzerrter Schätzer für β • VC(b)  VC(b*), d.h. VC(b*)-VC(b) ist nichtnegativ definit. • Var(bi)  Var(bi*) für alle i = 1, ..., k • Man sagt: b ist BLUE • c‘b ist der BLUE für die Linearkombination c‘β

  41. Regressionsanalyse • Ein Schätzer b* für β heißt linear, falls b*=DY, wobei D eine nichtzufällige kn Matrix ist. • Ein Schätzer b* für β heißt unverzerrt, falls E(b*) = β.

  42. Regressionsanalyse • Tests der Regressionskoeffizienten: • Einseitige Hypothesen: • H0: βi β* (z.B. 0) gegen H1: βi < β* • H0: βi β* (z.B. 0) gegen H1: βi > β* • Zweiseitige Hypothese: • H0: βi = β* (z.B. 0) gegen H1: βi β*

  43. Regressionsanalyse • Teststatistik: • T = (bi - β*) / sbi • Testverteilung: • T ~ tn-k • Entscheidung: Lehne H0 ab, wenn T im kritischen Bereich liegt.

  44. Regressionsanalyse • Konfidenzintervalle der Parameter: • Wahrscheinlichkeitsintervall: • P(bi – t sbi β  bi + t sbi) = 1 – α für i = 1,...,k • Konfidenzintervall: • [bi – t sbi ; bi + t sbi] für i = 1,...,k mit t = t1- α/2;n-k

  45. Regressionsanalyse • Beispiel Körpergröße: • Modell: Y = β0 + β1X1 + β2X2 • Parameterschätzer und p-Werte: • b0 = -28,26; p-Wert = 0,657 • b1 = 0,277; p-Wert = 0,292 • b2 = 0,871; p-Wert = 0,002 • Körpergröße des Vaters hat einen positiven Einfluss auf die Körpergröße des Kindes

  46. Regressionsanalyse • Quadratsummen: • SST = (yi -y)² = nsy² = Y‘AY • SSE = (ŷi -ŷ)² = nsŷ² = Ŷ‘A Ŷ • SSR = ei² = ns² = e‘Ae • wobei A = (In – (1/n)ii‘) • Quadratsummenzerlegung: • SST = SSE + SSR

  47. Regressionsanalyse • F-Test: • Prüft, ob zw. der abhängigen Variable Y und den unabhängigen Variablen X2,…,Xk ein linearer Zusammenhang besteht. • H0: β2 = β3 = … = βk = 0 • Mittlere quadratische Abweichungen: • MQE = SSE / (k-1) • MQR = SSR / (n-k)

  48. Regressionsanalyse • Teststatistik: • F = MQE / MQR • F ~ F(k-1),(n-k) • Entscheidung: • F > F(k-1),(n-k) lehne H0 ab, d.h. es besteht eine lineare Abhängigkeit zw. Y und X.

  49. Regressionsanalyse • Lineares multiples Bestimmtheitsmaß: • R² = SSE / SST = 1 – SSR / SST • Es gilt: 0  R²  1 • Linearer multipler Korrelationskoeffizient: • r = +R², absolute Größe (unterschiedliche Vorzeichen der einzelnen Koeffizienten mögl.)

  50. Regressionsanalyse • Lineares partielles Bestimmtheitsmaß: • Regressoren X2, ...,Xk: r²Y,X2,...,Xk = SSE(X2,...,Xk) / SST • Zusätzliche erklärende Variable Xk+1: r²Y,X2,...,Xk,Xk+1 = SSE(X2,...,Xk,Xk+1) / SST • Zusätzliche (durch Xk+1) erklärte Abweichungsquadratsumme: SSE(Xk+1|X2,...,Xk) = SSE(X2,...,Xk) – SSE(X2,...,Xk,Xk+1) = (r²Y,X2,...,Xk – r²Y,X2,...,Xk,Xk+1) SST

More Related