650 likes | 950 Views
STATISIK. LV Nr.: 0028 SS 2005 8. Juni 2005. Regressionsanalyse. Eigenschaften der KQ Schätzer: Da y i Zufallsvariable sind, sind auch a und b Zufallsvariable. Erwartungswerte der KQ Schätzer: E(b) = β E(a) = α D.h. a und b sind unverzerrte Schätzer. Regressionsanalyse.
E N D
STATISIK LV Nr.: 0028 SS 2005 8. Juni 2005
Regressionsanalyse Eigenschaften der KQ Schätzer: • Da yi Zufallsvariable sind, sind auch a und b Zufallsvariable. • Erwartungswerte der KQ Schätzer: • E(b) = β • E(a) = α • D.h. a und b sind unverzerrte Schätzer
Regressionsanalyse • Varianzen der KQ Schätzer: • Beides sind theoretische Größen, da σ² (=Var(εi)) unbekannt ist.
Regressionsanalyse • Kovarianz der KQ Schätzer: Die Kovarinaz ist proportional zu σ², sie hängt vom Vorzeichen von x ab.
Regressionsanalyse • Frage: Gibt es bessere Schätzer als die KQ Schätzer für α und β? • Besser im Sinne einer kleineren Varianz, denn je kleiner die Varianz des Schätzers, umso besser ist er.
Regressionsanalyse Gauss-Markov-Theorem: • Einfaches lineares Regressionsmodell, • Es gelten Annahmen 1-5 • Der KQ Schätzer ist der beste lineare erwartungstreue Schätzer, BLUE (Best linear unbiased Estimator) • Best: Var(b*) Var(b) • Linear: b* =ciyi • Unbiased: E(b*) = β • Analoge Aussage für Schätzer a* von α.
Regressionsanalyse • Schätzung der Fehlervarianz σ² • Wären εi beobachtbar, dann Schätzer für σ² = 1/n εi². • Aber: εi nicht beobachtbar, daher σ² durch s² schätzen.
Regressionsanalyse • Diesen Schätzer von σ² verwendet man, um unverzerrte Schätzer für Var(a) und Var(b) zu konstruieren.
Regressionsanalyse Inferenz im linearen Regressionsmodell: • Ann (1-5) • Ann (6): εi ~ N(0,σ²) • Testprobleme: • Einseitig: z.B. H0: b = b* gegen H1: b > b* • Zweiseitig: H0: b = b* gegen H1: b b* • Teststatistik:
Regressionsanalyse • Verteilung der Teststatistik: • sb bekannt: T ~ N(0,1) • sb geschätzt: T ~ tn-2 • Kritische Werte bestimmen • Entscheidung: Lehne H0 ab, wenn Teststatistik im kritischen Bereich liegt. • Gleiche Vorgehensweise bei Tests für Schätzer a.
Regressionsanalyse KonfidenzintervallRegressionskoeffizienten • Interzept: • Es gilt P(a – t sa α a + t sa) = 1 – α • KI für α: [a – t sa; a + t sa] • Steigungsparameter: • Es gilt P(b – t sb β b + t sb) = 1 – α • KI für β: [b – t sb; b + t sb] • t = t1- α/2; n-2 (Werte der t-Verteilung)
Regressionsanalyse • Lineare Einfachregression: • 2 metrisch skalierte Variablen Y, X • Modell: yi = α + βxi + εi • Regressionsfunktion:ŷi = a + bxi • Schätzung: min. Residual-Quadratsumme • KQ-Schätzer a und b: BLUE • Tests für a und b: t-Tests
Regressionsanalyse • F-Test • Hypothese: Kein Zusammenhang zwischen den Variablen X und Y in der Grundgesamtheit • Basiert auf der Quadratsummenzerlegung SST = SSE + SSR
Regressionsanalyse • Mittlere erklärte Quadratsumme: • MSE = SSE / 1 • Mittlere nicht erklärte Quadratsumme: • MSR = SSR / (n – 2) • Teststatistik: • F = MSE / MSR • F ~ F1;n-2;1-α
Regressionsanalyse • Beispiel: Körpergröße (X), Gewicht (Y) • Modell: Y = α + Xβ + ε • Parameterschätzer: a = -95,89, b = 0,93 • Regressionsfunktion: Ŷ = -95,89 + 0,93X • Interpretation der Koeffizienten: • a = -95,89: Verschiebung • b = 0,93: Steigung, steigt X um eine Einheit (1cm), steigt Y um 0,93 Einheiten (kg). Vorsicht: Umkehrung gilt nicht! • Bestimmtheitsmaß: 0,597 • Korrelationskoeffizient: 0,77
Regressionsanalyse • Beispiel: Körpergröße (X), Gewicht (Y) • Koeffiziententests (t-Tests): • H0: α = 0 ablehnen (p-Wert < 0,05) => α 0 • H0: β = 0 ablehnen (p-Wert < 0,05) => β 0 • F-Test: H0 ablehnen (Prüfgröße > kritischer Wert) => Zusammenhang zw. den Variablen
Regressionsanalyse • Prognose • Ziel: bei gegebenen Werten der unabhängigen Variable, zugehörigen Wert der abhängigen Variable prognostizieren. • Schätzung des Erwartungswertes E(yf) an der Stelle xf. • Schätzung eines Einzelwertes yf an der Stelle xf.
Regressionsanalyse • Geg. xf (weiterer Wert von X) • Ges. zugehöriger Wert yf von Y und/oder „mittleres“ Verhalten E(yf) = a + bxf. • Weitere Annahmen: • yf = α + βxf + εf • E(εf) = 0 • E(εf²) = σ² • Cov(εf, εi) = 0 • xf nicht stochastisch
Regressionsanalyse • Parameter α und β bekannt: • Prognose der Einzelwerte: yf = α + βxf • Prognose des Erwartungswertes: E(yf) = α + βxf • Parameter unbekannt. • Prognose der Einzelwerte: ŷf = a + bxfŷf ist ein unverzerrter Prediktor für yf • Prognose des Erwartungswertes: E(ŷf ) = a + bxf ŷf ist ein unverzerrter Prediktor für E(yf)
Regressionsanalyse • Prognose Erwartungswert: E(ŷf ) = a + bxf • Varianz des durchschnittlichen Prognosewertes sŷf²: • Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)
Regressionsanalyse • Prognose Einzelwert: ŷf= a + bxf • Prognosefehler: ef = yf – ŷf • Varianz des individuellen Prognosefehlers sf²: • Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)
Regressionsanalyse • Zusätzlich Ann: Störvariable εf ~ N(0,σ²) • 1-α Konfidenzintervall für E(ŷf): [ŷf – t sŷf ; ŷf + t sŷf] t = t1-α/2;n-2 • 1-α Prognoseintervall für ŷf: [ŷf – t sf ; ŷf + t sf] t = t1-α/2;n-2
Regressionsanalyse • Residuenanalyse • Ex-post Überprüfung der Modellannahmen. • Ann 1: E(εi) = 0 • Ann 2: Var(εi) = σ² • Ann 3: Cov(εi,εj) = 0
Regressionsanalyse • Grafische Residualanalyse • Residuen der KQ Schätzer: ei = yi – ŷi • Streudiagramm: Residuen gegen X (Werte der unabhängige Variable) • Streudiagramm: Residuen gegen Ŷ (Prognosewerte). • Es gilt: ei= 0 und arithm. Mittel der ei = 0
Regressionsanalyse • Residuen gegen X:
Regressionsanalyse • Residuen gegen Ŷ:
Regressionsanalyse • Ann (2) verletzt, Varianzen nicht homogen, Hetroskedastizität
Regressionsanalyse • Ann. linearen Regressionsfunktion verletzt.
Regressionsanalyse • Streudiagramm: ei gegen ei-1 • Autokorrelation der Residuen
Regressionsanalyse • Normalverteilung der εi: QQ-Plot • Empirische- und Theoretische Quantile
Regressionsanalyse • Linear Mehrfachregression • Eine abhängige Variabel Y • Mehrere unabhängige Variabeln x1,…,xk-1. • Modell: Yi = β0 + β1x1 + β2x2 + …+ βk-1xk-1 + εi für i=1,…,n • β0… Absolutglied, Interzept • βj … Steigungsparameter (j=1,…,k-1) • xj … unabhängige Variable (j = 1,…,k-1) • εi … Störterm, zufälliger Fehler
Regressionsanalyse • Beispiel: Körpergröße soll durch die Körpergröße der Eltern erklärt werden. • Abhängige Variable: Y = Größe, • Unabhängige Variablen: X1 = Größe Mutter und X2 = Größe Vater • Modell: yi = β0 + β1x1 + β2x2 + εi
Regressionsanalyse • Matrixschreibweise: Y = Xβ + ε • Y … n1 Vektor der abhängigen Variable • X … nk Matrix der unabhängigen Variable, X=[1:Xj] mit j=1,…,k-1 • β … k1 Parametervektor, β=[β0:βj]´ mit j=1,…,k-1 • ε … n1 Vektor der zufälligen Störungen
Regressionsanalyse • Annahmen: • E(ε) = 0 • Var(ε) = σ² • Cov(ε) = E(εε´) = σ²I • X nicht stochastisch • rang(X) = k (X sind nicht linear abhängig)
Regressionsanalyse • Kleinste Quadrate Schätzung: • Minimierung der Abweichungsquadratsumme • (Y-Xb)‘(Y-Xb) = (yi-xi.b)² min
Regressionsanalyse • Normalengleichungssystem: (X´X)b = X´y • Daraus ergibt sich als Kleinste Quadrate Schätzer für β: b = (X´X)-1X´y b … k1 Vektor der Schätzer
Regressionsanalyse • Konsequenzen aus den Normalgleichungen: • X‘e = 0 • Ŷ‘e = 0 • e = MY mit M = I – X(X‘X)-1X‘
Regressionsanalyse • Statistische Eigenschaften: • E(e) = 0 • VC(e) = σ²M ( σ²I = VC(ε)) • E(b) = β • VC(b) = σ²(X‘X)
Regressionsanalyse • Schätzung von σ²: • E(s²) = σ² • Schätzung der Varianz-Kovarianz Matrix von b: VC(b)est. = s²(X‘X)-1 (unverzerrt für VC(b))
Regressionsanalyse • Gauss-Markov Theorem: • Y=Xβ+ε • Es gelten Ann. 1-4 und β kist beliebig • b* sei ein linearer unverzerrter Schätzer für β • VC(b) VC(b*), d.h. VC(b*)-VC(b) ist nichtnegativ definit. • Var(bi) Var(bi*) für alle i = 1, ..., k • Man sagt: b ist BLUE • c‘b ist der BLUE für die Linearkombination c‘β
Regressionsanalyse • Ein Schätzer b* für β heißt linear, falls b*=DY, wobei D eine nichtzufällige kn Matrix ist. • Ein Schätzer b* für β heißt unverzerrt, falls E(b*) = β.
Regressionsanalyse • Tests der Regressionskoeffizienten: • Einseitige Hypothesen: • H0: βi β* (z.B. 0) gegen H1: βi < β* • H0: βi β* (z.B. 0) gegen H1: βi > β* • Zweiseitige Hypothese: • H0: βi = β* (z.B. 0) gegen H1: βi β*
Regressionsanalyse • Teststatistik: • T = (bi - β*) / sbi • Testverteilung: • T ~ tn-k • Entscheidung: Lehne H0 ab, wenn T im kritischen Bereich liegt.
Regressionsanalyse • Konfidenzintervalle der Parameter: • Wahrscheinlichkeitsintervall: • P(bi – t sbi β bi + t sbi) = 1 – α für i = 1,...,k • Konfidenzintervall: • [bi – t sbi ; bi + t sbi] für i = 1,...,k mit t = t1- α/2;n-k
Regressionsanalyse • Beispiel Körpergröße: • Modell: Y = β0 + β1X1 + β2X2 • Parameterschätzer und p-Werte: • b0 = -28,26; p-Wert = 0,657 • b1 = 0,277; p-Wert = 0,292 • b2 = 0,871; p-Wert = 0,002 • Körpergröße des Vaters hat einen positiven Einfluss auf die Körpergröße des Kindes
Regressionsanalyse • Quadratsummen: • SST = (yi -y)² = nsy² = Y‘AY • SSE = (ŷi -ŷ)² = nsŷ² = Ŷ‘A Ŷ • SSR = ei² = ns² = e‘Ae • wobei A = (In – (1/n)ii‘) • Quadratsummenzerlegung: • SST = SSE + SSR
Regressionsanalyse • F-Test: • Prüft, ob zw. der abhängigen Variable Y und den unabhängigen Variablen X2,…,Xk ein linearer Zusammenhang besteht. • H0: β2 = β3 = … = βk = 0 • Mittlere quadratische Abweichungen: • MQE = SSE / (k-1) • MQR = SSR / (n-k)
Regressionsanalyse • Teststatistik: • F = MQE / MQR • F ~ F(k-1),(n-k) • Entscheidung: • F > F(k-1),(n-k) lehne H0 ab, d.h. es besteht eine lineare Abhängigkeit zw. Y und X.
Regressionsanalyse • Lineares multiples Bestimmtheitsmaß: • R² = SSE / SST = 1 – SSR / SST • Es gilt: 0 R² 1 • Linearer multipler Korrelationskoeffizient: • r = +R², absolute Größe (unterschiedliche Vorzeichen der einzelnen Koeffizienten mögl.)
Regressionsanalyse • Lineares partielles Bestimmtheitsmaß: • Regressoren X2, ...,Xk: r²Y,X2,...,Xk = SSE(X2,...,Xk) / SST • Zusätzliche erklärende Variable Xk+1: r²Y,X2,...,Xk,Xk+1 = SSE(X2,...,Xk,Xk+1) / SST • Zusätzliche (durch Xk+1) erklärte Abweichungsquadratsumme: SSE(Xk+1|X2,...,Xk) = SSE(X2,...,Xk) – SSE(X2,...,Xk,Xk+1) = (r²Y,X2,...,Xk – r²Y,X2,...,Xk,Xk+1) SST