920 likes | 1.12k Views
STATISIK. LV Nr.: 1852 WS 2005/06 12. Jänner 2006. Regressionsanalyse. Beziehung zwischen zwei oder mehr metrisch skalierten Merkmalen. Art der Abhängigkeit bestimmen, mathematische Funktion, durch die sich die Abhängigkeit zwischen den Variablen am besten beschreiben lässt.
E N D
STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006
Regressionsanalyse • Beziehung zwischen zwei oder mehr metrisch skalierten Merkmalen. • Art der Abhängigkeit bestimmen, mathematische Funktion, durch die sich die Abhängigkeit zwischen den Variablen am besten beschreiben lässt.
Regressionsanalyse • Abhängige Variable (Regressand): Y • „zu erklärende Variable“ • Unabhängige Variable/n (Regressor): X • „erklärende Variable/n“ • Regressionsfunktion: Mathematische Funktion, die die Abhängigkeit zwischen den Variablen beschreibt. • Regression von Y auf X, Y=f(X).
Regressionsanalyse • Art der Beziehung zw. den Variablen? • Welche Form hat die Regressionsfunktion? • Antworten darauf aus: • Theorie • Empirische Beobachtung, z.B. Punktwolke zeichnen, welche Funktion passt sich gut an die Punktwolke an? Durch welche Funktion lässt sich die Grundtendenz des Zusammenhangs darstellen?
Regressionsanalyse • Punktwolke • Regressionsfunktion
Regressionsanalyse • Lineare Regression: • Regressionsfunktion ist linear • Nichtlineare Regression: • Regressionsfunktion ist nicht linear
Regressionsanalyse • Einfachregression: • Beziehung zwischen 2 Variablen • Regressand: Y • Regressor: X • Mehrfachregression = multiple Regression: • Beziehung zwischen 3 oder mehr Variablen • Regressand: Y • Regressoren: X1, X2, …, Xk
Regressionsanalyse • Lineare Einfachregression: • Lineare Regressionsfunktion (Regressionsgerade) beschreibt die Abhängigkeit zwischen der Variablen Y und X. • Zwei Merkmale X und Y werden an n Objekten der Grundgesamtheit beobachtet => Realisationen x1, …, xn und y1, …, yn.
Regressionsanalyse • Wahre Funktion: yi‘ = α + βxifür i = 1, …, n • α … Absolutglied • β … Steigungsparameter • Beobachtet wird: yi = yi‘ + εi für i = 1, …, n • εi … Störterm, Realisationen einer Zufallsvariable Wahre Koeffizienten, Parameter der Grundgesamtheit
Regressionsanalyse • Modell der linearen Einfachregression: yi = α + βxi + εi für i = 1, …, n • α … Absolutglied • β … Steigungsparameter • εi … Störterm
Regressionsanalyse • Annahmen: • E(εi) = 0 für i=1,…,n • Var(εi) = σ² für i=1,…,n (Homoskedastizität) • Cov(εi,εj) = 0 für alle ij (unkorrelierte Fehler) • xi nicht stochastisch • xi xj für mindestens ein ij
Regressionsanalyse • Aus den Annahmen folgt für die abhängige Zufallsvariable Yi: • E(Yi) = E(α + βxi + εi) = α + βxi + E(εi) = yi‘ für i=1,…,n • Var(Yi) = Var(εi) = σ² für i=1,…,n = 0
Regressionsanalyse • Regressionsfunktion/-gerade: ŷi = a + bxifür i = 1, …, n • a … Schätzer für Absolutglied • b … Schätzer für Steigungsparameter • ŷi … Schätzer für Ausprägung yi von Y
Regressionsanalyse • Abweichung zwischen den beobachteten Werten yi und den geschätzten Werten ŷi: Residuen ei = yi – ŷi = yi – (a + bxi)
Regressionsanalyse • Regressionsgerade: • unendlich viele mögliche Geraden durch eine Punktwolke • Wähle jene, die die vorhandene Tendenz am besten beschreibt, d.h. wähle jene, die eine möglichst gute Schätzung ŷ für die Ausprägung y des Merkmals Y eines Objekts, das die Ausprägung x des Merkmals X trägt, bestimmt.
Regressionsanalyse Methode der Kleinsten Quadrate • Kriterium für die Güte der Schätzung: Summe der Abweichungsquadrate (Residual-Quadratsumme) • Wähle die Schätzer a und b für α und βso, dass S² minimal wird.
Regressionsanalyse • Minimiere S² (= Summe der vertikalen quadratischen Abweichungen der beobachteten Werte yi von den durch die Regressionsgerade an den Stellen xi bestimmten Werten ŷi).
Regressionsanalyse • Bedingung 1. Ordnung: 1. Ableitung = 0. Schätzer a und b ergeben sich als Lösungen des Normalengleichungssystems: • Bedingung 2. Ordnung: 2. Ableitung positiv, d.h. Determinante der Hesse-Matrix > 0
Regressionsanalyse • Kleinste Quadrate Schätzer für β: • Kleinste Quadrate Schätzer für α: • Kleinste Quadrate Regressionsfunktion:
Regressionsanalyse • Eigenschaften der KQ Schätzer: • Summe der Residuen eiist Null. • Summe xiei ist Null. • Das arithmetische Mittel der beobachteten Werte ist gleich dem arithmetischen Mittel der geschätzten Werte • Die Regressionsgerade läuft durch den Schwerpunkt der Punktwolke (x,y).
Regressionsanalyse Quadratsummenzerlegung: • Ziel der Regressionsfunktion: Variation der abhängigen Variable soll aus der Variation der unabhängigen Variablen erklärt werden. • Zu erklärende Variation: yi –y • Erklärte Variation: ŷi–y • Nicht erklärte Variation: yi – ŷi • (yi – y) = (ŷi–y) + (yi – ŷi) für i=1,…,n
Regressionsanalyse • Maß der Variation: Quadratsumme der Abweichungen • SST = (yi –y)² • Sum of Squares Total • SSE = (ŷi–y)² • Sum of Squares Explained • SSR = (yi – ŷi)² • Sum of Squares Residual • Es gilt: SST = SSE + SSR
Regressionsanalyse • Einfaches Bestimmtheitsmaß: • Maß für die durch die lineare Regressionsfunktion geliefert Erklärung der Variation der abhängigen Variablen • r² = SSE / SST = 1 – SSR / SST • r² = Anteil der durch die Regressionsfunktion erklärten Variation an der zu erklärenden gesamten Variation.
Regressionsanalyse • Es gilt: 0 ≤ r² ≤ 1 • Extremfälle: • r² = 0 SSE = 0 ŷi =ŷ (=y) für alle i, d.h. ŷi hängt nicht von i ab b = 0, d.h. Regressionsgerade ist horizontal. Kein Erklärungsbeitrag • r² = 1 SSE = SST SSR = 0 ei = 0 für alle i ŷi= yi für alle i die Daten liegen auf der Regressionsgeraden. Vollständige Erklärung
Regressionsanalyse • Linearer Einfachkorrelationskoeffizient: r = + r² und r [0 ; 1] • Extremfälle: • r = 0, d.h. fehlende Erklärung, fehlende Korrelation • r = 1, d.h. vollständige Erklärung, vollständige Korrelation • r wird das Vorzeichen der Steigung der Regressionsgeraden zugewiesen.
Regressionsanalyse Eigenschaften der KQ Schätzer: • Da yi Zufallsvariable sind, sind auch a und b Zufallsvariable. • Erwartungswerte der KQ Schätzer: • E(b) = β • E(a) = α • D.h. a und b sind unverzerrte Schätzer
Regressionsanalyse • Varianzen der KQ Schätzer: • Beides sind theoretische Größen, da σ² (=Var(εi)) unbekannt ist.
Regressionsanalyse • Kovarianz der KQ Schätzer: Die Kovarinaz ist proportional zu σ², sie hängt vom Vorzeichen von x ab.
Regressionsanalyse • Frage: Gibt es bessere Schätzer als die KQ Schätzer für α und β? • Besser im Sinne einer kleineren Varianz, denn je kleiner die Varianz des Schätzers, umso besser ist er.
Regressionsanalyse Gauss-Markov-Theorem: • Einfaches lineares Regressionsmodell, • Es gelten Annahmen 1-5 • Der KQ Schätzer ist der beste lineare erwartungstreue Schätzer, BLUE (Best linear unbiased Estimator) • Best: Var(b*) Var(b) • Linear: b* =ciyi • Unbiased: E(b*) = β • Analoge Aussage für Schätzer a* von α.
Regressionsanalyse • Schätzung der Fehlervarianz σ² • Wären εi beobachtbar, dann Schätzer für σ² = 1/n εi². • Aber: εi nicht beobachtbar, daher σ² durch s² schätzen.
Regressionsanalyse • Diesen Schätzer von σ² verwendet man, um unverzerrte Schätzer für Var(a) und Var(b) zu konstruieren.
Regressionsanalyse Inferenz im linearen Regressionsmodell: • Ann (1-5) • Ann (6): εi ~ N(0,σ²) • Testprobleme: • Einseitig: z.B. H0: b = b* gegen H1: b > b* • Zweiseitig: H0: b = b* gegen H1: b b* • Teststatistik:
Regressionsanalyse • Verteilung der Teststatistik: • sb bekannt: T ~ N(0,1) • sb geschätzt: T ~ tn-2 • Kritische Werte bestimmen • Entscheidung: Lehne H0 ab, wenn Teststatistik im kritischen Bereich liegt. • Gleiche Vorgehensweise bei Tests für Schätzer a.
Regressionsanalyse KonfidenzintervallRegressionskoeffizienten • Interzept: • Es gilt P(a – t sa α a + t sa) = 1 – α • KI für α: [a – t sa; a + t sa] • Steigungsparameter: • Es gilt P(b – t sb β b + t sb) = 1 – α • KI für β: [b – t sb; b + t sb] • t = t1- α/2; n-2 (Werte der t-Verteilung)
Regressionsanalyse • F-Test • Hypothese: Kein Zusammenhang zwischen den Variablen X und Y in der Grundgesamtheit • Basiert auf der Quadratsummenzerlegung SST = SSE + SSR
Regressionsanalyse • Mittlere erklärte Quadratsumme: • MSE = SSE / 1 • Mittlere nicht erklärte Quadratsumme: • MSR = SSR / (n – 2) • Teststatistik: • F = MSE / MSR • F ~ F1;n-2;1-α
Regressionsanalyse • Beispiel: Körpergröße (X), Gewicht (Y) • Modell: Y = α + Xβ + ε • Parameterschätzer: a = -105,75, b = 0,98 • Regressionsfunktion: Ŷ = -105,75 + 0,98X • Interpretation der Koeffizienten: • a = -105,75: Verschiebung • b = 0,98: Steigung, steigt X um eine Einheit (1cm), steigt Y um 0,98 Einheiten (kg). Vorsicht: Umkehrung gilt nicht! • Bestimmtheitsmaß: 0,577 • Korrelationskoeffizient: 0,759
Regressionsanalyse • Beispiel: Körpergröße (X), Gewicht (Y) • Koeffiziententests (t-Tests): • H0: α = 0 ablehnen (p-Wert < 0,05) => α 0 • H0: β = 0 ablehnen (p-Wert < 0,05) => β 0 • F-Test: H0 ablehnen (Prüfgröße > kritischer Wert) => Zusammenhang zw. den Variablen
Regressionsanalyse • Prognose • Ziel: bei gegebenen Werten der unabhängigen Variable, zugehörigen Wert der abhängigen Variable prognostizieren. • Schätzung des Erwartungswertes E(yf) an der Stelle xf. • Schätzung eines Einzelwertes yf an der Stelle xf.
Regressionsanalyse • Geg. xf (weiterer Wert von X) • Ges. zugehöriger Wert yf von Y und/oder „mittleres“ Verhalten E(yf) = a + bxf. • Weitere Annahmen: • yf = α + βxf + εf • E(εf) = 0 • E(εf²) = σ² • Cov(εf, εi) = 0 • xf nicht stochastisch
Regressionsanalyse • Parameter α und β bekannt: • Prognose der Einzelwerte: yf = α + βxf • Prognose des Erwartungswertes: E(yf) = α + βxf • Parameter unbekannt. • Prognose der Einzelwerte: ŷf = a + bxfŷf ist ein unverzerrter Prediktor für yf • Prognose des Erwartungswertes: E(ŷf ) = a + bxf ŷf ist ein unverzerrter Prediktor für E(yf)
Regressionsanalyse • Prognose Erwartungswert: E(ŷf ) = a + bxf • Varianz des durchschnittlichen Prognosewertes sŷf²: • Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)
Regressionsanalyse • Prognose Einzelwert: ŷf= a + bxf • Prognosefehler: ef = yf – ŷf • Varianz des individuellen Prognosefehlers sf²: • Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)
Regressionsanalyse • Zusätzlich Ann: Störvariable εf ~ N(0,σ²) • 1-α Konfidenzintervall für E(ŷf): [ŷf – t sŷf ; ŷf + t sŷf] t = t1-α/2;n-2 • 1-α Prognoseintervall für ŷf: [ŷf – t sf ; ŷf + t sf] t = t1-α/2;n-2
Regressionsanalyse • Residuenanalyse • Ex-post Überprüfung der Modellannahmen. • Ann 1: E(εi) = 0 • Ann 2: Var(εi) = σ² • Ann 3: Cov(εi,εj) = 0
Regressionsanalyse • Grafische Residualanalyse • Residuen der KQ Schätzer: ei = yi – ŷi • Streudiagramm: Residuen gegen X (Werte der unabhängige Variable) • Streudiagramm: Residuen gegen Ŷ (Prognosewerte). • Es gilt: ei= 0 und arithm. Mittel der ei = 0