750 likes | 1.19k Views
Methoden der Politikwissenschaft Regressionsanalyse Siegfried Schumann. Prognosegleichung. Backhaus-Formel für den Regressionskoeffizienten (S. 16) äquivalent zum Grundkurs! aber : Rohwerte! in SPSS: B Backhaus-Formel für die Regressionskonstante (S. 16) wie im Grundkurs
E N D
Methoden der PolitikwissenschaftRegressionsanalyseSiegfried Schumann
Prognosegleichung • Backhaus-Formel für den Regressionskoeffizienten (S. 16) • äquivalent zum Grundkurs! • aber: Rohwerte! • in SPSS: B • Backhaus-Formel für die Regressionskonstante (S. 16) • wie im Grundkurs • aber Benennung: b0! • in SPSS: CONST
Standardisierte Regressionskoeffizienten • Standardisierte Regressionskoeffizienten: • ˆ bei Backhaus: → Standardisierung • entspricht dem Koeffizienten für z-standardisierte Variablen! • Sinn: Vergleichbarkeit innerhalb einer Gleichung herstellen! • In SPSS: BETA
Arbeitsblatt 1: Eine unabhängige Variable Konstante = ? r aus Gleichungen 1 u. 2 errechenbar? SYCDU x 10 1 Jahr (Alter) 10 Jahre
Multiple Regression • Regressionsgleichung: • Zielfunktion der multiplen Regressionsfunktion: e = Residuum
Arbeitsblatt 1: y-Werte für Gleichung y = 2x1 + x2 - 4 Lego-Modell!
Demonstration am Modell: • Regressionsgerade → Regressionsebene • Regressionskoeffizienten: Steigung unabhängig von den übrigen UVs! • Interpretationen: • Regressionskoeffizienten • Regressionskonstante analog zum bivariaten Modell
Arbeitsblatt1:z-Standardisierung / Unabhängigkeit bereits bekannt? Hätte R2 auch kleiner sein können als in vorhergehender Tabelle? Nächste Zeile: Welche Werte sind bekannt?
Wdh:Bestimmtheitsmaß R2–Zerlegung eines Werts Regressionsgerade
Wdh: Zerlegung eines y-Wertes x Abweichung vom arithmetischen Mittel Regressionsgerade arithmetisches Mittel Werte für Beispiel 2 (Grundkurs)
Bestimmtheitsmaß R2 • Prüfung der Regressionsfunktion insgesamt • Backhaus: R2 → r2 • R2 wird beeinflusst von: • Zahl der Regressoren • Größe der Stichprobe • Korrigiertes Bestimmtheitsmaß: • Bei großen Fallzahlen kaum bedeutsam. Beispiel: N=K=1000, J=5: r2 = 0.81 → r2korr = 0.8090 r2 = 0.49 → r2korr = 0.4874 r2 = 0.09 → r2korr = 0.0854 • Anmerkung: R = r = Multipler Korrelationskoeffizient J = Anzahl der Regressoren K = Zahl der Beobachtungen ?
Prüfung des Bestimmtheitsmaßes • F-Test: Hat sich R2emp ≠ 0 zufällig ergeben, (Backhaus: r2emp ≠ 0) obwohl in der Grundgesamtheit R2 gleich „0“ ist? • H0: Kein Zusammenhang zwischen der AV und den UVs (in der Grundgesamtheit) • H1: Zusammenhang zwischen der AV und den UVs (in der Grundgesamtheit) • Testgröße: • F-Verteilung: (Dichte) Zähler- bzw. Nennerfreiheitsgrade J = Anzahl der Regressoren K = Zahl der Beobachtungen ––––––––– df. Zähler: 1 df. Nenner: 5 - - - - - - - - - df. Zähler: 10 df. Nenner: 10 nach Bortz 1989: 107
F-Tabelle - Vertrauenswahrscheinlichkeit 0.95 / 0.99 Beispiel:J= 1 K = 10 Femp = 4.23 →n.s. f1 = J: Anzahl der UVs f2 = K - J - 1: Fallzahl - Anzahl der UVs - 1 aus: Clauß u.a. 1994: 366 f. (Tabellen in Backhaus: S. 576ff.; Auszug: S. 27)
Weiteres Gütemaß • Standardfehler der Schätzung • Im Beispiel: • Bezogen auf den Mittelwert von Y (1806.8) • beträgt der Standardfehler der Schätzung 21% • was nicht als gut bewertet werden kann (Backhaus u.a.. 2006: 73) Gibt an, welcher mittlere Fehler bei der Verwendung der Regressionsfunktion zur Schätzung der AV gemacht wird. (Backhaus u.a. 2006: 73)
Prüfung der Regressionskoeffizienten • Für jede der unabhängigen Variablen (UV) ist H0 gegen H1 zu prüfen: • H0: Der Regressionskoeffizient hat in der Grundgesamtheit den Wert „0“ (kein „Einfluss“ der betreffenden UV auf die AV!) • H1: Der Regressionskoeffizient hat in der Grundgesamtheit einen Wert ≠ „0“ („Einfluss“ der betreffenden UV auf die AV!) • Testgröße: • T-Verteilung (Dichte) (aus: Bleymüller u.a. 1992: 63)
Kritische Werte der t-Verteilung (Wdh.) df.: K-J-1 J = Anzahl der Regressoren K = Zahl der Beobachtungen Beispiel:K = 10 J= 1 α= 0.05 → SNV Tafel 4 aus: Clauß u.a. 1994: 364-365
Konfidenzintervalle für Regressionskoeffizienten • Berechnung des Konfidenzintervalls (KI): mit: = Regressionskoeffizient des j-ten Regressors = Standardfehler des j-ten Regressionskoeffizienten t = t-Wert für gewählte Vertrauenswahrscheinlichkeit • Interpretation? • Intervall liegt mit einer Wahrscheinlichkeit von [Vertrauenswahrscheinlichkeit] so, dass es den Regressionskoeffizienten in der Grundgesamtheit umschließt. • Je größer das KI, desto unsicherer die Schätzung der Steigung des Regressionskoeffizienten. • Gilt insbesondere bei Vorzeichenwechsel innerhalb des KI!
Prämissen / Prämissenverletzungen (PV) beim linearen Regressionsmodell
Annahmen des linearen Regressionsmodells • Das Modell ist richtig spezifiziert. • Es ist linear in den Parametern βj. • Es enthält die relevanten UVs (und nur diese!). • Zahl der zu schätzenden Parameter (J+1) < Zahl der Beobachtungen (K). • Die Störgrößen haben den Erwartungswert Null. • Keine Korrelation zwischen den UVs und der Störgröße • Störgrößen haben eine konstante Varianz (Homoskedaszidität) • Störgrößen sind unkorreliert (keine Autokorrelation) • Keine lineare Abhängigkeit zwischen den UVs (keine perfekte Multikollinearität). • Die Störgrößen sind normalverteilt. (→ relevant bei statistischen Tests!) • Praktisches Problem: Ausreichende Varianz der UVs in der Stichprobe! nach Backhaus u.a. 2006: 79
PV = Prämissenverletzung! PV: Nicht lineare Regressionsbeziehung oder: Strukturbruch? Lineare Regressionsfunktion Y = β0 + β1 · X Nichtlineare Regressionsfunktion Y = β0 + β1 · X0.5 nach Backhaus u.a. 2006: 82
PV: Nicht lineare Regressionsbeziehung II Strukturbruch: Niveauänderung Strukturbruch: Trendänderung nach Backhaus u.a. 2006: 82
PV: nicht alle relevanten UVs im Modell enthalten - --+ + -- - UVs: Sympathie J. Fischer .24 .35 .23 Sympathie J. Trittin .27 .35 .26 „Irak“ gerechtfertigt -.07 -.05 -.12 -.13 -.06 -.08 Zuzug Ausländer ↓ -.04 -.11 -.05 -.19 -.03 -.16 AKWs „abschalten“ .04 .07 .07 .16 .04 -.14 Zufried. Grüne in Koalition .34 .54 .33 NEO-FFI: OE .08 .10 .11 .18 .07 .15 NEO-FFI: GW .02 .00 .01 -.03 .02 -.02 Links-Rechts Selbsteinstufung -.08 -.24 Erklärte Varianz R2: .54 .46 .41 .17 .54 .47 Abhängige Variable (AV) jeweils: Sympathie für die Grünen Zahlenwerte: standardisierte Regressionskoeffizienten nicht signifikant (unter Signifikanzniveau „.05“)
PV: Nicht konstante Varianz der Störgrößen Homoskedaszidität: Alle bedingten Verteilungen der ui haben Erwertungswert 0 und konstante Varianz σu2. (Bleymüller, 1992: 149) Heteroskedaszidität I Heteroskedaszidität II Relevant vor allem bei Zeitreihen! nach Backhaus u.a. 2006: 87
PV: Nicht unkorrelierte Störgrößen (Autokorrelation) Positive Autokorrelation Negative Autokorrelation Relevant vor allem bei Zeitreihen! nach Backhaus u.a. 2006: 87
Erkennen von Autokorrelation (Zeitreihen!) • Optische Inspektion (Residuen) • Durbin-Watson-Test + Beziehung? = Berechnung? 165.5190 : 155.3195 (Standardfehler der Residuen in der Grundgesamtheit!) (aus Backhaus u.a. 2006: 101)
Test auf Autokorrelation (Durbin-Watson-Formel) Kritische Werte (Tabelle!) ? Empirischer Wert der Prüfgröße „d“
Durbin-Watson Tabelle Vertrauenswahrscheinlichkeit: einseitig 0.975, zweiseitig 0.95 K = Zahl der Beobachtungen J = Zahl der Regressoren d+u = unterer Grenzwert des Unschärfebereichs d+o = unterer Grenzwert des Unschärfebereichs Beispiel: aus Backhaus u.a. 2006: 820
Test auf Autokorrelation (Durbin-Watson-Formel) Beispiel: d+u (hier: du) = 1.21 d+o (hier: do) = 1.56 4 - do = 2.44 4 - du = 2.79 d = 2.02 Ho „keine Auto-korrelation“ kann nicht zurückge-wiesen werden! 2.44 1.21 1.56 2.79 d = 2.02
Test auf Autokorrelation: Beispiel 1 d = Indexwert für die Prüfung auf Autokorrelation ek = Residualgröße für den Beobachtungswert in Periode k (k = 1, 2, …, K) ?
Test auf Autokorrelation: Beispiel 2 d = Indexwert für die Prüfung auf Autokorrelation ek = Residualgröße für den Beobachtungswert in Periode k (k = 1, 2, …, K) ?
Keine perfekte Multikollinearität PV: Starke • d.h. Forderung: Keine perfekte lineare Abhängigkeit der UVs • Prüfung auf Multikollinearität: • 1. Prüfung: Korrelationsmatrix der UVs • 2. multiple Korrelation R2 1 – R2 (Toleranz) Variance Inflation Factor (VIF) = Kehrwert der Toleranz • Abhilfemöglichkeiten: • Variablen (UVs) entfernen • Ersetzung von Variablen durch Faktoren
Beispiele für Regressionsmodelle
Bivariates Modell: Lineare Einfachregression REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT fr4_3 /METHOD=ENTER fr9_5 /CASEWISE DEPENDENT PRED RESID OUTLIRE (0) 0,000 : = Zusammenhang?
t-Verteilung → Standardnormalverteilung z = 1.96 γ = 0.05 z = 2.58 γ = 0.01 0.0035 0.0035 z = -2.716 γ = 0.007 z = 2.716 γ = 0.007 SPSS
Multiple Regression – Modell 1 (Ausgangsmodell) REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT fr4_3 /METHOD=ENTER fr6_2fr9_5fr29_4 fr29_10fr40_24 /RESIDUALS HIST(ZRESID). ? Y: erklärte Streuung K=2262 ? ? ? Y: nicht erklärte Streuung = J : Quotient : K-J-1 = K-1 Y: Gesamt- Streuung SAQy
Fs.: Multiple Regression – Modell 1 Normalverteilung der Residuen?
Multiple Regression – Modell 2 (+ LIRE) vorher: .113 vorher: .000 vorher: .259 .090 -.136
Multiple Regression – Modell 3 (+ Symp. CDU) vorher: .173 vorher: .000 .043 .000 .001
Multiple Regression – Modell 4 (+ Symp. CSU) vorher: .434 rCDU CSU = .86 ?
Multiple Regression – Modell 4 Modell 3 Modell 4
Produktvariablen im linearen Regressionsmodell
Produktvariablen - 1 Ausgangsmodell R2 = .281 Interaktion: Offenheit x Bildung? R2 = .285 nur: Produktvariable
Produktvariablen - 2 Korrelationsmatrix symmetrisch! „Explodieren“ des Zusammenhangs durch Produktbildung BI und OE sind korreliert ! Abhilfe: Mittelwert herausnehmen (zentrieren reicht!)
Produktvariablen - 3 x2 Werte der z-standardisierten Produktvariablen x1· x2 Für z-standardisierte Varaiblen: x1
Produktvariablen - 4 Ausgangsmodell R2 = .281 Ausgangsmodell mit z-standardisierter Produktvariable R2 = .285 z - Produktvariable
Interpretation des Interaktionseffekts I (extrem) rechte Einstellungen Produktvariable positive Werte: ∙Bildung, OE ∙ keine Bildung, keine OE negative Werte: ∙ Bildung, keine OE ∙ keine Bildung, OE