260 likes | 429 Views
Induktive Statistik: Regressionsanalyse. Regression -> Output. analysieren/Regression/Linear; abhängige & unabhängige Variable einfügen/ OK. zu erklärende Variable erklärende Variablen Regressionskoeffizient b t-Werte p-Wert R² F-Wert
E N D
Regression -> Output • analysieren/Regression/Linear; abhängige & unabhängige Variable einfügen/ OK • . • zu erklärende Variable • erklärende Variablen • Regressionskoeffizient b • t-Werte • p-Wert • R² • F-Wert • Anzahl der Beobachtungen N: df: Freiheitsgrade
OrdinaryLeastSquare-Regression • statistische Zusammenhänge zwischen zwei oder mehreren Variablen • univariate OLS-Regression: nur eine erklärende Variable in der Schätzgleichung • Schätzgleichung:y = a+bx+e y: zu erklärende Variable a: Schnittpunkt mit y-Achse bzw. vertikaler Achsenabschnitt: „Konstante“, d.h. der Wert der abhängigen Variable, bei dem alle unabhängigen Variablen = 0 b: Steigung der Regressionsgerade (Regressionskoeffizient): • Wert besagt, um wie viel sich die AV verändert (+/-), wenn die UV um 1 Einheit steigt • positive/ negative Steigung entspricht einem positiven/ negativen Zusammenhang x: erklärende Variable
OLS-Regression e: Fehlerterm = Residuen = unerklärte Abweichungen von einer möglichen Regressionsgeraden • diese werden quadriert, so daß größere Abweichungen stärker gewichtet werden • OLS: Lage der Regressionsgerade derart, daß die Summe der Quadrate aller Abweichungen der Punkte von der Geraden minimiert werden => Minimierung des Fehlerterms e²(d.h. der Summe der quadrierten Fehler): macht z.B. SPSS • je niedriger die Summe von e² relativ zur Gesamtvarianz der zu erklärenden Variable, desto besser das Modell • positive oder negative Korrelation: wachsenden x-Werten entsprechen steigende y-Werte oder umgekehrt • mögliches Problem: Scheinkorrelation: nicht meßbare Variablen beeinflussen erklärende und zu erklärende Variablen
OLS-Regression: Annahmen 1. e ist normalverteilt (sonst Fehlspezifikation) • Überprüfung: Analysieren/ Regression/ Linear; Abhängige & unabhängige Variable einfügen & zusätzlich unter Speichern: Residuen Nicht standardisiert ankreuzen/ Weiter/ OK • im Dateneditor erscheinen nun die Residuen als neue Variable res_1 (bei weiteren Regressionen mit fortlaufender Nummer) • mit dem Kolmogorov-Smirnov-Test die Residuen auf Normalverteilung überprüfen: Analysieren/ Nichtparametrische Tests/ K-S bei einer Stichprobe/ Testvariablen/ res_1 2. E(e)=0 (kein systematischer Einfluß des Störterms auf y)
OLS-Regression: Annahmen II 3. var(e)=constant (Homoskedastie der Residuen ) 4. cov(eiet)=0 (Residuen korrelieren nicht miteinander) 5. cov(xiet)=0 (Residuen korrelieren nicht mit exogenen Variablen) • bei Verletzung der Annahmen führt die OLS-Methode zu Schätzfehlern • aber: Überprüfung der Variablen auf Schiefe und Umformung schließt viele Fehler aus
Präzision einzelner Regressionskoeffizientenund t-Wert • da die Residuen einer zufällig gezogenen Störvariable entsprechen, würden wir bei einer erneuten Ziehung andere Werte für die abhängige Variable erhalten, damit könnte sich auch der berechnete Regressionskoeffizient ändern • Wie verläßlich ist dieser also? Erste Ziehung Zweite Ziehung b < b • Überprüfung der Signifikanz der Regressionskoeffizienten anhand sog. t-Werte • zeigt an, ob eine einzelne Variable einflußreich • wenn > 2 => signifikanter Unterschied: d.h. es gibt Zusammenhang • +/-: positiver/ negativer Zusammenhang
OLS-Regression: Güte des ModellsBestimmtheitsmaß R² • Güte einer Schätzung läßt sich mit Hilfe des Bestimmtheitsmaßes R² bestimmen • Interpretation: Anteil der durch das Schätzmodell erklärten Varianz an der Gesamtvarianz der abhängigen Variablen • 0< R²<1 je näher an 1, desto besser das Modell; die Angabe von R² in der Regressionstabelle ist notwendig • das R² * 100 wird im Text als Prozent interpretiert (R²=0,65: „mit dem Modell können 65% der Varianz erklärt werden“ • Vorteil von R2: Werte verschiedener Grundgesamtheiten können direkt miteinander verglichen werden • Angabe von R² ist immer notwendig! • adjustiertes R² bei Modellen mit mehreren Variablen (s. multiple Regression)
OLS-Regression: Signifikanz • zur Angabe der Signifikanz • entweder Verwendung des „p-Werts der Signifikanz“ • oder anhand der t-Statistik (Daumenregel: ist t-Wert betragsmäßig größer als 2, dürfte der p-Wert kleiner als 0,05 sein) • p-Wert: Maßzahl für Signifikanz: • ermöglicht Beurteilung, wie „systematisch“ (Unterschiede) eine(r) UV eine AV beeinflußt • bzw.: Wie wahrscheinlich ist es, daß ein Zusammenhang besteht zwischen exogenen und endogener Variablen? • eigentlich: Test, ob bzw. wie hoch die Fehlerwahrscheinlichkeit, daß der Koeffizient oder die Konstante ungleich Null sind, und daher allgemeinere Schlüsse aus dieser Stichprobe gezogen werden dürfen
OLS-Regression: Signifikanz II • Signifikanzniveau/ Sicherheitsniveau: wenn p-Wert < 0,01 oder 0,05 oder 0,1 => signifikanter Einfluß der UV: auf 1%, 5% oder 10%-Level • „besser“, desto näher an Null • aber: Wahl des Signifikanzniveaus kann von der Meßqualität der Daten abhängig gemacht werden • Z.B.: 1%-Niveau: Wahrscheinlichkeit von 99%, daß signifikanter Koeffizient einflußreich ist, Irrtumswahrscheinlichkeit: 1%
OLS-Regression: Streudiagramm • nur für univariate Regression • rechtwinkliges Koordinatensystem: Streudiagramm – linearer, nichtlinearer oder kein Zusammenhang • abhängige (=zu erklärende, endogene) Variable: wird auf der y- Achse abgetragen (z. B.: Körpergröße) erklärende (=exogene, unabhängige) Variable: wird auf der x-Achse abgetragen (z. B.: Zeit) • Graphiken/ Streudiagramm/ Einfach Definieren/ erklärende Variable in x-Achse & zu erklärende Variable in y-Achse/ (Fallbeschriftung) / OK • Einfügen der Regressionsgeraden • 2X auf Streudiagramm klicken, führt zum Grafikeditor; darin auf Diagramme/ Optionen/ Kreuz bei Anpassungslinie gesamt/ OK • Veranschaulichung der Zusammenhänge zwischen UV & AV
OLS-Regression:Einflußreiche Ausreißer • Verteilung der Beobachtungen: Berücksichtigung möglicher Ausreißer => verschiedene Streudiagramme identifizieren einflußreiche Ausreißer • Def.: Beobachtungen, die von den mittleren 50% der Werte mehr als drei mal dieser Distanz entfernt liegen (Daumenregel) • Regressionsgerade reagiert möglicherweise sehr sensitiv auf Ausreißer • Lösung: Regression mit und eine ohne Ausreißer durchführen und Veränderung der Regressionskoeffizienten betrachten • Ergebnisse, die auf Ausreißern basieren, sind unglaubwürdig • Ausreißer raus!
Multiple Regression • mehrere erklärende Variable im Schätzmodell • große Stärke der Regressionsanalyse: es können Einflüsse von mehreren erklärenden Variablen geschätzt werden • graphisch kaum vorstellbar • wichtig: statistische Kennzahlen und Tests, die Hinweise auf ein korrektes Schätzmodell geben, richtig auszuwerten (z.B. die bereits erwähnten p-Werte)
Multiple Regression undkorrigiertes R2 • das „adjustierte R²“ ist hier ein besseres Maß für den Erklärungsanteil des Modells • es ist so konstruiert, daß es sinkt, wenn viele nicht erklärungskräftige Variablen mitberücksichtigt werden • bei Modellen mit mehreren Variablen, nimmt der Erklärungsanteil mit der Anzahl der erklärenden Variablen zu • Extremfall: für jede Beobachtung gibt es eine erklärende Variable • R²=1 • normales Bestimmtheitsmaß ist nicht mehr aussagekräftig • Anpassung um die Anzahl der erklärenden Variablen v • Modelle mit höherem R²adj sind vorzuziehen, auch wenn R² kleiner ist • wenn R²adj nach Variablenausschluß stark reduziert • Kolliniarität übersehen
Multiple Regressionen: Sensitivitätsanalyse • wie robust sind die Ergebnisse bei geringfügigen Änderungen in der Modellspezifikation? • Ergebnisse sind unglaubwürdig, falls sich Vorzeichen und Signifikanz der Koeffizienten durch geringfügige Änderungen stark ändern • Aufnahme und Ausschluß von zweifelhaften Variablen und Betrachtung der Auswirkung auf die Schlüsselvariablen
Multiple Regressionen: Teststrategie • Vorgehensweise nach dem Grundsatz „general to specific modelling“, um Verzerrung der Regressions-koeffizienten durch unberücksichtigte Variablen zu vermeiden • zuerst umfassendes Modell mit allen Variablen schätzen, die auch rivalisierende Erklärungen einschließen • dann: insignifikante Variablen aus dem Modell ausschließen: allmählich zum „wahren“ Modell vorarbeiten (hier Multikollinearität möglich) • notwendig: Überprüfung, ob die Annahmen der OLS-Schätzmethode erfüllt sind
Multikollinearität • Def.: Vorhandensein von Kollinearitäten (Abhängigkeiten) zwischen den erklärenden Variablen • in multiplen Regressionsmodellen treten aber fast immer (schwache) Abhängigkeiten zwischen den UV auf • OLS-Schätzungen bleiben unverzerrt • bei starker Multikollinearität kann Variabilität der Koeffizienten- schätzung zunehmen: d.h. schon mit einer geringfügig anderen Modellspezifikation ganz andere Schätzergebnisse möglich
Multikollinearität II • „täuschende“ Insignifikanz bei einer oder mehreren UV möglich => Einfluß einer UV wird übersehen (bei geringen t-Werten) • Auslassen von Variablen mit niedrigen t-Werten kann zu einer Verzerrung der anderen Schätzer führen • Interpretation der Regressionskoeffizienten gestaltet sich schwieriger • aber: R² nicht betroffen • Überprüfung der Kollinearitäten hilfreich, um die Ergebnisse richtig einschätzen zu können
Bestimmung von Multikollinearität • oft als erste Approximation: Überprüfung der Korrelationskoeffizienten => Schwankungen nach Ausschluß von Variablen die in engem Zusammenhang mit Schlüsselvariable • Bestimmung von Multikollinearität: z.B. mit Variance Inflation Factor (VIF): Werte > 10 deuten auf Multikollinearität (z.B. in SPSS im Regressionsfenster unter „Statistiken“ die Option „Multikollinearitätsdiagnose“ aktivieren) • Daumenregel: kein Problem, wenn R2 > R2 irgendeiner UV auf die anderen UV, oder wenn alles signifikant
Dummy-Variablen • auch Indikator-/ und Kategorienvariablen • qualitative Variablen, die keine Ordnung im mathematischen Sinne angeben • Dummies bei 2 Kategorien: nehmen nur Werte 0 oder 1 an, z.B. x=1, falls Mann & x=0, falls Frau oder x=1, falls zum Römischen Reich gehörig & x=0, falls sonstige Dummy-Variablen können auch zwischen unterschiedlichen Zeitspannen trennen: z.B. 1500-1550=0, 1551-1600=1
Interaktionsterme • um den Einfluß einer Interaktion zwischen zwei Dummyvariablen zu schätzen, werden diese miteinander multipliziert • ergibt eine neue Dummyvariable: mit • Wert=1 falls Zugehörigkeit zu beiden Ausgangskategorien • Wert=0, falls Zugehörigkeit zu einer oder keiner der beiden Ausgangskategorien • in SPSS: transformieren -> berechnen... • zugehöriger Regressionskoeffizient besagt ob eine Kombination der Charakteristika signifikant unterschiedlich ist von einer bloßen Addition der Koeffizienten der Ausgangsdummies
Dummy-Variablen II • Dummies bei mehr als 2 Kategorien: insbes. bei mehreren Möglichkeiten qualitativer Charakteristika: z.B. • Ständegesellschaft:1.Stand/ 2.Stand/ 3.Stand • Region: Nordosteuropa/ Zentraleuropa/Südeuropa usw. • mehr Dummies: z.B. Ständegesellschaft: stand1=1, falls 1.Stand/sonstige Kategorien stand1=0 stand2=1, falls 2. Stand/sonst stand2=0 stand3=1, falls 3. Stand/sonst stand3=0 • Vorteil: Kategorien lassen sich unterscheiden, ohne daß Anzahl der Beobachtungen in separaten Regressionen reduziert wird => Präzision der Regressionskoeffizienten bleibt erhalten
Homoskedastie • Varianz der Residuen var(e)=konstant
y y=a+bx a x3 x2 x1 x Heteroskedastie • keine konstante Varianz der Residuen (graphische Überprüfung: Trichterform!) • Regressionskoeffizienten werden weiterhin unverzerrt geschätzt • auf diesen basierende Konfidenzintervalle sind un- gültig: t-Werte falsch geschätzt x • OLS-Schätzmethode nicht länger effizient
Heteroskedastie II • Überprüfung durch ‚Modifizierten White-Test‘ • vereinfacht: Residuen werden quadriert, um festzustellen, ob ‚Trichterform‘ signifikant e² =c+d1ŷ+d2ŷ²+Fehlerterm ŷ = erwartete, geschätzte Werte der abhängigen Variable c = Konstante d = Regressionskoeffizienten • in SPSS: 1. Regression durchführen; dabei unstandardisierte Residuen und unstandardisierte vorhergesagte Werte speichern (im Regressionsfenster unter Speichern/ Residuen (nicht standardisiert) und vorhergesagte Werte (nicht standardisiert) ankreuzen)
Heteroskedastie III 2.Quadrate der vorhergesagten Werte und Residuen bilden (Transformieren/ Berechnen) 3. Regression durchführen, mit AV: quadrierte Residuen; UV: vorhergesagte Werte und quadrierte vorhergesagte Werte => Unterscheiden sich die Regressoren gemeinsam signifikant von 0 = wenn F-Wertes signifikant = Heteroskedastie • verschiedene Möglichkeiten Heteroskedastie zu beheben • meist hilfreich: Transformation der Variablen (insbes. Logarithmierung) • Aufnahme von weiteren exogenen Variablen