500 likes | 843 Views
Kurzeinführung in SPSS und Regressionsanalyse. PS Wirtschafts- und Sozialgeschichte des Autos Sommersemester 2002 Uwe Fraunholz. Inhalt. 1. Grundlagen 2. Deskriptive Statistiken 3. OLS-Regression 4. WLS-Regression 5. Multiple Regressionsmodelle 6. Dummy-Variablen 7. Heteroskedastie
E N D
Kurzeinführung in SPSS und Regressionsanalyse PS Wirtschafts- und Sozialgeschichte des Autos Sommersemester 2002 Uwe Fraunholz
Inhalt • 1. Grundlagen • 2. Deskriptive Statistiken • 3. OLS-Regression • 4. WLS-Regression • 5. Multiple Regressionsmodelle • 6. Dummy-Variablen • 7. Heteroskedastie • 8. Zeitreihen • 9. Ergebnispräsentation
Grundlagen: Literaturhinweise • Auer, L.: Ökonometrie, eine Einführung, Berlin 1999. • Eckstein, P.: Angewandte Statistik mit SPSS, Praktische Einführung für Wirtschaftswissen-schaftler, Wiesbaden 2000. • Mukherjee, Ch. et al. : Econometrics and Data Analysis for Developing Countries, New York 1998. • Woolbridge, J.: Introductory Econometrics, A Modern Approach, Thomson Learning 2000.
Grundlagen: Dateitypen in SPSS • Datendateien .sav: enthalten die zu bearbeitenden Daten als Datentabelle; es kann nur eine Datendatei geöffnet werden • Ausgabe-Navigator .spo: Ergebnisse der SPSS-Prozeduren werden in diesem zusätzlichen Fenster bereitgestellt • Syntax-Dateien .sps: enthalten in der Kommandosprache beschriebene Rechenaufträge • Öffnen mit („Datei, Öffnen Daten/ Syntax oder Ausgabe) • Speicherung der Dateitypen mit Datei/ Speichern • Dokumentation ! Kodierungen und Vorgehens-weise immer direkt im Ausgabenavigator oder in einem Textverarbeitungsprogramm notieren
Grundlagen: Variablenansicht Als Karteikarte neben Datenansicht, enthält Informationen über die Variablen in der Datendatei • Name: Name der Variablen (Kleinbuchstaben, max. 8) • Typ: Numerisch (Zahlen) und String (Buchstaben) • Dezimalstellen: Anzahl der Stellen hinter dem Komma • Variablenlabel: nähere, inhaltliche Beschreibung der Variable • Wertelabel: welche Werte die Variable annehmen kann und was diese dann bedeuten • Fehlende Werte: der Variablenwert ist nicht ermittelbar. Für die Kodierung sollte ein Wert verwendet werden, den die Variable nicht annehmen kann, der ganze Fall wird dann bei Prozeduren, die auf diese Variable zurückgreifen, ignoriert
Grundlagen: Datensätze Datensätze: Stichprobe oder Vollerhebung • Cross-Sectional Data: Querschnitt zu einem bestimmten Zeitpunkt • Time Series Data: enthält Ausprägungen der Variablen über die Zeit hinweg • Pooled Cross Sections: Mischung aus Querschnitt und Zeitreihe, wobei die Querschnitte unabhängig voneinander „gezogen“ werden • Panel/ Longitudinal: Mischung aus Querschnitt und Zeitreihe, wobei die Querschnitte immer dieselben Mitglieder umfasst
Deskriptive Statistiken Werkzeuge, die der Beschreibung von Daten dienen • absolute Häufigkeit: mit welcher Anzahl ein bestimmter Wert vorkommt • relative Häufigkeiten: Anzahl bestimmter Werte bezogen auf die Grundgesamtheit der Werte • Graphische Darstellung einer Verteilung: Histogramme (Variable nach Größe geordnet, Angabe von deren absoluten oder relativen Häufigkeit) • kumulierte Häufigkeiten: Wahrscheinlichkeit, dass die Variable unter oder über einem bestimmten Wert liegt
Deskriptive Statistiken: Durchschnitte 1.Median oder Zentralwert: Variable nach Größe ordnen, Wert auf mittlerer Position (Anzahl der Einzelwerte + 1) / 2, falls gerade: Median Wert auf dieser Position, falls ungerade: Median = Mittelwert zwischen den Werten auf den umliegenden Positionen 2. Modus oder Modalwert: Häufigster Wert 3. Arithmetisches Mittel oder Mittelwert: Summe der Messwerte dividiert durch ihre Anzahl SPSS: Analysieren/ Deskriptive Statistiken/ Häufigkeiten, unter Statistik/ Lagemaße zu berechnende Durchschnitte ankreuzen
Deskriptive Statistiken: Momente einer Verteilung • Varianz einer Verteilung: Distanz einer Variable zum Durchschnitt; Maß für die Streuung einer Variablen • Standardabweichung einer Verteilung: Distanz zwischen arithmetischen Mittel und Wendepunkt (Punkt an dem die Rechtskrümmung zu einer Linkskrümmung wird) • Kurtosis einer Verteilung: Wölbung • Schiefe einer Verteilung
Deskriptive Statistiken: Schiefe • Werte müssen nicht symmetrisch um den Mittelwert liegen: schiefe Verteilung = Standardabweichung und Mittelwert reichen nicht aus, um die Verteilung ausreichend zu beschreiben Anzahl Modus Mittelwert x Median rechtsschiefe /linkssteile Verteilung
Deskriptive Statistiken: Normalverteilung • Eine um das arithmetische Mittel, symmetrische stetige, glockenförmige Verteilung, die allein durch das arithmetische Mittel und die Standardabweichung vollständig beschrieben ist • Modus, Median und Mittelwert sind identisch • Kennzahlen zur Schiefe und Kurtosis der Normalverteilung entsprechen 0 • zentrale Bedeutung in der induktiven Statistik
Deskriptive Statistiken: Test auf Normalverteilung • Kolmogorov-Smirnov-Anpassungstest: • Ist die tatsächliche Abweichung größer als die errechnete maximale Abweichung, dann wird die Normalverteilung abgelehnt • Analysieren/ Nichtparametrische Tests/ K-S bei einer Stichprobe/ unter Testverteilung Normal ankreuzen/ OK • Ausgabe „assymptotische Signifikanz“ Werte unter 0,05: Normalverteilung kann zu einem Signifikanzniveau von 5% abgelehnt werden, Werte > 0,05 => Normalverteilung Grafisch: Histogramm: Grafiken/ Histogramm/ Variable/ OK
Deskriptive Statistiken: Folgen einer deutlich schiefen Verteilung • bei Regressionen kann Schiefe zu nichtnormalverteilten Residuen führen und damit zu einer verzerrten Schätzung von Teststatistiken • deshalb ist vor Anwendung der Regressionsanalyse auf (halbwegs) normalverteilte Variablen zu achten • Möglichkeit der Reduzierung der Schiefe bei Verteilungen („Ladder of Powers“) • Y² reduziert Linksschiefe ln(Y) reduziert Rechtsschiefe • Mittelwert der transformierten Variable entspricht Median der Originalvariable
OLS-Regression • statistische Zusammenhänge zwischen zwei oder mehreren Variablen • rechtwinkliges Koordinatensystem: Streudiagramm – linearer, nichtlinearer oder kein Zusammenhang • Positive oder negative Korrelation: wachsenden x-Werten entsprechen steigende y-Werte oder umgekehrt • Die Abhängige Variable wird auf der vertikalen Achse abgetragen (z. B.: Kfz-Bestand) • Die Erklärende Variable wird auf der horizontalen Achse abgetragen (z. B.: Zeit)
OLS-Regression: Streudiagramm • nur für univariate Regression • Streudiagramme: Graphiken/ Streudiagramm/ Einfach Definieren/ erklärende Variable in x-Achse & zu erklärende Variable in y-Achse/ (Fallbeschriftung) / OK • Einfügen der Regressionsgeraden • Für die Regressionsgerade im Streudiagramm: Zweimal auf Streudiagramm klicken, führt uns zum Grafikeditor; Darin auf Diagramme/ Optionen/ Kreuz bei Anpassungslinie gesamt/ OK Darstellung der Zusammenhänge zwischen erklärender/ endogener Variable (x-Achse) und zu erklärender/exogener Variable (y-Achse)
OLS-Regression:Einflussreiche Ausreißer • Verteilung der Beobachtungen: Berücksichtigung möglicher Ausreißer => Verschiedene Streudiagramme identifizieren einflussreiche Ausreißer • Definition: Beobachtungen, die von den mittleren 50% der Werte mehr als drei mal dieser Distanz entfernt liegen (Daumenregel) • Die Regressionsgerade reagiert möglicherweise sehr sensitiv auf Ausreißer
Lösung: Eine Regression mit und eine ohne Ausreißer durchführen und die Veränderung der Regressionskoeffizienten betrachten • Ergebnisse, die auf Ausreißern basieren, sind unglaubwürdig! • => Ausreißer raus! y Ausreißer Regressionsgerade mit Ausreißer Hebelwirkung des Ausreißers Regressionsgerade ohne Ausreißer x
OLS-Regression • Univariate OLS-Regression: Nur eine erklärende Variable in der Schätzgleichung: • Form: y = a+bx+e y:zu erklärende Variable a: Schnittpunkt mit y-Achse b: Steigung der Regressionsgerade (Regressionskoeffizient) x: erklärende Variable e: Fehlerterm / Residuum / unerklärte Abweichung Je höher die Summe von e², desto schlechter unser Modell • Ordinary Least Square: Regressionsgerade soll so liegen, dass die Summe der Quadrate aller Abweichungen der Punkte von der Geraden möglichst klein wird
OLS-Regression: t-Wert • Nachdem die Residuen einer zufällig gezogenen Störvariable entsprechen, würden wir bei einer erneuten Ziehung andere Werte für die abhängige Variable erhalten, damit könnte sich auch der berechnete Regressionskoeffizient ändern. Wie verlässlich ist dieser also? • Verwendung von sogenannten t-Werten • Dieser t-Wert misst, wie viele Standardabweichungen der Regressionskoeffizient von 0 entfernt liegt
OLS-Regression: t-Wert • liegt der geschätzte Regressionskoeffizient mehr als 1.96 Standardabweichungen (t-Wert >1,96) von 0 entfernt, dann unterscheidet sich dieser mit einer Wahrscheinlichkeit von 95% von 0 und Veränderungen der exogenen Variable führen zu einer Veränderung der endogenen Variablen • zeigt an , ob einzelne Variable einflussreich • wenn > 2 => signifikanter Unterschied: d.h. es gibt Zusammenhang • +/-: positiver/ negativer Zusammenhang
OLS-Regression: Statistische Signifikanz • Signifikanz (p-Wert): • Wie systematisch können Unterschiede einer unabhängigen Variablen die Unterschiede der abhängigen Variablen erklären? Wie wahrscheinlich ist es, dass ein Zusammenhang besteht zwischen exogenen und endogener Variablen? • Signifikanzniveau/ Sicherheitsniveau: Wahrscheinlichkeit, dass Regressionskoeffizient ungleich null ist • 1%, 5% oder 10%-Niveau (1%-Niveau: Wahrscheinlichkeit von 99%, dass signifikanter Koeffizient einflussreich ist, Irrtumswahrschein-lichkeit: 1%)
OLS-Regression: Güte des Modells • Die Güte einer Schätzung lässt sich mit Hilfe des Bestimmtheitsmaßes R² bestimmen (Quadrat des Korrelationskoeffizienten) • Vorteil von R2: Werte verschiedener Grundgesamt-heiten können direkt miteinander verglichen werden • Interpretation: Anteil der durch das Schätzmodell erklärten Varianz an der Gesamtvarianz der ab-hängigen Variablen • Beispiel: R2 = 0,98: Mit dem Modell lassen sich 98% der Gesamtvarianz der zu erklärenden Variable erklären, Residualstreuung (Differenz zwischen beobachteten und berechneten Werten): 2% / R2 = 0,25: nur 25% der Variation sind erklärt, vorsichtigere Argumentation • 0< R²<1 je näher an 1, desto besser das Modell • Die Angabe von R² ist immer notwendig!
OLS-Regression: Weitere Kennziffern • N: Anzahl der beobachteten Fälle • missing values: in die Regression nicht aufgenommene Beobachtungen • b: Koeffizienten besagen, um wie viel sich die zu erklärende (=abhängige) Variable verändert (+/-), wenn eine erklärende (= unabhängige) Variable um 1 Einheit steigt • Residuen: Abstand des Punktes von der Regressionslinie • df: Freiheitsgrade
OLS-Regression: Annahmen 1. Normalverteilung der Residuen: nichtstandardisierte Residuen bei Regression speichern, K-S-Anpassungstest (ab 0,05) 2. Kein systematischer Einfluss des Störterms auf y (Mittelwert der Residuen = 0, akademisches Problem) 3. Homoskedastie der Residuen (Varianz konstant, modifizierter White-Test) 4. Residuen korrelieren nicht miteinander (Durban-Watson-Test, 1,6-2,4 / bei Regression in SPSS ankreuzen) 5. Keine Korrelation der Residuen mit exogenen Variablen (Regression mit insignifikanten t-Werten) Bei Verletzung der Annahmen führt die OLS-Methode zu Schätzfehlern, aber: Überprüfung der Variablen auf Schiefe und Umformung schließt viele Fehler aus
WLS-Regression • Weighted Least Square: unterschiedliche Gewichtung verschiedener Beobachtungen • Die einzelnen Fälle wirken sich unterschiedlich stark auf das Regressionsergebnis aus • Beispielsweise kann Untersuchungsräumen mit höherer Bevölkerungszahl ein stärkeres Gewicht gegeben werden (Der Wert für Berlin-Brandenburg wirkt stärker auf das Endergebnis ein, als der Wert für Hohenzollern) • In SPSS implementiert: WLS ankreuzen, Gewichtungsvariable einfügen, Regression durchführen • Interpretation der Kennziffern wie OLS • WLS kann auch ein Mittel sein, um Heteroskedastie zu beseitigen: Gewichtung durch Faktor: 1/var(ei)
Multiple Regressionen • Stärke der Regressionsanalyse: Gleichzeitig können mehrere Einflüsse auf eine zu erklärende Variable untersucht werden (Abschätzung der Bedeutsamkeit verschiedener Einflüsse) graphische Methoden sind dazu oft ungeeignet!
Multiple Regressionen: Adjustiertes R² • bei Modellen mit mehreren Variablen, nimmt der Erklärungsanteil mit der Anzahl der erklärenden Variablen zu • Extremfall: für jede Beobachtung gibt es eine erklärende Variable R²=1 • normales Bestimmtheitsmaß ist nicht mehr aussagekräftig • Anpassung um die Anzahl der erklärenden Variablen Modelle mit höherem R²adj sind vorzuziehen, auch wenn R² kleiner ist • wenn R² nach Variablenrausschmiß stark reduziert => Kolliniarität wurde übersehen
Multiple Regressionen: F-Wert in SPSS • im Gegensatz zu den t-Werten, handelt es sich bei dem F-Wert in SPSS um einen Test darauf, ob alle im Schätzmodell enthaltenen exogenen Variablen gemeinsam keinen Einfluss auf die endogene Variable ausüben • in SPSS: nach einer Regression im Fenster ANOVA unter F einsehbar • im Fenster ANOVA neben F ist unter Signifikanz die Wahrscheinlichkeit angegeben, dass die Nullhypothese (alle Variablen üben zusammen keinen Einfluss aus) wahr ist p-value: bei Werten < 0,05 erfolgt Ablehnung, d.h. alle exogenen Variablen üben zusammen einen Einfluss auf die endogene Variable aus
Multiple Regressionen: Sensitivitätsanalyse • Wie robust sind die Ergebnisse bei geringfügigen Änderungen in der Modellspezifikation? • Ergebnisse sind unglaubwürdig, falls sich Vorzeichen und Signifikanz der Koeffizienten durch geringfügige Änderungen stark ändern • Aufnahme und Ausschluss einer Anzahl von zweifelhaften Variablen und Betrachtung der Auswirkung auf die Schlüsselvariablen
Multiple Regressionen: Teststrategie • Vorgehensweise nach dem Grundsatz „general to specific“ (trial & error), um eine Verzerrung der Regressionskoeffizienten durch unberücksichtigte Variablen zu vermeiden Zuerst umfassendes Modell mit allen Variablen schätzen, die auch rivalisierende Erklärungen einschließen dann insignifikante Variablen aus dem Modell ausschließen und sich so langsam zum „wahren“ Modell vorarbeiten
Multiple Regressionen: Multikollinearität • Als Multikollinearität bezeichnet man das Vorhandensein von Kollinearitäten (Abhängigkeiten) zwischen den erklärenden Variablen • In multiplen Regressionsmodellen tritt fast immer Multikollinearität auf y x1 x2 x3 x4
Multiple Regressionen: Auswirkungen von Multikollinearität Die Interpretation der Regressionskoeffizienten gestaltet sich schwieriger: Die Veränderung einer erklärenden Variable führt nicht nur zu einer Veränderung der abhängigen Variable, sondern wird begleitet von einer Veränderung einer mit ihr kollinearen anderen erklärenden Variable, die wiederum ihren Einfluss auf die abhängige Variable ausübt Die einzelnen t-Werte werden niedriger F-Werte deuten auf hohe gemeinsame Signifikanz der exogenen Variablen hin
Multiple Regressionen: Multikollinearität • -> Einfluss einer Variablen schwerer abschätzbar • -> Einfluss wird wegen niedriger t-Werte möglicherweise übersehen, obwohl im Zusammenspiel mit kollinearen Variablen durchaus Einfluss auf Varianz der endogenen Variablen besteht • ->Auslassen von Variablen mit niedrigen t-Werten kann zu einer Verzerrung der anderen Schätzer führen: davon ist abzusehen => Überprüfung der Kollinearitäten ist oftmals hilfreich, um die Ergebnisse richtig einschätzen zu können: Regression unter exogenen Variablen
Dummy-Variablen • Auch Indikator-/ und Kategorienvariablen genannt • qualitative Variablen, die keine Ordnung im mathematischen Sinne angeben • Nehmen nur 2 Werte an 0,1 • z.B. x=1, falls Frau & x=0, falls Mann oder x=1, falls Historiker & x=0, falls sonstige x=1, falls Deutschland & x=0, falls andere x=1, falls qualifizierter Arbeiter & x=0 für Rest • zwei Kategorien, die durch die Dummy-Variable eindeutig bestimmt werden
Dummy-Variablen • Vorteil: zwei Kategorien lassen sich unterscheiden, ohne dass Anzahl der Beobachtungen in separaten Regressionen reduziert wird • Präzision der Regressionskoeffizienten bleibt erhalten t-Werte werden nicht kleiner und signifikante Ergebnisse sind nicht schwerer zu erreichen • Steigungsdummies: Es muss nicht notwendigerweise ein Unterschied zwischen den beiden Kategorien ausschließlich in der Konstante vorliegen • Dummy-Variablen können auch zwischen unterschiedlichen Zeiträumen trennen: z.B. 1900-1914=0, 1919-1932=1
Dummy-Variablen: Interaktionsterme • Um den Einfluss einer Interaktion zwischen zwei Dummyvariablen zu schätzen, werden diese miteinander multipliziert • ergibt eine neue Dummyvariable • Wert=1 falls Zugehörigkeit zu beiden Ausgangskategorien • Wert=0, falls Zugehörigkeit zu einer oder keiner der beiden Ausgangskategorien • zugehöriger Regressionskoeffizient sagt aus, ob eine Kombination der Charakteristika signifikant unterschiedlich ist von einer bloßen Addition der Koeffizienten der Ausgangsdummies
Dummy-Variablen • Nicht immer sind qualitative Charakteristika auf zwei Möglichkeiten beschränkt • z.B. Ständegesellschaft: 1.Stand/ 2.Stand/ 3.Stand Branchen: Papier/ Metall/ Textil/ LW/ Handel/ etc. • Würden wir diese Informationen quantitativ werten, würden wir damit einen nicht unbedingt zutreffenden Zusammenhang unterstellen • z.B 1.Stand=1 & 2.Stand=2 & 3.Stand=3 die Zugehörigkeit zum 1.Stand ist doppelt so gut wie die zum 2. Stand und dreifach so gut wie die zum 3. Stand
Dummy-Variablen • Daher: Bildung mehrerer Dummies: Anzahl der Dummies soll Anzahl der Kategorien entsprechen • Also bezogen auf das Beispiel mit der Ständegesellschaft: Variable stand1=1, falls 1.Stand, sonst stand1=0 Variable stand2=1, falls 2. Stand, sonst stand2=0 bei einem Modell Einkommen=a+b1stand1+b2stand2+e a: durchschnittliche Einkommen des 3. Standes a+b1: durchschnittliche Einkommen des 1. Standes a+b2: durchschnittliche Einkommen des 2. Standes b1 bzw. b2 geben die Einkommensdifferenz bezogen zur Referenzkategorie (3. Stand) an
Heteroskedastie • Keine konstante Varianz der Residuen • Wirkung: Regressionskoeffizienten werden weiterhin unverzehrt geschätzt, aber: Standardfehler in der Regression werden falsch geschätzt, t-Tests, F-Tests und auf diesen basierende Konfidenzintervalle sind ungültig • OLS-Schätzmethode ist damit nicht länger effizient
Heteroskedastie: White-Test • Basiert auf der Annahme, dass var(e)= konstant gleichbedeutend ist mit einer fehlenden Korrelation der Residuenquadratsummen mit den erklärenden Variablen, deren Quadraten und Kreuzprodukten • Einfacher: modifizierter White-Test e²=c+d1ŷ+d2ŷ²+Fehlerterm ŷ = erwartete, geschätzte Werte der abhängigen Variable c= Konstante d = Regressionskoeffizienten
Heteroskedastie: Modifizierter White-Test 1.Regression durchführen (Analysieren/Regression/ Linear/ abhängige und unabhängige Variablen bestimmen) unstandardisierte Residuen und unstandardisierte vorhergesagte Werte dabei speichern (im Regressionsfenster unter Speichern/ Residuen (nicht standardisiert) und vorhergesagte Werte (nicht standardisiert) ankreuzen) 2. Quadrate der vorhergesagten Werte und Residuen bilden (Transformieren/ Berechnen) 3. Regression durchführen (Analysieren/Regression/ Linear) abhängige Variablen dabei: quadrierte Residuen; unabhängige Variablen: vorhergesagte Werte und quadrierte vorhergesagte Werte 4. Interpretation: Unterscheiden sich die Regressoren gemeinsam signifikant von 0 = Heteroskedastie (Signifikanz des F-Wertes interpretieren)
Heteroskedastie: Behebung • WLS-Gewichtung: 1/var(ei) • Transformation der Variablen (Logarithmierung) • Aufnahme von weiteren exogenen Variablen (manchmal liegt Heteroskedastie vor, weil mit Zunahme der abhängigen Variablen, andere bisher unberücksichtigte Faktoren an Erklärungsgehalt zunehmen)
Zeitreihen • Definition: Daten mit einer durch die Zeit vorgegebenen definitiven Ordnung • keine „Ziehung“ von unabhängigen Beobachtungen einer Variablen, Beispiel: die Höhe der Industrieproduktion von 1900 hängt stark von der Industrieproduktion von 1899 ab • dadurch ergibt sich eine Vielzahl von möglichen neuen Problemen
Zeitreihen: Trendkorrelation • Definition: Scheinbar signifikante Abhängigkeit zwischen zwei Variablen, nur weil diese sich in dieselbe oder entgegengesetzte Richtungen bewegen • Beispielhypothese: Störche bringen die Kinder „Beweis“ mit einer Zeitreihe, welche die Anzahl der Störche und Kinderhäufigkeit in Deutschland enthält in diesem Jahrhundert sank ab dem 2. WK die Storchpopulation, ebenso die deutsche Bevölkerung beide Variablen verfügen über einen abnehmenden Trend • meistens ist die Unkorreliertheit von zwei Variablen nicht so offensichtlich ...
Zeitreihen: Stationarität • Definition: Die Momente einer Verteilung (meist Mittelwert und Standardabweichung) sind über die Zeit hinweg konstant • Aktuelle Variablenwerte können nicht von ihren vorherigen Werten vorhergesagt werden • Graphisch: Die Reihe tendiert zu ihrem Mittelwert zurück • sind die Variablen in unseren Modell stationär, besteht kaum eine Gefahr einer Scheinkorrelation Ohne Transformation können wir das OLS-Verfahren anwenden
Zeitreihen: fehlende Stationarität • Trend: Systematische, statistisch signifikante Auf- bzw. Abwärtsbewegung einer Zeitreihe • Random Walk: aktueller Wert der Variable kann fast perfekt von ihrem vorherigen Wert prognostiziert werden, nur zufällige Schocks verändern den aktuellen Wert, erwarteter Prognosefehler nimmt mit der Zeit, zufällige Schocks bleiben im „Gedächtnis“ der Zeitreihe • Random Walk mit Drift: neben zufälligen Schocks verändert auch eine strukturelle Komponente den aktuellen Wert • Test auf Stationarität: Dickey-Fuller-Test
Zeitreihen: Behebung fehlender Stationarität • Bildung der ersten Differenz (absolute Veränderung der Variablen) • Falls Differenz stationär, darf eine Regression durchgeführt werden, ansonsten Bildung der 2. Differenz und prüfen, ob diese stationär ist usw. • Die Bildung der logarithmierten 1. Differenz entspricht approximativ der Wachstumsrate • Bei deterministischem Trend: Überprüfung um welchen Trend es sich handelt (exponentiell, quadratisch, linear). Gegebenenfalls die Variablen transformieren, z.B. bei quadratischen/ exponentiellen Trend die Wurzel ziehen/ logarithmieren und danach linearen Trend unterstellen
Zeitreihen:Autokorrelation der Residuen • Definition: Die Residuen sind nicht unabhängig voneinander, sondern weisen eine Korrelation mit Vorperiodenresiduen auf • Hinweis auf Fehlspezifizierung (fehlende Variable, falsche funktionale Form des Schätzmodells) • Konsequenz: falsche Schätzung von t-Werten und Regressionskoeffizienten möglich • Visuelle Inspektion: Streudiagramm mit Residuen auf vertikaler und der Zeit auf horizontaler Achse und Punkte verbinden; folgt die Häufigkeit der „Überquerungen“ der Null-Linie einem erkennbaren Muster? • Durbin-Watson-Test: dw2 (1,6-2,4) keine Autokorrelation • Cochrane-Orcutt-Verfahren zur Behebung der Autokorrelation, in SPPS: Analysieren/ Zeitreihen/ Autoregression/ Abhängige und Unabhängige Variablen einfügen und unter Methode: Cochrane-Orcutt/OK
Ergebnispräsentation:„Schöne Regressionstabellen“ • Ziel: mehrere Regressionen angenehm vergleichbar nebeneinander stellen SPSS-Output-Tabellen sind nicht geeignet! • Was nicht fehlen darf: erklärte Variablen erklärende Variablen Regressionskoeffizienten t-Werte in Klammern Signifikanzniveau */**/*** neben Reg.koeffizienten R² und F-Wert Anzahl der Beobachtungen
Ergebnispräsentation: „Schöne Regressionstabellen“ Tabelle: Einfluss konjunktureller, soziodemographischer und politischer Faktoren auf den Stimmenanteil einzelner Parteien bei den Reichstagswahlen, 1930-33