310 likes | 627 Views
Kurzeinführung in SPSS und Regressionsanalyse. Inhalt. 1. Grundlagen 2. Deskriptive Statistiken 3. OLS-Regression 4. WLS-Regression 5. Multiple Regressionsmodelle 6. Dummy-Variablen 7. Homo-/Heteroskedastie 8. Zeitreihen 9. Ergebnispräsentation .
E N D
Inhalt • 1. Grundlagen • 2. Deskriptive Statistiken • 3. OLS-Regression • 4. WLS-Regression • 5. Multiple Regressionsmodelle • 6. Dummy-Variablen • 7. Homo-/Heteroskedastie • 8. Zeitreihen • 9. Ergebnispräsentation
Grundsätzliche Vorgehensweisebei einer Analyse • am Anfang steht eine Grundfrage (hier z.B. „welche Faktoren beeinflussen die Entwicklung der Ernährungsqualität?“) • sofern vorhanden, sollten bereits existierende ökonomische Theorien zu dieser Frage berücksichtigt werden, um herauszufinden, welche Einflußfaktoren zuvor als wichtig erkannt wurden • eventuell Ergänzung dieser durch weitere, plausibel oder interessant erscheinende Determinanten • Daten werden gesammelt und in einer großen Tabelle (jeder Fall eine Zeile) aufgelistet
Allgemeine Vorteileder Regressionsanalyse • Möglichkeit Einfluß einer bzw. verschiedener „erklärender“ Variablen (auch: „unabhängige Variable“, UV, „exogene“) auf eine zu erklärende Variable (AV, „abhängige“, „endogene“) abzuschätzen • zudem feststellbar (vereinfachend): • wie systematisch („signifikant“) ist der Einfluß? • gilt er auch für andere Daten? • um wieviel ändert sich die AV, wenn die UV um eine Einheit höher ist? • wie hoch wäre die AV, wenn alle UV Null wären? • Hinweise auf Richtung der Kausalität, Interaktionen zwischen UV • wieviel erklärt ein Modell (ein Kombination aus 1 AV und 1 oder mehr UV)? • Repräsentativität von Ergebnissen: quantitative Einschätzung von Unterschieden verschiedener Datensätze möglich • mit Hilfe statistischer Graphik und Kartographie entwickeln sich neue Fragestellungen
Grundlagen: Literaturhinweise • Auer, L.: Ökonometrie, eine Einführung, Berlin 1999. • Eckstein, P.: Angewandte Statistik mit SPSS, Praktische Einführung für Wirtschaftswissenschaftler, Wiesbaden 2000. • Mukherjee, Ch. et al. : Econometrics and Data Analysis for Developing Countries, New York 1998. • Woolbridge, J.: Introductory Econometrics, A Modern Approach, Thomson Learning 2000.
Grundlagen: Dateitypen in SPSS • Datendateien .sav: enthalten die zu bearbeitenden Daten als Datentabelle; es kann nur eine Datendatei geöffnet werden • Ausgabe-Navigator .spo: Ergebnisse der SPSS-Prozeduren werden in diesem zusätzlichen Fenster bereitgestellt • Syntax-Dateien .sps: enthalten in der Kommandosprache beschriebene Rechenaufträge • Öffnen mit („Datei, Öffnen Daten/ Syntax oder Ausgabe) • Speicherung der Dateitypen mit Datei/ Speichern • Dokumentation zwar lästig aber sehr wichtig! Kodierungen und Vorgehens-weise immer direkt im Ausgabenavigator oder in einem Textverarbeitungsprogramm notieren
Grundlagen: Variablenansicht als Karteikarte neben Datenansicht, enthält Informationen über die Variablen in der Datendatei • Name: Name der Variablen (Kleinbuchstaben, max. 8) • Typ: Numerisch (Zahlen) und String (Buchstaben) • Dezimalstellen: Anzahl der Stellen hinter dem Komma • Variablenlabel: nähere, inhaltliche Beschreibung der Variable • Wertelabel: welche Werte die Variable annehmen kann und was diese dann bedeuten • Fehlende Werte: der Variablenwert ist nicht ermittelbar; für die Kodierung sollte ein Wert verwendet werden, den die Variable nicht annehmen kann, der ganze Fall wird dann bei Prozeduren, die auf diese Variable zurückgreifen, ignoriert
Grundlagen: Datensätze Datensätze: (zufällige) Stichprobe von Individuen, Haushalten, Firmen, Staaten etc. oder Vollerhebung • Cross-Sectional Data: Querschnitt zu einem bestimmten Zeitpunkt (z.B. verschiedene Länder: Index i) • Time Series Data: enthält Ausprägungen der Variablen über die Zeit hinweg (gekennzeichnet mit t) • Pooled Cross Sections: Mischung aus Querschnitt und Zeitreihe, wobei die Querschnitte unabhängig voneinander „gezogen“ werden • Panel/ Longitudinal: Mischung aus Querschnitt und Zeitreihe, wobei die Querschnitte immer dieselben Mitglieder umfasst
Deskriptive Statistiken: Allgemeines Def.: Werkzeuge, die der Beschreibung von Daten dienen • Startpunkt einer jeden Analyse, um Daten besser einschätzen zu können • eine „schiefe“ oder unsymmetrische Verteilung kann zu täuschender Insignifikanz und anderen Schätzproblemen führen • untypische Extremfälle („Ausreißer“) können das Gesamtergebnis verzerren • bei nichtlinearen Zusammenhängen müssen spezielle Maßnahmen ge-troffen werden • deshalb: vor Anwendung der Regressionsanalyse auf (halbwegs) normalverteilte Variablen achten! • denn: wenn Originalvariablen normal oder zumindest symmetrisch verteilt sind, dann besteht eine relativ hohe Wahrscheinlichkeit, daß auch die Residuen normalverteilt sind
Voranalyse:Überprüfung der Häufigkeiten • absolute Häufigkeit: mit welcher Anzahl ein bestimmter Wert vorkommt • relative Häufigkeiten: Anzahl bestimmter Werte bezogen auf die Grundgesamtheit der Werte • graphische Darstellung einer Verteilung: Histogramme • kumulierte Häufigkeiten: Wahrscheinlichkeit, dass die Variable unter oder über einem bestimmten Wert liegt
Voranalyse: Histogramm • 1. Schritt bei der Betrachtung der Verteilung: Erzeugung eines Histogramms, daßß die Häufigkeit der Fälle in Abhängigkeit der Variable (in Intervallen) anzeigt • Variable nach Größe geordnet, Angabe von deren absoluten oder relativen Häufigkeit • in ökonometrischen Studien abstrakte (und stetige) Darstellung der Verteilungen als Liniendiagramm • mit Grafiken/ Histogramm/ Variablexy (& Kreuz bei Normalverteilungskurve anzeigen/ OK) • Öffnen des Graphikeditors: durch doppelklicken auf die Graphik z.B. Klicken Sie zwei Mal auf die horizontale Achse. Unter Intervalle/ Anpassen/ Definieren/ Intervallbreite den Wert 0,5 eingeben/ Weiter. Dann Beschriftungen/ Dezimalstellen: 1/ Weiter / OK
Weitere Aufgaben der Voranalyse • Überprüfung von „Ausreißern“ • Notwendig, da Regressionsgerade sehr sensibel auf Ausreißer (Beobachtungen, die weit von der Regressions-gerade entfernt liegen) reagiert • Ausreißer erkennbar, z.B. wenn es bei den Variablen (v.a. der zu erklärenden) einen oder wenige extreme Werte gibt • genauere Analyse der wichtigsten erklärenden Variablen • insbesondere mittels Streudiagramm • ermöglicht genauere Betrachtung des Einflusses einer besonders wichtigen und interessanten erklärenden Variable • auf diese Weise können auch nichtlineare Zusammenhänge betrachtet werden: z.B. hat eine Variable erst ab einem gewissen Schwellenwert einen Einfluß? • Fehlerbalkendiagramm nützlich bei Betrachtung • vieler Kategorien • sehr hoher Fallzahl
Deskriptive Statistiken: Durchschnitte 1. Arithmetisches Mittel oder Mittelwert: Summe der Messwerte dividiert durch ihre Anzahl: E(y)=(ni=1 yi)/n 2. Median (Zentralwert): gibt zentrales Mittel: Variable nach Größe ordnen, Wert auf mittlerer Position (Anzahl der Einzelbeobachtungen in Stichprobe + 1) / 2 falls gerade: Median Wert auf dieser Position falls ungerade: Median Mittelwert zwischen den Werten auf den umliegenden Positionen 3. Modus oder Modalwert (häufigster Wert): gibt die Spitze der Verteilung an SPSS: Analysieren/ Deskriptive Statistiken/ Häufigkeiten, unter Statistik/ Lagemaße zu berechnende Durchschnitte ankreuzen
Deskriptive Statistiken: Durchschnitte II • Beispiel: Zufallsstichprobe • Median, Modus und Mittelwert ? • 121113.57 • Veränderungen bei Hinzufügen von x8? 12.51116.13
Durchschnitte und Verteilung • bi-/multimodale Verteilung => Median oder Mittelwert uninteressant => wichtig: Modalwerte • unimodale Verteilung: wenn symmetrisch => leichter zu analysieren
Deskriptive Statistiken: Normalverteilung • eine symmetrische stetige, glockenförmige Verteilung um das arithmetische Mittel, die allein durch das arithmetische Mittel und die Standardabweichung vollständig beschrieben ist • Modus, Median und Mittelwert sind identisch • Kennzahlen zur Schiefe und Kurtosis der Normalverteilung entsprechen 0 zentrale Bedeutung in der induktiven Statistik • Annahme der Normalverteilung: in der Regel als Basis für Modellierung eines Populationsdurchschnitts • je geringer die Varianz, desto repräsentativer der Mittelwert für den gesamten Datensatz
Standardnormalverteilung 95% der Fälle =1 2,5% der Fälle 2,5% der Fälle -1,96 0 +1,96 Ablehnungsbereich Annahmebereich Ablehnungsbereich Transformation mittels:
Mittelwertschätzung • der errechnete Mittelwert hängt von den Werten der zufällig gezogenen Stichprobe ab • man kann nicht mit Genauigkeit sagen, inwieweit der errechnete Mittelwert mit dem tatsächlich wahren Mittelwert übereinstimmt • aber: aus der Standardnormalverteilung Bildung eines Konfidenzintervalls (Intervall, in dem mit 95%iger Wahrscheinlichkeit der Mittelwert liegt) möglich
Deskriptive Statistiken: Test auf Normalverteilung • Kolmogorov-Smirnov-Anpassungstest: ist die tatsächliche Abweichung größer als die errechnete maximale Abweichung, dann wird die Normalverteilung abgelehnt • Analysieren/ Nichtparametrische Tests/ K-S bei einer Stichprobe/ unter Testverteilung Normal ankreuzen/ OK • Ausgabe „assymptotische Signifikanz“ Werte unter 0,05: Normalverteilung kann zu einem Signifikanzniveau von 5% abgelehnt werden, Werte > 0,05 => Normalverteilung • grafisch: Histogramm: Grafiken/ Histogramm/ Variable/ OK
Schiefe • Werte müssen nicht symmetrisch um den Mittelwert liegen: schiefe Verteilung => Standardabweichung und Mittelwert reichen nicht aus, um die Verteilung ausreichend zu beschreiben • z.B. bei rechtsschiefer bzw.linkssteiler Verteilung: Modus < Median < Mittelwert a3 > 0 : rechtsschief a3 < 0 : linksschief
Deskriptive Statistiken: Folgen einer deutlich schiefen Verteilung • vor allem bei sozioökonomischen Daten sind schiefe Verteilungen häufig • bei Regressionen kann Schiefe zu nichtnormalverteilten Residuen führen • verzerrten Schätzung von Teststatistiken sowie Konfidenzintervallen bzw. des Signifikanzniveaus (d.h. zu täuschender Signifikanz oder täuschender Insignifikanz) • Gefahr von Heteroskedastie • Autokorrelation bei Zeitreihen • deshalb: vor Anwendung der Regressionsanalyse auf (halbwegs) normalverteilte Variablen achten!
Möglichkeit der Reduzierung der Schiefe • „Ladder of Powers“ (bei Mukherjee et al.): nichtlineare Transformation Wirkung auf Schiefe Y³ reduziert extreme Linksschiefe Y² reduziert Linksschiefe Y1 beläßt Variable unverändert ln(Y) reduziert Rechtsschiefe Y-1 reduziert extreme Rechtsschiefe • Mittelwert der transformierten Variable entspricht Median der Originalvariable • auch viele andere Schätzprobleme verschwinden oft bei korrekt transformierten Variablen (z.B. Heteroskedastie)
Vorteile der logarithmischen Transformation • wenn alle Variablen (außer den Dummies) logarithmiert werden, hat dies zudem den Vorteil, daß die Koeffizienten als prozentuale Veränderungen gelesen werden dürfen (aufgrund der mathematischen Eigenschaft des Logarithmus) • d.h. der Koeffizient sagt uns, wieviel % sich die zu erklärende Variable ändert, wenn die erklärende um 1% steigt • bei Dummies: wieviel % Unterschied besteht zwischen der Konstanten und dem Fall, der durch die Dummy repräsentiert wird • auf diese Weise lassen sich auch leichter Modellrechnungen und Simulationen durchführen
Probleme der logarithmischen Transformation • mögliche Folge der logarithmische Transformation: einzelne erklärende Variablen nicht exakt normalverteilt (unproblematisch wenn nur kleine Abweichungen) • bei vielen Transformationen ergeben sich negativen Zahlen oder Nullwerte • Ausweg: Konstruktion eines Indexes: niedrigster Wert gleich 0 (wenn er selten aufritt, sonst z.B. 1, oder 0,01), höchster gleich 100, und Werte dazwischen werden linear zu positiven Indexwerten transformiert: Index=100*(x - min)/(max-min) • dieser Index kann dann logarithmiert werden, ohne das Beobachtungen entfallen
Deskriptive Statistiken: weitere Momente einer Verteilung • Varianz einer Verteilung: Distanz einer Variable zum Durchschnitt; Maß für die Streuung einer Variablen • Standardabweichung einer Verteilung: Distanz zwischen arithmetischen Mittel und Wendepunkt (Punkt an dem die Rechtskrümmung zu einer Linkskrümmung wird) • Kurtosis einer Verteilung: Wölbung
Varianz einer Verteilung • zwei Variablen mit demselben arithmetischen Mittel, allerdings unterschiedlicher Streuung: z.B. Variable x liegt dichter um den Mittelwert m verteilt als Variable y • Interpretation der Varianz: erwartete Distanz der Variable x zum Durchschnitt; Maß für die Streuung einer Variablen
Standardabweichung einer Verteilung f(x) f(x) sx sx m x • Interpretation der Standardabweichung: Distanz zwischen arithmetischen Mittel und Wendepunkt (Punkt an dem die Rechtskrümmung zu einer Linkskrümmung wird) der Verteilung
Deskriptive Statistiken:Kurtosis einer Verteilung • Variablen mit identischem Mittelwert/ Standardabweichung und symmetrischer Verteilung, allerdings unterschiedlicher Wölbung im Vergleich zur Normalverteilung a4 > 0 : höhere Wölbung a4 < 0 : kleinere Wölbung
OLS-Regression: Streudiagramm • nur für univariate Regression • rechtwinkliges Koordinatensystem: Streudiagramm – linearer, nichtlinearer oder kein Zusammenhang • abhängige (=zu erklärende, endogene) Variable: wird auf der y- Achse abgetragen (z. B.: Körpergröße) erklärende (=exogene, unabhängige) Variable: wird auf der x-Achse abgetragen (z. B.: Zeit) • Graphiken/ Streudiagramm/ Einfach Definieren/ erklärende Variable in x-Achse & zu erklärende Variable in y-Achse/ (Fallbeschriftung) / OK • Einfügen der Regressionsgeraden • 2X auf Streudiagramm klicken, führt zum Grafikeditor; darin auf Diagramme/ Optionen/ Kreuz bei Anpassungslinie gesamt/ OK • Veranschaulichung der Zusammenhänge zwischen UV & AV
OLS-Regression:Einflußreiche Ausreißer • Verteilung der Beobachtungen: Berücksichtigung möglicher Ausreißer => verschiedene Streudiagramme identifizieren einflußreiche Ausreißer • Def.: Beobachtungen, die von den mittleren 50% der Werte mehr als drei mal dieser Distanz entfernt liegen (Daumenregel) • Regressionsgerade reagiert möglicherweise sehr sensitiv auf Ausreißer • Lösung: Regression mit und eine ohne Ausreißer durchführen und Veränderung der Regressionskoeffizienten betrachten • Ergebnisse, die auf Ausreißern basieren, sind unglaubwürdig • Ausreißer raus!