1 / 31

Kurzeinführung in SPSS und Regressionsanalyse

Kurzeinführung in SPSS und Regressionsanalyse. Inhalt. 1. Grundlagen 2. Deskriptive Statistiken 3. OLS-Regression 4. WLS-Regression 5. Multiple Regressionsmodelle 6. Dummy-Variablen 7. Homo-/Heteroskedastie 8. Zeitreihen 9. Ergebnispräsentation .

lauren
Download Presentation

Kurzeinführung in SPSS und Regressionsanalyse

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kurzeinführung in SPSS und Regressionsanalyse

  2. Inhalt • 1. Grundlagen • 2. Deskriptive Statistiken • 3. OLS-Regression • 4. WLS-Regression • 5. Multiple Regressionsmodelle • 6. Dummy-Variablen • 7. Homo-/Heteroskedastie • 8. Zeitreihen • 9. Ergebnispräsentation

  3. Grundsätzliche Vorgehensweisebei einer Analyse • am Anfang steht eine Grundfrage (hier z.B. „welche Faktoren beeinflussen die Entwicklung der Ernährungsqualität?“) • sofern vorhanden, sollten bereits existierende ökonomische Theorien zu dieser Frage berücksichtigt werden, um herauszufinden, welche Einflußfaktoren zuvor als wichtig erkannt wurden • eventuell Ergänzung dieser durch weitere, plausibel oder interessant erscheinende Determinanten • Daten werden gesammelt und in einer großen Tabelle (jeder Fall eine Zeile) aufgelistet

  4. Allgemeine Vorteileder Regressionsanalyse • Möglichkeit Einfluß einer bzw. verschiedener „erklärender“ Variablen (auch: „unabhängige Variable“, UV, „exogene“) auf eine zu erklärende Variable (AV, „abhängige“, „endogene“) abzuschätzen • zudem feststellbar (vereinfachend): • wie systematisch („signifikant“) ist der Einfluß? • gilt er auch für andere Daten? • um wieviel ändert sich die AV, wenn die UV um eine Einheit höher ist? • wie hoch wäre die AV, wenn alle UV Null wären? • Hinweise auf Richtung der Kausalität, Interaktionen zwischen UV • wieviel erklärt ein Modell (ein Kombination aus 1 AV und 1 oder mehr UV)? • Repräsentativität von Ergebnissen: quantitative Einschätzung von Unterschieden verschiedener Datensätze möglich • mit Hilfe statistischer Graphik und Kartographie entwickeln sich neue Fragestellungen

  5. Grundlagen: Literaturhinweise • Auer, L.: Ökonometrie, eine Einführung, Berlin 1999. • Eckstein, P.: Angewandte Statistik mit SPSS, Praktische Einführung für Wirtschaftswissenschaftler, Wiesbaden 2000. • Mukherjee, Ch. et al. : Econometrics and Data Analysis for Developing Countries, New York 1998. • Woolbridge, J.: Introductory Econometrics, A Modern Approach, Thomson Learning 2000.

  6. Grundlagen: Dateitypen in SPSS • Datendateien .sav: enthalten die zu bearbeitenden Daten als Datentabelle; es kann nur eine Datendatei geöffnet werden • Ausgabe-Navigator .spo: Ergebnisse der SPSS-Prozeduren werden in diesem zusätzlichen Fenster bereitgestellt • Syntax-Dateien .sps: enthalten in der Kommandosprache beschriebene Rechenaufträge • Öffnen mit („Datei, Öffnen Daten/ Syntax oder Ausgabe) • Speicherung der Dateitypen mit Datei/ Speichern •  Dokumentation zwar lästig aber sehr wichtig! Kodierungen und Vorgehens-weise immer direkt im Ausgabenavigator oder in einem Textverarbeitungsprogramm notieren

  7. Grundlagen: Variablenansicht als Karteikarte neben Datenansicht, enthält Informationen über die Variablen in der Datendatei • Name: Name der Variablen (Kleinbuchstaben, max. 8) • Typ: Numerisch (Zahlen) und String (Buchstaben) • Dezimalstellen: Anzahl der Stellen hinter dem Komma • Variablenlabel: nähere, inhaltliche Beschreibung der Variable • Wertelabel: welche Werte die Variable annehmen kann und was diese dann bedeuten • Fehlende Werte: der Variablenwert ist nicht ermittelbar; für die Kodierung sollte ein Wert verwendet werden, den die Variable nicht annehmen kann, der ganze Fall wird dann bei Prozeduren, die auf diese Variable zurückgreifen, ignoriert

  8. Grundlagen: Datensätze Datensätze: (zufällige) Stichprobe von Individuen, Haushalten, Firmen, Staaten etc. oder Vollerhebung • Cross-Sectional Data: Querschnitt zu einem bestimmten Zeitpunkt (z.B. verschiedene Länder: Index i) • Time Series Data: enthält Ausprägungen der Variablen über die Zeit hinweg (gekennzeichnet mit t) • Pooled Cross Sections: Mischung aus Querschnitt und Zeitreihe, wobei die Querschnitte unabhängig voneinander „gezogen“ werden • Panel/ Longitudinal: Mischung aus Querschnitt und Zeitreihe, wobei die Querschnitte immer dieselben Mitglieder umfasst

  9. Deskriptive Statistiken

  10. Deskriptive Statistiken: Allgemeines Def.: Werkzeuge, die der Beschreibung von Daten dienen • Startpunkt einer jeden Analyse, um Daten besser einschätzen zu können • eine „schiefe“ oder unsymmetrische Verteilung kann zu täuschender Insignifikanz und anderen Schätzproblemen führen • untypische Extremfälle („Ausreißer“) können das Gesamtergebnis verzerren • bei nichtlinearen Zusammenhängen müssen spezielle Maßnahmen ge-troffen werden • deshalb: vor Anwendung der Regressionsanalyse auf (halbwegs) normalverteilte Variablen achten! • denn: wenn Originalvariablen normal oder zumindest symmetrisch verteilt sind, dann besteht eine relativ hohe Wahrscheinlichkeit, daß auch die Residuen normalverteilt sind

  11. Voranalyse:Überprüfung der Häufigkeiten • absolute Häufigkeit: mit welcher Anzahl ein bestimmter Wert vorkommt • relative Häufigkeiten: Anzahl bestimmter Werte bezogen auf die Grundgesamtheit der Werte • graphische Darstellung einer Verteilung: Histogramme • kumulierte Häufigkeiten: Wahrscheinlichkeit, dass die Variable unter oder über einem bestimmten Wert liegt

  12. Voranalyse: Histogramm • 1. Schritt bei der Betrachtung der Verteilung: Erzeugung eines Histogramms, daßß die Häufigkeit der Fälle in Abhängigkeit der Variable (in Intervallen) anzeigt • Variable nach Größe geordnet, Angabe von deren absoluten oder relativen Häufigkeit • in ökonometrischen Studien abstrakte (und stetige) Darstellung der Verteilungen als Liniendiagramm • mit Grafiken/ Histogramm/ Variablexy (& Kreuz bei Normalverteilungskurve anzeigen/ OK) • Öffnen des Graphikeditors: durch doppelklicken auf die Graphik z.B. Klicken Sie zwei Mal auf die horizontale Achse. Unter Intervalle/ Anpassen/ Definieren/ Intervallbreite den Wert 0,5 eingeben/ Weiter. Dann Beschriftungen/ Dezimalstellen: 1/ Weiter / OK

  13. Weitere Aufgaben der Voranalyse • Überprüfung von „Ausreißern“ • Notwendig, da Regressionsgerade sehr sensibel auf Ausreißer (Beobachtungen, die weit von der Regressions-gerade entfernt liegen) reagiert • Ausreißer erkennbar, z.B. wenn es bei den Variablen (v.a. der zu erklärenden) einen oder wenige extreme Werte gibt • genauere Analyse der wichtigsten erklärenden Variablen • insbesondere mittels Streudiagramm • ermöglicht genauere Betrachtung des Einflusses einer besonders wichtigen und interessanten erklärenden Variable • auf diese Weise können auch nichtlineare Zusammenhänge betrachtet werden: z.B. hat eine Variable erst ab einem gewissen Schwellenwert einen Einfluß? • Fehlerbalkendiagramm nützlich bei Betrachtung • vieler Kategorien • sehr hoher Fallzahl

  14. Deskriptive Statistiken: Durchschnitte 1. Arithmetisches Mittel oder Mittelwert: Summe der Messwerte dividiert durch ihre Anzahl: E(y)=(ni=1 yi)/n 2. Median (Zentralwert): gibt zentrales Mittel: Variable nach Größe ordnen, Wert auf mittlerer Position (Anzahl der Einzelbeobachtungen in Stichprobe + 1) / 2 falls gerade: Median  Wert auf dieser Position falls ungerade: Median  Mittelwert zwischen den Werten auf den umliegenden Positionen 3. Modus oder Modalwert (häufigster Wert): gibt die Spitze der Verteilung an SPSS: Analysieren/ Deskriptive Statistiken/ Häufigkeiten, unter Statistik/ Lagemaße zu berechnende Durchschnitte ankreuzen

  15. Deskriptive Statistiken: Durchschnitte II • Beispiel: Zufallsstichprobe • Median, Modus und Mittelwert ? • 121113.57 • Veränderungen bei Hinzufügen von x8? 12.51116.13

  16. Durchschnitte und Verteilung • bi-/multimodale Verteilung => Median oder Mittelwert uninteressant => wichtig: Modalwerte • unimodale Verteilung: wenn symmetrisch => leichter zu analysieren

  17. Deskriptive Statistiken: Normalverteilung • eine symmetrische stetige, glockenförmige Verteilung um das arithmetische Mittel, die allein durch das arithmetische Mittel und die Standardabweichung vollständig beschrieben ist • Modus, Median und Mittelwert sind identisch • Kennzahlen zur Schiefe und Kurtosis der Normalverteilung entsprechen 0  zentrale Bedeutung in der induktiven Statistik • Annahme der Normalverteilung: in der Regel als Basis für Modellierung eines Populationsdurchschnitts • je geringer die Varianz, desto repräsentativer der Mittelwert für den gesamten Datensatz

  18. Standardnormalverteilung 95% der Fälle =1 2,5% der Fälle 2,5% der Fälle -1,96 0 +1,96 Ablehnungsbereich Annahmebereich Ablehnungsbereich Transformation mittels:

  19. Mittelwertschätzung • der errechnete Mittelwert hängt von den Werten der zufällig gezogenen Stichprobe ab • man kann nicht mit Genauigkeit sagen, inwieweit der errechnete Mittelwert mit dem tatsächlich wahren Mittelwert übereinstimmt • aber: aus der Standardnormalverteilung Bildung eines Konfidenzintervalls (Intervall, in dem mit 95%iger Wahrscheinlichkeit der Mittelwert liegt) möglich

  20. Deskriptive Statistiken: Test auf Normalverteilung • Kolmogorov-Smirnov-Anpassungstest: ist die tatsächliche Abweichung größer als die errechnete maximale Abweichung, dann wird die Normalverteilung abgelehnt • Analysieren/ Nichtparametrische Tests/ K-S bei einer Stichprobe/ unter Testverteilung Normal ankreuzen/ OK • Ausgabe „assymptotische Signifikanz“ Werte unter 0,05: Normalverteilung kann zu einem Signifikanzniveau von 5% abgelehnt werden, Werte > 0,05 => Normalverteilung • grafisch: Histogramm: Grafiken/ Histogramm/ Variable/ OK

  21. Schiefe • Werte müssen nicht symmetrisch um den Mittelwert liegen: schiefe Verteilung => Standardabweichung und Mittelwert reichen nicht aus, um die Verteilung ausreichend zu beschreiben • z.B. bei rechtsschiefer bzw.linkssteiler Verteilung: Modus < Median < Mittelwert a3 > 0 : rechtsschief a3 < 0 : linksschief

  22. Deskriptive Statistiken: Folgen einer deutlich schiefen Verteilung • vor allem bei sozioökonomischen Daten sind schiefe Verteilungen häufig • bei Regressionen kann Schiefe zu nichtnormalverteilten Residuen führen • verzerrten Schätzung von Teststatistiken sowie Konfidenzintervallen bzw. des Signifikanzniveaus (d.h. zu täuschender Signifikanz oder täuschender Insignifikanz) • Gefahr von Heteroskedastie • Autokorrelation bei Zeitreihen • deshalb: vor Anwendung der Regressionsanalyse auf (halbwegs) normalverteilte Variablen achten!

  23. Möglichkeit der Reduzierung der Schiefe • „Ladder of Powers“ (bei Mukherjee et al.): nichtlineare Transformation  Wirkung auf Schiefe Y³  reduziert extreme Linksschiefe Y²  reduziert Linksschiefe Y1  beläßt Variable unverändert ln(Y)  reduziert Rechtsschiefe Y-1  reduziert extreme Rechtsschiefe • Mittelwert der transformierten Variable entspricht Median der Originalvariable • auch viele andere Schätzprobleme verschwinden oft bei korrekt transformierten Variablen (z.B. Heteroskedastie)

  24. Vorteile der logarithmischen Transformation • wenn alle Variablen (außer den Dummies) logarithmiert werden, hat dies zudem den Vorteil, daß die Koeffizienten als prozentuale Veränderungen gelesen werden dürfen (aufgrund der mathematischen Eigenschaft des Logarithmus) • d.h. der Koeffizient sagt uns, wieviel % sich die zu erklärende Variable ändert, wenn die erklärende um 1% steigt • bei Dummies: wieviel % Unterschied besteht zwischen der Konstanten und dem Fall, der durch die Dummy repräsentiert wird • auf diese Weise lassen sich auch leichter Modellrechnungen und Simulationen durchführen

  25. Probleme der logarithmischen Transformation • mögliche Folge der logarithmische Transformation: einzelne erklärende Variablen nicht exakt normalverteilt (unproblematisch wenn nur kleine Abweichungen) • bei vielen Transformationen ergeben sich negativen Zahlen oder Nullwerte • Ausweg: Konstruktion eines Indexes: niedrigster Wert gleich 0 (wenn er selten aufritt, sonst z.B. 1, oder 0,01), höchster gleich 100, und Werte dazwischen werden linear zu positiven Indexwerten transformiert: Index=100*(x - min)/(max-min) • dieser Index kann dann logarithmiert werden, ohne das Beobachtungen entfallen

  26. Deskriptive Statistiken: weitere Momente einer Verteilung • Varianz einer Verteilung: Distanz einer Variable zum Durchschnitt; Maß für die Streuung einer Variablen • Standardabweichung einer Verteilung: Distanz zwischen arithmetischen Mittel und Wendepunkt (Punkt an dem die Rechtskrümmung zu einer Linkskrümmung wird) • Kurtosis einer Verteilung: Wölbung

  27. Varianz einer Verteilung • zwei Variablen mit demselben arithmetischen Mittel, allerdings unterschiedlicher Streuung: z.B. Variable x liegt dichter um den Mittelwert m verteilt als Variable y • Interpretation der Varianz: erwartete Distanz der Variable x zum Durchschnitt; Maß für die Streuung einer Variablen

  28. Standardabweichung einer Verteilung f(x) f(x) sx sx m x • Interpretation der Standardabweichung: Distanz zwischen arithmetischen Mittel und Wendepunkt (Punkt an dem die Rechtskrümmung zu einer Linkskrümmung wird) der Verteilung

  29. Deskriptive Statistiken:Kurtosis einer Verteilung • Variablen mit identischem Mittelwert/ Standardabweichung und symmetrischer Verteilung, allerdings unterschiedlicher Wölbung im Vergleich zur Normalverteilung a4 > 0 : höhere Wölbung a4 < 0 : kleinere Wölbung

  30. OLS-Regression: Streudiagramm • nur für univariate Regression • rechtwinkliges Koordinatensystem: Streudiagramm – linearer, nichtlinearer oder kein Zusammenhang • abhängige (=zu erklärende, endogene) Variable: wird auf der y- Achse abgetragen (z. B.: Körpergröße) erklärende (=exogene, unabhängige) Variable: wird auf der x-Achse abgetragen (z. B.: Zeit) • Graphiken/ Streudiagramm/ Einfach Definieren/ erklärende Variable in x-Achse & zu erklärende Variable in y-Achse/ (Fallbeschriftung) / OK • Einfügen der Regressionsgeraden • 2X auf Streudiagramm klicken, führt zum Grafikeditor; darin auf Diagramme/ Optionen/ Kreuz bei Anpassungslinie gesamt/ OK • Veranschaulichung der Zusammenhänge zwischen UV & AV

  31. OLS-Regression:Einflußreiche Ausreißer • Verteilung der Beobachtungen: Berücksichtigung möglicher Ausreißer => verschiedene Streudiagramme identifizieren einflußreiche Ausreißer • Def.: Beobachtungen, die von den mittleren 50% der Werte mehr als drei mal dieser Distanz entfernt liegen (Daumenregel) • Regressionsgerade reagiert möglicherweise sehr sensitiv auf Ausreißer • Lösung: Regression mit und eine ohne Ausreißer durchführen und Veränderung der Regressionskoeffizienten betrachten • Ergebnisse, die auf Ausreißern basieren, sind unglaubwürdig • Ausreißer raus!

More Related