1 / 69

Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm

Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann Tim Rathjen Forschungsinstitut Freie Berufe Leuphana Universität Lüneburg. Organisatorisches (I). Termine:. Literatur: - Skript - Backhaus, u.a.: „Multivariate Analysemethoden“.

walda
Download Presentation

Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann Tim Rathjen Forschungsinstitut Freie Berufe Leuphana Universität Lüneburg

  2. Organisatorisches (I) Termine: Literatur: - Skript - Backhaus, u.a.: „Multivariate Analysemethoden“

  3. Organisatorisches (II) • Prüfungsleistung Diplomstudiengänge: • 4 CP (Wahlpflichtfach EWF oder Freier Bereich) • Hausarbeit: - Aufgaben (ohne Zusatzaufgabe) • - 1-2 Personen • - Umfang: ca. 20 Seiten • - Download der Daten für Hausarbeit: • ab 1. Juli 2009: ffb.uni-lueneburg.de • - Abgabetermin: 15. September 2009 • Prüfungsleistung Komplementärstudium • 5 CP • Hausarbeit: - Aufgaben (mit Zusatzaufgabe) • - 1-2 Personen • - Umfang: ca. 25 Seiten • - Download der Daten für Hausarbeit: • ab 1. Juli 2009: ffb.uni-lueneburg.de • - Abgabetermin: 15. September 2009 • Alternativ: Teilnahmeschein (+ PCP)

  4. Übersicht 1. Arten von Merkmalen 2. Deskriptive Statistik 3. Induktive Statistik 4. Korrelation 5. Regression → Kurzeinführung in SPSS 6. Logistische Regression 7. Faktorenanalyse 8. Clusteranalyse Tag 1 Tag 2

  5. 1. Arten von Merkmalen – Skalenniveaus

  6. 1. Arten von Merkmalen – Skalenniveaus Entscheidungsbaum Lassen sich die Merkmalsausprägungen in eine sinnvolle Reihenfolge bringen? nein ja Nominalskala (Z.B. Geschlecht) Sind die Abstände quantifizierbar? nein ja Ordinalskala (Z.B. Güteklassen) Metrische Skalen (Z.B. Einkommen)

  7. 2. Deskriptive Statistik Ziel: Verdichtung von Informationen Methoden: - Darstellung von Häufigkeiten (HK) → von einem Merkmal → von zwei Merkmalen - Lage- und Streuungsparameter

  8. HK-Verteilung: Darstellung eines Merkmals • Absolute Häufigkeit ni einer Merkmalsausprägung • Relative Häufigkeit hi einer Merkmalsausprägung • Grafen: Balken- und Säulendiagramme, Kreisdiagramme, Histogramme, Boxplots, …

  9. HK-Verteilung: Darstellung zweier Merkmale • Kreuztabellen • Grafen: Zweidimensionale Balkendiagramme, …

  10. Lage- und Streuungsparameter Lageparameter: Geben die Position des Datenfeldes wieder. Streuungsparameter: Geben die ‚Form‘ des Datenfeldes (in Bezug auf einen Lageparameter) wieder.

  11. Lageparameter: Position des Datenfeldes • Bsp.: - Arithmetisches Mittel • - Median • - Modus • - Quantile (Quartile/Dezile/Perzentile) • Streuungsparameter: ‚Form‘ des Datenfeldes • Bsp.: - Spannweite • - Varianz (mittlere quadratische Abweichung vom arithm. Mittel) • - Standardabweichung

  12. 3. Induktive Statistik Ziel: Schließen von Kennzahlen einer (zufällig gezogenen) Stichprobe auf unbekannte Parameter der Grundgesamtheit Methoden: 1. Punktschätzung 2. Intervallschätzung 3. Statistische Tests Beispiel: Wahlprognose (Stichprobe: n = 1000;Grundgesamtheit: N = 50 Mio.)

  13. Intervall- und Punktschätzung • Beispiel: Wahlprognose • Stichprobe: n = 1000 • Grundgesamtheit: N = 50 Mio.

  14. Statistische Tests • Theorie: Aufbau eines Tests in fünf Schritten • Formulierung der zu überprüfenden Hypothesen (H0 und HA) → überprüfbare Hypothese ist HA • → Gleichheitszeichen in H0 • 2. Festlegen der zulässigen Fehlerwahrscheinlichkeit des späteren Testergebnisses (α = 0,05; 0,01; …) • 3. Berechnung einer Prüfgröße (Teststatistik), die sich aus der Stichprobe ermitteln lässt • 4. Bestimmung eines kritischen Wertes, dessen Unter- oder Überschreiten zur Ablehnung der Nullhypothese führt • 5. Vergleich von Prüfgröße und kritischem Wert und Entscheidung

  15. Beispiele für Hypothesen: • Erreicht Schwarz-Gelb die absolute Mehrheit? (Rechtsseitig) • H0: pSchwarz/Gelb ≤ 0,50 • HA: pSchwarz/Gelb > 0,50 • Fällt die SPD unter die 25%-Grenze? (Linksseitig) • H0: pSPD ≥ 0,25 • HA: pSPD < 0,25 • Ist die Differenz zwischen Grünen und Linken signifikant? (Zweiseitig) • H0: pGRÜNE = pLINKE • H0: pGRÜNE ≠ pLINKE

  16. Hypothesen und Fehlerarten: → Fehler 1. Art (α) → Fehler 2. Art (β)

  17. Testen mit SPSS – einfaches Beispiel (konstruiert): Beispiel: Ist die mittlere Temperatur im Januar von Null verschieden? 1. H0: μ=0 HA: μ≠0 (zweiseitiger Test) 2. Fehlerwahrscheinlichkeit α=0,05. D.h. uns soll der Fehler erster Art mit einer Wahrscheinlichkeit von höchstens 5% unterlaufen 3. Berechnung der Prüfgröße: , mit 4. Bestimmung des kritischen Wertes aus der (theoretischen) t- Verteilung 5. Vergleich der Prüfgröße mit dem kritischen Wert: H0 wird abgelehnt wenn:

  18. σ α/2 α/2 tkrit μ0=0 H0 ablehnen H0 ablehnen H0 annehmen Testentscheidung H0: μ = 0 HA: μ ≠ 0

  19. Anmerkungen zu Tests mit SPSS: • SPSS berechnet für Tests einen Sig.-Wert (= P-Value). Dieser gibt den exakten Fehler an, den man begeht, wenn man H0 ablehnen würde. → Ist Sig. kleiner als das vorgegebene Signifikanzniveau α, dann wird H0 abgelehnt. Häufig: • Sig. < 0,05: „ HA“ • Sig. > 0,05: „ H0“ • SPSS berechnet während einiger Testprozeduren auch Konfidenzintervalle. Über diese können dann auch Testentscheidungen getroffen werden.

  20. Beispieloutput von SPSS: Einstichprobentest mit H0: μ = 0

  21. Mögliche Tests mit SPSS: • Mit SPSS besteht die Möglichkeit, aus einer großen Anzahl von Tests auszuwählen. Beispiele: • 1. Einstichprobentest • - Test auf den Erwartungswert μ • - Test auf einen Anteilswert p • - (...) • 2. Zweistichprobentests – Test auf Differenz ... • - zweier Erwartungswerte μ • - zweier Anteilswerte p • - (...) • weitere Tests • - Tests bei Regressionsanalyse (F-Test, t-Test, …) • - Verteilungs- und Unabhängigkeitstests (Chi²-Tests, …) • - (...)

  22. 4. Korrelation Liegt ein Zusammenhang von zwei Merkmalen vor? Interdependenzanalyse (keine kausale Richtung der Abhängigkeit) Arten: Kontingenzkoef.  Mindestens ein Merkmal nominal skaliert Normierung: 0 ≤ KK ≤ 1 (Stärke) Spearman Beide Merkmale mindestens ordinal skaliert Normierung: -1 (Absolut gegenläufig) 0 (Kein Zusammenhang) +1 (Absolut gleichläufig) (Stärke und Richtung) Pearson  Beide Merkmale metrisch skaliert Normier. und Interpr. wie bei Spearman

  23. Korrelation - Kontingenzkoeffizient (In SPSS: Analysieren, Deskript. Stat., Kreuztabellen, Statistik) Gibt es einen Zusammenhang von Berufswahl und Geschlecht? Geschlecht und Tätigkeit sind nominalskaliert → Analyse mit dem Kontingenzkoeffizienten 54,4 % 45,6 % 76,6 % 5,7 % 76,6 % 17,7 % 100 %

  24. Korrelation - Kontingenzkoeffizient Ist der Zusammenhang signifikant? (α=0,05) Hypothesen: H0: ρ = 0 HA: ρ > 0 Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,000 → H0 kann abgelehnt werden → signifikanter Zusammenhang

  25. Korrelation – Spearman Gibt es einen Zusammenhang von polit. Einstellung und Schulbildung?

  26. Korrelation – Spearman Ist der Zusammenhang signifikant? (α=0,05) Hypothesen: H0: ρ = 0 HA: ρ ≠ 0 Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,008 → H0 kann abgelehnt werden → signifikant negativer Zusammenhang

  27. Einkommen Korrelation – Bravais Pearson Korrelieren die Schuljahre mit dem Einkommen? → Schuljahre und Einkommen sind beide metrisch skaliert → Bravais Pearson Korrelationskoeffizient Ist der Zusammenhang signifikant? (α=0,05) Hypothesen: H0: ρ = 0 HA: ρ ≠ 0 Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,000 → H0 kann abgelehnt werden → signifikant positiver Zusammenhang

  28. 5. Regression Dependenzanalyse (Richtung des Zusammenhangs bekannt) Abhängige Variable: Metrisch (=erklärte Variable; =endogene Variable) Unabhängige Variablen: Metrisch (=erklärende Variable; =exogene Variable) Ordinale Variablen  Umwandlung in Dummyvariablen (0/1) !!! Nominale Variablen  Umwandlung in Dummyvariablen (0/1) !!!

  29. yabhängige Variable (Z.B. Konsum) x unabhängige Variable (Z.B. Einkommen) Regression: Methode der kleinsten Quadrate

  30. yabhängige Variable (Z.B. Konsum) ei2 ei x unabhängige Variable (Z.B. Einkommen) Regression: Methode der kleinsten Quadrate

  31. Regression: Interpretation Schätzung des Modells: yi = β0 + β1x1i + β2x2i + …+ βKxKi + εi β0 entspricht Ordinatenabschnitt im x-y-Diagramm β1 entspricht der Steigung der Geraden im x-y-Diagramm Interpretation des Ausdrucks: Gesamterklärungsgüte: R², F-Test Koeffizienten: b, t-Tests

  32. Nominal/Ordinalskalierte Merkmale in der Regression Umwandlung in Dummys: Beispiel Familienstand Es liegt das Merkmal „Familienstand“ mit folgenden Ausprägungen vor: 1 = verheiratet; 2 = ledig; 3 = geschieden Erstellung von 3 Dummyvariablen (je Ausprägung eine Dummyvariable) Bei der Regressionsanalyse muss ein Dummy als Referenzkategorie ausgelassen werden. Interpretation der Koeffizienten der verbleibenden Dummys nur in Bezug auf die Referenzkategorie!!

  33. Regression – Beispiel SPSS Output Wagei = β0 + β1*Alteri + β2*Manni + β3*Realschulei+ β4*Abituri+ β5*UniFHi+εi Mann Wagei = 6,499 + 0,109*Alteri + 2,725*Manni + 0,717*Realschulei + 2,477*Abituri + 4,063*UniFHi + εi

  34. Regression – Beispiel SPSS Output Bestimmtheitsmaß/R² Wie viel der Varianz in der abhängigen Variable kann durch die Varianz der unabhängigen Variablen erklärt werden? R2 = 0,210 21 Prozent der Varianz im Lohnsatz (Wage) der befragten Personen ist durch die Variablen Alter, Geschlecht und Schulabschluss erklärbar.

  35. Regression – Beispiel SPSS Output F-Test Ist das geschätzte Modell insgesamt signifikant? H0: β1= β2= β3=… βk = 0 (alle Koeffizienten β1 bis βk =0; gemeinsam nicht signifikant) HA: βk ≠ 0 (k=1,…, K) Testentscheidung: 0,05 = α > Sig. = 0,000 H0 kann abgelehnt werden  Modell insgesamt signifikant

  36. Ansichten in SPSS • SPSS öffnet mehrere Fenster zur Erledigung verschiedener Aufgaben: • Hauptfenster Variablenansicht  Datenansicht • Ausgabefenster • verschiedene Editorenfenster • Syntaxfenster für die Skriptsprache

  37. Hauptfenster  Variablenansicht (Var. definieren) • Variablentyp • Variablenlabel • Wertelabel • Messniveau

  38. Hauptfenster  Datenansicht

  39. Ausgabefenster

  40. Syntax Fenster

  41. 6. Logistische Regression • Bisher: lineare Regression • → abhängige Variable ist metrisch • Jetzt: Schätzung einer Gruppenzugehörigkeit • → abhängige Variable ist kategorial • Beispiele: • Produktkauf oder kein Produktkauf nach Marketingmaßnahme? • beschäftigt oder arbeitslos nach einer Ausbildung? • Person unterhalb der Armutsgrenze? • etc. • → binäre (dichotome oder zweiwertige) abhängige Variablen • → Binäre Logistische Regression

  42. Binäre logistische Regression 1 y abhängige Variable (Z.B. Produktkauf) 0 x unabhängige Variable (Z.B. Einkommen)

  43. Logistische Regression Geschätzt wird die Wahrscheinlichkeit, dass ein Ereignis eintritt: P(Y=1|x) Nicht linearer Zusammenhang Schätzung über Maximum Likelihood

  44. Binäre logistische Regression Beispiel: ehrenamtliche Aktivität Beobachtet wird, ob eine Person ehrenamtlich aktiv ist oder nicht. Abhängige Variable: Dummy_Ehrenamt (1=ja; 0=nein) Die Wahrscheinlichkeit, ob eine Person ehrenamtlich aktiv ist wird mit Hilfe der binären logistischen Regression geschätzt. Als erklärende Größen wurden ausgewählt: • Geschlecht • Alter • Erwerbstätigkeit • Berufsgruppe

  45. Binäre logistische Regression: Beispiel Ehrenamt Marginale Effekte im Logit/Probit: → Abhängig vom Niveau aller x-Ausprägungen Koeffizienteninterpretation: → marginaler Effekt ist abhängig vom Niveau aller x-Ausprägungen → nicht linearer Zusammenhang; nur Vorzeichen interpretierbar → positives Vorzeichen: mit steigendem x steigt die Wahrscheinlichkeit, dass Y=1

  46. Binäre logistische Regression: Beispiel Ehrenamt „Bestimmtheitsmaße“- Vergleich unterschiedlicher Modelle Omnibus Test: - wie F-Test in der linearen Regression; testet den Gesamtansatz auf Signifikanz Wie viele der Beobachtungen wurden vom Modell richtig zugeordnet?

  47. Übersicht Skalierung & Regressionsmodelle

  48. 7. Faktorenanalyse Ziel: Dimensionsreduktion einer gegebenen Anzahl von Variablen → Zusammenfassung vorhandener Variablen zu wenigen nicht-beobachtbaren (latenten), i.d.R. voneinander unabhängigen Faktoren. Faktor 1 Faktor 2 Faktor 3

  49. Beispiel: • Schulnoten in vier Fächern: Gibt es Faktoren wie „sprachliche Begabung“ oder „mathematische Begabung“? • Hier: Deutsch, Englisch, Physik und Mathematik • Schritt 1: Korrelationsmatrix

  50. Faktorenanalyse – Das Modell • Ansatz: zwei Variablen und ein Faktor f • z1k: Wert von Variable 1 (standardisiert: ) • fk: Wert des Faktors • a1: Faktorladung der ersten Variable • (= Maßzahl für den Zsh. zw. Faktor und Variable) • k: Beobachtung k • Generelle Schreibweise: P Variablen und M Faktoren Faktorwerte • Faktorladungen

More Related