690 likes | 830 Views
Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann Tim Rathjen Forschungsinstitut Freie Berufe Leuphana Universität Lüneburg. Organisatorisches (I). Termine:. Literatur: - Skript - Backhaus, u.a.: „Multivariate Analysemethoden“.
E N D
Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann Tim Rathjen Forschungsinstitut Freie Berufe Leuphana Universität Lüneburg
Organisatorisches (I) Termine: Literatur: - Skript - Backhaus, u.a.: „Multivariate Analysemethoden“
Organisatorisches (II) • Prüfungsleistung Diplomstudiengänge: • 4 CP (Wahlpflichtfach EWF oder Freier Bereich) • Hausarbeit: - Aufgaben (ohne Zusatzaufgabe) • - 1-2 Personen • - Umfang: ca. 20 Seiten • - Download der Daten für Hausarbeit: • ab 1. Juli 2009: ffb.uni-lueneburg.de • - Abgabetermin: 15. September 2009 • Prüfungsleistung Komplementärstudium • 5 CP • Hausarbeit: - Aufgaben (mit Zusatzaufgabe) • - 1-2 Personen • - Umfang: ca. 25 Seiten • - Download der Daten für Hausarbeit: • ab 1. Juli 2009: ffb.uni-lueneburg.de • - Abgabetermin: 15. September 2009 • Alternativ: Teilnahmeschein (+ PCP)
Übersicht 1. Arten von Merkmalen 2. Deskriptive Statistik 3. Induktive Statistik 4. Korrelation 5. Regression → Kurzeinführung in SPSS 6. Logistische Regression 7. Faktorenanalyse 8. Clusteranalyse Tag 1 Tag 2
1. Arten von Merkmalen – Skalenniveaus Entscheidungsbaum Lassen sich die Merkmalsausprägungen in eine sinnvolle Reihenfolge bringen? nein ja Nominalskala (Z.B. Geschlecht) Sind die Abstände quantifizierbar? nein ja Ordinalskala (Z.B. Güteklassen) Metrische Skalen (Z.B. Einkommen)
2. Deskriptive Statistik Ziel: Verdichtung von Informationen Methoden: - Darstellung von Häufigkeiten (HK) → von einem Merkmal → von zwei Merkmalen - Lage- und Streuungsparameter
HK-Verteilung: Darstellung eines Merkmals • Absolute Häufigkeit ni einer Merkmalsausprägung • Relative Häufigkeit hi einer Merkmalsausprägung • Grafen: Balken- und Säulendiagramme, Kreisdiagramme, Histogramme, Boxplots, …
HK-Verteilung: Darstellung zweier Merkmale • Kreuztabellen • Grafen: Zweidimensionale Balkendiagramme, …
Lage- und Streuungsparameter Lageparameter: Geben die Position des Datenfeldes wieder. Streuungsparameter: Geben die ‚Form‘ des Datenfeldes (in Bezug auf einen Lageparameter) wieder.
Lageparameter: Position des Datenfeldes • Bsp.: - Arithmetisches Mittel • - Median • - Modus • - Quantile (Quartile/Dezile/Perzentile) • Streuungsparameter: ‚Form‘ des Datenfeldes • Bsp.: - Spannweite • - Varianz (mittlere quadratische Abweichung vom arithm. Mittel) • - Standardabweichung
3. Induktive Statistik Ziel: Schließen von Kennzahlen einer (zufällig gezogenen) Stichprobe auf unbekannte Parameter der Grundgesamtheit Methoden: 1. Punktschätzung 2. Intervallschätzung 3. Statistische Tests Beispiel: Wahlprognose (Stichprobe: n = 1000;Grundgesamtheit: N = 50 Mio.)
Intervall- und Punktschätzung • Beispiel: Wahlprognose • Stichprobe: n = 1000 • Grundgesamtheit: N = 50 Mio.
Statistische Tests • Theorie: Aufbau eines Tests in fünf Schritten • Formulierung der zu überprüfenden Hypothesen (H0 und HA) → überprüfbare Hypothese ist HA • → Gleichheitszeichen in H0 • 2. Festlegen der zulässigen Fehlerwahrscheinlichkeit des späteren Testergebnisses (α = 0,05; 0,01; …) • 3. Berechnung einer Prüfgröße (Teststatistik), die sich aus der Stichprobe ermitteln lässt • 4. Bestimmung eines kritischen Wertes, dessen Unter- oder Überschreiten zur Ablehnung der Nullhypothese führt • 5. Vergleich von Prüfgröße und kritischem Wert und Entscheidung
Beispiele für Hypothesen: • Erreicht Schwarz-Gelb die absolute Mehrheit? (Rechtsseitig) • H0: pSchwarz/Gelb ≤ 0,50 • HA: pSchwarz/Gelb > 0,50 • Fällt die SPD unter die 25%-Grenze? (Linksseitig) • H0: pSPD ≥ 0,25 • HA: pSPD < 0,25 • Ist die Differenz zwischen Grünen und Linken signifikant? (Zweiseitig) • H0: pGRÜNE = pLINKE • H0: pGRÜNE ≠ pLINKE
Hypothesen und Fehlerarten: → Fehler 1. Art (α) → Fehler 2. Art (β)
Testen mit SPSS – einfaches Beispiel (konstruiert): Beispiel: Ist die mittlere Temperatur im Januar von Null verschieden? 1. H0: μ=0 HA: μ≠0 (zweiseitiger Test) 2. Fehlerwahrscheinlichkeit α=0,05. D.h. uns soll der Fehler erster Art mit einer Wahrscheinlichkeit von höchstens 5% unterlaufen 3. Berechnung der Prüfgröße: , mit 4. Bestimmung des kritischen Wertes aus der (theoretischen) t- Verteilung 5. Vergleich der Prüfgröße mit dem kritischen Wert: H0 wird abgelehnt wenn:
σ α/2 α/2 tkrit μ0=0 H0 ablehnen H0 ablehnen H0 annehmen Testentscheidung H0: μ = 0 HA: μ ≠ 0
Anmerkungen zu Tests mit SPSS: • SPSS berechnet für Tests einen Sig.-Wert (= P-Value). Dieser gibt den exakten Fehler an, den man begeht, wenn man H0 ablehnen würde. → Ist Sig. kleiner als das vorgegebene Signifikanzniveau α, dann wird H0 abgelehnt. Häufig: • Sig. < 0,05: „ HA“ • Sig. > 0,05: „ H0“ • SPSS berechnet während einiger Testprozeduren auch Konfidenzintervalle. Über diese können dann auch Testentscheidungen getroffen werden.
Beispieloutput von SPSS: Einstichprobentest mit H0: μ = 0
Mögliche Tests mit SPSS: • Mit SPSS besteht die Möglichkeit, aus einer großen Anzahl von Tests auszuwählen. Beispiele: • 1. Einstichprobentest • - Test auf den Erwartungswert μ • - Test auf einen Anteilswert p • - (...) • 2. Zweistichprobentests – Test auf Differenz ... • - zweier Erwartungswerte μ • - zweier Anteilswerte p • - (...) • weitere Tests • - Tests bei Regressionsanalyse (F-Test, t-Test, …) • - Verteilungs- und Unabhängigkeitstests (Chi²-Tests, …) • - (...)
4. Korrelation Liegt ein Zusammenhang von zwei Merkmalen vor? Interdependenzanalyse (keine kausale Richtung der Abhängigkeit) Arten: Kontingenzkoef. Mindestens ein Merkmal nominal skaliert Normierung: 0 ≤ KK ≤ 1 (Stärke) Spearman Beide Merkmale mindestens ordinal skaliert Normierung: -1 (Absolut gegenläufig) 0 (Kein Zusammenhang) +1 (Absolut gleichläufig) (Stärke und Richtung) Pearson Beide Merkmale metrisch skaliert Normier. und Interpr. wie bei Spearman
Korrelation - Kontingenzkoeffizient (In SPSS: Analysieren, Deskript. Stat., Kreuztabellen, Statistik) Gibt es einen Zusammenhang von Berufswahl und Geschlecht? Geschlecht und Tätigkeit sind nominalskaliert → Analyse mit dem Kontingenzkoeffizienten 54,4 % 45,6 % 76,6 % 5,7 % 76,6 % 17,7 % 100 %
Korrelation - Kontingenzkoeffizient Ist der Zusammenhang signifikant? (α=0,05) Hypothesen: H0: ρ = 0 HA: ρ > 0 Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,000 → H0 kann abgelehnt werden → signifikanter Zusammenhang
Korrelation – Spearman Gibt es einen Zusammenhang von polit. Einstellung und Schulbildung?
Korrelation – Spearman Ist der Zusammenhang signifikant? (α=0,05) Hypothesen: H0: ρ = 0 HA: ρ ≠ 0 Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,008 → H0 kann abgelehnt werden → signifikant negativer Zusammenhang
Einkommen Korrelation – Bravais Pearson Korrelieren die Schuljahre mit dem Einkommen? → Schuljahre und Einkommen sind beide metrisch skaliert → Bravais Pearson Korrelationskoeffizient Ist der Zusammenhang signifikant? (α=0,05) Hypothesen: H0: ρ = 0 HA: ρ ≠ 0 Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,000 → H0 kann abgelehnt werden → signifikant positiver Zusammenhang
5. Regression Dependenzanalyse (Richtung des Zusammenhangs bekannt) Abhängige Variable: Metrisch (=erklärte Variable; =endogene Variable) Unabhängige Variablen: Metrisch (=erklärende Variable; =exogene Variable) Ordinale Variablen Umwandlung in Dummyvariablen (0/1) !!! Nominale Variablen Umwandlung in Dummyvariablen (0/1) !!!
yabhängige Variable (Z.B. Konsum) x unabhängige Variable (Z.B. Einkommen) Regression: Methode der kleinsten Quadrate
yabhängige Variable (Z.B. Konsum) ei2 ei x unabhängige Variable (Z.B. Einkommen) Regression: Methode der kleinsten Quadrate
Regression: Interpretation Schätzung des Modells: yi = β0 + β1x1i + β2x2i + …+ βKxKi + εi β0 entspricht Ordinatenabschnitt im x-y-Diagramm β1 entspricht der Steigung der Geraden im x-y-Diagramm Interpretation des Ausdrucks: Gesamterklärungsgüte: R², F-Test Koeffizienten: b, t-Tests
Nominal/Ordinalskalierte Merkmale in der Regression Umwandlung in Dummys: Beispiel Familienstand Es liegt das Merkmal „Familienstand“ mit folgenden Ausprägungen vor: 1 = verheiratet; 2 = ledig; 3 = geschieden Erstellung von 3 Dummyvariablen (je Ausprägung eine Dummyvariable) Bei der Regressionsanalyse muss ein Dummy als Referenzkategorie ausgelassen werden. Interpretation der Koeffizienten der verbleibenden Dummys nur in Bezug auf die Referenzkategorie!!
Regression – Beispiel SPSS Output Wagei = β0 + β1*Alteri + β2*Manni + β3*Realschulei+ β4*Abituri+ β5*UniFHi+εi Mann Wagei = 6,499 + 0,109*Alteri + 2,725*Manni + 0,717*Realschulei + 2,477*Abituri + 4,063*UniFHi + εi
Regression – Beispiel SPSS Output Bestimmtheitsmaß/R² Wie viel der Varianz in der abhängigen Variable kann durch die Varianz der unabhängigen Variablen erklärt werden? R2 = 0,210 21 Prozent der Varianz im Lohnsatz (Wage) der befragten Personen ist durch die Variablen Alter, Geschlecht und Schulabschluss erklärbar.
Regression – Beispiel SPSS Output F-Test Ist das geschätzte Modell insgesamt signifikant? H0: β1= β2= β3=… βk = 0 (alle Koeffizienten β1 bis βk =0; gemeinsam nicht signifikant) HA: βk ≠ 0 (k=1,…, K) Testentscheidung: 0,05 = α > Sig. = 0,000 H0 kann abgelehnt werden Modell insgesamt signifikant
Ansichten in SPSS • SPSS öffnet mehrere Fenster zur Erledigung verschiedener Aufgaben: • Hauptfenster Variablenansicht Datenansicht • Ausgabefenster • verschiedene Editorenfenster • Syntaxfenster für die Skriptsprache
Hauptfenster Variablenansicht (Var. definieren) • Variablentyp • Variablenlabel • Wertelabel • Messniveau
6. Logistische Regression • Bisher: lineare Regression • → abhängige Variable ist metrisch • Jetzt: Schätzung einer Gruppenzugehörigkeit • → abhängige Variable ist kategorial • Beispiele: • Produktkauf oder kein Produktkauf nach Marketingmaßnahme? • beschäftigt oder arbeitslos nach einer Ausbildung? • Person unterhalb der Armutsgrenze? • etc. • → binäre (dichotome oder zweiwertige) abhängige Variablen • → Binäre Logistische Regression
Binäre logistische Regression 1 y abhängige Variable (Z.B. Produktkauf) 0 x unabhängige Variable (Z.B. Einkommen)
Logistische Regression Geschätzt wird die Wahrscheinlichkeit, dass ein Ereignis eintritt: P(Y=1|x) Nicht linearer Zusammenhang Schätzung über Maximum Likelihood
Binäre logistische Regression Beispiel: ehrenamtliche Aktivität Beobachtet wird, ob eine Person ehrenamtlich aktiv ist oder nicht. Abhängige Variable: Dummy_Ehrenamt (1=ja; 0=nein) Die Wahrscheinlichkeit, ob eine Person ehrenamtlich aktiv ist wird mit Hilfe der binären logistischen Regression geschätzt. Als erklärende Größen wurden ausgewählt: • Geschlecht • Alter • Erwerbstätigkeit • Berufsgruppe
Binäre logistische Regression: Beispiel Ehrenamt Marginale Effekte im Logit/Probit: → Abhängig vom Niveau aller x-Ausprägungen Koeffizienteninterpretation: → marginaler Effekt ist abhängig vom Niveau aller x-Ausprägungen → nicht linearer Zusammenhang; nur Vorzeichen interpretierbar → positives Vorzeichen: mit steigendem x steigt die Wahrscheinlichkeit, dass Y=1
Binäre logistische Regression: Beispiel Ehrenamt „Bestimmtheitsmaße“- Vergleich unterschiedlicher Modelle Omnibus Test: - wie F-Test in der linearen Regression; testet den Gesamtansatz auf Signifikanz Wie viele der Beobachtungen wurden vom Modell richtig zugeordnet?
7. Faktorenanalyse Ziel: Dimensionsreduktion einer gegebenen Anzahl von Variablen → Zusammenfassung vorhandener Variablen zu wenigen nicht-beobachtbaren (latenten), i.d.R. voneinander unabhängigen Faktoren. Faktor 1 Faktor 2 Faktor 3
Beispiel: • Schulnoten in vier Fächern: Gibt es Faktoren wie „sprachliche Begabung“ oder „mathematische Begabung“? • Hier: Deutsch, Englisch, Physik und Mathematik • Schritt 1: Korrelationsmatrix
Faktorenanalyse – Das Modell • Ansatz: zwei Variablen und ein Faktor f • z1k: Wert von Variable 1 (standardisiert: ) • fk: Wert des Faktors • a1: Faktorladung der ersten Variable • (= Maßzahl für den Zsh. zw. Faktor und Variable) • k: Beobachtung k • Generelle Schreibweise: P Variablen und M Faktoren Faktorwerte • Faktorladungen