Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm

Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann Tim Rathjen Forschungsinstitut Freie Berufe Leuphana Universität Lüneburg

Organisatorisches (I) Termine: Literatur: - Skript - Backhaus, u.a.: „Multivariate Analysemethoden“

Organisatorisches (II) • Prüfungsleistung Diplomstudiengänge: • 4 CP (Wahlpflichtfach EWF oder Freier Bereich) • Hausarbeit: - Aufgaben (ohne Zusatzaufgabe) • - 1-2 Personen • - Umfang: ca. 20 Seiten • - Download der Daten für Hausarbeit: • ab 1. Juli 2009: ffb.uni-lueneburg.de • - Abgabetermin: 15. September 2009 • Prüfungsleistung Komplementärstudium • 5 CP • Hausarbeit: - Aufgaben (mit Zusatzaufgabe) • - 1-2 Personen • - Umfang: ca. 25 Seiten • - Download der Daten für Hausarbeit: • ab 1. Juli 2009: ffb.uni-lueneburg.de • - Abgabetermin: 15. September 2009 • Alternativ: Teilnahmeschein (+ PCP)

Übersicht 1. Arten von Merkmalen 2. Deskriptive Statistik 3. Induktive Statistik 4. Korrelation 5. Regression → Kurzeinführung in SPSS 6. Logistische Regression 7. Faktorenanalyse 8. Clusteranalyse Tag 1 Tag 2

1. Arten von Merkmalen – Skalenniveaus

1. Arten von Merkmalen – Skalenniveaus Entscheidungsbaum Lassen sich die Merkmalsausprägungen in eine sinnvolle Reihenfolge bringen? nein ja Nominalskala (Z.B. Geschlecht) Sind die Abstände quantifizierbar? nein ja Ordinalskala (Z.B. Güteklassen) Metrische Skalen (Z.B. Einkommen)

2. Deskriptive Statistik Ziel: Verdichtung von Informationen Methoden: - Darstellung von Häufigkeiten (HK) → von einem Merkmal → von zwei Merkmalen - Lage- und Streuungsparameter

HK-Verteilung: Darstellung eines Merkmals • Absolute Häufigkeit ni einer Merkmalsausprägung • Relative Häufigkeit hi einer Merkmalsausprägung • Grafen: Balken- und Säulendiagramme, Kreisdiagramme, Histogramme, Boxplots, …

HK-Verteilung: Darstellung zweier Merkmale • Kreuztabellen • Grafen: Zweidimensionale Balkendiagramme, …

Lage- und Streuungsparameter Lageparameter: Geben die Position des Datenfeldes wieder. Streuungsparameter: Geben die ‚Form‘ des Datenfeldes (in Bezug auf einen Lageparameter) wieder.

Lageparameter: Position des Datenfeldes • Bsp.: - Arithmetisches Mittel • - Median • - Modus • - Quantile (Quartile/Dezile/Perzentile) • Streuungsparameter: ‚Form‘ des Datenfeldes • Bsp.: - Spannweite • - Varianz (mittlere quadratische Abweichung vom arithm. Mittel) • - Standardabweichung

3. Induktive Statistik Ziel: Schließen von Kennzahlen einer (zufällig gezogenen) Stichprobe auf unbekannte Parameter der Grundgesamtheit Methoden: 1. Punktschätzung 2. Intervallschätzung 3. Statistische Tests Beispiel: Wahlprognose (Stichprobe: n = 1000;Grundgesamtheit: N = 50 Mio.)

Intervall- und Punktschätzung • Beispiel: Wahlprognose • Stichprobe: n = 1000 • Grundgesamtheit: N = 50 Mio.

Statistische Tests • Theorie: Aufbau eines Tests in fünf Schritten • Formulierung der zu überprüfenden Hypothesen (H0 und HA) → überprüfbare Hypothese ist HA • → Gleichheitszeichen in H0 • 2. Festlegen der zulässigen Fehlerwahrscheinlichkeit des späteren Testergebnisses (α = 0,05; 0,01; …) • 3. Berechnung einer Prüfgröße (Teststatistik), die sich aus der Stichprobe ermitteln lässt • 4. Bestimmung eines kritischen Wertes, dessen Unter- oder Überschreiten zur Ablehnung der Nullhypothese führt • 5. Vergleich von Prüfgröße und kritischem Wert und Entscheidung

Beispiele für Hypothesen: • Erreicht Schwarz-Gelb die absolute Mehrheit? (Rechtsseitig) • H0: pSchwarz/Gelb ≤ 0,50 • HA: pSchwarz/Gelb > 0,50 • Fällt die SPD unter die 25%-Grenze? (Linksseitig) • H0: pSPD ≥ 0,25 • HA: pSPD < 0,25 • Ist die Differenz zwischen Grünen und Linken signifikant? (Zweiseitig) • H0: pGRÜNE = pLINKE • H0: pGRÜNE ≠ pLINKE

Hypothesen und Fehlerarten: → Fehler 1. Art (α) → Fehler 2. Art (β)

Testen mit SPSS – einfaches Beispiel (konstruiert): Beispiel: Ist die mittlere Temperatur im Januar von Null verschieden? 1. H0: μ=0 HA: μ≠0 (zweiseitiger Test) 2. Fehlerwahrscheinlichkeit α=0,05. D.h. uns soll der Fehler erster Art mit einer Wahrscheinlichkeit von höchstens 5% unterlaufen 3. Berechnung der Prüfgröße: , mit 4. Bestimmung des kritischen Wertes aus der (theoretischen) t- Verteilung 5. Vergleich der Prüfgröße mit dem kritischen Wert: H0 wird abgelehnt wenn:

σ α/2 α/2 tkrit μ0=0 H0 ablehnen H0 ablehnen H0 annehmen Testentscheidung H0: μ = 0 HA: μ ≠ 0

Anmerkungen zu Tests mit SPSS: • SPSS berechnet für Tests einen Sig.-Wert (= P-Value). Dieser gibt den exakten Fehler an, den man begeht, wenn man H0 ablehnen würde. → Ist Sig. kleiner als das vorgegebene Signifikanzniveau α, dann wird H0 abgelehnt. Häufig: • Sig. < 0,05: „ HA“ • Sig. > 0,05: „ H0“ • SPSS berechnet während einiger Testprozeduren auch Konfidenzintervalle. Über diese können dann auch Testentscheidungen getroffen werden.

Beispieloutput von SPSS: Einstichprobentest mit H0: μ = 0

Mögliche Tests mit SPSS: • Mit SPSS besteht die Möglichkeit, aus einer großen Anzahl von Tests auszuwählen. Beispiele: • 1. Einstichprobentest • - Test auf den Erwartungswert μ • - Test auf einen Anteilswert p • - (...) • 2. Zweistichprobentests – Test auf Differenz ... • - zweier Erwartungswerte μ • - zweier Anteilswerte p • - (...) • weitere Tests • - Tests bei Regressionsanalyse (F-Test, t-Test, …) • - Verteilungs- und Unabhängigkeitstests (Chi²-Tests, …) • - (...)

4. Korrelation Liegt ein Zusammenhang von zwei Merkmalen vor? Interdependenzanalyse (keine kausale Richtung der Abhängigkeit) Arten: Kontingenzkoef.  Mindestens ein Merkmal nominal skaliert Normierung: 0 ≤ KK ≤ 1 (Stärke) Spearman Beide Merkmale mindestens ordinal skaliert Normierung: -1 (Absolut gegenläufig) 0 (Kein Zusammenhang) +1 (Absolut gleichläufig) (Stärke und Richtung) Pearson  Beide Merkmale metrisch skaliert Normier. und Interpr. wie bei Spearman

Korrelation - Kontingenzkoeffizient (In SPSS: Analysieren, Deskript. Stat., Kreuztabellen, Statistik) Gibt es einen Zusammenhang von Berufswahl und Geschlecht? Geschlecht und Tätigkeit sind nominalskaliert → Analyse mit dem Kontingenzkoeffizienten 54,4 % 45,6 % 76,6 % 5,7 % 76,6 % 17,7 % 100 %

Korrelation - Kontingenzkoeffizient Ist der Zusammenhang signifikant? (α=0,05) Hypothesen: H0: ρ = 0 HA: ρ > 0 Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,000 → H0 kann abgelehnt werden → signifikanter Zusammenhang

Korrelation – Spearman Gibt es einen Zusammenhang von polit. Einstellung und Schulbildung?

Korrelation – Spearman Ist der Zusammenhang signifikant? (α=0,05) Hypothesen: H0: ρ = 0 HA: ρ ≠ 0 Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,008 → H0 kann abgelehnt werden → signifikant negativer Zusammenhang

Einkommen Korrelation – Bravais Pearson Korrelieren die Schuljahre mit dem Einkommen? → Schuljahre und Einkommen sind beide metrisch skaliert → Bravais Pearson Korrelationskoeffizient Ist der Zusammenhang signifikant? (α=0,05) Hypothesen: H0: ρ = 0 HA: ρ ≠ 0 Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,000 → H0 kann abgelehnt werden → signifikant positiver Zusammenhang

5. Regression Dependenzanalyse (Richtung des Zusammenhangs bekannt) Abhängige Variable: Metrisch (=erklärte Variable; =endogene Variable) Unabhängige Variablen: Metrisch (=erklärende Variable; =exogene Variable) Ordinale Variablen  Umwandlung in Dummyvariablen (0/1) !!! Nominale Variablen  Umwandlung in Dummyvariablen (0/1) !!!

yabhängige Variable (Z.B. Konsum) x unabhängige Variable (Z.B. Einkommen) Regression: Methode der kleinsten Quadrate

yabhängige Variable (Z.B. Konsum) ei2 ei x unabhängige Variable (Z.B. Einkommen) Regression: Methode der kleinsten Quadrate

Regression: Interpretation Schätzung des Modells: yi = β0 + β1x1i + β2x2i + …+ βKxKi + εi β0 entspricht Ordinatenabschnitt im x-y-Diagramm β1 entspricht der Steigung der Geraden im x-y-Diagramm Interpretation des Ausdrucks: Gesamterklärungsgüte: R², F-Test Koeffizienten: b, t-Tests

Nominal/Ordinalskalierte Merkmale in der Regression Umwandlung in Dummys: Beispiel Familienstand Es liegt das Merkmal „Familienstand“ mit folgenden Ausprägungen vor: 1 = verheiratet; 2 = ledig; 3 = geschieden Erstellung von 3 Dummyvariablen (je Ausprägung eine Dummyvariable) Bei der Regressionsanalyse muss ein Dummy als Referenzkategorie ausgelassen werden. Interpretation der Koeffizienten der verbleibenden Dummys nur in Bezug auf die Referenzkategorie!!

Regression – Beispiel SPSS Output Wagei = β0 + β1*Alteri + β2*Manni + β3*Realschulei+ β4*Abituri+ β5*UniFHi+εi Mann Wagei = 6,499 + 0,109*Alteri + 2,725*Manni + 0,717*Realschulei + 2,477*Abituri + 4,063*UniFHi + εi

Regression – Beispiel SPSS Output Bestimmtheitsmaß/R² Wie viel der Varianz in der abhängigen Variable kann durch die Varianz der unabhängigen Variablen erklärt werden? R2 = 0,210 21 Prozent der Varianz im Lohnsatz (Wage) der befragten Personen ist durch die Variablen Alter, Geschlecht und Schulabschluss erklärbar.

Regression – Beispiel SPSS Output F-Test Ist das geschätzte Modell insgesamt signifikant? H0: β1= β2= β3=… βk = 0 (alle Koeffizienten β1 bis βk =0; gemeinsam nicht signifikant) HA: βk ≠ 0 (k=1,…, K) Testentscheidung: 0,05 = α > Sig. = 0,000 H0 kann abgelehnt werden  Modell insgesamt signifikant

Ansichten in SPSS • SPSS öffnet mehrere Fenster zur Erledigung verschiedener Aufgaben: • Hauptfenster Variablenansicht  Datenansicht • Ausgabefenster • verschiedene Editorenfenster • Syntaxfenster für die Skriptsprache

Hauptfenster  Variablenansicht (Var. definieren) • Variablentyp • Variablenlabel • Wertelabel • Messniveau

Hauptfenster  Datenansicht

Ausgabefenster

Syntax Fenster

6. Logistische Regression • Bisher: lineare Regression • → abhängige Variable ist metrisch • Jetzt: Schätzung einer Gruppenzugehörigkeit • → abhängige Variable ist kategorial • Beispiele: • Produktkauf oder kein Produktkauf nach Marketingmaßnahme? • beschäftigt oder arbeitslos nach einer Ausbildung? • Person unterhalb der Armutsgrenze? • etc. • → binäre (dichotome oder zweiwertige) abhängige Variablen • → Binäre Logistische Regression

Binäre logistische Regression 1 y abhängige Variable (Z.B. Produktkauf) 0 x unabhängige Variable (Z.B. Einkommen)

Logistische Regression Geschätzt wird die Wahrscheinlichkeit, dass ein Ereignis eintritt: P(Y=1|x) Nicht linearer Zusammenhang Schätzung über Maximum Likelihood

Binäre logistische Regression Beispiel: ehrenamtliche Aktivität Beobachtet wird, ob eine Person ehrenamtlich aktiv ist oder nicht. Abhängige Variable: Dummy_Ehrenamt (1=ja; 0=nein) Die Wahrscheinlichkeit, ob eine Person ehrenamtlich aktiv ist wird mit Hilfe der binären logistischen Regression geschätzt. Als erklärende Größen wurden ausgewählt: • Geschlecht • Alter • Erwerbstätigkeit • Berufsgruppe

Binäre logistische Regression: Beispiel Ehrenamt Marginale Effekte im Logit/Probit: → Abhängig vom Niveau aller x-Ausprägungen Koeffizienteninterpretation: → marginaler Effekt ist abhängig vom Niveau aller x-Ausprägungen → nicht linearer Zusammenhang; nur Vorzeichen interpretierbar → positives Vorzeichen: mit steigendem x steigt die Wahrscheinlichkeit, dass Y=1

Binäre logistische Regression: Beispiel Ehrenamt „Bestimmtheitsmaße“- Vergleich unterschiedlicher Modelle Omnibus Test: - wie F-Test in der linearen Regression; testet den Gesamtansatz auf Signifikanz Wie viele der Beobachtungen wurden vom Modell richtig zugeordnet?

Übersicht Skalierung & Regressionsmodelle

7. Faktorenanalyse Ziel: Dimensionsreduktion einer gegebenen Anzahl von Variablen → Zusammenfassung vorhandener Variablen zu wenigen nicht-beobachtbaren (latenten), i.d.R. voneinander unabhängigen Faktoren. Faktor 1 Faktor 2 Faktor 3

Beispiel: • Schulnoten in vier Fächern: Gibt es Faktoren wie „sprachliche Begabung“ oder „mathematische Begabung“? • Hier: Deutsch, Englisch, Physik und Mathematik • Schritt 1: Korrelationsmatrix

Faktorenanalyse – Das Modell • Ansatz: zwei Variablen und ein Faktor f • z1k: Wert von Variable 1 (standardisiert: ) • fk: Wert des Faktors • a1: Faktorladung der ersten Variable • (= Maßzahl für den Zsh. zw. Faktor und Variable) • k: Beobachtung k • Generelle Schreibweise: P Variablen und M Faktoren Faktorwerte • Faktorladungen

Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm

Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm

Presentation Transcript

Introduction to SPSS

Algorithm Engineering Sommersemester 2010 Universität Bremen

Volkswirtschaftliche Gesamtrechnung

Statistik II 1. Lektion

Using SPSS: Introduction

Introduction to SPSS

Akademi Merkonomer Statistik Aften 1

What is SPSS

SPSS Basics I

实验三：

JSB 018

STATISTIK PERIKANAN

SoSe 06, Statistik mit SPSS 29-06-06

The Enron Bankruptcy and the Baa-Aaa Spread

Program permanentnog usavrÅ¡avanja

SPSS

SPSS Overview

SPSS Slide

Statistik på Geocaching

Introduction to SPSS

Sub Direktorat Statistik Keuangan, mencakup :

SPSS 的使用練習