1 / 35

Klassische Testtheorie

Einstellungsforschung mittels Umfragen: Reliabilität der in der Umfrageforschung üblicherweise eingesetzten Instrumente Siegfried Schumann. Klassische Testtheorie. Feststellung 1 : (für individuelle Messung). Die klassische Testtheorie ist im wesentlichen eine Messfehlertheorie.

erma
Download Presentation

Klassische Testtheorie

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Einstellungsforschung mittels Umfragen: Reliabilität der in der Umfrageforschung üblicherweise eingesetzten InstrumenteSiegfried Schumann

  2. Klassische Testtheorie

  3. Feststellung 1: (für individuelle Messung) • Die klassische Testtheorie ist im wesentlichen eine Messfehlertheorie. • Ihre Grundannahme besteht darin, den Messwert, den man bei der Testung einer Person erhält, grundsätzlich als fehlerbehaftet zu betrachten. • Jeder empirisch ermittelte Messwert setzt sich nach dieser Vorstellung additiv aus einem "wahren Wert" (true score) und einem Messfehlerzusammen. (vgl. Fischer, 1974: 26-28)

  4. Feststellung 2: (für Messung bei Populationen) Betrachten wir nun nicht wie bisher eine einzige Person, sondern eine Population P von Personen. Für diese Population lassen sich folgende Sätze ableiten: • 1. Der Erwartungswert des Messfehlers ist gleich null. (einfacher: Der durchschnittliche Messfehler in jeder beliebigen Population oder Teilpopulation P ist null). • 2. Die Korrelation zwischen den Fehlern und den wahren Werten eines Tests (über die Personen der Population) ist gleich null. • 3. Die Korrelation zwischen den Fehlern im Test Xi und den wahren Werten für einen anderen Test Xj (über die Personen der Population) ist gleich null. • 4. Die Korrelation zwischen den Messfehlern zweier Tests ist gleich null (vgl. Fischer, 1974: 29-32). LiRE Messwert = wahrer WertMesswert = wahrer Wert REX + Messfehler+ Messfehler

  5. Definition „Reliabilität“ nach klass. Testtheorie Reliabilität: Reliabilität: (X, X´: parallele Tests!) Schätzung für Reliabilität:

  6. Möglichkeiten der Reliabilitätsschätzung nach KTT • Grundidee:Parallele Tests • Abwandlung I:Test-Retest Methode • Voraussetezung: keine Veränderung im empirischen Relativ • Auch nicht durch Messung! • Abwandlung II:Interne Konsistenz • Bei Likert-Instrumenten • Ältere Literatur: Split half + Korrektur für Testverkürzung • Neuere Literatur: Cronbachs Alpha

  7. Reliabilität und zeitliche Stabilität einzelner Items

  8. Test-Retest innerhalb der Befragung 2003: (Δt = min) • Maximalschätzung für Reliabilität • Veränderung des Merkmals durch „Reifung“ praktisch ausgeschlossen • Nicht ausgeschlossen: Effekte der ersten Befragung (insbes. Konsistenzeffekte) • Empirisch ermittelte Korrelationen: • Zuzug von Ausländern erleichtern / einschränken .59 • US-Militäreinsatz im Irak gerechtfertigt / nicht gerechtfertigt .60 • Kernenergie weiter ausbauen / alle KKWs sofort abschalten .55 • Europ. Vereinigung vorantreiben / geht schon jetzt zu weit .56 • Vertrauen in die Gewerkschaften (0 = überhaupt nicht … 10 = voll und ganz) .61 • Sympathie für Angela Merkel (-5 = sehr unsympathisch … +5 = sehr symp.) .54 • Sympathie für Gerhard Schröder (-5 = sehr unsymp. … +5 = sehr symp) .57

  9. Interesse für Politik:1990 – 1991 – 1992 (Δ = 1 Jahr)

  10. Interesse für Politik:1994 – 1998 – 2002 (Δ = 4 Jahre)

  11. Bemerkungen: • Test-Retest Korrelation sinkt mit Intervalldauer! • Merkmal offenbar nicht völlig zeitlich stabil • Reliabilitätsschätzung mit möglichst kurzem Abstand! • Verteilung annähernd symmetrisch Beispiel für eine asymmetrische Verteilung

  12. Wahlnorm:1992 – 1993a – 1993b (Δ = unter 1 Jahr) 57 (pol. Int.)

  13. Wahlnorm:1994 – 1998 – 2002 (Δ = 4 Jahre)

  14. Bemerkungen: • Korrelationskoeffizienten niedriger als bei Interesse für Politik • Mögliche Ursachen: • Inhalt des Items • Form der Verteilung (hier: asymmetrisch) • erneut: Test-Retest Korrelation sinkt mit Intervalldauer! • Merkmal offenbar nicht völlig zeitlich stabil • Reliabilitätsschätzung mit möglichst kurzem Abstand! ↓ Verlängerung der Antwortskala

  15. LiRe-Selbsteinschätzung:1990 – 1991 – 1992 . 57 (pol. Int.)

  16. LiRe-Selbsteinschätzung:1994 – 1998 – 2002

  17. Bemerkungen: • erneut: Test-Retest Korrelation sinkt mit Intervalldauer! • Merkmal offenbar nicht völlig zeitlich stabil • Reliabilitätsschätzung mit möglichst kurzem Abstand! • Korrelationskoeffizienten höher als bisher (mehr Antwortalternativen!) • Zwischenfazit: • Merkmale offenbar nicht völlig zeitlich stabil • daher: Reliabilitätsschätzung mit möglichst kurzem Abstand! • Höhe der Korrelationskoeffizienten hängt offenbar ab von: • Größe der Antwortskala • Symmetrie der Merkmalsverteilung • Inhalt des Items

  18. Reliabilität und zeitliche Stabilität der REX-Skala

  19. REX: „bestes“ Item:1994 – 1998 – 2002

  20. REX: „schlechtestes“ Item:1994 – 1998 – 2002 1.8 3.5 1 2 3 4 5

  21. REX: Stabilität Gesamtskala1994 – 1998 – 2002

  22. Reliabilität, zeitliche Stabilität und Validität der ASKO-Skala: Ein Anwendungsbeispiel

  23. ASKO: Frageformulierung

  24. ASKO: Stabilität einzelner Items1990 – 1991 – 1992

  25. ASKO: Stabilität Gesamtskala1990 – 1991 – 1992

  26. REX:Stabilität Gesamtskala1994–1998–2002 (wdh.)

  27. ASKO: Reliabilitätsschätzung über int.Konsistenz

  28. ASKO: Validität I (diverse Studien)

  29. ASKO: Validität II (bundesweite Studie 2003)

  30. ASKO: Validität III (diverse Studien)

  31. Übersicht über die Ergebnisse

  32. Fazit • Reliabilität einzelner Items ist recht gering (max. um „.60“) • Sie ist offenbar abhängig … • vom Iteminhalt • von der Anzahl der Antwortvorgaben • von der Verteilung der Antworten • Reliabilität von Likert-Instrumenten liegt deutlich höher • Dies gilt auch bei dichotom formulierten Items • Unterschiedliche Schätzverfahren liefern unterschiedliche Ergebnisse! • Die zeitliche Stabilität von Items und von Likert-Instrumenten ist eher gering. • Trotz allem sind valide Ergebnisse zu erzielen.

  33. Exkurs: Wissensfragen (2003) Bedeutung der BTW-Zweitstimme: 49.6% Anzahl der Bundesländer: unbekannt: 27.5% falls bekannt: 16 41.7% (ca. 30 % von „allen“) falls bekannt: 14-18 62.1% Bekannt: Partei von … G. Schröder 98.9% J. Fischer 98.8% A. Merkel 94.6% G. Westerwelle 98.4% E. Stoiber 87.5% J. Trittin 82.8% G. Gysi 84.3% F. Schönhuber 0.8% (34.6%: REP) G. Frey 17.6%

  34. vielen Dank für Ihre Aufmerksamkeit!

  35. Zur Info Attenuation-Formel:

More Related