420 likes | 975 Views
Das dichotome Rasch-Modell. Sabrina Rinder (0602848), Mira Seitzer (0606616), Dominik Herrmannsdörfer (0606619), Martin Schallert (0305866) Forschungspraktikum 2008, Prof. Gabriel. Testtheorien: Klassische vs. Probabilistischer Testtheorie. Psychologischer Test:
E N D
Das dichotome Rasch-Modell Sabrina Rinder (0602848), Mira Seitzer (0606616), Dominik Herrmannsdörfer (0606619), Martin Schallert (0305866) Forschungspraktikum 2008, Prof. Gabriel
Testtheorien: Klassische vs. Probabilistischer Testtheorie Psychologischer Test: Wissenschaftliches Routineverfahren zur Untersuchung einer oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung. Spezielles, psychologisches Experiment mit dem Ziel, vergleichende Aussagen über Personen abzuleiten.
Testtheorien Testtheorie: • Theorie darüber, wie das zu erfassende psychische Merkmal der Person ihr Verhalten im Test beeinflusst.
Testtheorien Testmodelle: Spezielle formale Modelle, die durch die Art der empirischen Daten, auf die sie sich anwenden lassen, definiert werden.
1) Klassische Testtheorie (KTT) Die Annahmen der klassischen Testtheorie beziehen sich auf vorliegende, fehlerbehaftete Messwerte von Personen ( Allg. Messfehlertheorie). Sie bestehen aus bestimmten Aussagen über den Messfehler dieser Messwerte. Die Existenz von Messwerten wird somit vorausgesetzt. Für die klassische Testtheorie lassen sich die Grundannahmen in fünf Axiome ausdrücken. Auf der Basis dieser Axiome sind drei Testgütekriterien definierbar, die die Qualität eines Tests angeben: Objektivität, Reliabilität und Validität
Axiome der KTT 1. Das Testergebnis setzt sich additiv aus dem „wahren Wert“ (True Score: T) und dem Messfehler (Error Score: E) zusammen: X = T + E 2. Bei wiederholten Testanwendungen kommt es zu einem Fehlerausgleich, d.h. der Mittelwert () des Messfehlers ist Null: (E) = 0 Der Mittelwert mehrerer unabhängiger Messungen an demselben Untersuchungsobjekt ist folglich messfehlerfrei und repräsentiert den wahren Wert: (X) = (T) + (E) = T + 0 = T.
Axiome der KTT 3. Die Höhe des Messfehlers ist unabhängig vom Ausprägungsgrad des getesteten Merkmals, d.h. wahrer Wert und Fehlerwert sind unkorreliert. 4. Die Höhe des Messfehlers ist unabhängig vom Ausprägungsgrad anderer Persönlichkeitsmerkmale (T’). 5. Der Messfehler verschiedener Testanwendungen sind voneinander unabhängig.
2) Probabilistische Testtheorie Item-response-theory (IRT) Die untersuchten Merkmale werden als latente Dimensionen betrachtet und die einzelnen Testitems als Indikatoren dieser latenten Dimensionen. Das heißt, manifeste Variablen sind Indikatoren einer (postulierten) latenten Dimension ξ (=Ausprägung od. Fähigkeit der Person).
Probabilistische Testtheorie Probabilistische Modelle gehen nicht vom Rohwert (Testwert X) aus, sondern setzten beim einzelnen Item an. Jede beobachtete Antwort (=Reaktion) einer Vpn ist von drei Komponenten abhängig: Eigenschaften der Person (z.B. Fähigkeit) Eigenschaften des Items (z.B. Schwierigkeit) Zufall (unkontrollierbare Einflüsse)
Probabilistische Testtheorie Beeinflusst die latente Variable nun die manifeste, so werden die Testitems miteinander korrelieren. Wenn eine latente Dimension existiert, dann könnte man diese latente Dimension (statistisch) konstant halten u. die Zusammenhänge zw. den manifesten Variablen müssten verschwinden.
3) Zusammenfassende Bewertung KTT: Messergebnis = (messfehlerbehaftete) Merkmalsausprägung; IRT: Testergebnisse = Indikatoren latenter Merkmale oder Verhaltensdispositionen; Tests, die auf einem probabilistischen Testmodell basieren, unterscheiden sich von „klassisch“ konstruierten Tests in der Regel dadurch, dass die Annahmen, die dem Test zugrunde liegen, auch geprüft werden.
Zusammenfassende Bewertung Die Entwicklung eines probabilistischen Tests ist aufwendiger. Die Überprüfung der klassischen Testgütekriterien Reliabilität und Validität ist bei probabilistischen Tests schwierig. 95% aller Testentwicklungen wurden „klassisch“ konstruiert
Wofür Rasch? • Das Rasch-Modell stellt ein Prüfverfahren für psychologische Tests dar. • Items, die nicht die gewünschte Fähigkeits-dimension messen können selektiert werden. • Rohscores eines Tests werde aussagekräftig und können für Weiterberechnungen und Vergleiche herangezogen werden. • Personenvergleiche werden möglich.
Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve Grundbegriffe im Rasch Modell
G. Raschs Forderungen nach: 1) Testunabhängigen Fähigkeitsmaßen 2) Stichprobenunabhängige Itemschwierigkeitsmaßen Spezifische Objektivität
Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve Grundbegriffe im Rasch Modell
Das Ergebnis darf nicht vom Messinstrument abhängen. Ist dies der Fall, so ist der Test als culture fair zu bezeichnen. Stichprobenunabhängigkeit
Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve Grundbegriffe im Rasch Modell
Egal in welcher Population getestet wird, messen die Items immer dieselbe Fähigkeit. => Rasch-homogen Beispiel: Ein Test über räumliche Vorstellungskraft könnte auch mit logischem Schlussfolgern gelöst werden. => Nicht Rasch-homogen Eindimensionalität
Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve Grundbegriffe im Rasch Modell
Person: 1 2 3 4 5 1 1 1 0 1 1 0 0 1 1 1 0 0 0 1 1 1 0 1 0 Itemrandsumme: 4 3 2 3 Erschöpfende Statistik als Grundlage Item: 1 Item: 2 Item: 3 Item: 4 Personen- Randsumme: 4 2 1 2 3
Vergleich zweier Personen in einem Mathematiktest: Item1: 47 + 23 = ? Item2: 2763 x 2748 = ? Wer ist begabter? P1 P2 Item 1 1 0 Item 2 0 1 score 1 1 Erschöpfende Statistik als Grundlage
=> Ist der Test nicht Rasch-homogen ist es nicht zulässig den Rohscore zu verwenden. Erschöpfende Statistik
Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve Grundbegriffe im Rasch Modell
a) Personenparameter b) Itemparameter - Schätzung per Maximum Likelihood 3 verschiedene Funktionen: - UML … uncontional ML - CML … conditional ML - MML … marginal ML - Berechnung nur mittels PC möglich Parameterschätzung
- Gibt die Wahrscheinlichkeit an, mit der Person v die Items i in einem Test lösen kann Relevant zur Berechnung: - Die Anzahl der Items, die von den Personen gelöst wurden - NICHT welche Items! a) Personenparameter
- Gibt die Wahrscheinlichkeit an, mit der das Item i von den Personen v die den Test machen gelöst wird Relevant zur Berechnung: - Anzahl der Personen, die dieses Item lösen - NICHT welche Personen! b) Itemparameter
Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve Grundbegriffe im Rasch Modell
Die Wahrscheinlichkeit, dass Person v Item i richtig löst hängt davon ab, wie schwer das Item i ist und wie fähig die Person v ist. Definition von Rasch: Personenparameter = Itemparameter => Lösungswahrscheinlichkeit 50% Logistische Funktion bei Rasch
Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung IC-Kurve Grundbegriffe im Rasch Modell
- Feststellung von Item-Bias - Computerisiertes Adaptives Testen (CAT) - Psychometrische Qualitätskontrollen Anwendung des Rasch Modells:
Raschmodell dient zum Herausfiltern unfairer Items durch den Vergleich der IC-Kurven. Relevant in Bildung oder Wirtschaft bei z.B. Aufnahme-, Eignungs- oder Intelligenztests Itembias
Testpersonen bekommen nur Items die auf ihr Fähigkeitsniveau abgestimmt sind CAT- Computerisiertes Adaptives Testen
Voraussetzung: Großer Itempool, der rasch-homogen ist und sich über das gesamte Kontinuum streut Vorteile: - schnelle und genauere Messung - keine unnötigen Items - auch präzise Messung in Extrembereichen - erhöhte Testsicherheit und Testfairness Nachteile: - Erhöhter Testkonstruktionsaufwand CAT- Computerisiertes Adaptives Testen
Vergleich und Überprüfung von bewährten Tests möglich. Beispiel: Messen 3DW und WMT dasselbe Konstrukt? Klassisches Konzept: Korrelation von 0.4 – 0.5 Modernes Konzept: Rasch-Modell -> unterschiedliche Fähigkeitsdimensionen (Raumvorstellung und Reasoning) Psychometrische Qualitätskontrolle
Test: Wortschatztest Stichprobe: Männliche und weibliche Schüler einer Oberstufe Hypothesen: H0: Testitems nicht Rasch-homogen H1: Testitems sind Rasch-homogen Forschungspraktikum: