Das dichotome Rasch-Modell

Das dichotome Rasch-Modell Sabrina Rinder (0602848), Mira Seitzer (0606616), Dominik Herrmannsdörfer (0606619), Martin Schallert (0305866) Forschungspraktikum 2008, Prof. Gabriel

Testtheorien: Klassische vs. Probabilistischer Testtheorie Psychologischer Test: Wissenschaftliches Routineverfahren zur Untersuchung einer oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung. Spezielles, psychologisches Experiment mit dem Ziel, vergleichende Aussagen über Personen abzuleiten.

Testtheorien Testtheorie: • Theorie darüber, wie das zu erfassende psychische Merkmal der Person ihr Verhalten im Test beeinflusst.

Testtheorien Testmodelle: Spezielle formale Modelle, die durch die Art der empirischen Daten, auf die sie sich anwenden lassen, definiert werden.

1) Klassische Testtheorie (KTT)‏ Die Annahmen der klassischen Testtheorie beziehen sich auf vorliegende, fehlerbehaftete Messwerte von Personen ( Allg. Messfehlertheorie). Sie bestehen aus bestimmten Aussagen über den Messfehler dieser Messwerte. Die Existenz von Messwerten wird somit vorausgesetzt. Für die klassische Testtheorie lassen sich die Grundannahmen in fünf Axiome ausdrücken. Auf der Basis dieser Axiome sind drei Testgütekriterien definierbar, die die Qualität eines Tests angeben: Objektivität, Reliabilität und Validität

Axiome der KTT 1. Das Testergebnis setzt sich additiv aus dem „wahren Wert“ (True Score: T) und dem Messfehler (Error Score: E) zusammen: X = T + E 2. Bei wiederholten Testanwendungen kommt es zu einem Fehlerausgleich, d.h. der Mittelwert () des Messfehlers ist Null: (E) = 0 Der Mittelwert mehrerer unabhängiger Messungen an demselben Untersuchungsobjekt ist folglich messfehlerfrei und repräsentiert den wahren Wert: (X) = (T) + (E) = T + 0 = T.

Axiome der KTT 3. Die Höhe des Messfehlers ist unabhängig vom Ausprägungsgrad des getesteten Merkmals, d.h. wahrer Wert und Fehlerwert sind unkorreliert. 4. Die Höhe des Messfehlers ist unabhängig vom Ausprägungsgrad anderer Persönlichkeitsmerkmale (T’). 5. Der Messfehler verschiedener Testanwendungen sind voneinander unabhängig.

2) Probabilistische Testtheorie Item-response-theory (IRT)‏ Die untersuchten Merkmale werden als latente Dimensionen betrachtet und die einzelnen Testitems als Indikatoren dieser latenten Dimensionen. Das heißt, manifeste Variablen sind Indikatoren einer (postulierten) latenten Dimension ξ (=Ausprägung od. Fähigkeit der Person).

Probabilistische Testtheorie Probabilistische Modelle gehen nicht vom Rohwert (Testwert X) aus, sondern setzten beim einzelnen Item an. Jede beobachtete Antwort (=Reaktion) einer Vpn ist von drei Komponenten abhängig: Eigenschaften der Person (z.B. Fähigkeit)‏ Eigenschaften des Items (z.B. Schwierigkeit)‏ Zufall (unkontrollierbare Einflüsse)‏

Probabilistische Testtheorie Beeinflusst die latente Variable nun die manifeste, so werden die Testitems miteinander korrelieren. Wenn eine latente Dimension existiert, dann könnte man diese latente Dimension (statistisch) konstant halten u. die Zusammenhänge zw. den manifesten Variablen müssten verschwinden.

3) Zusammenfassende Bewertung KTT: Messergebnis = (messfehlerbehaftete) Merkmalsausprägung; IRT: Testergebnisse = Indikatoren latenter Merkmale oder Verhaltensdispositionen; Tests, die auf einem probabilistischen Testmodell basieren, unterscheiden sich von „klassisch“ konstruierten Tests in der Regel dadurch, dass die Annahmen, die dem Test zugrunde liegen, auch geprüft werden.

Zusammenfassende Bewertung Die Entwicklung eines probabilistischen Tests ist aufwendiger. Die Überprüfung der klassischen Testgütekriterien Reliabilität und Validität ist bei probabilistischen Tests schwierig. 95% aller Testentwicklungen wurden „klassisch“ konstruiert

Wofür Rasch? • Das Rasch-Modell stellt ein Prüfverfahren für psychologische Tests dar. • Items, die nicht die gewünschte Fähigkeits-dimension messen können selektiert werden. • Rohscores eines Tests werde aussagekräftig und können für Weiterberechnungen und Vergleiche herangezogen werden. • Personenvergleiche werden möglich.

Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve Grundbegriffe im Rasch Modell

G. Raschs Forderungen nach: 1) Testunabhängigen Fähigkeitsmaßen 2) Stichprobenunabhängige Itemschwierigkeitsmaßen Spezifische Objektivität

Das Ergebnis darf nicht vom Messinstrument abhängen. Ist dies der Fall, so ist der Test als culture fair zu bezeichnen. Stichprobenunabhängigkeit

Egal in welcher Population getestet wird, messen die Items immer dieselbe Fähigkeit. => Rasch-homogen Beispiel: Ein Test über räumliche Vorstellungskraft könnte auch mit logischem Schlussfolgern gelöst werden. => Nicht Rasch-homogen Eindimensionalität

Person: 1 2 3 4 5 1 1 1 0 1 1 0 0 1 1 1 0 0 0 1 1 1 0 1 0 Itemrandsumme: 4 3 2 3 Erschöpfende Statistik als Grundlage Item: 1 Item: 2 Item: 3 Item: 4 Personen- Randsumme: 4 2 1 2 3

Vergleich zweier Personen in einem Mathematiktest: Item1: 47 + 23 = ? Item2: 2763 x 2748 = ? Wer ist begabter? P1 P2 Item 1 1 0 Item 2 0 1 score 1 1 Erschöpfende Statistik als Grundlage

=> Ist der Test nicht Rasch-homogen ist es nicht zulässig den Rohscore zu verwenden. Erschöpfende Statistik

a) Personenparameter b) Itemparameter - Schätzung per Maximum Likelihood 3 verschiedene Funktionen: - UML … uncontional ML - CML … conditional ML - MML … marginal ML - Berechnung nur mittels PC möglich Parameterschätzung

- Gibt die Wahrscheinlichkeit an, mit der Person v die Items i in einem Test lösen kann Relevant zur Berechnung: - Die Anzahl der Items, die von den Personen gelöst wurden - NICHT welche Items! a) Personenparameter

- Gibt die Wahrscheinlichkeit an, mit der das Item i von den Personen v die den Test machen gelöst wird Relevant zur Berechnung: - Anzahl der Personen, die dieses Item lösen - NICHT welche Personen! b) Itemparameter

Logistische Funktion bei Rasch

Die Wahrscheinlichkeit, dass Person v Item i richtig löst hängt davon ab, wie schwer das Item i ist und wie fähig die Person v ist. Definition von Rasch: Personenparameter = Itemparameter => Lösungswahrscheinlichkeit 50% Logistische Funktion bei Rasch

Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung IC-Kurve Grundbegriffe im Rasch Modell

IC-Kurven:

- Feststellung von Item-Bias - Computerisiertes Adaptives Testen (CAT)‏ - Psychometrische Qualitätskontrollen Anwendung des Rasch Modells:

Raschmodell dient zum Herausfiltern unfairer Items durch den Vergleich der IC-Kurven. Relevant in Bildung oder Wirtschaft bei z.B. Aufnahme-, Eignungs- oder Intelligenztests Itembias

Testpersonen bekommen nur Items die auf ihr Fähigkeitsniveau abgestimmt sind CAT- Computerisiertes Adaptives Testen

Voraussetzung: Großer Itempool, der rasch-homogen ist und sich über das gesamte Kontinuum streut Vorteile: - schnelle und genauere Messung - keine unnötigen Items - auch präzise Messung in Extrembereichen - erhöhte Testsicherheit und Testfairness Nachteile: - Erhöhter Testkonstruktionsaufwand CAT- Computerisiertes Adaptives Testen

Vergleich und Überprüfung von bewährten Tests möglich. Beispiel: Messen 3DW und WMT dasselbe Konstrukt? Klassisches Konzept: Korrelation von 0.4 – 0.5 Modernes Konzept: Rasch-Modell -> unterschiedliche Fähigkeitsdimensionen (Raumvorstellung und Reasoning)‏ Psychometrische Qualitätskontrolle

Test: Wortschatztest Stichprobe: Männliche und weibliche Schüler einer Oberstufe Hypothesen: H0: Testitems nicht Rasch-homogen H1: Testitems sind Rasch-homogen Forschungspraktikum:

Danke für die Aufmerksamkeit

Das dichotome Rasch-Modell

Das dichotome Rasch-Modell

Presentation Transcript

Das Modell B rgerkommune

Das Balance Modell

Das Elaboration – Likelihood - Modell

Das Entity-Relationship-Modell

Das AS-AD-Modell

Das Ohr und sein Modell

Das Tandem-Modell

„ Das Vier-Seiten-Modell“

Das garantierte Grundeinkommen – Das KAB-Modell

Das Allgemeine Lineare Modell (ALM)

Das Leverkusener Modell

Das Entity-Relationship-Modell

Das Relationen-Modell

Das Ohr und sein Modell

Das Bonner Modell

Das Herrmann Dominanz Modell Das Ganzhirn Konzept

Das Rotor-Router Modell

Das Havelberger Modell

Das Entity-Relationship-Modell

Modell für das TestDaF - Modul

Das Relationale Modell

Das OSI-Modell der ISO