1 / 42

Das dichotome Rasch-Modell

Das dichotome Rasch-Modell. Sabrina Rinder (0602848), Mira Seitzer (0606616), Dominik Herrmannsdörfer (0606619), Martin Schallert (0305866) Forschungspraktikum 2008, Prof. Gabriel. Testtheorien: Klassische vs. Probabilistischer Testtheorie. Psychologischer Test:

reid
Download Presentation

Das dichotome Rasch-Modell

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Das dichotome Rasch-Modell Sabrina Rinder (0602848), Mira Seitzer (0606616), Dominik Herrmannsdörfer (0606619), Martin Schallert (0305866) Forschungspraktikum 2008, Prof. Gabriel

  2. Testtheorien: Klassische vs. Probabilistischer Testtheorie Psychologischer Test: Wissenschaftliches Routineverfahren zur Untersuchung einer oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung. Spezielles, psychologisches Experiment mit dem Ziel, vergleichende Aussagen über Personen abzuleiten.

  3. Testtheorien Testtheorie: • Theorie darüber, wie das zu erfassende psychische Merkmal der Person ihr Verhalten im Test beeinflusst.

  4. Testtheorien Testmodelle: Spezielle formale Modelle, die durch die Art der empirischen Daten, auf die sie sich anwenden lassen, definiert werden.

  5. 1) Klassische Testtheorie (KTT)‏ Die Annahmen der klassischen Testtheorie beziehen sich auf vorliegende, fehlerbehaftete Messwerte von Personen ( Allg. Messfehlertheorie). Sie bestehen aus bestimmten Aussagen über den Messfehler dieser Messwerte. Die Existenz von Messwerten wird somit vorausgesetzt. Für die klassische Testtheorie lassen sich die Grundannahmen in fünf Axiome ausdrücken. Auf der Basis dieser Axiome sind drei Testgütekriterien definierbar, die die Qualität eines Tests angeben: Objektivität, Reliabilität und Validität

  6. Axiome der KTT 1. Das Testergebnis setzt sich additiv aus dem „wahren Wert“ (True Score: T) und dem Messfehler (Error Score: E) zusammen: X = T + E 2. Bei wiederholten Testanwendungen kommt es zu einem Fehlerausgleich, d.h. der Mittelwert () des Messfehlers ist Null: (E) = 0 Der Mittelwert mehrerer unabhängiger Messungen an demselben Untersuchungsobjekt ist folglich messfehlerfrei und repräsentiert den wahren Wert: (X) = (T) + (E) = T + 0 = T.

  7. Axiome der KTT 3. Die Höhe des Messfehlers ist unabhängig vom Ausprägungsgrad des getesteten Merkmals, d.h. wahrer Wert und Fehlerwert sind unkorreliert. 4. Die Höhe des Messfehlers ist unabhängig vom Ausprägungsgrad anderer Persönlichkeitsmerkmale (T’). 5. Der Messfehler verschiedener Testanwendungen sind voneinander unabhängig.

  8. 2) Probabilistische Testtheorie Item-response-theory (IRT)‏ Die untersuchten Merkmale werden als latente Dimensionen betrachtet und die einzelnen Testitems als Indikatoren dieser latenten Dimensionen. Das heißt, manifeste Variablen sind Indikatoren einer (postulierten) latenten Dimension ξ (=Ausprägung od. Fähigkeit der Person).

  9. Probabilistische Testtheorie Probabilistische Modelle gehen nicht vom Rohwert (Testwert X) aus, sondern setzten beim einzelnen Item an. Jede beobachtete Antwort (=Reaktion) einer Vpn ist von drei Komponenten abhängig: Eigenschaften der Person (z.B. Fähigkeit)‏ Eigenschaften des Items (z.B. Schwierigkeit)‏ Zufall (unkontrollierbare Einflüsse)‏

  10. Probabilistische Testtheorie Beeinflusst die latente Variable nun die manifeste, so werden die Testitems miteinander korrelieren. Wenn eine latente Dimension existiert, dann könnte man diese latente Dimension (statistisch) konstant halten u. die Zusammenhänge zw. den manifesten Variablen müssten verschwinden.

  11. 3) Zusammenfassende Bewertung KTT: Messergebnis = (messfehlerbehaftete) Merkmalsausprägung; IRT: Testergebnisse = Indikatoren latenter Merkmale oder Verhaltensdispositionen; Tests, die auf einem probabilistischen Testmodell basieren, unterscheiden sich von „klassisch“ konstruierten Tests in der Regel dadurch, dass die Annahmen, die dem Test zugrunde liegen, auch geprüft werden.

  12. Zusammenfassende Bewertung Die Entwicklung eines probabilistischen Tests ist aufwendiger. Die Überprüfung der klassischen Testgütekriterien Reliabilität und Validität ist bei probabilistischen Tests schwierig. 95% aller Testentwicklungen wurden „klassisch“ konstruiert

  13. Wofür Rasch? • Das Rasch-Modell stellt ein Prüfverfahren für psychologische Tests dar. • Items, die nicht die gewünschte Fähigkeits-dimension messen können selektiert werden. • Rohscores eines Tests werde aussagekräftig und können für Weiterberechnungen und Vergleiche herangezogen werden. • Personenvergleiche werden möglich.

  14. Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve Grundbegriffe im Rasch Modell

  15. G. Raschs Forderungen nach: 1) Testunabhängigen Fähigkeitsmaßen 2) Stichprobenunabhängige Itemschwierigkeitsmaßen Spezifische Objektivität

  16. Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve Grundbegriffe im Rasch Modell

  17. Das Ergebnis darf nicht vom Messinstrument abhängen. Ist dies der Fall, so ist der Test als culture fair zu bezeichnen. Stichprobenunabhängigkeit

  18. Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve Grundbegriffe im Rasch Modell

  19. Egal in welcher Population getestet wird, messen die Items immer dieselbe Fähigkeit. => Rasch-homogen Beispiel: Ein Test über räumliche Vorstellungskraft könnte auch mit logischem Schlussfolgern gelöst werden. => Nicht Rasch-homogen Eindimensionalität

  20. Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve Grundbegriffe im Rasch Modell

  21. Person: 1 2 3 4 5 1 1 1 0 1 1 0 0 1 1 1 0 0 0 1 1 1 0 1 0 Itemrandsumme: 4 3 2 3 Erschöpfende Statistik als Grundlage Item: 1 Item: 2 Item: 3 Item: 4 Personen- Randsumme: 4 2 1 2 3

  22. Vergleich zweier Personen in einem Mathematiktest: Item1: 47 + 23 = ? Item2: 2763 x 2748 = ? Wer ist begabter? P1 P2 Item 1 1 0 Item 2 0 1 score 1 1 Erschöpfende Statistik als Grundlage

  23. => Ist der Test nicht Rasch-homogen ist es nicht zulässig den Rohscore zu verwenden. Erschöpfende Statistik

  24. Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve Grundbegriffe im Rasch Modell

  25. a) Personenparameter b) Itemparameter - Schätzung per Maximum Likelihood 3 verschiedene Funktionen: - UML … uncontional ML - CML … conditional ML - MML … marginal ML - Berechnung nur mittels PC möglich Parameterschätzung

  26. - Gibt die Wahrscheinlichkeit an, mit der Person v die Items i in einem Test lösen kann Relevant zur Berechnung: - Die Anzahl der Items, die von den Personen gelöst wurden - NICHT welche Items! a) Personenparameter

  27. - Gibt die Wahrscheinlichkeit an, mit der das Item i von den Personen v die den Test machen gelöst wird Relevant zur Berechnung: - Anzahl der Personen, die dieses Item lösen - NICHT welche Personen! b) Itemparameter

  28. Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve Grundbegriffe im Rasch Modell

  29. Logistische Funktion bei Rasch

  30. Die Wahrscheinlichkeit, dass Person v Item i richtig löst hängt davon ab, wie schwer das Item i ist und wie fähig die Person v ist. Definition von Rasch: Personenparameter = Itemparameter => Lösungswahrscheinlichkeit 50% Logistische Funktion bei Rasch

  31. Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung IC-Kurve Grundbegriffe im Rasch Modell

  32. IC-Kurven:

  33. IC-Kurven:

  34. - Feststellung von Item-Bias - Computerisiertes Adaptives Testen (CAT)‏ - Psychometrische Qualitätskontrollen Anwendung des Rasch Modells:

  35. Raschmodell dient zum Herausfiltern unfairer Items durch den Vergleich der IC-Kurven. Relevant in Bildung oder Wirtschaft bei z.B. Aufnahme-, Eignungs- oder Intelligenztests Itembias

  36. Testpersonen bekommen nur Items die auf ihr Fähigkeitsniveau abgestimmt sind CAT- Computerisiertes Adaptives Testen

  37. Voraussetzung: Großer Itempool, der rasch-homogen ist und sich über das gesamte Kontinuum streut Vorteile: - schnelle und genauere Messung - keine unnötigen Items - auch präzise Messung in Extrembereichen - erhöhte Testsicherheit und Testfairness Nachteile: - Erhöhter Testkonstruktionsaufwand CAT- Computerisiertes Adaptives Testen

  38. Vergleich und Überprüfung von bewährten Tests möglich. Beispiel: Messen 3DW und WMT dasselbe Konstrukt? Klassisches Konzept: Korrelation von 0.4 – 0.5 Modernes Konzept: Rasch-Modell -> unterschiedliche Fähigkeitsdimensionen (Raumvorstellung und Reasoning)‏ Psychometrische Qualitätskontrolle

  39. Test: Wortschatztest Stichprobe: Männliche und weibliche Schüler einer Oberstufe Hypothesen: H0: Testitems nicht Rasch-homogen H1: Testitems sind Rasch-homogen Forschungspraktikum:

  40. Danke für die Aufmerksamkeit

More Related