1 / 37

Testtheoretische Grundlagen Gütekriterien

Testtheoretische Grundlagen Gütekriterien. Seminar: testen und entscheiden Dozentin: dr. s. andree Referentin: lisa scheidler. Übersicht. Einführung Testtheorien Psychologische Tests Die klassische Testtheorie Gütekriterien Hauptgütekriterien Objektivität Reliabilität Validität

beau
Download Presentation

Testtheoretische Grundlagen Gütekriterien

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Testtheoretische GrundlagenGütekriterien Seminar: testen und entscheiden Dozentin: dr. s. andree Referentin: lisascheidler

  2. Übersicht • Einführung • Testtheorien • Psychologische Tests • Die klassische Testtheorie • Gütekriterien • Hauptgütekriterien • Objektivität • Reliabilität • Validität • Nebengütekriterien

  3. Einführung • Klassische Testtheorie • „Messwerte beinhalten den wahren Wert + den Messfehler“ • Befasst sich mit unterschiedlichen Bestandteilen von Messwerten • Grundlage für ca. 95 % der psychologischen Testdiagnostik (Stand 1999) • Probabilistische Testtheorie • „Wie hängt das Testverhalten einer oder mehrerer Personen von einem zu erfassenden psychischen Merkmal ab?“

  4. Einführung • Theorien sollen erklären, beschreiben und vorhersagen • Probabilistische Testtheorie: Das zugrundeliegende Testmodell erklärt systematische Zusammenhänge zwischen den Reaktionen des Probanden und spezifischen Testaufgaben mithilfe von latenten Personenvariablen. • Latente vs. manifeste/ beobachtbare Variablen ?

  5. Latente vs. Manifeste Variablen • Latente Variablen • verborgen, nicht sichtbar • können auch Dimensionen oder Konstrukte sein(z.B. IQ, Extraversion…) • nicht direkt beobachtbar, mit Hilfe beobachtbarer/manifester Variablen , bzw. Items messbar • Manifeste Variablen • Items sind die beobachtbaren Indikatoren von latenten Variablen • Items finden sich als Aufgaben/Fragen in Tests • systematische Zusammenhänge zwischen Itemantworten ( ergeben letztlich latente Variablen)

  6. Klassische vs. Probabilistische Testtheorie KTT Probabilistische TT (IRT) • Testergebnis entspricht direkt dem Ausprägungsgrad des gemessenen Merkmals. Problemstellung: • Ermitteln des Wertes für Messfehler, um auf den wahren Wert schließen zu können. • Annahme von Zusammenhang zw. Merkmalsausprägung & Testergebnis kann unterschiedlich sein (WSK- Aussagen) Problemstellung: Testebene (Items, manifeste V.) liefert Indikator (meist Funktionen) für Veränderungen auf Merkmalsebene (latente V.)

  7. Einführung • Was erfassen psychologische Tests? • Fähigkeiten • Persönlichkeitsmerkmale • Psychische Eigenschaften • Psychologische Konstrukte (latente Variablen) • „Tests“: • …auch: Fragebögen, standard. Interviews/ Beobachtungen,… • …sind Verfahren, die nicht durch die getestete Person verfälscht werden können

  8. Einführung • Gibt es den „unverfälschten“ Test? • Wodurch werden Tests verfälscht? • z.B.: • Soziale Erwünschtheit • Motivation • Testangst • Wahrgenommener Zeitdrück • Aufmerksamkeit/Tagesform • Unterschungsdauer • Vorkenntnisse, z.B. über Test • Absichtliche Verfälschungen • …

  9. Klassische Testtheorie (KTT) • Axiome: • 1. Jedes beobachtbare Testergebnis einer Person p im Test t setzt sich additiv zusammen aus dem „wahren Wert“ und einem Fehlerwert. • 2. Der (bei häufiger Messung) erwartete Mittelwert des Fehlers ist 0. • 3. Die Größe des Messfehlers ist unabhängig vom wahren Ausprägungsgrad des getesteten Merkmals. • 4. Die Messfehler verschiedener Testanwendungen sind voneinander unabhängig.

  10. Klassische Testtheorie (KTT) • Ziel der KTT: zeitstabile Merkmale möglichst unverzerrt Erfassen • Zu testende Person ist zufällig einer Population entnommen • Testergebnis variiert zufällig (unsystematische Einflüsse, wie Müdigkeit, werden durch Messfehler heraus gerechnet) • Personen erhalten zu unterschiedlichen Zeitpunkten unterschiedliche Werte • Hypothetische Verteilung entsteht aus unendlich vielen Testungen Annäherung an wahren Mittelwert und Normalverteilung

  11. Klassische Testtheorie (KTT) • Wahrer Wert (T) • Per Definition der Mittelwert einer hypothetischen Verteilung ( Ergebnis einer perfekten, fiktiven Messung ohne Verzerrungen etc.) • Nicht beobachtbar, zeitlich stabil • Beobachteter Messwert (X) • Tatsächlich gemessener Wert, Ergebnis einer Datenerhebung • Verknüpfungsaxiom: X= T+E • Beobachteter Messwert= wahrer Wert T + Messfehler E

  12. Klassische Testtheorie (KTT) • Messfehler (E) • Alle unkontrollierbaren und unsystematischen Einflüsse, die den beobachteten Wert vom wahren Wert abweichen lassen. • E= X – T • Messfehler ergibt sich aus der Differenz von beobachtetem Messwert X und wahrem Wert T einer Person

  13. Klassische Testtheorie (KTT) • Kritik • Grundannahmen sind Axiome, empirisch nicht überprüfbar • Konzept des individuell konstanten wahren Wertes ist nur für bestimmte Merkmale haltbar • KTT verlangt Werte, die metrischen Skalen zugrunde liegen (keine Ränge etc.) • Berücksichtigt nur Gesamtpopulation, keine Unterpopulationen • KTT hat sich in der praktischen Anwendung bewährt

  14. Gütekriterien Hauptgütekriterien • Objektivität • Durchführung • Auswertung • Interpretation • Reliabilität • Retest-Reliabilität • Paralleltestreliabilität • Innere Konsistenz • Validität • Inhaltsvalidität • Konstruktvalidität • Kriteriumsvalidität

  15. Objektivität • Grundvoraussetzung wissenschaftlicher Messungen /Erhebungen • Die Messung ist unabhängig von bewussten oder unbewussten Einflüssen • Des Testleiters • Der Ergebnispräsentation

  16. Reliabilität Zuverlässigkeit: Grad der Genauigkeit, mit der ein Test ein bestimmtes Merkmal misst Unabhängig davon, ob er dieses Merkmal beabsichtigt zu messen Wird überprüft durch die Reproduzierbarkeit von Messergebnissen Arten von Wiederholungsmessungen: Paralleltest, Test-Retest, Testhalbierung (split-half) Man kann immer wieder den selben Fehler machen. Die Ergebnisse sind dann zwar reliabel, aber nicht gültig (valide). !

  17. Validität • Misst der Test wirklich, was er wirklich messen soll? • Gültigkeit des Tests entscheidet, ob eine Generalisierbarkeit der Testergebnisse auf Verhalten außerhalb der Testsituation getätigt werden kann! • Gültigkeit von Testergebnissen in der wahren Welt kann nur mit ausreichend Validität erreicht werden.

  18. Gruppenarbeit Hauptgütekriterien • Objektivität • Durchführung • Auswertung • Interpretation • Reliabilität • Retest-Reliabilität • Paralleltestreliabilität • Innere Konsistenz Aufgaben: Kann Validität ohne Reliabilität entstehen? 2. Wie kann man dem Gütekriterium in der Praxis gerecht werden (Objektivität, Reliabilität oder Validität) ?Welche Probleme können auftreten? Beispiele? Ca. 10 Min Zeit • Validität • Inhaltsvalidität • Konstruktvalidität • Kriteriumsvalidität

  19. Gütekriterien Kann Validität ohne Reliabilität entstehen? Objektivität = notwendig, aber nicht hinreichend für Reliabilität = notwendig, aber nicht hinreichend für Validität

  20. Objektivität Durchführungsobjektivität • Unabhängigkeit der Messung vom Versuchsleiter, Interviewer, usw. während der Durchführung • Wie kann dies realisiert werden? • Max. Standardisierung der Testsituation: schriftliche Anweisungen, standardisierte Frage- und Antwortmöglichkeiten • Min. soziale Interaktion: Verbot eigener Formulierungen durch Interviewer, keine abweichenden Inhalte • „blinder Versuchsleiter“ –nicht in Zielsetzung eingeweiht • Merkmale des Versuchsleiters haben ebenfalls Einfluss: z.B. Attraktivität, Seriosität, Stimmlage, Dialekt, etc. (Brosius et al., 2012)

  21. Objektivität Auswertungsobjektivität • Unabhängigkeit vom Testauswerter bei der Auswertung des Tests • egal welcher Auswerter den Test bearbeitet hat, der Proband erhält immer 102 Punkte im IQ- Test • Wie kann dies realisiert werden? • Eindeutige Operationalisierung • Standardisierte Messverfahren und einheitliche Skalen (z.B. durch Multiple-Choice) • Standardisierte Kategorien und Regeln bei der Auswertung offener Antwortmöglichkeiten • Statistische Überprüfung der Übereinstimmung mehrerer Beurteiler möglich durch bestimmte Kennzahlen (z.B. „W“)

  22. Objektivität Interpretationsobjektivität • Unabhängigkeit vom Testanwender bei der Interpretation der Ergebnisse • Wie kann dies realisiert werden? • Bewertung von Testergebnissen erfolgt anhand vorher festgelegten oder analytisch ermittelten Regeln / Kategorien • Proband mit 131 Punkten im IQ- Test wird laut Konvention als „Hochbegabt“ eingestuft ( IQ>130) • Einheitliche Festlegung, welche Testwerte welche Schlüsse nach sich ziehen • Arbeit mit Testmanual zentral • Angabe einer Normentabelle aus einer Eichstichprobe • Zur Einschätzung der Aussagekraft des Testergebnisses

  23. Reliabilität Retest- Reliabilität • Die selbe Stichprobe absolviert den selben Test mit z.B. 8 Wochen Abstand • Korrelation der Messwerte zu Zeitpunkt 1 und 2 • Reliabilität gegeben, wenn sich das zu messende Merkmal nicht verändert hat • Probleme: • Übungseffekte • Erinnerungseffekte • Zeitliche Stabilität der Merkmale • Zeitökonomie

  24. Reliabilität Paralleltestreliabilität • Korrellation zwischen beobachteten Messerwerten zweier paralleler Tests • Items sind dabei nicht identisch, besitzen aber die gleichen Mittelwerte, Streuungen und Differenzen (Itemanalyse nötig) • Problem: eine sehr große Auswahl an Items wird benötigt um mittels Analyse geeignete Paare zu finden; dabei können Lerneffekte nicht ausgeschlossen werden

  25. Reliabilität Innere Konsistenz • Generalisierte Testhalbierungsmethode • Jedes Item eines Tests wird als eigener Teil betrachtet • Alle Teile werden korreliert- je stärker die Korrelation, desto größer die Innere Konsistenz • Cronbachs α gibt an, wie genau die Items eines Tests ein Konstrukt messen • Konventionen: > 0,9 exzellent > 0,8 gut > 0,7 akzeptabel >0,6 fragwürdig > 0,5 schlecht

  26. Validität Inhaltsvalidität • Vpn repräsentiert das zu erfassende Merkmal tatsächlich inhaltlich • z.B. gutes Ergebnis in Rechtschreibtest- tatsächlich gute Rechtschreibleistung • Überprüfung z.B. durch Experten • Testitems stellen eine inhaltlich repräsentative Stichprobe bezüglich des zu erfassenden Merkmals dar • Schwierig, da: keine numerischen Maße/ Kennwerte zur Beurteilung einer repräsentativen Menge

  27. Validität Konstruktvalidität • Durch quantifizierbare Methoden wird überprüft, ob der Test das misst, was er messen soll • z.B. durch Faktorenanalyse: Überprüfung der Passung von Items zu vorher festgelegten Faktoren (entsprechen psychologischen Konstrukten o.ä.) • Struktursuchende Konstruktvalidität • Konvergente Validität: Vergleich eines Tests mit einem ähnlichen, aber etablierten Test • Diskriminante Validität: Test ist abgrenzbar von anderen – Konzentrationstest soll nur Konzentration und nicht zusätzlich Intelligenz messen

  28. Validität Kriteriumsvalidität • Testergebnisse sagen erfolgreich das Verhalten außerhalb der Testsituation voraus • z.B. Schuleignungstest sagt tatsächlich spätere Schulleistung vorher • ermittelt durch Korrelation zwischen Testvariable und Kriteriumsvariable • Arten von Kriteriumsvalidität: • Vorhersagevalidität • Retrospektive Validität: Korrelation mit zurückliegenden Kriterien • Inkrementelle Validität: Beitrag eines Tests zur Vorhersage eines Kriteriums

  29. Gütekriterien • Bsp. : BET- „Büroklammern-Entwirr-Test zur Messung der Intelligenz“ (Diekmann,2007) • 100 Büroklammern miteinander verknüpft; • in 5 Minuten entwirren. • Score = Anzahl der entwirrten Klammern • Eine Person ist umso intelligenter , je größer ihr BET • Gütekriterien • Objektiv • Reliabel • Valide ?

  30. Gütekriterien • Nebengütekriterien • Skalierung • Normierung • Testökonomie • Zumutbarkeit • Unverfälschbarkeit • Fairness

  31. Nebengütekriterien • Skalierung • Die empirischen Merkmalsrelationen werden adäquat abgebildet mittels der erhobenen Testdaten. • Skalenniveau ist entscheidend • z.B. lassen nur metrische Skalen Aussagen über Differenzen & Verhältnisse zu

  32. Nebengütekriterien • Normierung • Bezugssystem, um die Ergebnisse einer Person zu den Merkmalsausprägungen anderer Personen einzuordnen und zu interpretieren • Vergleichswerte entstehen durch Eichstichprobe, bzw. Normtabellen • Eichstichprobe muss repräsentativ für die interessierende Personengruppe sein • Prozentrangnormen • Standardnormen

  33. Nebengütekriterien • Testökonomie – Wirtschaftlichkeit des Tests • Erkenntnisgewinn und beanspruchte Ressourcen (z.B. Zeit, Geld,…) eines Tests müssen in einem guten Verhältnis stehen • Finanzieller Aufwand • Testmaterial, Software, Arbeitszeit,.. • Zeitlicher Aufwand • Vorbereitung, Durchführung, Auswertung, Rückmeldung,… • Konflikt mit anderen Gütekriterien: neuartige, valide Tests mit hohem Erkenntnisgewinn rechtfertigen höhere Kosten

  34. Nebengütekriterien • Zumutbarkeit • Der Proband darf zeitlich, körperlich und psychisch nicht übermäßig belastet werden (im Verhältnis zum Erkenntnisgewinn gesehen). • Betrifft ausschließlich Testpersonen • Nutzen des Tests und damit die Zumutbarkeit teilweise schwer einzuschätzen

  35. Nebengütekriterien • Unverfälschbarkeit • Das Verfahren sollte so konstruiert sein, dass der Proband seine Testergebnisse nicht durch gezielte Reaktionen/ Antworten beeinflussen kann. • Problematisch bei Persönlichkeitsfragebögen, wo das Prinzip schnell durchschaut werden kann (z.B. aufgrund von sozialer Erwünschtheit) • Bei Leistungstests meist gegeben

  36. Nebengütekriterien • Fairness • Testergebnisse führen zu keiner Benachteiligung von Personen aufgrund ihrer Zugehörigkeit zu ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen • z.B. Culture- fair- Tests: Personen müssen über keine hohen sprachlichen oder anderen kulturabhängigen Fähigkeiten verfügen um den Test zu verstehen/ zu lösen.

  37. Literatur Bühner, M. (2006). Einführung in die Test- und Fragebogenkonstruktion. München: Pearson Studium. Diekmann, A. (2007). Empirische Sozialforschung. Grundlagen, Methoden, Anwendungen. Hamburg: Rowohlt-Taschenbuch-Verlag. Fisseni, H.J. (1990). Lehrbuch der psychologischen Diagnostik. Göttingen: Hogrefe- Verlag. Moosbrugger, H., Kelava, A. (2007) Testtheorie und Fragebogenkonstruktion. Berlin: Springer. Internet: http://www.uni-bielefeld.de/stud/fpsycho/downloads/Skripte/markus2000.pdf(Zugriff:01.05.2014)

More Related