610 likes | 1.32k Views
Testtheoretische Grundlagen Gütekriterien. Seminar: testen und entscheiden Dozentin: dr. s. andree Referentin: lisa scheidler. Übersicht. Einführung Testtheorien Psychologische Tests Die klassische Testtheorie Gütekriterien Hauptgütekriterien Objektivität Reliabilität Validität
E N D
Testtheoretische GrundlagenGütekriterien Seminar: testen und entscheiden Dozentin: dr. s. andree Referentin: lisascheidler
Übersicht • Einführung • Testtheorien • Psychologische Tests • Die klassische Testtheorie • Gütekriterien • Hauptgütekriterien • Objektivität • Reliabilität • Validität • Nebengütekriterien
Einführung • Klassische Testtheorie • „Messwerte beinhalten den wahren Wert + den Messfehler“ • Befasst sich mit unterschiedlichen Bestandteilen von Messwerten • Grundlage für ca. 95 % der psychologischen Testdiagnostik (Stand 1999) • Probabilistische Testtheorie • „Wie hängt das Testverhalten einer oder mehrerer Personen von einem zu erfassenden psychischen Merkmal ab?“
Einführung • Theorien sollen erklären, beschreiben und vorhersagen • Probabilistische Testtheorie: Das zugrundeliegende Testmodell erklärt systematische Zusammenhänge zwischen den Reaktionen des Probanden und spezifischen Testaufgaben mithilfe von latenten Personenvariablen. • Latente vs. manifeste/ beobachtbare Variablen ?
Latente vs. Manifeste Variablen • Latente Variablen • verborgen, nicht sichtbar • können auch Dimensionen oder Konstrukte sein(z.B. IQ, Extraversion…) • nicht direkt beobachtbar, mit Hilfe beobachtbarer/manifester Variablen , bzw. Items messbar • Manifeste Variablen • Items sind die beobachtbaren Indikatoren von latenten Variablen • Items finden sich als Aufgaben/Fragen in Tests • systematische Zusammenhänge zwischen Itemantworten ( ergeben letztlich latente Variablen)
Klassische vs. Probabilistische Testtheorie KTT Probabilistische TT (IRT) • Testergebnis entspricht direkt dem Ausprägungsgrad des gemessenen Merkmals. Problemstellung: • Ermitteln des Wertes für Messfehler, um auf den wahren Wert schließen zu können. • Annahme von Zusammenhang zw. Merkmalsausprägung & Testergebnis kann unterschiedlich sein (WSK- Aussagen) Problemstellung: Testebene (Items, manifeste V.) liefert Indikator (meist Funktionen) für Veränderungen auf Merkmalsebene (latente V.)
Einführung • Was erfassen psychologische Tests? • Fähigkeiten • Persönlichkeitsmerkmale • Psychische Eigenschaften • Psychologische Konstrukte (latente Variablen) • „Tests“: • …auch: Fragebögen, standard. Interviews/ Beobachtungen,… • …sind Verfahren, die nicht durch die getestete Person verfälscht werden können
Einführung • Gibt es den „unverfälschten“ Test? • Wodurch werden Tests verfälscht? • z.B.: • Soziale Erwünschtheit • Motivation • Testangst • Wahrgenommener Zeitdrück • Aufmerksamkeit/Tagesform • Unterschungsdauer • Vorkenntnisse, z.B. über Test • Absichtliche Verfälschungen • …
Klassische Testtheorie (KTT) • Axiome: • 1. Jedes beobachtbare Testergebnis einer Person p im Test t setzt sich additiv zusammen aus dem „wahren Wert“ und einem Fehlerwert. • 2. Der (bei häufiger Messung) erwartete Mittelwert des Fehlers ist 0. • 3. Die Größe des Messfehlers ist unabhängig vom wahren Ausprägungsgrad des getesteten Merkmals. • 4. Die Messfehler verschiedener Testanwendungen sind voneinander unabhängig.
Klassische Testtheorie (KTT) • Ziel der KTT: zeitstabile Merkmale möglichst unverzerrt Erfassen • Zu testende Person ist zufällig einer Population entnommen • Testergebnis variiert zufällig (unsystematische Einflüsse, wie Müdigkeit, werden durch Messfehler heraus gerechnet) • Personen erhalten zu unterschiedlichen Zeitpunkten unterschiedliche Werte • Hypothetische Verteilung entsteht aus unendlich vielen Testungen Annäherung an wahren Mittelwert und Normalverteilung
Klassische Testtheorie (KTT) • Wahrer Wert (T) • Per Definition der Mittelwert einer hypothetischen Verteilung ( Ergebnis einer perfekten, fiktiven Messung ohne Verzerrungen etc.) • Nicht beobachtbar, zeitlich stabil • Beobachteter Messwert (X) • Tatsächlich gemessener Wert, Ergebnis einer Datenerhebung • Verknüpfungsaxiom: X= T+E • Beobachteter Messwert= wahrer Wert T + Messfehler E
Klassische Testtheorie (KTT) • Messfehler (E) • Alle unkontrollierbaren und unsystematischen Einflüsse, die den beobachteten Wert vom wahren Wert abweichen lassen. • E= X – T • Messfehler ergibt sich aus der Differenz von beobachtetem Messwert X und wahrem Wert T einer Person
Klassische Testtheorie (KTT) • Kritik • Grundannahmen sind Axiome, empirisch nicht überprüfbar • Konzept des individuell konstanten wahren Wertes ist nur für bestimmte Merkmale haltbar • KTT verlangt Werte, die metrischen Skalen zugrunde liegen (keine Ränge etc.) • Berücksichtigt nur Gesamtpopulation, keine Unterpopulationen • KTT hat sich in der praktischen Anwendung bewährt
Gütekriterien Hauptgütekriterien • Objektivität • Durchführung • Auswertung • Interpretation • Reliabilität • Retest-Reliabilität • Paralleltestreliabilität • Innere Konsistenz • Validität • Inhaltsvalidität • Konstruktvalidität • Kriteriumsvalidität
Objektivität • Grundvoraussetzung wissenschaftlicher Messungen /Erhebungen • Die Messung ist unabhängig von bewussten oder unbewussten Einflüssen • Des Testleiters • Der Ergebnispräsentation
Reliabilität Zuverlässigkeit: Grad der Genauigkeit, mit der ein Test ein bestimmtes Merkmal misst Unabhängig davon, ob er dieses Merkmal beabsichtigt zu messen Wird überprüft durch die Reproduzierbarkeit von Messergebnissen Arten von Wiederholungsmessungen: Paralleltest, Test-Retest, Testhalbierung (split-half) Man kann immer wieder den selben Fehler machen. Die Ergebnisse sind dann zwar reliabel, aber nicht gültig (valide). !
Validität • Misst der Test wirklich, was er wirklich messen soll? • Gültigkeit des Tests entscheidet, ob eine Generalisierbarkeit der Testergebnisse auf Verhalten außerhalb der Testsituation getätigt werden kann! • Gültigkeit von Testergebnissen in der wahren Welt kann nur mit ausreichend Validität erreicht werden.
Gruppenarbeit Hauptgütekriterien • Objektivität • Durchführung • Auswertung • Interpretation • Reliabilität • Retest-Reliabilität • Paralleltestreliabilität • Innere Konsistenz Aufgaben: Kann Validität ohne Reliabilität entstehen? 2. Wie kann man dem Gütekriterium in der Praxis gerecht werden (Objektivität, Reliabilität oder Validität) ?Welche Probleme können auftreten? Beispiele? Ca. 10 Min Zeit • Validität • Inhaltsvalidität • Konstruktvalidität • Kriteriumsvalidität
Gütekriterien Kann Validität ohne Reliabilität entstehen? Objektivität = notwendig, aber nicht hinreichend für Reliabilität = notwendig, aber nicht hinreichend für Validität
Objektivität Durchführungsobjektivität • Unabhängigkeit der Messung vom Versuchsleiter, Interviewer, usw. während der Durchführung • Wie kann dies realisiert werden? • Max. Standardisierung der Testsituation: schriftliche Anweisungen, standardisierte Frage- und Antwortmöglichkeiten • Min. soziale Interaktion: Verbot eigener Formulierungen durch Interviewer, keine abweichenden Inhalte • „blinder Versuchsleiter“ –nicht in Zielsetzung eingeweiht • Merkmale des Versuchsleiters haben ebenfalls Einfluss: z.B. Attraktivität, Seriosität, Stimmlage, Dialekt, etc. (Brosius et al., 2012)
Objektivität Auswertungsobjektivität • Unabhängigkeit vom Testauswerter bei der Auswertung des Tests • egal welcher Auswerter den Test bearbeitet hat, der Proband erhält immer 102 Punkte im IQ- Test • Wie kann dies realisiert werden? • Eindeutige Operationalisierung • Standardisierte Messverfahren und einheitliche Skalen (z.B. durch Multiple-Choice) • Standardisierte Kategorien und Regeln bei der Auswertung offener Antwortmöglichkeiten • Statistische Überprüfung der Übereinstimmung mehrerer Beurteiler möglich durch bestimmte Kennzahlen (z.B. „W“)
Objektivität Interpretationsobjektivität • Unabhängigkeit vom Testanwender bei der Interpretation der Ergebnisse • Wie kann dies realisiert werden? • Bewertung von Testergebnissen erfolgt anhand vorher festgelegten oder analytisch ermittelten Regeln / Kategorien • Proband mit 131 Punkten im IQ- Test wird laut Konvention als „Hochbegabt“ eingestuft ( IQ>130) • Einheitliche Festlegung, welche Testwerte welche Schlüsse nach sich ziehen • Arbeit mit Testmanual zentral • Angabe einer Normentabelle aus einer Eichstichprobe • Zur Einschätzung der Aussagekraft des Testergebnisses
Reliabilität Retest- Reliabilität • Die selbe Stichprobe absolviert den selben Test mit z.B. 8 Wochen Abstand • Korrelation der Messwerte zu Zeitpunkt 1 und 2 • Reliabilität gegeben, wenn sich das zu messende Merkmal nicht verändert hat • Probleme: • Übungseffekte • Erinnerungseffekte • Zeitliche Stabilität der Merkmale • Zeitökonomie
Reliabilität Paralleltestreliabilität • Korrellation zwischen beobachteten Messerwerten zweier paralleler Tests • Items sind dabei nicht identisch, besitzen aber die gleichen Mittelwerte, Streuungen und Differenzen (Itemanalyse nötig) • Problem: eine sehr große Auswahl an Items wird benötigt um mittels Analyse geeignete Paare zu finden; dabei können Lerneffekte nicht ausgeschlossen werden
Reliabilität Innere Konsistenz • Generalisierte Testhalbierungsmethode • Jedes Item eines Tests wird als eigener Teil betrachtet • Alle Teile werden korreliert- je stärker die Korrelation, desto größer die Innere Konsistenz • Cronbachs α gibt an, wie genau die Items eines Tests ein Konstrukt messen • Konventionen: > 0,9 exzellent > 0,8 gut > 0,7 akzeptabel >0,6 fragwürdig > 0,5 schlecht
Validität Inhaltsvalidität • Vpn repräsentiert das zu erfassende Merkmal tatsächlich inhaltlich • z.B. gutes Ergebnis in Rechtschreibtest- tatsächlich gute Rechtschreibleistung • Überprüfung z.B. durch Experten • Testitems stellen eine inhaltlich repräsentative Stichprobe bezüglich des zu erfassenden Merkmals dar • Schwierig, da: keine numerischen Maße/ Kennwerte zur Beurteilung einer repräsentativen Menge
Validität Konstruktvalidität • Durch quantifizierbare Methoden wird überprüft, ob der Test das misst, was er messen soll • z.B. durch Faktorenanalyse: Überprüfung der Passung von Items zu vorher festgelegten Faktoren (entsprechen psychologischen Konstrukten o.ä.) • Struktursuchende Konstruktvalidität • Konvergente Validität: Vergleich eines Tests mit einem ähnlichen, aber etablierten Test • Diskriminante Validität: Test ist abgrenzbar von anderen – Konzentrationstest soll nur Konzentration und nicht zusätzlich Intelligenz messen
Validität Kriteriumsvalidität • Testergebnisse sagen erfolgreich das Verhalten außerhalb der Testsituation voraus • z.B. Schuleignungstest sagt tatsächlich spätere Schulleistung vorher • ermittelt durch Korrelation zwischen Testvariable und Kriteriumsvariable • Arten von Kriteriumsvalidität: • Vorhersagevalidität • Retrospektive Validität: Korrelation mit zurückliegenden Kriterien • Inkrementelle Validität: Beitrag eines Tests zur Vorhersage eines Kriteriums
Gütekriterien • Bsp. : BET- „Büroklammern-Entwirr-Test zur Messung der Intelligenz“ (Diekmann,2007) • 100 Büroklammern miteinander verknüpft; • in 5 Minuten entwirren. • Score = Anzahl der entwirrten Klammern • Eine Person ist umso intelligenter , je größer ihr BET • Gütekriterien • Objektiv • Reliabel • Valide ?
Gütekriterien • Nebengütekriterien • Skalierung • Normierung • Testökonomie • Zumutbarkeit • Unverfälschbarkeit • Fairness
Nebengütekriterien • Skalierung • Die empirischen Merkmalsrelationen werden adäquat abgebildet mittels der erhobenen Testdaten. • Skalenniveau ist entscheidend • z.B. lassen nur metrische Skalen Aussagen über Differenzen & Verhältnisse zu
Nebengütekriterien • Normierung • Bezugssystem, um die Ergebnisse einer Person zu den Merkmalsausprägungen anderer Personen einzuordnen und zu interpretieren • Vergleichswerte entstehen durch Eichstichprobe, bzw. Normtabellen • Eichstichprobe muss repräsentativ für die interessierende Personengruppe sein • Prozentrangnormen • Standardnormen
Nebengütekriterien • Testökonomie – Wirtschaftlichkeit des Tests • Erkenntnisgewinn und beanspruchte Ressourcen (z.B. Zeit, Geld,…) eines Tests müssen in einem guten Verhältnis stehen • Finanzieller Aufwand • Testmaterial, Software, Arbeitszeit,.. • Zeitlicher Aufwand • Vorbereitung, Durchführung, Auswertung, Rückmeldung,… • Konflikt mit anderen Gütekriterien: neuartige, valide Tests mit hohem Erkenntnisgewinn rechtfertigen höhere Kosten
Nebengütekriterien • Zumutbarkeit • Der Proband darf zeitlich, körperlich und psychisch nicht übermäßig belastet werden (im Verhältnis zum Erkenntnisgewinn gesehen). • Betrifft ausschließlich Testpersonen • Nutzen des Tests und damit die Zumutbarkeit teilweise schwer einzuschätzen
Nebengütekriterien • Unverfälschbarkeit • Das Verfahren sollte so konstruiert sein, dass der Proband seine Testergebnisse nicht durch gezielte Reaktionen/ Antworten beeinflussen kann. • Problematisch bei Persönlichkeitsfragebögen, wo das Prinzip schnell durchschaut werden kann (z.B. aufgrund von sozialer Erwünschtheit) • Bei Leistungstests meist gegeben
Nebengütekriterien • Fairness • Testergebnisse führen zu keiner Benachteiligung von Personen aufgrund ihrer Zugehörigkeit zu ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen • z.B. Culture- fair- Tests: Personen müssen über keine hohen sprachlichen oder anderen kulturabhängigen Fähigkeiten verfügen um den Test zu verstehen/ zu lösen.
Literatur Bühner, M. (2006). Einführung in die Test- und Fragebogenkonstruktion. München: Pearson Studium. Diekmann, A. (2007). Empirische Sozialforschung. Grundlagen, Methoden, Anwendungen. Hamburg: Rowohlt-Taschenbuch-Verlag. Fisseni, H.J. (1990). Lehrbuch der psychologischen Diagnostik. Göttingen: Hogrefe- Verlag. Moosbrugger, H., Kelava, A. (2007) Testtheorie und Fragebogenkonstruktion. Berlin: Springer. Internet: http://www.uni-bielefeld.de/stud/fpsycho/downloads/Skripte/markus2000.pdf(Zugriff:01.05.2014)