Wann sollte getestet werden?

Wann sollte getestet werden? • (1) Feststellung des Förderbedarfs • Einsatz von Tests, wenn Vergleich mit Altersgruppe nötig (z.B. „Wie gut sind die Rechtschreibkenntnisse im Vergleich zu Gleichaltrigen) um Entscheidung zu treffen • (2) Lern-/Entwicklungsprozess, Förderung • Wiederholte Testung in größeren Zeitabständen, um Lernfortschritte mit Altersgruppe zuverlässig vergleichen zu können

Definition eines Tests • Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung. (Lienert, 1969). • Bei einem Test handelt es sich um ein spezielles psychologisches Experiment mit dem Ziel, vergleichende Aussagen über Personen abzuleiten. (Rost 1996)

Bestandteile • Handbuch / Manual • Angaben zum Testgegenstand (Konstrukt), Testentwicklung, Gütekriterien, Durchführung, Auswertunganweisungen, Normentabellen • Testhefte, Aufgabenmaterialien, Testbogen • Auswertungsschablonen, Protokollbogen, Auswertungsbogen

Beispiel: Intelligenztest CFT 20 • Weiß, R. H. (1998). Grundintelligenztest Skala 2 – CFT 20. 4. Aufl., Göttingen, Hogrefe • Altersbereich: Schüler 8,5 – 18 Jahre • Für Erwachsene mit einfacher Schulbildung (20-70 J) • Erfasst die „fluide Intelligenz“ • Ist ein „produktorientiertes“ Verfahren, d.h., es werden keine Prozedurmerkmale des Problemlösens erfasst, sondern Menge und Geschwindigkeit

Fluide Intelligenz • Intelligenz im Sinne eines wissensfreien („kulturfreien) Intelligenztests ist eine kognitive Ressource, welche die Geschwindigkeit und Qualität von Informationsverarbeitungsprozessen beeinflusst • Ihre basalen Komponenten sind vermutlich: • Reizverarbeitung (z.B. Differenzierung) • Informationsverarbeitungsgeschwindigkeit • Kurzzeitgedächtnis • Verfügbarkeit elementarer Vergleichsprozesse und Heuristiken • Neurobiologische Ansätze werden hier neue Methoden zur Messung der Basisintelligenzfaktoren hervorbringen

Durchführung • Proband bekommt Testheft und Antwortbogen ausgehändigt • VL liest Instruktion für Beispiele etc., vor • PB betrachtet Aufgaben im Testheft und notiert die seiner Ansicht nach richtige Antwort auf dem Antwortbogen • VL beendet die Bearbeitung einer Aufgabengruppe, wenn die vorgeschriebene Testzeit vorbei ist • VL nimmt den Antwortbogen • VL zählt mit Hilfe der Auswertungsschablone die Zahl der richtigen Antworten pro Block (Rohwert) • VL trägt diese Rohwerte auf Rückseite des Antwortbogens ein • VL liest anhand der Normwerte-Tabelle (im Manual) für jeden Rohwert den angegebenen IQ-Wert, bzw. Prozentrang ab • Fertig

Wie funktioniert so ein Ding? Testtheorie und ähnliche Unannehmlichkeiten

Testtheorien • Ein Test ist nur ein psychologisches Experiment, aus dessen Ergebnissen vergleichende Aussagen über Personen abgeleitet werden können, wenn seiner Konstruktion eine Theorie zugrunde gelegt ist, die angibt, wie Testergebnis und zu messendes Merkmal zusammenhängen

Testtheorie Testauswertung Personen- Test- Test- merkmal beeinflußt verhalten verhalten • Einem Test muss eine Theorie zugrunde liegen, die beschreibt, wie Testverhalten und psychisches Merkmal zusammenhängen und wie dieser Zusammenhang berechnet wird

Empirie Population von Personen, Menge von Situationen, Menge von Verhaltensweisen Theorie Theorie über das Antwort-verhalten der Personen in diesen Situationen (mit Hilfe eines Testmodells) vergleichende Aussage über 2 Personen (z.B. a ist intelligenter als b, oder Person a hat einen negativen, Person b einen positiven Attributionsstil) Person a und Person b bearbeiten einen Test (z.B. Analogieaufgaben, Bewertung eigener Leistung) Ergebnis Daten

Es gibt zwei derartige Theorien: • Klassische Testtheorie (KT) • Probabilistische Testtheorie (Item Response Theory, IRT; auch: Rasch-Modell)

Item [aitem] • ist die Bezeichnung für die einzelne Aufgabe in einem Test • oder für die einzelne Frage in einem Fragebogen

Skala • (1) Mehrere Items, die dieselbe Eigenschaft/Fähigkeit erfassen • Je mehr Items gelöst/beantwortet werden, desto stärker ist die Eigenschaft/Fähigkeit ausgeprägt • (2) Die Antwortskala eines Items, z.B.:Stimme zu – stimme teilweise zu – stimme nicht zu [2,1,0] • Oder allgemeiner: „Richtige Lösung / Falsche Lösung“ [0,1]

Itemeigenschaften • Schwierigkeit: • Prozentsatz der Leute, die eine Aufgabe lösen (bzw. eine bestimmte Antwort geben) • Trennschärfe: • Informationsgehalt eines Items • Wie gut stellt es Unterschiede zwischen Personen fest?

Klassische Testtheorie • Rohwert = wahrer Testwert + Messfehler X = T + E • T = Wahrer Testwert = Fähigkeit Probabilistische Testtheorie • Wahrscheinlichkeit einer Antwort = Funktion latenter Fähigkeit und Itemeigenschaften P(x) = F(Theta, bi)

Klassische Testtheorie • X = T + E • Der Messfehler E besteht aus zufälligen Fehlereffekten • Messfehler E und wahrer Testwert (Fähigkeit) T sind unabhängig • Itemeigenschaft „Trennschärfe“ wird aus X abgeleitet. Man kann sie nicht für ein einzelnes Item bestimmen • Ein einzelnes Item stellt keine zuverlässige Schätzung einer Fähigkeit dar Probabilistische Testtheorie • P(x) = F(T, bi) • Die Beziehung zwischen Fähigkeit und Antwortwahrscheinlichkeit wird durch eine spezielle Itemfunktion dargestellt • Messfehler = Anpassungsgüte des Modell • Itemeigenschaften „Schwierigkeit“ und „Trennschärfe“ sind Teil der Itemfunktion • Ein Item stellt einen Schätzer für eine bestimmte Fähigkeitsausprägung auf einem bestimmten Wahrscheinlichkeitsniveau dar

Klassische Testtheorie (KT) Test muss aus mehreren Items bestehen Die Items müssen unterschiedlich schwer sein Die Items müssen möglichst trennscharf sein Eine Schwierigkeitsstufe muss durch mehrere Items repräsentiert werden Alle Probanden müssen alle Items (zu) beantworten (versuchen) Probabilistische Testtheorie (IRT) Test muss aus mehreren Items bestehen Die Items müssen unterschiedlich schwer sein Die Items müssen möglichst trennscharf sein Eine Schwierigkeitsstufe kann durch ein einzelnes Items repräsentiert werden Jeder Proband muss nur so viele Items beantworten, wie es seiner Fähigkeit entspricht => Adaptives Testen möglich KT vrs. IRT

Adaptives Testen

CFT 20 • Der CFT-20 ist auf der Basis der klassischen Testtheorie konstruiert und evaluiert worden • Mit ihm ist kein adaptives Testen möglich • Ein adaptiver Intelligenztest für unsere Klientel ist der AID (Allgemeines Intelligenz Diagnosticum)

Auswahlkriterien für die Eignungeines Test • Konstrukt (z.B. Intelligenz) • Testgütekriterien • Angemessenheit der Normierung

Testgütekriterien • Um die Kriterien „wissenschaftliches Routineverfahren“, bzw. „psychologisches Experiment“ erfüllen zu können, muss ein diagnostisches Verfahren bestimmte Bedingungen erfüllen: Objektivität Reliabilität Validität

Objektivität • Die Erfassung, Auswertung und Interpretation der Testdaten ist unabhängig von subjektiven Faktoren • (z.B. Vorurteilen, Einstellungen, Erwartungshaltungen, Verfälschungstendenzen) • Dies trifft in hohem Maße für Leistungstests (Intelligenztests, Konzentrationstest, etc.) zu • De facto kann diese Forderung aber nicht von jedem Test erfüllt werden. So sind z.B. Persönlichkeitstests nicht völlig verfälschungs-sicher

Konstruktion eines klassischen Tests • Konstruktion eines Itempools: Viele Items, von denen man (begründet) annimmt, dass ihre Lösung (Beantwortung) die (nicht direkt beobachtbare) Zieleigenschaft repräsentiert • Vorgabe an Stichprobe (möglichst groß)

Konstruktion eines klassischen Tests • Statistische Analysen: • Prüfung, welche Items eine Dimension bilden (Homogenität, interne Validität) • Prüfung der Itemschwierigkeit (Zahl der Personen, die ein Item lösen) • Zusammenfassung der homogenen Items mit steigender Schwierigkeit zu einem Test (oder Subtest) • Normierung

5 Items aus dem KFT

Reliabilität • Reliabilität: Zuverlässigkeit • Hierunter versteht man die Messgenauigkeit eines Tests • Wie wiederholbar sind die Ergebnisse? • Bis zu welchem Grad lassen sich die Eigenschaften zweier Personen unterscheiden?

Bestimmung der Reliabilität eines Tests • Re-Test-Reliablität : • Bestimmung des statistischen Zusammenhangs (Korrelation) zwischen zwei aufeinanderfolgenden Messungen • Split-Half-Reliabilität: • Korrelation zwischen zwei Hälften der Items eines Tests • Cronbachs Alpha: • Mittelwert der Korrelationen zwischen allen Einzelitems • Ausreichende Reliabilität: r: = .75 (.75: andere Notation für 0,75) • Gute Reliabilität: r = .90 • Probleme: • Die Messgenauigkeit kann nur für mehrere Items (Skala, Test, Subtest) bestimmt werden, nicht für Einzelitems • Daher liefert ein Test, der nicht vollständig durchgeführt wurde, keine zuverlässige Messung • Je mehr Items ein Test (Subtest, Skala) enthält, desto genauer wird er

Reliabilitätssteigerung durch Testverlängerung

Konfidenzintervalle • Die Reliabilität gibt nicht nur an, wie genau ein Test im allgemeinen misst • Mit ihrer Hilfe kann man das sog. „Konfidenzintervall“ (auch. Vertrauensintervall) eines Testergebnisses berechnen

Das Konfidenzintervall gibt an, mit welcher Wahrscheinlichkeit der „wahre Testwert“ in einem bestimmten Bereich von beobachteten Testergebnissen liegt • Z.B: • IQ (Testergebnis) = 98 • 95%-Konfidenzintervall:= 93-103 • D.h.: Mit einer Wahrscheinlichkeit von 95% liegt der „wirkliche“ IQ zwischen 93 und 103

Validität • Validität: Gültigkeit • Misst ein Test das, was er messen soll? • Zusammenhang zwischen dem Testergebnis und anderen Kriterien für das Zielverhalten • Skalenaufbau und –struktur entspricht dem psychologischen Wissen über das zu messende Konstrukt

Bestimmung der Validität eines Tests • Augenschein- / Expertenvalidität • Entsprechen die Items dem Forschungsstand über das zu messende Merkmal? • Interne Validität: • Entspricht die Dimensionalität der Subtests den theoretisch zu erwartenden Dimensionen? • Ist die Zuordnung zwischen Items und Dimensionen sinnvoll? • Methode: Faktorenanalysen • Externe Validität: • Bestimmung des Zusammenhangs (Korrelationen) zwischen dem Testergebnis und anderen Kriterien für das messende Verhalten • Ökologische Validität: • Ist die Art, in der das Merkmal gemessen wird, geeignet, Aussagen über das Verhalten in Realsituationen zu treffen?

Normierung • Sowohl ein klassischer als auch ein nach dem IRT-Modell konstruierter Test gelten für die Stichprobe(n), auf deren Basis die Prüfstatistiken berechnet wurden. • Um sinnvolle Vergleiche innerhalb verschiedener Teilpopulationen (z.B. Männer/Frauen, Altersgruppen, Bildungsschichten, etc.) vornehmen zu können, müssen getrennte Tabellen erstellt werden • Dazu muss bestimmt werden, welche Kriterien für die Aufteilung in Teilpopulationen sinnvoll ist

Definitionen • Statistischer Normalbereich: -1 SD bis 1 SD • Bereich um den Mittelwert • Entspricht 68,2 % der Population • SD (Standardabweichung ist ein abstraktes Maß) • Es gibt verschiedene Umrechung (Transformationen) der Rohwerte in einen anschaulicheren Wert • Z-Wert, T-Wert, Abweichungs-IQ, Prozentrang

z-Wert • Der sog. z-Wert gibt die Abweichung eines individuellen Testergebnisses vom Mittelwert an • Mittelwert: 0 • Abstand: Standardabweichung (mittlere Abweichung der Testwerte) • Negative z-Werte: unter dem Mittelwert • Positive z-Werte: über dem Mittelwert • Normalbereich: -1 bis +1

T-Werte • Der T-Wert ist eine Transformation des z-Werts • Er repräsentiert die exakt gleiche Information, nämlich die Abweichung eines Testergebnisses vom Mittelwert, gemessen in Standardabweichungen • Er ist aber so transformiert, dass die Zahlen etwas anschaulicher sind • Mittelwert der Verteilung: t-Wert = 50, SD=10 • Normalbereich: 40 - 60

Sinn? • Z-Werte und t-Werte haben durchaus einen Sinn: • Da sie standardisierte, verteilungs-unabhängige Kennwerte sind, kann man die z- und t-Werte unterschiedlicher Tests miteinander vergleichen • War die erste Messung vor einem Jahr besser oder schlechter als die aktuelle Messung? • Z.B. Ist der Proband im Lesen besser als im Schreiben? • Dagegen lassen sich Rohwerte oder Prozentränge von Tests NICHT unmittelbar miteinander vergleichen

Um zwei Testwerte (des gleichen Tests, z.B. Wiederholungsmessung) vergleichen zu können, muss man allerdings berücksichtigen, dass auch z-, T- und IQ-Werte messfehlerbehaftet sind • Dies wird beim Vergleich berücksichtigt, indem man die sog. kritische Differenz bestimmt • Die kritische Differenz hängt von der Reliabilität des Tests ab • Krit. Diff = 1.96 * 10 * Wurzel aus (2 * [1-Reliabilität]) • Sie gibt an, um wie viele T-Wert-Punkte zwei T-Werte auseinander liegen müssen, um tatsächlich einen Unterschied darzustellen

Vergleich zweier unterschiedlicher Tests • Vergleich der t-Werte aus zwei verschiedenen Tests: • Dkrit= 1,96 * 10* Wurzel (2-[ReliaTest1 + ReliaTest2]) • Dkrit = 1,96 * 10 * SQR(2-[.86+.92]) • Dkrit = 19,6 * SQR(0,22) • Dkrit = 9.2 • In diesem Fall müssen sich die beiden T-Werte um 9,2 (bzw. abgerundet: 9) unterscheiden, um wirklich einen bedeutsamen Unterschied darzustellen • Das muss man leider wirklich per Hand rechnen, da es in den Testhandbüchern nicht enthalten ist

Wann sollte getestet werden?