590 likes | 1.97k Views
Gliederung. Einf
E N D
2. Gliederung Einführung
Ziele und Aufbau
Praktische Handhabung
Gütekriterien
Studie von Peter Steck
Auswertung
Kritik
3. HAWIE-R deutsche Version des WAIS-R (Wechsler Adult Intelligence Scale - Revised 1981, Tewes 1991)
löst HAWIE von 1956 ab (=Aktualisierung der Iteminhalte)
ist ausschließlich ein Individualtestverfahren
mißt Intelligenzleistungen von Altersstufe 16 bis 74 Jahre
vor allem für klinisch- psycholog. Diagnostik entwickelt, in der es vorrangig um die Untersuchung von Ausfallerscheinungen geht Die wesentlichen Unterschiede zum HAWIE sind:
Über die Hälfte der Items wurden verändert, wobei insbesondere veraltete Items (z.B. der „fehlende Schlips“) ausgetauscht wurden.
Die Anzahl der Items in den einzelnen Untertests wurde z.T. verändert (z.B. im Wortschatz-Test auf 332 reduziert, im Zahlen-Symbol-Test von 67 auf 93 erhöht).
Es wird nunmehr eine die Testsituation auflockernde gemischte Vorgabe der Untertests aus dem Verbal- und Handlungsteil vorgesehen.
Der Wortschatz-Test ist nicht mehr fakultativ, sondern obligatorisch.
Die Verrechnungsmodi haben sich bei den Untertests Zahlennachsprechen, Wortschatz-Test, Bildordnen und Figurenlegen leicht verändert.
Der Protokollbogen enthält dankenswerterweise selbst die Umrechnungstabelle Rohpunkte in Wertepunkte.Die wesentlichen Unterschiede zum HAWIE sind:
Über die Hälfte der Items wurden verändert, wobei insbesondere veraltete Items (z.B. der „fehlende Schlips“) ausgetauscht wurden.
Die Anzahl der Items in den einzelnen Untertests wurde z.T. verändert (z.B. im Wortschatz-Test auf 332 reduziert, im Zahlen-Symbol-Test von 67 auf 93 erhöht).
Es wird nunmehr eine die Testsituation auflockernde gemischte Vorgabe der Untertests aus dem Verbal- und Handlungsteil vorgesehen.
Der Wortschatz-Test ist nicht mehr fakultativ, sondern obligatorisch.
Die Verrechnungsmodi haben sich bei den Untertests Zahlennachsprechen, Wortschatz-Test, Bildordnen und Figurenlegen leicht verändert.
Der Protokollbogen enthält dankenswerterweise selbst die Umrechnungstabelle Rohpunkte in Wertepunkte.
4. Gliederung Einführung
Ziele und Aufbau
Praktische Handhabung
Gütekriterien
Studie von P. Steck
Auswertung
Kritik
5. Definition von Intelligenz Intelligenz ist
„die zusammengesetzte oder globale Fähigkeit des Individuums, zweckvoll zu handeln, vernünftig zu denken und sich mit seiner Umgebung wirkungsvoll auseinander zu setzen.“
(nach David Wechsler, 1956; S.13) Wechslers Überlegungen zielen von vornherein nur auf die Messung (!) der Intelligenz:
Gerade für seinen pragmatischen Standpunkt, mehr am Produkt der Intelligenz als am Konstrukt selbst interessiert zu sein, haben auch Einflüsse große Bedeutung, die zwar nicht unmittelbar intellektueller Natur sind, jedoch mittelbar zum Zustandekommen intellektueller Leistungen beitragen.
Explizit nennt er: Trieb und Anreiz,
in gewisser Weise ist aber auch das Gedächtnis und die Fähigkeit zur sozialen Anpassung zu subsumieren.
Vorstellung basiert auf Alexander (1935):
Er bestätigte (Spearmans Zweifaktorentheorie) mittels Faktorenanalyse, daß alle Leistungstests durch einen gemeinsamen Faktor bestimmt werden, der jedoch nicht ausreicht, um die Korrelationsmatrix aller verwendeten Tests vollständig zu erklären. Alexander zieht daraus den Schluß, daß sich neben einem allgemeinen Faktor der „Intelligenz“ je ein Faktor „abstrakter“ und „praktischer“ Fähigkeiten für alles intellektuelle Verhalten verantwortlich zeichnet - da dieses zur Erklärung der Korrelationsmatrix nicht ausreicht, nimmt er ergänzende Faktoren, wie Temperaments- und Persönlichkeitsfaktoren an. Wechslers Überlegungen zielen von vornherein nur auf die Messung (!) der Intelligenz:
Gerade für seinen pragmatischen Standpunkt, mehr am Produkt der Intelligenz als am Konstrukt selbst interessiert zu sein, haben auch Einflüsse große Bedeutung, die zwar nicht unmittelbar intellektueller Natur sind, jedoch mittelbar zum Zustandekommen intellektueller Leistungen beitragen.
Explizit nennt er: Trieb und Anreiz,
in gewisser Weise ist aber auch das Gedächtnis und die Fähigkeit zur sozialen Anpassung zu subsumieren.
Vorstellung basiert auf Alexander (1935):
Er bestätigte (Spearmans Zweifaktorentheorie) mittels Faktorenanalyse, daß alle Leistungstests durch einen gemeinsamen Faktor bestimmt werden, der jedoch nicht ausreicht, um die Korrelationsmatrix aller verwendeten Tests vollständig zu erklären. Alexander zieht daraus den Schluß, daß sich neben einem allgemeinen Faktor der „Intelligenz“ je ein Faktor „abstrakter“ und „praktischer“ Fähigkeiten für alles intellektuelle Verhalten verantwortlich zeichnet - da dieses zur Erklärung der Korrelationsmatrix nicht ausreicht, nimmt er ergänzende Faktoren, wie Temperaments- und Persönlichkeitsfaktoren an.
6. Theoret. Konzept von Wechsler „Allgemeine Intelligenz“
= Gesamt-IQ resultiert aus der durchschnittl. Leistung in allen 11 Untertests
sie teilt sich in :
„Verbal-Intelligenz“
= Verbal-IQ setzt sich aus der durchschnittl. Leistung in den dazugehörigen Untertests zusammen
„Handlungs-Intelligenz“
= Handlungs-IQ; erfasst vor allem die nicht-intellektuellen Faktoren intelligenten Verhaltens Zitat von Wechsler, 1956, S.22 (Text Kubinger 2 Seite links oben):
„Bisher haben Verfasser von Intelligenzskalen ... diese Faktoren als störende Elemente angesehen und so weit wie möglich zu beseitigen versucht. Die Erfahrung hat jedoch gezeigt, daß die Tests um so wirkungsloser in der Messung der allgemeinen Intelligenz sind, je erfolgreicher man bei der Beseitigung dieser Faktoren ist. Es werden keine Tests benötigt, bei denen die nicht-intellektuellen Faktoren ausgeschaltet sind (selbst wenn dieses möglich wäre), sondern im Gegenteil Tests, bei denen diese Faktoren deutlich vorhanden und objektiv abschätzbar sind. Die Handlungstests ... sind ein Versuch in diese Richtung.“
theoretisches Konzept von Wechsler ist implizit hierarchisch:
Spitze bildet die „Allgemeine Intelligenz“ (= Gesamt-IQ)
sie teilt sich in :
„Verbal-Intelligenz“
„Handlungs-Intelligenz“ (erfasst auch die nicht-intellektuellen Faktoren intelligenten Verhaltens)
! Jeder der beiden entsprechenden, gleichwertigen Testteile besteht aus einem breiten Spektrum verschiedenartiger Untertests, die jeweils eine Vielzahl spezifischer Fähigkeiten - im Sinne von Spearmans Zweifaktorentheorie - erfassen und untereinander als funktional äquivalend für die Messung der Intelligenz betrachtet werden.Zitat von Wechsler, 1956, S.22 (Text Kubinger 2 Seite links oben):
„Bisher haben Verfasser von Intelligenzskalen ... diese Faktoren als störende Elemente angesehen und so weit wie möglich zu beseitigen versucht. Die Erfahrung hat jedoch gezeigt, daß die Tests um so wirkungsloser in der Messung der allgemeinen Intelligenz sind, je erfolgreicher man bei der Beseitigung dieser Faktoren ist. Es werden keine Tests benötigt, bei denen die nicht-intellektuellen Faktoren ausgeschaltet sind (selbst wenn dieses möglich wäre), sondern im Gegenteil Tests, bei denen diese Faktoren deutlich vorhanden und objektiv abschätzbar sind. Die Handlungstests ... sind ein Versuch in diese Richtung.“
theoretisches Konzept von Wechsler ist implizit hierarchisch:
Spitze bildet die „Allgemeine Intelligenz“ (= Gesamt-IQ)
sie teilt sich in :
„Verbal-Intelligenz“
„Handlungs-Intelligenz“ (erfasst auch die nicht-intellektuellen Faktoren intelligenten Verhaltens)
! Jeder der beiden entsprechenden, gleichwertigen Testteile besteht aus einem breiten Spektrum verschiedenartiger Untertests, die jeweils eine Vielzahl spezifischer Fähigkeiten - im Sinne von Spearmans Zweifaktorentheorie - erfassen und untereinander als funktional äquivalend für die Messung der Intelligenz betrachtet werden.
7. Testaufbau Wechsler stellte Testbatterien zusammen, die aus zwei gleichwertigen Testteilen bestehen (=Verbalteil & Handlungsteil)
Testteile bestehen aus mehreren Untertests (möglichst viele spezifische Fähigkeiten im Sinne Spearmans sollen erfasst werden)
Wechsler erhebt nicht den Anspruch alles zu messen, was Intelligenz ausmacht (Zitat)
wählt Untertests, die sich in Voruntersuchungen als einigermaßen zuverlässig, gültig und trennscharf erwiesen haben; nicht nach Repräsentativität Wechsler versucht also Testbatterien zusammenzustellen, die aus zwei gleichwertigen Testteilen, dem Verbalteil und dem Handlungsteil bestehen, wobei letzterer vor allem die nicht-intellektuellen Determinanten intelligenten Verhaltens erfassen soll
Wechsler wollte aber auch zwischen den abstrakten bzw. verbalen Fähigkeiten, also der Gewandheit im Benutzen von Symbolen, und den praktischen Fähigkeiten, also der Geschicklichkeit im Handhaben von Objekten, differenzieren
Daß jeder der beiden Testteile seinerseits aus einer Reihe von Untertests besteht, soll dem Bestreben Rechnung tragen, auch möglichst viele spezifische Fähigkeiten im Sinne Spearmans zu erfassen.
Wechsler erhebt dabei keinesfalls den Anspruch alles zu messen, was Intelligenz ausmacht (Zitat)
Zitat Wechsler 1956, S.22:
„denn kein Test würde dazu gegenwärtig in der Lage sein. Wir könnten lediglich von einer Intelligenzskala verlangen, hinreichende Teile der Intelligenz zu messen, damit wir sie als einigermaßen zuverlässigen Index der globalen Leistungsfähigkeit des Prüflings benützen können.“
Er stellt sich daher erst gar nicht dem Problem, die Untertests in Hinblick auf ihre Repräsentativität auszuwählen; vielmehr wurden diejenigen Tests bzw. Aufgaben in die Testbatterien aufgenommen, welche sich in entsprechenden Voruntersuchungen als einigermaßen zuverlässig, gültig und trennscharf erwiesen haben. Wechsler versucht also Testbatterien zusammenzustellen, die aus zwei gleichwertigen Testteilen, dem Verbalteil und dem Handlungsteil bestehen, wobei letzterer vor allem die nicht-intellektuellen Determinanten intelligenten Verhaltens erfassen soll
Wechsler wollte aber auch zwischen den abstrakten bzw. verbalen Fähigkeiten, also der Gewandheit im Benutzen von Symbolen, und den praktischen Fähigkeiten, also der Geschicklichkeit im Handhaben von Objekten, differenzieren
Daß jeder der beiden Testteile seinerseits aus einer Reihe von Untertests besteht, soll dem Bestreben Rechnung tragen, auch möglichst viele spezifische Fähigkeiten im Sinne Spearmans zu erfassen.
Wechsler erhebt dabei keinesfalls den Anspruch alles zu messen, was Intelligenz ausmacht (Zitat)
Zitat Wechsler 1956, S.22:
„denn kein Test würde dazu gegenwärtig in der Lage sein. Wir könnten lediglich von einer Intelligenzskala verlangen, hinreichende Teile der Intelligenz zu messen, damit wir sie als einigermaßen zuverlässigen Index der globalen Leistungsfähigkeit des Prüflings benützen können.“
Er stellt sich daher erst gar nicht dem Problem, die Untertests in Hinblick auf ihre Repräsentativität auszuwählen; vielmehr wurden diejenigen Tests bzw. Aufgaben in die Testbatterien aufgenommen, welche sich in entsprechenden Voruntersuchungen als einigermaßen zuverlässig, gültig und trennscharf erwiesen haben.
8. Verbalteil besteht aus sechs Untertests:
1) Allgemeines Wissen (AW, 24 Items)
2) Zahlennachsprechen (ZN, 14 Items)
3) Wortschatz-Test (WT, 32 Items)
4) Rechnerisches Denken (RD,14 Items)
5) Allgemeines Verständnis (AV, 13 Items)
6) Gemeinsamkeiten finden (GF, 16 Items)
9. Handlungsteil setzt sich aus 5 Untertests zusammen:
1) Bilderergänzen (BE, 17 Items)
2) Bilderordnen (BO, 10 Items)
3) Mosaik-Test (MT, 9 Items)
4) Figurenlegen (FL, 4 Items)
5) Zahlen-Symbol-Test (ZS, 93 Items)
10. Einsatzbereich des HAWIE-R Auf dem Umschlag des Handbuchs heißt es:
„Der Test eignet sich zur Einschätzung des allgemeinen geistigen Entwicklungsstandes und der Untersuchung von alters-, milieu- oder krankheitsbedingten Leistungsbeeinträchti-gungen in bestimmten Bereichen. Er wird mit Vorteil auch bei Schülern in den oberen Klassen weiterbildender Schulen eingesetzt.“ Weiteres Zitat aus dem Handbuch:
„Betrachtet man die umfassende Literaturdokumentation bei Matarazzo ... so wird eindrucksvoll deutlich, daß die Wechsler-Intelligenztests für Erwachsene in der klinischen Praxis und Forschung zu den am häufigs-ten eingesetzten Testverfahren gehören ... Der HAWIE ist ... ein zur Zeit noch sehr gebräuchliches Verfahren ... bei psychisch und neurologisch behinderten Personen oder auch bei älteren, testunerfahrenen Probanden, denen man keinen Multiple-Choice-Test zumuten kann. Die Verschiebung der Alterspyramide und die zunehmende Bedeutung der Gerontopsychologie machen Testverfahren erforderlich, die ... nach dem Muster eines standardisierten Dialogs konstruiert sind.“ (Handbuch, S.8)Weiteres Zitat aus dem Handbuch:
„Betrachtet man die umfassende Literaturdokumentation bei Matarazzo ... so wird eindrucksvoll deutlich, daß die Wechsler-Intelligenztests für Erwachsene in der klinischen Praxis und Forschung zu den am häufigs-ten eingesetzten Testverfahren gehören ... Der HAWIE ist ... ein zur Zeit noch sehr gebräuchliches Verfahren ... bei psychisch und neurologisch behinderten Personen oder auch bei älteren, testunerfahrenen Probanden, denen man keinen Multiple-Choice-Test zumuten kann. Die Verschiebung der Alterspyramide und die zunehmende Bedeutung der Gerontopsychologie machen Testverfahren erforderlich, die ... nach dem Muster eines standardisierten Dialogs konstruiert sind.“ (Handbuch, S.8)
11. Gliederung Einführung
Ziele und Aufbau
Praktische Handhabung
Gütekriterien
Studie von P. Steck
Auswertung
Kritik
12. Praktische Handhabung/1 Testmaterialien:
Handbuch mit Testanweisung (121 Seiten, davon 32 Seiten Tabellen und 15 Seiten Anhang: Bewertungskriterien)
Vorlageheft für die Untertests Bildergänzen und Mosaik-Test
Bildkarten zum Untertest Bildordnen
neun Würfel für den Mosaik-Test
Puzzelteile des Untertests Figurenlegen
Auswertschablone für den Zahlen-Symbol-Test
25 Protokollbögen Handbuch:
Im Handbuch sind die Modalitäten der Test-applikation festgelegt, die Instruktionen sind wörtlich vorgegeben. Handbuch:
Im Handbuch sind die Modalitäten der Test-applikation festgelegt, die Instruktionen sind wörtlich vorgegeben.
13. Praktische Handhabung/2 Mehrzahl der Tests sind reine power-Tests
beim Handlungsteil fließt in die Verrechnung zumeist auch die speed-Komponente mit ein
Zahlen-Symbol-Test ist ein reiner speed-Test
Abbruchkriterium
beinhalten die meisten Untertests
Untertest wird unterbrochen, wenn die Tpn 3 bzw. 4 Aufgaben in ununterbrochener Reihenfolge nicht lösen können
Testdauer: 60 bis 90 Minuten
Auswertungsdauer: keine Angaben Die meisten Untertests sind power-Tests,
im Handlungsteil können zusätzliche Zeitbonuspunkte erreicht werden (speed-Komponente);
der Zahlen-Symbol-Test ist ein reiner Geschwindigkeitstest.
Für eine Reihe an Untertests gibt es ein Abbruchkriterium: die Vorgabe des jeweiligen Untertests wird abgebrochen, wenn die Testperson eine bestimmte Anzahl (meist 3 bzw. 4) Items in Folge nicht gelöst hat.
Testdauer wird mit 60 bis 90 Minuten angegeben,
die Auswertung bei einem routinierten Testleiter erfordert 5 bis 10 Minuten (aber: keine Angaben im Handbuch dazu gemacht) Die meisten Untertests sind power-Tests,
im Handlungsteil können zusätzliche Zeitbonuspunkte erreicht werden (speed-Komponente);
der Zahlen-Symbol-Test ist ein reiner Geschwindigkeitstest.
Für eine Reihe an Untertests gibt es ein Abbruchkriterium: die Vorgabe des jeweiligen Untertests wird abgebrochen, wenn die Testperson eine bestimmte Anzahl (meist 3 bzw. 4) Items in Folge nicht gelöst hat.
Testdauer wird mit 60 bis 90 Minuten angegeben,
die Auswertung bei einem routinierten Testleiter erfordert 5 bis 10 Minuten (aber: keine Angaben im Handbuch dazu gemacht)
14. Gliederung Einführung
Ziele und Aufbau
Praktische Handhabung
Gütekriterien
Studie von P. Steck
Auswertung
Kritik
15. Gütekriterien/1 Durchführungsobjektivität aufgrund der meist sehr klaren Instruktionen gegeben; unterliegt lediglich den bei allen im Dialog durchge-führten Individualtests typischen Einschränkungen (reduziert wegen Einzeltestvorgabe)
Ausnahme: Bilderordnen
Auswertungsobjektivität wurde gegenüber dem HAWIE wahrscheinlich verbessert, da einfachere und häufiger eindeutige Bewertungsrichtlinien im Verbalteil vorgegeben werden
Interpretationsobjektivität ist gegeben Objektivität (=Anwenderunabhängigkeit)
Durchführungsobjektivität - Ausnahme:
Dem Testleiter wird beim Bilderordnen die „Empfehlung“ gegeben, falls die Zeit noch reicht , die Testperson dazu aufzufordern, die Lösungen zu begründen oder beim Lösen eine Geschichte zu erzählen - damit wird eine Verletzung der Durchführungsobjektivität in Kauf genommen.
Auswertungsobjektivität
wurde gegenüber dem HAWIE wahrscheinlich verbessert, da einfachere und häufiger eindeutige Bewertungsrichtlinien im Verbalteil vorgegeben werden.
Aber:
trotzdem zeigt eine kleine Studie des Herausgebers des HAWIE-R, daß insbesondere beim Untertest Allgemeines Verständnis noch Bewertungsdifferenzen auftreten können. Im Mosaik-Test muß jetzt auch entschieden werden, ob eine Drehung um mehr als 30 Grad vorliegt; hier dürften Auswertungsdifferenzen auftreten.Objektivität (=Anwenderunabhängigkeit)
Durchführungsobjektivität - Ausnahme:
Dem Testleiter wird beim Bilderordnen die „Empfehlung“ gegeben, falls die Zeit noch reicht , die Testperson dazu aufzufordern, die Lösungen zu begründen oder beim Lösen eine Geschichte zu erzählen - damit wird eine Verletzung der Durchführungsobjektivität in Kauf genommen.
Auswertungsobjektivität
wurde gegenüber dem HAWIE wahrscheinlich verbessert, da einfachere und häufiger eindeutige Bewertungsrichtlinien im Verbalteil vorgegeben werden.
Aber:
trotzdem zeigt eine kleine Studie des Herausgebers des HAWIE-R, daß insbesondere beim Untertest Allgemeines Verständnis noch Bewertungsdifferenzen auftreten können. Im Mosaik-Test muß jetzt auch entschieden werden, ob eine Drehung um mehr als 30 Grad vorliegt; hier dürften Auswertungsdifferenzen auftreten.
16. Gütekriterien/2 Reliabilität wurde mittels Cronbachs-a bestimmt:
liegt für die einzelnen Untertests und pro Altersgruppe zwischen .64 (FL) und .95 (ZS, mit Testhalbierung)
beim Gesamt-IQ bei mindestens .95
Standardmessfehler werden getrennt nach Skalen und Altersgruppen angegeben
kritische Differenzen für Profilinterpretationen nicht angegeben Reliabilität (=Zuverlässigkeit, d.h. wie genau mißt der Test das, was er mißt)
FL = Figurenlegen
ZS = Zahlen-Symbol-Test
ein Cronbachs-a von mindestens .90 wird darüber hinaus nur gelegentlich für die Untertests Allgemeines Wissen, Wortschatz-Test, Rechnerisches Denken und Gemeinsamkeitenfinden beobachtetReliabilität (=Zuverlässigkeit, d.h. wie genau mißt der Test das, was er mißt)
FL = Figurenlegen
ZS = Zahlen-Symbol-Test
ein Cronbachs-a von mindestens .90 wird darüber hinaus nur gelegentlich für die Untertests Allgemeines Wissen, Wortschatz-Test, Rechnerisches Denken und Gemeinsamkeitenfinden beobachtet
17. Gütekriterien/3 faktorielle Validität (= im Sinne einer Konstruktvalidierung)
die Wechslersche Unterteilung in einen Verbal- und Handlungsfaktor wird bestätigt (allerdings haben ZN und RD auf beiden Faktoren substantielle Ladungen)
Extremgruppenvalidierung
Gruppenunterschiede zwischen Absolventen verschiedener Schultypen sowie zwischen Alkoholikern und Nicht-Alkoholikern bzw. Ähnlichkeiten zwischen Verwandten (z.B. Geschwister) werden als Hinweis für die Validität aufgeführt. Validität (=Gültigkeit, d.h. sie gibt an, ob der Test das mißt, was er zu messen vorgibt)
Faktorielle Validität:
ZN =Zahlennachsprechen
RD = Rechnerisches Denken
die höchsten Ladungen im 1. Faktor weist der Wortschatz-Test mit .86 auf, im 2. Faktor der Untertest Figurenlegen mit .78
die Ladungen mit jeweils anderen Faktoren sind durchweg klein
Extremgruppenvalidierung:
es ergeben sich weitgehende Unterschiede zwischen den Schulbildungen „Hauptschule“, „Realschule“ und „Gymnasium“ sowie zwischen Alkoholikern und Nicht-Alkoholikern.Validität (=Gültigkeit, d.h. sie gibt an, ob der Test das mißt, was er zu messen vorgibt)
Faktorielle Validität:
ZN =Zahlennachsprechen
RD = Rechnerisches Denken
die höchsten Ladungen im 1. Faktor weist der Wortschatz-Test mit .86 auf, im 2. Faktor der Untertest Figurenlegen mit .78
die Ladungen mit jeweils anderen Faktoren sind durchweg klein
Extremgruppenvalidierung:
es ergeben sich weitgehende Unterschiede zwischen den Schulbildungen „Hauptschule“, „Realschule“ und „Gymnasium“ sowie zwischen Alkoholikern und Nicht-Alkoholikern.
18. Gütekriterien/4 Skalierung
dazu werden nur Analysen der klassischen Test-theorie angeführt
Trennschärfen
sind gering, wie bei den Wechsler-Skalen üblich (vgl. z.B. Kubinger, 1983)
Schwierigkeiten sind absichtlich so gewählt, daß der Test im unteren Leistungsbereich besser differenziert. „Er wurde in erster Linie für die klinisch-psychologische Diagnostik entwickelt, bei der es eher um die Untersuchung von Ausfaller-scheinungen geht“ (nicht für die Untersuchung Hochbegabter, S.46) Skalierung:
hierzu werden nur Analysen der klassischen Testtheorie angeführt - „ Gegen eine Neukonstruktion auf probabilistischer Grundlage hatte sich der amerikanische Herausgeber jedoch schon bei der Neubearbeitung der Kinderform ausgesprochen.“(Handbuch S.9)
Trennschärfen:
sind gering, wie bei den Wechsler-Skalen üblich (vgl. z.B. Kubinger, 1983);
Schwierigkeiten sind absichtlich so gewählt, daß der Test im unteren Leistungsbereich besser differenziert -
„Der Test soll nicht der Untersuchung von Hochbegabten dienen. Er wurde in erster Linie für die klinisch-psychologische Diagnostik entwickelt, bei der es eher um die Untersuchung von Ausfallerscheinungen geht.“(S.46). Skalierung:
hierzu werden nur Analysen der klassischen Testtheorie angeführt - „ Gegen eine Neukonstruktion auf probabilistischer Grundlage hatte sich der amerikanische Herausgeber jedoch schon bei der Neubearbeitung der Kinderform ausgesprochen.“(Handbuch S.9)
Trennschärfen:
sind gering, wie bei den Wechsler-Skalen üblich (vgl. z.B. Kubinger, 1983);
Schwierigkeiten sind absichtlich so gewählt, daß der Test im unteren Leistungsbereich besser differenziert -
„Der Test soll nicht der Untersuchung von Hochbegabten dienen. Er wurde in erster Linie für die klinisch-psychologische Diagnostik entwickelt, bei der es eher um die Untersuchung von Ausfallerscheinungen geht.“(S.46).
19. Gütekriterien/5 Normierung
beruht auf Gesamtstichprobe von N=2000 Testpersonen, die hinsichtlich Alter zwischen 16 und 74 Jahre sind, wobei die 20 bis 34jährigen überwiegen.
aber: Schulbildung und Geschlecht der Stich- probe war für die BRD ca. um 1986 repräsentativ (wann genau die Normierung stattfand ist aus dem Handbuch nicht zu entnehmen) Normierung:
Die eigentlichen Normen basieren lediglich auf den 20- bis 34jährigen, weil laut Wechsler:
„die geistige Entwicklung in dieser Altersgruppe ihr Maximum erreiche und relativ konstant bleibe“ (S. 13)
- die entsprechenden Untertest-Wertepunkte dienen auch der Berechnung des IQ.
! Ergänzend können altersspezifische Normwerte bzw. Normwerte für Gymnasiasten bestimmt werden, jedoch nur für die einzelnen Untertests, nicht für den IQ.
Aber:
wann genau die Normierung stattfand ist aus dem Handbuch nicht zu entnehmen, wahrscheinlich aber vor der Vereinigung, so daß fraglich ist, ob die Normen (insbesondere bei den Verbaltests) auch für die neuen Bundesländer gelten; dieser Einwand gilt möglicherweise auch für die Schweiz und Österreich.Normierung:
Die eigentlichen Normen basieren lediglich auf den 20- bis 34jährigen, weil laut Wechsler:
„die geistige Entwicklung in dieser Altersgruppe ihr Maximum erreiche und relativ konstant bleibe“ (S. 13)
- die entsprechenden Untertest-Wertepunkte dienen auch der Berechnung des IQ.
! Ergänzend können altersspezifische Normwerte bzw. Normwerte für Gymnasiasten bestimmt werden, jedoch nur für die einzelnen Untertests, nicht für den IQ.
Aber:
wann genau die Normierung stattfand ist aus dem Handbuch nicht zu entnehmen, wahrscheinlich aber vor der Vereinigung, so daß fraglich ist, ob die Normen (insbesondere bei den Verbaltests) auch für die neuen Bundesländer gelten; dieser Einwand gilt möglicherweise auch für die Schweiz und Österreich.
20. Das Verfahren ist: ökonomisch
bietet gute Beobachtungsmöglichkeiten (z.B. im Handlungsteil Vorgehen nach „Versuch und Irrtum“ vs. planvolles Handeln)
zumutbar (insbesondere für klinisches Klientel)
Simulationen sind wie bei allen Leistungstests möglich; sie sind aber wegen guter Beobach-tungsmöglichkeiten eher erkennbar als bei anderen erwachsenendiagnostischen Verfahren
keine systematischen Untersuchungen zur Fairneß vorhanden Ökonomisch:
für einen Individualtest und entsprechend der Komplexität des Gültigkeitsbereichs sehr ökonomisch und Nützlich, da Intelligenz interaktiv (mit bestimmten Materialien einerseits und mit dem Testleiter andererseits), bei gleichzeitiger Beobachtungsmöglichkeit des Arbeits- und Kontaktverhaltens, erfasst wird.
Für den Test gibt es im Erwachsenenbereich keine Alternative.
Zumutbarkeit:
ist im Sinne des Testkuratoriums (der Föderation deutscher Psychologenverbände; 1986) gegeben; vielleicht mit der Einschränkung, daß jede Testperson bei fast jedem Untertest solange getestet wird, bis sie versagt - und vielleicht frustriert wird.
Verfälschbarkeit/Simulationen:
bei Fragestellungen wie z.B. Rentenbegehren wichtig
Fairneß: (d.h. ist nicht geprüft!)
aber der Wortschatz-Test zeigt die höchsten Korrelationen zum Gesamt-IQ, das bedeutet, daß Bildungsfaktoren (vor allem schulisch-akademische, im Sinne westeuropäischer und US-amerikanischer Tradition) das Gesamtergebnis stark determinieren, so daß weniger Gebildete wohl auch als weniger intelligent erscheinen.Ökonomisch:
für einen Individualtest und entsprechend der Komplexität des Gültigkeitsbereichs sehr ökonomisch und Nützlich, da Intelligenz interaktiv (mit bestimmten Materialien einerseits und mit dem Testleiter andererseits), bei gleichzeitiger Beobachtungsmöglichkeit des Arbeits- und Kontaktverhaltens, erfasst wird.
Für den Test gibt es im Erwachsenenbereich keine Alternative.
Zumutbarkeit:
ist im Sinne des Testkuratoriums (der Föderation deutscher Psychologenverbände; 1986) gegeben; vielleicht mit der Einschränkung, daß jede Testperson bei fast jedem Untertest solange getestet wird, bis sie versagt - und vielleicht frustriert wird.
Verfälschbarkeit/Simulationen:
bei Fragestellungen wie z.B. Rentenbegehren wichtig
Fairneß: (d.h. ist nicht geprüft!)
aber der Wortschatz-Test zeigt die höchsten Korrelationen zum Gesamt-IQ, das bedeutet, daß Bildungsfaktoren (vor allem schulisch-akademische, im Sinne westeuropäischer und US-amerikanischer Tradition) das Gesamtergebnis stark determinieren, so daß weniger Gebildete wohl auch als weniger intelligent erscheinen.
21. Gliederung Einführung
Ziele und Aufbau
Praktische Handhabung
Gütekriterien
Studie von P. Steck
Auswertung
Kritik
22. UmfragePsychologische Testverfahren in der Praxis
23. Umfrage Im wesentlichen 3 Kategorien von Tests im dt. Raum
(Kubinger; 1995)
24. Datenerhebung Fragebogen wurde an 1000 zufällig ausgewählte Mitgliedern des Berufsverbandes Deutscher Psychologen (BDP) verschickt
Rücklauf von 271 Fragebögen (27,1 %)
davon konnten nur 250 ausgewertet werden
25. Fragebogen
26. Datenverarbeitung Auswertung erfolgte mittels Überführung in numerischen Code bei Ja/ Nein Antworten und
Zuweisung in vorher festgelegten Kategoriensystemen (wurden überprüft durch 2 unabhängige Beurteiler ?Kappa- Koeffizient zwischen .72 und .98)
27. Ergebnisse 169 von 250 Psychologen (67,9%) setzten Tests in der Berufspraxis ein
200 Tests waren erkennbar (von 254)
28. Ergebnisse
29. Vergleich
30. Qualitätsmerkmale
31. Abgelehnte Verfahren Gar nicht oder ungern verwendete Tests (N=121):
- Rorschach- Test (24 Nennungen)
- MMPI (13)
- TAT (12)
- IST/ IST 70 (11)
- HAWIK/ HAWIK-R (8)
- HAWIE/ HAWIE-R (3)
Gründe / Nachteile:
- Unökonomisch
- Hauptgütekriterien/ Konstruktion ungenügend
- Geringe /keine diagnostische Relevanz
- Geringe /keine Akzeptanz
- Auswertung schwer handhabbar
32. Subtest und Anwendung 53 der Befragten gaben an, sich bei den Tests auf einzelne Subtests zu beschränken
- v.a. bei HAWIE/ HAWIE-R; IST/ IST 70; HAWIK/ HAWIK-R; LPS; PFK u.a.
58 Befragte gaben an, die Tests in abweichender Form anzuwenden
- v.a. bei HAWIK/ HAWIK-R; TAT u.a.
Abweichungen beziehen sich auf Instruktion, Durchführung (Zweckentfremdung, Verkürzung, Modifizierung des Testmaterials) und Auswertung
33. Fazit zur Umfrage Gehört mit zu den am häufigsten verwendeten Tests (national und international)
Hat einen relativ stabilen Platz in der Rangordnung der letzten 20 Jahre
34. Gliederung Einführung
Ziele und Aufbau
Praktische Handhabung
Gütekriterien
Studie von P. Steck
Auswertung
Kritik
35. Auswertung/1 Allgemein:
Auswertung erfolgt über die Anzahl richtig gelöster Aufgaben
Berechnung von Verbal- IQ, Handlungs- IQ und Gesamt- IQ
daneben werden noch alters- und bildungsspezifische Wertpunkttabellen angeben
Dauer der Testauswertung: 5- 10 Minuten Auswertung, allgemein:
die Auswertung erfolgt über die Anzahl der richtig gelösten Aufgaben
es werden ein Verbal- IQ, ein Handlungs- IQ und ein Gesamt- IQ berechnet
für diesen Zweck werden die Wertpunktsummen für die 6 Verbaltests, die 5 Handlungstests und für alle 11 Untertests berechnet und in IQ- Werte (normierter Mittelwert aller Wertpunkte) transformiert
direkt aus Umrechnungstabellen
daneben werden noch alters- und bildungsspezifische (Gymnasiasten und Abiturienten) Wertpunkttabellen angeben, die z.T. aber auf sehr kleinen SP beruhen
Testauswertung dauert bei einem routinierten Testleiter 5- 10 Minuten
Auswertung, allgemein:
die Auswertung erfolgt über die Anzahl der richtig gelösten Aufgaben
es werden ein Verbal- IQ, ein Handlungs- IQ und ein Gesamt- IQ berechnet
für diesen Zweck werden die Wertpunktsummen für die 6 Verbaltests, die 5 Handlungstests und für alle 11 Untertests berechnet und in IQ- Werte (normierter Mittelwert aller Wertpunkte) transformiert
direkt aus Umrechnungstabellen
daneben werden noch alters- und bildungsspezifische (Gymnasiasten und Abiturienten) Wertpunkttabellen angeben, die z.T. aber auf sehr kleinen SP beruhen
Testauswertung dauert bei einem routinierten Testleiter 5- 10 Minuten
36. Auswertung/2 Berechnung der Wertpunkte:
zunächst Berechnung der Punktzahl jeden Untertests
= Rohwert
die Rohwerte können in verschiedene Wertpunkte transformiert werden
Ankreuzen der Rohwerte ergibt das Testprofil des Probanden Berechnung der Wertpunkte:
zunächst Berechnung der Punktzahl jeden Untertests
= Rohwert
die einzelnen Untertest- Rohwerte werden in die entsprechende Ergebnisspalte des Protokollbogens eingetragen
die Rohwerte können in verschiedene Wertpunkte transformiert werden
Voraussetzung für die Bestimmung des IQ sind die „Wertpunkte A“
hierbei handelt es sich um die Abweichungswerte von den Erwartungswerten der Altersgruppe 20- 34 Jahre
durch Ankreuzen der Rohwerte in der Wertpunkttabelle auf dem Deckblatt erhält man auch das Testprofil des Pb
für die Interpretation der Testergebnisse kann es unter Umständen sinnvoll sein, die Abweichung der Rohwerte von anderen Referenzgruppen (z.B. Gymnasiasten) zu bestimmen
hierfür gibt es die Spalte „Wertpunkte B“
10 Wertpunkte entsprechen dem Durchschnitt der Altersgruppe, der der Pb zuzurechnen ist (Orientierungswerte)
Berechnung der Wertpunkte:
zunächst Berechnung der Punktzahl jeden Untertests
= Rohwert
die einzelnen Untertest- Rohwerte werden in die entsprechende Ergebnisspalte des Protokollbogens eingetragen
die Rohwerte können in verschiedene Wertpunkte transformiert werden
Voraussetzung für die Bestimmung des IQ sind die „Wertpunkte A“
hierbei handelt es sich um die Abweichungswerte von den Erwartungswerten der Altersgruppe 20- 34 Jahre
durch Ankreuzen der Rohwerte in der Wertpunkttabelle auf dem Deckblatt erhält man auch das Testprofil des Pb
für die Interpretation der Testergebnisse kann es unter Umständen sinnvoll sein, die Abweichung der Rohwerte von anderen Referenzgruppen (z.B. Gymnasiasten) zu bestimmen
hierfür gibt es die Spalte „Wertpunkte B“
10 Wertpunkte entsprechen dem Durchschnitt der Altersgruppe, der der Pb zuzurechnen ist (Orientierungswerte)
37. Wertpunkteäquivalente für die Rohwerte
38. Auswertung/3 Berechnung der IQ- Werte:
Berechnung erfolgt über „Wertpunkte A“
Berechnung der Wertpunkte
der 6 Verbaltests
der 5 Handlungstests
aller 11 Untertests
drei Summenwerte werden im Protokollbogen eingetragen
m.H. der IQ- Umrechnungstabelle wird der IQ bestimmt
Berechnung der IQ- Werte:
Berechnung erfolgt über „Wertpunkte A“
Berechnung der Wertepunkte
der 6 Verbaltests
der 5 Handlungstests
aller 11 Untertests
diese drei Summenwerte werden im Protokollbogen eingetragen
m.H. der IQ- Umrechnungstabelle (S.86- 103) wird der IQ bestimmt
Berechnung der IQ- Werte:
Berechnung erfolgt über „Wertpunkte A“
Berechnung der Wertepunkte
der 6 Verbaltests
der 5 Handlungstests
aller 11 Untertests
diese drei Summenwerte werden im Protokollbogen eingetragen
m.H. der IQ- Umrechnungstabelle (S.86- 103) wird der IQ bestimmt
39. Inhaltliche Bedeutung der Skalen/1 Gesamt- IQ:
Hinweis auf das allgemeine geistige Leistungsvermögen des Individuums
ob eine Person eher praktisch oder verbal- theoretisch begabt ist
Leistungsbeeinträchtigungen vor bestimmtem Hintergrund interpretieren Inhaltliche Bedeutung der Skalen:
der Gesamt- IQ gibt einen Hinweis auf das allgemeine geistige Leistungsvermögen des Individuums
gibt Auskunft darüber, ob eine Person eher praktisch oder verbal- theoretisch begabt ist
Leistungsbeeinträchtigungen sollten immer vor dem Hintergrund milieuspezifischer Einflüsse und möglicher krankheits- oder verletzungsbedingter Behinderungen interpretiert werdenInhaltliche Bedeutung der Skalen:
der Gesamt- IQ gibt einen Hinweis auf das allgemeine geistige Leistungsvermögen des Individuums
gibt Auskunft darüber, ob eine Person eher praktisch oder verbal- theoretisch begabt ist
Leistungsbeeinträchtigungen sollten immer vor dem Hintergrund milieuspezifischer Einflüsse und möglicher krankheits- oder verletzungsbedingter Behinderungen interpretiert werden
41. Inhaltliche Bedeutung der Skalen/2 Allgemeines Wissen:
überprüft dasjenige Wissen, „das sich ein Durchschnittsmensch [...] selbst aneignen kann“ (MATARAZZO, 1982)
kulturabhängig
Zahlengedächtnis:
geringer Bedeutung für das allgemeine intellektuelle Leistungsniveau
Inhaltliche Bedeutung der Skalen:
Allgemeines Wissen:
überprüft dasjenige Wissen, „dass sich ein Durchschnittsmensch mit durchschnittlichen Bildungsmöglichkeiten selbst aneignen kann“ (MATARAZZO, 1982)
kulturabhängig/ sprachabhängig
Zahlengedächtnis:
scheint von geringer Bedeutung für das allgemeine intellektuelle Leistungsniveau zu sein
trotzdem sind Leistungsausfälle klinisch bedeutsam, da es klinische Zshg.e geben kann
Inhaltliche Bedeutung der Skalen:
Allgemeines Wissen:
überprüft dasjenige Wissen, „dass sich ein Durchschnittsmensch mit durchschnittlichen Bildungsmöglichkeiten selbst aneignen kann“ (MATARAZZO, 1982)
kulturabhängig/ sprachabhängig
Zahlengedächtnis:
scheint von geringer Bedeutung für das allgemeine intellektuelle Leistungsniveau zu sein
trotzdem sind Leistungsausfälle klinisch bedeutsam, da es klinische Zshg.e geben kann
42. Inhaltliche Bedeutung der Skalen/3 Wortschatztest:
„exzellentes Maß“ der allgemeinen Intelligenz
weitgehend unabhängig vom Lebensalter
Rechnerisches Denken:
gutes allgemeines Intelligenzmaß
Leistungen sind abhängig von schulischer und beruflicher Erfahrung
Inhaltliche Bedeutung der Skalen:
Wortschatztest:
gilt als „exzellentes Maß“ der allgemeinen Intelligenzeiner Person (MATARAZZO)
weitgehend unabhängig vom Lebensalter
gutes Maß für Lernfähigkeit und verbale Informationsbreite des Probanden
Rechnerisches Denken:
gutes allgemeines Intelligenzmaß (MATARAZZO)
Leistungen sind abhängig von schulischer und beruflicher Erfahrung
COHEN (1942) weist darauf hin, dass das niedrige Testwerte auch auf mangelndes Sprachverständnis zurückzuführen sein können Inhaltliche Bedeutung der Skalen:
Wortschatztest:
gilt als „exzellentes Maß“ der allgemeinen Intelligenzeiner Person (MATARAZZO)
weitgehend unabhängig vom Lebensalter
gutes Maß für Lernfähigkeit und verbale Informationsbreite des Probanden
Rechnerisches Denken:
gutes allgemeines Intelligenzmaß (MATARAZZO)
Leistungen sind abhängig von schulischer und beruflicher Erfahrung
COHEN (1942) weist darauf hin, dass das niedrige Testwerte auch auf mangelndes Sprachverständnis zurückzuführen sein können
43. Inhaltliche Bedeutung der Skalen/4 Allgemeines Verständnis:
prüft den „gesunden Menschenverstand“
erfasst die Fähigkeit zum logischen Denken (WECHSLER)
Gemeinsamkeiten finden:
erlaubt quantitativen und qualitative Aussagen
logische Struktur der Denkprozesse (WECHSLER, MATARAZZO)
Inhaltliche Bedeutung der Skalen:
Allgemeines Verständnis:
prüft den „gesunden Menschenverstand“
erfasst die Fähigkeit zum logischen Denken (WECHSLER)
abhängig von Sprachverständnis
Gemeinsamkeiten finden:
nach WECHSLER große Bedeutung
sei besonders gut geeignet, um neben quantitativen Aussagen auch qualitative Aussagen zu machen
gibt Auskunft über logische Struktur der Denkprozesse (WECHSLER, MATARAZZO)
abhängig von sprachlichen FähigkeitenInhaltliche Bedeutung der Skalen:
Allgemeines Verständnis:
prüft den „gesunden Menschenverstand“
erfasst die Fähigkeit zum logischen Denken (WECHSLER)
abhängig von Sprachverständnis
Gemeinsamkeiten finden:
nach WECHSLER große Bedeutung
sei besonders gut geeignet, um neben quantitativen Aussagen auch qualitative Aussagen zu machen
gibt Auskunft über logische Struktur der Denkprozesse (WECHSLER, MATARAZZO)
abhängig von sprachlichen Fähigkeiten
44. Inhaltliche Bedeutung der Skalen/5 Bilderergänzen:
Fähigkeit, zwischen wichtigen und unwichtigen Details bei visuellen Vorlagen zu unterscheiden (WECHSLER)
Bilderordnen:
Fähigkeit, die Gesamtsituation zu verstehen und die Einzelaspekte hinsichtlich ihrer Bedeutung richtig einzuschätzen (WECHSLER)
Inhaltliche Bedeutung der Skalen:
Bilderergänzen:
erfasst die Fähigkeit, zwischen wichtigen und unwichtigen Details bei visuellen Vorlagen zu unterscheiden (WECHSLER)
unterschiedliche Meinungen aller Forscher darüber, was der Test misst
Bilderordnen:
Fähigkeit, die Gesamtsituation zu verstehen und die Einzelaspekte hinsichtlich ihrer Bedeutung richtig einzuschätzen (WECHSLER)
Inhaltliche Bedeutung der Skalen:
Bilderergänzen:
erfasst die Fähigkeit, zwischen wichtigen und unwichtigen Details bei visuellen Vorlagen zu unterscheiden (WECHSLER)
unterschiedliche Meinungen aller Forscher darüber, was der Test misst
Bilderordnen:
Fähigkeit, die Gesamtsituation zu verstehen und die Einzelaspekte hinsichtlich ihrer Bedeutung richtig einzuschätzen (WECHSLER)
45. Inhaltliche Bedeutung der Skalen/6 Mosaik- Test:
ausgezeichnete Prüfung der allgemeinen Intelligenz (WECHSLER)
für qualitative Aussagen geeignet
besonders gut für klinische Diagnostik
Figuren legen:
Hinweise über die Arbeitsstil der Probanden
Inhaltliche Bedeutung der Skalen:
Mosaik- Test:
ausgezeichnete Prüfung der allgemeinen Intelligenz (WECHSLER)
für qualitative Aussagen geeignet
besonders gut für klinische Diagnostik, weil Patienten mit geistigem Abbau und Senile schlechte Leistungen erbringen und Patienten mit Hirnverletzungen andere Lösungsstrategien wählen als Gesunde
Figuren legen:
WECHSLER hatte methodische Bedenken bei diesem Untertest, da er schlecht in höheren Intelligenzbereichen differenziert
er gibt jedoch Hinweise über die Arbeitsstil der ProbandenInhaltliche Bedeutung der Skalen:
Mosaik- Test:
ausgezeichnete Prüfung der allgemeinen Intelligenz (WECHSLER)
für qualitative Aussagen geeignet
besonders gut für klinische Diagnostik, weil Patienten mit geistigem Abbau und Senile schlechte Leistungen erbringen und Patienten mit Hirnverletzungen andere Lösungsstrategien wählen als Gesunde
Figuren legen:
WECHSLER hatte methodische Bedenken bei diesem Untertest, da er schlecht in höheren Intelligenzbereichen differenziert
er gibt jedoch Hinweise über die Arbeitsstil der Probanden
46. Inhaltliche Bedeutung der Skalen/7 Zahlen- Symbol- Test:
erfasst die allgemeine psychometrische Geschwindigkeit
gutes Maß für das Konzentrationsvermögen (WECHSLER)
Ergebnisse sind in starkem Maße altersabhängig
Inhaltliche Bedeutung der Skalen:
Zahlen- Symbol- Test:
erfasst die allgemeine psychometrische Geschwindigkeit
gutes Maß für das Konzentrationsvermögen (WECHSLER)
Ergebnisse sind in starkem Maße altersabhängigInhaltliche Bedeutung der Skalen:
Zahlen- Symbol- Test:
erfasst die allgemeine psychometrische Geschwindigkeit
gutes Maß für das Konzentrationsvermögen (WECHSLER)
Ergebnisse sind in starkem Maße altersabhängig
47. Gliederung Einführung
Ziele und Aufbau
Praktische Handhabung
Gütekriterien
Studie von P. Steck
Auswertung
Kritik
48. Kritik/1 Mängel am HAWIE-R:
keine Bezug auf die probabilistische Testtheorie
Vorwurf: artifizielle Messung
Orientierung auf
Denkresultat statt Denkprozess
Status statt Entwicklungspotential
Vernachlässigung der kreativen Komponenten
Konzept des IQ
Mängel am HAWIE-R:
der HAWIE-R wurde ohne Bezug auf die probabilistische Testtheorie konstruiert
ihm wird deshalb vorgeworfen, völlig artifiziell zu messen
Orientierung auf das Denkresultat, nicht auf den Denkprozess; nur auf den Status, nicht auf das Entwicklungspotential (Lernfähigkeit)
Vernachlässigung der kreativen Komponenten und der für die Erwachsenenintelligenz besonders wichtigen Weisheit (sensu Baltes) und sozial- praktischen Intelligenz (sensu Sternberg)
Unterschätzung der Intelligenz von „Unterprivilegierten“ und kulturellen Minoritäten
ein grundsätzliches Problem aller WECHSLER- Skalen liegt im Konzept des IQ
als Durchschnittsleistung definiert ist mit ihm die Annahme impliziert, dass irgendwelche Untertest- „Tiefs“ einer Testperson durch beliebige Untertests- „Hochs“ egalisiert werden können
Mängel am HAWIE-R:
der HAWIE-R wurde ohne Bezug auf die probabilistische Testtheorie konstruiert
ihm wird deshalb vorgeworfen, völlig artifiziell zu messen
Orientierung auf das Denkresultat, nicht auf den Denkprozess; nur auf den Status, nicht auf das Entwicklungspotential (Lernfähigkeit)
Vernachlässigung der kreativen Komponenten und der für die Erwachsenenintelligenz besonders wichtigen Weisheit (sensu Baltes) und sozial- praktischen Intelligenz (sensu Sternberg)
Unterschätzung der Intelligenz von „Unterprivilegierten“ und kulturellen Minoritäten
ein grundsätzliches Problem aller WECHSLER- Skalen liegt im Konzept des IQ
als Durchschnittsleistung definiert ist mit ihm die Annahme impliziert, dass irgendwelche Untertest- „Tiefs“ einer Testperson durch beliebige Untertests- „Hochs“ egalisiert werden können
49. Kritik/2 Mängel am HAWIE-R:
Validität zu wenig untersucht
einzelne Testitems werden bemängelt
Probanden werden mit diagnostisch wenig informativen Items konfrontiert
HAWIE- und HAWIE-R- Ergebnisse lassen sich nicht direkt vergleichen
Normierungsstichprobe
TEWES‘ Replik Einzelkritikpunkte:
bereits frühe Testrezensenten (FAY, 1993; KUBINGER, 1993) kritisierten, wie wenig der HAWIE-R bisher auf seine Validität hin untersucht wurde
besonders die Tatsache, dass zur prognostischen Validität (schulpsychologische Beratung) überhaupt keine Ergebnisse im Handbuch referiert werden
das noch im Handbuch dargestellte tradierte Konzept mir den beiden Hauptfaktoren ist durch weiterführende Analysen erheblich differenziert worden
danach sind- z.B. in der Inhaltsfacette- numerische, figurale und verbale Anforderungen unterscheidbar (s. auch JÄGERs Intelligenzstrukturmodell)
Vertreter der probabilistischen Testtheorie bemängeln, dass für die einzelnen Untertests nicht geprüft wurde, ob überhaupt homogene Fähigkeiten geprüft werden
FAY, 1993 bemängelt aus gutem (hier nicht darstellbaren) Grund einzelne Testitems (z.B. Wasserkrugbild in BE)
Die Testperson wird wegen des großen Geltungsbereiches weiterhin mit vielen diagnostisch wenig informativen Items konfrontiert
i.d.R. endet der Untertest bei klinischen Patienten mit einer „Frustration“
ein adaptiver Testaufbau könnte diesen Mangel überwinden
direkte Vergleichbarkeit der alten HAWIE- Ergebnisse mit den neuen HAWIE-R- Ergebnissen ist nicht gegeben
der HAWIE bringt durchschnittlich höhere Testwerte als der HAWIE-R (allerdings nur im Bereich bis IQ= 115, danach kehrt sich das Verhältnis um)
Normierungsstichprobe (N= 2000), die hinsichtlich Alter, Schulbildung und Geschlecht für die BRD 1986 repräsentativ war
wann genau die Normierung stattfand, ist nicht ersichtlich
dies geschah wahrscheinlich vor der Vereinigung, so dass die Normen (insbesondere bei den Verbaltests) nicht für die neuen Bundesländer gelten (auch für Österreich und Schweiz nicht gegeben)
TEWES:
Normenaktualisierung:
Normierung vor Vereinigung
keine Übertragbarkeit, weil in beiden Gebieten Unterschiede im Bildungssystem und vermutlich auch in den Sprachgewohnheiten und Alltagserfahrungen bestanden
Validität:
die Kritik am Fehlen von Informationen zur prognostischen Validität ist nicht verständlich, da es ich um einen Erwachsenentest handelt (16- 74 J.)
Einzelkritikpunkte:
bereits frühe Testrezensenten (FAY, 1993; KUBINGER, 1993) kritisierten, wie wenig der HAWIE-R bisher auf seine Validität hin untersucht wurde
besonders die Tatsache, dass zur prognostischen Validität (schulpsychologische Beratung) überhaupt keine Ergebnisse im Handbuch referiert werden
das noch im Handbuch dargestellte tradierte Konzept mir den beiden Hauptfaktoren ist durch weiterführende Analysen erheblich differenziert worden
danach sind- z.B. in der Inhaltsfacette- numerische, figurale und verbale Anforderungen unterscheidbar (s. auch JÄGERs Intelligenzstrukturmodell)
Vertreter der probabilistischen Testtheorie bemängeln, dass für die einzelnen Untertests nicht geprüft wurde, ob überhaupt homogene Fähigkeiten geprüft werden
FAY, 1993 bemängelt aus gutem (hier nicht darstellbaren) Grund einzelne Testitems (z.B. Wasserkrugbild in BE)
Die Testperson wird wegen des großen Geltungsbereiches weiterhin mit vielen diagnostisch wenig informativen Items konfrontiert
i.d.R. endet der Untertest bei klinischen Patienten mit einer „Frustration“
ein adaptiver Testaufbau könnte diesen Mangel überwinden
direkte Vergleichbarkeit der alten HAWIE- Ergebnisse mit den neuen HAWIE-R- Ergebnissen ist nicht gegeben
der HAWIE bringt durchschnittlich höhere Testwerte als der HAWIE-R (allerdings nur im Bereich bis IQ= 115, danach kehrt sich das Verhältnis um)
Normierungsstichprobe (N= 2000), die hinsichtlich Alter, Schulbildung und Geschlecht für die BRD 1986 repräsentativ war
wann genau die Normierung stattfand, ist nicht ersichtlich
dies geschah wahrscheinlich vor der Vereinigung, so dass die Normen (insbesondere bei den Verbaltests) nicht für die neuen Bundesländer gelten (auch für Österreich und Schweiz nicht gegeben)
TEWES:
Normenaktualisierung:
Normierung vor Vereinigung
keine Übertragbarkeit, weil in beiden Gebieten Unterschiede im Bildungssystem und vermutlich auch in den Sprachgewohnheiten und Alltagserfahrungen bestanden
Validität:
die Kritik am Fehlen von Informationen zur prognostischen Validität ist nicht verständlich, da es ich um einen Erwachsenentest handelt (16- 74 J.)
50. Kritik/3 1. Allgemeines Wissen:
Normdaten
medialer Darstellung
2. Bilderergänzen:
physikalische Details
Distraktoreninformationen 1. Allgemeines Wissen:
sehr problematisches Item: „Zahl der Bundesländer“ und „Zahl der Einwohner Deutschlands“
wann die Normdaten erhoben wurden ist nicht ersichtlich im Handbuch
problematisches Item: „Wer wählt bei uns den Bundeskanzler?“
es ist problematisch, ein Wissenselement in einen Test aufzunehmen, von dem man weiß, dass es alle vier Jahre Objekt exzessiver medialer Darstellung ist
2. Bilderergänzen:
physikalische Details werden nicht beachtet, der Pb könnte abgelenkt werden (Item 7, Glas- Wasser)
eine volle Punktzahl zu erreichen ist in diesem Falle also nur bei Nichtbeachtung von unbeabsichtigten Distraktoreninformationen möglich 1. Allgemeines Wissen:
sehr problematisches Item: „Zahl der Bundesländer“ und „Zahl der Einwohner Deutschlands“
wann die Normdaten erhoben wurden ist nicht ersichtlich im Handbuch
problematisches Item: „Wer wählt bei uns den Bundeskanzler?“
es ist problematisch, ein Wissenselement in einen Test aufzunehmen, von dem man weiß, dass es alle vier Jahre Objekt exzessiver medialer Darstellung ist
2. Bilderergänzen:
physikalische Details werden nicht beachtet, der Pb könnte abgelenkt werden (Item 7, Glas- Wasser)
eine volle Punktzahl zu erreichen ist in diesem Falle also nur bei Nichtbeachtung von unbeabsichtigten Distraktoreninformationen möglich
51. Kritik/4 4. Bilderordnen:
Distraktoren
Unachtsamkeiten der Konstrukteure
6. Mosaik- Test:
Kategorie des Drehfehlers 4. Bilderordnen:
unnötige Distraktoren stören den Problemlöseprozess
einige Unachtsamkeiten primen den Probanden
6. Mosaik- Test:
neu eingeführt wurde die Kategorie des Drehfehlers
der Pb kann das Muster bis zu 30 Grad drehen und trotzdem die Gesamtpunktzahl erreichen
warum 30 Grad, wird nicht erklärt
4. Bilderordnen:
unnötige Distraktoren stören den Problemlöseprozess
einige Unachtsamkeiten primen den Probanden
6. Mosaik- Test:
neu eingeführt wurde die Kategorie des Drehfehlers
der Pb kann das Muster bis zu 30 Grad drehen und trotzdem die Gesamtpunktzahl erreichen
warum 30 Grad, wird nicht erklärt
52. Kritik/5 9. Allgemeines Verständnis:
Fragestellung- Problematik
„Warum muss man Steuern zahlen?“
„Wozu werden Steuereinnahmen gebraucht?“
„Warum gibt es ein gesetzliches Arbeitsverbot für Kinder?“
9. Allgemeines Verständnis:
Fragestellung- Problematik
Item 5: „Warum muss man Steuern zahlen?“
wer hier den Grund nennt, nach dem eindeutig gefragt ist, also die zweifelsohne richtige Antwort „Weil es ein Gesetz ist.“ erhält 0 Punkte
eine Antwort auf die gar nicht gestellte Frage „Wozu werden Steuereinnahmen gebraucht?“ dagegen bringt die volle Punktzahl (2 Punkte)
Item 7: „Warum gibt es ein gesetzliches Arbeitsverbot für Kinder?“ (2 Antworten werden erfragt)
antwortet man auf die Frage „Das Kind wird zu schlecht bezahlt und macht außerdem den Erwachsenen Konkurrenz auf dem Arbeitsmarkt.“, erhält man die volle Punktzahl (!)
die Aussage „Kinderarbeit kann zu körperlichen und seelischen Entwicklungsschäden führen“ wird als 1-Punkt- Antwort klassifiziert
also ist die Auswertungsobjektivität mangelhaft
9. Allgemeines Verständnis:
Fragestellung- Problematik
Item 5: „Warum muss man Steuern zahlen?“
wer hier den Grund nennt, nach dem eindeutig gefragt ist, also die zweifelsohne richtige Antwort „Weil es ein Gesetz ist.“ erhält 0 Punkte
eine Antwort auf die gar nicht gestellte Frage „Wozu werden Steuereinnahmen gebraucht?“ dagegen bringt die volle Punktzahl (2 Punkte)
Item 7: „Warum gibt es ein gesetzliches Arbeitsverbot für Kinder?“ (2 Antworten werden erfragt)
antwortet man auf die Frage „Das Kind wird zu schlecht bezahlt und macht außerdem den Erwachsenen Konkurrenz auf dem Arbeitsmarkt.“, erhält man die volle Punktzahl (!)
die Aussage „Kinderarbeit kann zu körperlichen und seelischen Entwicklungsschäden führen“ wird als 1-Punkt- Antwort klassifiziert
also ist die Auswertungsobjektivität mangelhaft
53. Kritik/6 11. Gemeinsamkeiten finden:
'darf, soll oder muss man eine falsche Antwort dann als richtig anerkennen, wenn die Trennschärfe besagt, dass die ansonsten in diesem Untertest „Guten“ dieser irrigen Auffassung sind?‘
Dilemma der theoriegeleitete Testkonstruktion 11. Gemeinsamkeiten finden:
Gemeinsamkeit von Apfelsine und Banane
anerkannt wird u.a. „Baumobst“, was falsch ist, denn Bananen wachsen nun mal nicht auf Bäumen
darf, soll oder muss man eine falsche Antwort dann als richtig anerkennen, wenn die Trennschärfe besagt, dass die ansonsten in diesem Untertest „Guten“ dieser irrigen Auffassung sind?
man steht damit vor dem klassischen Dilemma einer theoriegeleiteten Testkonstruktion
einerseits der psychologisch schlüssigen Operationalisierung dessen, was sprachliches Abstraktionsvermögen sei und der Konfrontation dieser Überlegungen mit empirisch erhobenen Daten, andererseits der Einsicht, dass das Verhaftetsein in einer offensichtlichen Fehlvorstellung von biologisches Gegebenheiten als Mitindiz für ein überdurchschnittlich ausgeprägtes sprachliches Abstraktionsvermögen herangezogen werden kann
es gibt also Sätze, über deren Richtigkeit sich unschwer Konsens herstellen lässt
sie lassen sich nicht per Mehrheitsbeschluss von „richtig“ in „falsch“ umdefinieren
es muss allerdings immer klar definiert sein, was unter dem mittels eines Verfahrens zu messenden Konstrukts zu verstehen sei und was die im Sinne dieses Konstrukts „richtigen“ Antworten sind11. Gemeinsamkeiten finden:
Gemeinsamkeit von Apfelsine und Banane
anerkannt wird u.a. „Baumobst“, was falsch ist, denn Bananen wachsen nun mal nicht auf Bäumen
darf, soll oder muss man eine falsche Antwort dann als richtig anerkennen, wenn die Trennschärfe besagt, dass die ansonsten in diesem Untertest „Guten“ dieser irrigen Auffassung sind?
man steht damit vor dem klassischen Dilemma einer theoriegeleiteten Testkonstruktion
einerseits der psychologisch schlüssigen Operationalisierung dessen, was sprachliches Abstraktionsvermögen sei und der Konfrontation dieser Überlegungen mit empirisch erhobenen Daten, andererseits der Einsicht, dass das Verhaftetsein in einer offensichtlichen Fehlvorstellung von biologisches Gegebenheiten als Mitindiz für ein überdurchschnittlich ausgeprägtes sprachliches Abstraktionsvermögen herangezogen werden kann
es gibt also Sätze, über deren Richtigkeit sich unschwer Konsens herstellen lässt
sie lassen sich nicht per Mehrheitsbeschluss von „richtig“ in „falsch“ umdefinieren
es muss allerdings immer klar definiert sein, was unter dem mittels eines Verfahrens zu messenden Konstrukts zu verstehen sei und was die im Sinne dieses Konstrukts „richtigen“ Antworten sind
54. Fazit HAWIE-R:
längst fällige Verbesserung des praktisch bewährten Tests HAWIE
Nützlichkeit des HAWIE-R steht außer Frage
globale Abschätzung des Intelligenzstatus
für die klinische Einzelfalluntersuchung konkurrenzlos Fazit
der HAWIE-R stellt gegenüber dem HAWIE eine bereits längst fällige Verbesserung eines praktisch bewährten Tests dar
die Nützlichkeit des HAWIE-R steht außer Frage
allerdings gestattet er lediglich eine globale Abschätzung des Intelligenzstatus‘ durch Vorgabe möglichst unterschiedlicher Aufgaben, die nach der Theorie von WECHSLER eine Vorhersage intelligenten Alltagsverhaltens zulassen soll
der überzeugende Beweis für diese Behauptung ist aber immer noch nicht erbracht
davon abgesehen sollten Profilinterpretationen nur bei sehr massiven Untertestdifferenzen gegeben werden
trotz der aufgezeigten Mängel bleibt der HAWIE-R für die klinische Einzelfalluntersuchung Erwachsener und wegen seiner internationalen Verbreitung für die klinisch-psychologische Forschung gegenwärtig konkurrenzlos Fazit
der HAWIE-R stellt gegenüber dem HAWIE eine bereits längst fällige Verbesserung eines praktisch bewährten Tests dar
die Nützlichkeit des HAWIE-R steht außer Frage
allerdings gestattet er lediglich eine globale Abschätzung des Intelligenzstatus‘ durch Vorgabe möglichst unterschiedlicher Aufgaben, die nach der Theorie von WECHSLER eine Vorhersage intelligenten Alltagsverhaltens zulassen soll
der überzeugende Beweis für diese Behauptung ist aber immer noch nicht erbracht
davon abgesehen sollten Profilinterpretationen nur bei sehr massiven Untertestdifferenzen gegeben werden
trotz der aufgezeigten Mängel bleibt der HAWIE-R für die klinische Einzelfalluntersuchung Erwachsener und wegen seiner internationalen Verbreitung für die klinisch-psychologische Forschung gegenwärtig konkurrenzlos
55.
Vielen Dank für die Aufmerksamkeit!