1 / 56

HAWIE-R Hamburg-Wechsler Intelligenztest f r Erwachsene Revision 1991

Gliederung. Einf

gabrielle
Download Presentation

HAWIE-R Hamburg-Wechsler Intelligenztest f r Erwachsene Revision 1991

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


    2. Gliederung Einführung Ziele und Aufbau Praktische Handhabung Gütekriterien Studie von Peter Steck Auswertung Kritik

    3. HAWIE-R deutsche Version des WAIS-R (Wechsler Adult Intelligence Scale - Revised 1981, Tewes 1991) löst HAWIE von 1956 ab (=Aktualisierung der Iteminhalte) ist ausschließlich ein Individualtestverfahren mißt Intelligenzleistungen von Altersstufe 16 bis 74 Jahre vor allem für klinisch- psycholog. Diagnostik entwickelt, in der es vorrangig um die Untersuchung von Ausfallerscheinungen geht Die wesentlichen Unterschiede zum HAWIE sind: Über die Hälfte der Items wurden verändert, wobei insbesondere veraltete Items (z.B. der „fehlende Schlips“) ausgetauscht wurden. Die Anzahl der Items in den einzelnen Untertests wurde z.T. verändert (z.B. im Wortschatz-Test auf 332 reduziert, im Zahlen-Symbol-Test von 67 auf 93 erhöht). Es wird nunmehr eine die Testsituation auflockernde gemischte Vorgabe der Untertests aus dem Verbal- und Handlungsteil vorgesehen. Der Wortschatz-Test ist nicht mehr fakultativ, sondern obligatorisch. Die Verrechnungsmodi haben sich bei den Untertests Zahlennachsprechen, Wortschatz-Test, Bildordnen und Figurenlegen leicht verändert. Der Protokollbogen enthält dankenswerterweise selbst die Umrechnungstabelle Rohpunkte in Wertepunkte.Die wesentlichen Unterschiede zum HAWIE sind: Über die Hälfte der Items wurden verändert, wobei insbesondere veraltete Items (z.B. der „fehlende Schlips“) ausgetauscht wurden. Die Anzahl der Items in den einzelnen Untertests wurde z.T. verändert (z.B. im Wortschatz-Test auf 332 reduziert, im Zahlen-Symbol-Test von 67 auf 93 erhöht). Es wird nunmehr eine die Testsituation auflockernde gemischte Vorgabe der Untertests aus dem Verbal- und Handlungsteil vorgesehen. Der Wortschatz-Test ist nicht mehr fakultativ, sondern obligatorisch. Die Verrechnungsmodi haben sich bei den Untertests Zahlennachsprechen, Wortschatz-Test, Bildordnen und Figurenlegen leicht verändert. Der Protokollbogen enthält dankenswerterweise selbst die Umrechnungstabelle Rohpunkte in Wertepunkte.

    4. Gliederung Einführung Ziele und Aufbau Praktische Handhabung Gütekriterien Studie von P. Steck Auswertung Kritik

    5. Definition von Intelligenz Intelligenz ist „die zusammengesetzte oder globale Fähigkeit des Individuums, zweckvoll zu handeln, vernünftig zu denken und sich mit seiner Umgebung wirkungsvoll auseinander zu setzen.“ (nach David Wechsler, 1956; S.13) Wechslers Überlegungen zielen von vornherein nur auf die Messung (!) der Intelligenz: Gerade für seinen pragmatischen Standpunkt, mehr am Produkt der Intelligenz als am Konstrukt selbst interessiert zu sein, haben auch Einflüsse große Bedeutung, die zwar nicht unmittelbar intellektueller Natur sind, jedoch mittelbar zum Zustandekommen intellektueller Leistungen beitragen. Explizit nennt er: Trieb und Anreiz, in gewisser Weise ist aber auch das Gedächtnis und die Fähigkeit zur sozialen Anpassung zu subsumieren. Vorstellung basiert auf Alexander (1935): Er bestätigte (Spearmans Zweifaktorentheorie) mittels Faktorenanalyse, daß alle Leistungstests durch einen gemeinsamen Faktor bestimmt werden, der jedoch nicht ausreicht, um die Korrelationsmatrix aller verwendeten Tests vollständig zu erklären. Alexander zieht daraus den Schluß, daß sich neben einem allgemeinen Faktor der „Intelligenz“ je ein Faktor „abstrakter“ und „praktischer“ Fähigkeiten für alles intellektuelle Verhalten verantwortlich zeichnet - da dieses zur Erklärung der Korrelationsmatrix nicht ausreicht, nimmt er ergänzende Faktoren, wie Temperaments- und Persönlichkeitsfaktoren an. Wechslers Überlegungen zielen von vornherein nur auf die Messung (!) der Intelligenz: Gerade für seinen pragmatischen Standpunkt, mehr am Produkt der Intelligenz als am Konstrukt selbst interessiert zu sein, haben auch Einflüsse große Bedeutung, die zwar nicht unmittelbar intellektueller Natur sind, jedoch mittelbar zum Zustandekommen intellektueller Leistungen beitragen. Explizit nennt er: Trieb und Anreiz, in gewisser Weise ist aber auch das Gedächtnis und die Fähigkeit zur sozialen Anpassung zu subsumieren. Vorstellung basiert auf Alexander (1935): Er bestätigte (Spearmans Zweifaktorentheorie) mittels Faktorenanalyse, daß alle Leistungstests durch einen gemeinsamen Faktor bestimmt werden, der jedoch nicht ausreicht, um die Korrelationsmatrix aller verwendeten Tests vollständig zu erklären. Alexander zieht daraus den Schluß, daß sich neben einem allgemeinen Faktor der „Intelligenz“ je ein Faktor „abstrakter“ und „praktischer“ Fähigkeiten für alles intellektuelle Verhalten verantwortlich zeichnet - da dieses zur Erklärung der Korrelationsmatrix nicht ausreicht, nimmt er ergänzende Faktoren, wie Temperaments- und Persönlichkeitsfaktoren an.

    6. Theoret. Konzept von Wechsler „Allgemeine Intelligenz“ = Gesamt-IQ resultiert aus der durchschnittl. Leistung in allen 11 Untertests sie teilt sich in : „Verbal-Intelligenz“ = Verbal-IQ setzt sich aus der durchschnittl. Leistung in den dazugehörigen Untertests zusammen „Handlungs-Intelligenz“ = Handlungs-IQ; erfasst vor allem die nicht-intellektuellen Faktoren intelligenten Verhaltens Zitat von Wechsler, 1956, S.22 (Text Kubinger 2 Seite links oben): „Bisher haben Verfasser von Intelligenzskalen ... diese Faktoren als störende Elemente angesehen und so weit wie möglich zu beseitigen versucht. Die Erfahrung hat jedoch gezeigt, daß die Tests um so wirkungsloser in der Messung der allgemeinen Intelligenz sind, je erfolgreicher man bei der Beseitigung dieser Faktoren ist. Es werden keine Tests benötigt, bei denen die nicht-intellektuellen Faktoren ausgeschaltet sind (selbst wenn dieses möglich wäre), sondern im Gegenteil Tests, bei denen diese Faktoren deutlich vorhanden und objektiv abschätzbar sind. Die Handlungstests ... sind ein Versuch in diese Richtung.“ theoretisches Konzept von Wechsler ist implizit hierarchisch: Spitze bildet die „Allgemeine Intelligenz“ (= Gesamt-IQ) sie teilt sich in : „Verbal-Intelligenz“ „Handlungs-Intelligenz“ (erfasst auch die nicht-intellektuellen Faktoren intelligenten Verhaltens) ! Jeder der beiden entsprechenden, gleichwertigen Testteile besteht aus einem breiten Spektrum verschiedenartiger Untertests, die jeweils eine Vielzahl spezifischer Fähigkeiten - im Sinne von Spearmans Zweifaktorentheorie - erfassen und untereinander als funktional äquivalend für die Messung der Intelligenz betrachtet werden.Zitat von Wechsler, 1956, S.22 (Text Kubinger 2 Seite links oben): „Bisher haben Verfasser von Intelligenzskalen ... diese Faktoren als störende Elemente angesehen und so weit wie möglich zu beseitigen versucht. Die Erfahrung hat jedoch gezeigt, daß die Tests um so wirkungsloser in der Messung der allgemeinen Intelligenz sind, je erfolgreicher man bei der Beseitigung dieser Faktoren ist. Es werden keine Tests benötigt, bei denen die nicht-intellektuellen Faktoren ausgeschaltet sind (selbst wenn dieses möglich wäre), sondern im Gegenteil Tests, bei denen diese Faktoren deutlich vorhanden und objektiv abschätzbar sind. Die Handlungstests ... sind ein Versuch in diese Richtung.“ theoretisches Konzept von Wechsler ist implizit hierarchisch: Spitze bildet die „Allgemeine Intelligenz“ (= Gesamt-IQ) sie teilt sich in : „Verbal-Intelligenz“ „Handlungs-Intelligenz“ (erfasst auch die nicht-intellektuellen Faktoren intelligenten Verhaltens) ! Jeder der beiden entsprechenden, gleichwertigen Testteile besteht aus einem breiten Spektrum verschiedenartiger Untertests, die jeweils eine Vielzahl spezifischer Fähigkeiten - im Sinne von Spearmans Zweifaktorentheorie - erfassen und untereinander als funktional äquivalend für die Messung der Intelligenz betrachtet werden.

    7. Testaufbau Wechsler stellte Testbatterien zusammen, die aus zwei gleichwertigen Testteilen bestehen (=Verbalteil & Handlungsteil) Testteile bestehen aus mehreren Untertests (möglichst viele spezifische Fähigkeiten im Sinne Spearmans sollen erfasst werden) Wechsler erhebt nicht den Anspruch alles zu messen, was Intelligenz ausmacht (Zitat) wählt Untertests, die sich in Voruntersuchungen als einigermaßen zuverlässig, gültig und trennscharf erwiesen haben; nicht nach Repräsentativität Wechsler versucht also Testbatterien zusammenzustellen, die aus zwei gleichwertigen Testteilen, dem Verbalteil und dem Handlungsteil bestehen, wobei letzterer vor allem die nicht-intellektuellen Determinanten intelligenten Verhaltens erfassen soll Wechsler wollte aber auch zwischen den abstrakten bzw. verbalen Fähigkeiten, also der Gewandheit im Benutzen von Symbolen, und den praktischen Fähigkeiten, also der Geschicklichkeit im Handhaben von Objekten, differenzieren Daß jeder der beiden Testteile seinerseits aus einer Reihe von Untertests besteht, soll dem Bestreben Rechnung tragen, auch möglichst viele spezifische Fähigkeiten im Sinne Spearmans zu erfassen. Wechsler erhebt dabei keinesfalls den Anspruch alles zu messen, was Intelligenz ausmacht (Zitat) Zitat Wechsler 1956, S.22: „denn kein Test würde dazu gegenwärtig in der Lage sein. Wir könnten lediglich von einer Intelligenzskala verlangen, hinreichende Teile der Intelligenz zu messen, damit wir sie als einigermaßen zuverlässigen Index der globalen Leistungsfähigkeit des Prüflings benützen können.“ Er stellt sich daher erst gar nicht dem Problem, die Untertests in Hinblick auf ihre Repräsentativität auszuwählen; vielmehr wurden diejenigen Tests bzw. Aufgaben in die Testbatterien aufgenommen, welche sich in entsprechenden Voruntersuchungen als einigermaßen zuverlässig, gültig und trennscharf erwiesen haben. Wechsler versucht also Testbatterien zusammenzustellen, die aus zwei gleichwertigen Testteilen, dem Verbalteil und dem Handlungsteil bestehen, wobei letzterer vor allem die nicht-intellektuellen Determinanten intelligenten Verhaltens erfassen soll Wechsler wollte aber auch zwischen den abstrakten bzw. verbalen Fähigkeiten, also der Gewandheit im Benutzen von Symbolen, und den praktischen Fähigkeiten, also der Geschicklichkeit im Handhaben von Objekten, differenzieren Daß jeder der beiden Testteile seinerseits aus einer Reihe von Untertests besteht, soll dem Bestreben Rechnung tragen, auch möglichst viele spezifische Fähigkeiten im Sinne Spearmans zu erfassen. Wechsler erhebt dabei keinesfalls den Anspruch alles zu messen, was Intelligenz ausmacht (Zitat) Zitat Wechsler 1956, S.22: „denn kein Test würde dazu gegenwärtig in der Lage sein. Wir könnten lediglich von einer Intelligenzskala verlangen, hinreichende Teile der Intelligenz zu messen, damit wir sie als einigermaßen zuverlässigen Index der globalen Leistungsfähigkeit des Prüflings benützen können.“ Er stellt sich daher erst gar nicht dem Problem, die Untertests in Hinblick auf ihre Repräsentativität auszuwählen; vielmehr wurden diejenigen Tests bzw. Aufgaben in die Testbatterien aufgenommen, welche sich in entsprechenden Voruntersuchungen als einigermaßen zuverlässig, gültig und trennscharf erwiesen haben.

    8. Verbalteil besteht aus sechs Untertests: 1) Allgemeines Wissen (AW, 24 Items) 2) Zahlennachsprechen (ZN, 14 Items) 3) Wortschatz-Test (WT, 32 Items) 4) Rechnerisches Denken (RD,14 Items) 5) Allgemeines Verständnis (AV, 13 Items) 6) Gemeinsamkeiten finden (GF, 16 Items)

    9. Handlungsteil setzt sich aus 5 Untertests zusammen: 1) Bilderergänzen (BE, 17 Items) 2) Bilderordnen (BO, 10 Items) 3) Mosaik-Test (MT, 9 Items) 4) Figurenlegen (FL, 4 Items) 5) Zahlen-Symbol-Test (ZS, 93 Items)

    10. Einsatzbereich des HAWIE-R Auf dem Umschlag des Handbuchs heißt es: „Der Test eignet sich zur Einschätzung des allgemeinen geistigen Entwicklungsstandes und der Untersuchung von alters-, milieu- oder krankheitsbedingten Leistungsbeeinträchti-gungen in bestimmten Bereichen. Er wird mit Vorteil auch bei Schülern in den oberen Klassen weiterbildender Schulen eingesetzt.“ Weiteres Zitat aus dem Handbuch: „Betrachtet man die umfassende Literaturdokumentation bei Matarazzo ... so wird eindrucksvoll deutlich, daß die Wechsler-Intelligenztests für Erwachsene in der klinischen Praxis und Forschung zu den am häufigs-ten eingesetzten Testverfahren gehören ... Der HAWIE ist ... ein zur Zeit noch sehr gebräuchliches Verfahren ... bei psychisch und neurologisch behinderten Personen oder auch bei älteren, testunerfahrenen Probanden, denen man keinen Multiple-Choice-Test zumuten kann. Die Verschiebung der Alterspyramide und die zunehmende Bedeutung der Gerontopsychologie machen Testverfahren erforderlich, die ... nach dem Muster eines standardisierten Dialogs konstruiert sind.“ (Handbuch, S.8)Weiteres Zitat aus dem Handbuch: „Betrachtet man die umfassende Literaturdokumentation bei Matarazzo ... so wird eindrucksvoll deutlich, daß die Wechsler-Intelligenztests für Erwachsene in der klinischen Praxis und Forschung zu den am häufigs-ten eingesetzten Testverfahren gehören ... Der HAWIE ist ... ein zur Zeit noch sehr gebräuchliches Verfahren ... bei psychisch und neurologisch behinderten Personen oder auch bei älteren, testunerfahrenen Probanden, denen man keinen Multiple-Choice-Test zumuten kann. Die Verschiebung der Alterspyramide und die zunehmende Bedeutung der Gerontopsychologie machen Testverfahren erforderlich, die ... nach dem Muster eines standardisierten Dialogs konstruiert sind.“ (Handbuch, S.8)

    11. Gliederung Einführung Ziele und Aufbau Praktische Handhabung Gütekriterien Studie von P. Steck Auswertung Kritik

    12. Praktische Handhabung/1 Testmaterialien: Handbuch mit Testanweisung (121 Seiten, davon 32 Seiten Tabellen und 15 Seiten Anhang: Bewertungskriterien) Vorlageheft für die Untertests Bildergänzen und Mosaik-Test Bildkarten zum Untertest Bildordnen neun Würfel für den Mosaik-Test Puzzelteile des Untertests Figurenlegen Auswertschablone für den Zahlen-Symbol-Test 25 Protokollbögen Handbuch: Im Handbuch sind die Modalitäten der Test-applikation festgelegt, die Instruktionen sind wörtlich vorgegeben. Handbuch: Im Handbuch sind die Modalitäten der Test-applikation festgelegt, die Instruktionen sind wörtlich vorgegeben.

    13. Praktische Handhabung/2 Mehrzahl der Tests sind reine power-Tests beim Handlungsteil fließt in die Verrechnung zumeist auch die speed-Komponente mit ein Zahlen-Symbol-Test ist ein reiner speed-Test Abbruchkriterium beinhalten die meisten Untertests Untertest wird unterbrochen, wenn die Tpn 3 bzw. 4 Aufgaben in ununterbrochener Reihenfolge nicht lösen können Testdauer: 60 bis 90 Minuten Auswertungsdauer: keine Angaben Die meisten Untertests sind power-Tests, im Handlungsteil können zusätzliche Zeitbonuspunkte erreicht werden (speed-Komponente); der Zahlen-Symbol-Test ist ein reiner Geschwindigkeitstest. Für eine Reihe an Untertests gibt es ein Abbruchkriterium: die Vorgabe des jeweiligen Untertests wird abgebrochen, wenn die Testperson eine bestimmte Anzahl (meist 3 bzw. 4) Items in Folge nicht gelöst hat. Testdauer wird mit 60 bis 90 Minuten angegeben, die Auswertung bei einem routinierten Testleiter erfordert 5 bis 10 Minuten (aber: keine Angaben im Handbuch dazu gemacht) Die meisten Untertests sind power-Tests, im Handlungsteil können zusätzliche Zeitbonuspunkte erreicht werden (speed-Komponente); der Zahlen-Symbol-Test ist ein reiner Geschwindigkeitstest. Für eine Reihe an Untertests gibt es ein Abbruchkriterium: die Vorgabe des jeweiligen Untertests wird abgebrochen, wenn die Testperson eine bestimmte Anzahl (meist 3 bzw. 4) Items in Folge nicht gelöst hat. Testdauer wird mit 60 bis 90 Minuten angegeben, die Auswertung bei einem routinierten Testleiter erfordert 5 bis 10 Minuten (aber: keine Angaben im Handbuch dazu gemacht)

    14. Gliederung Einführung Ziele und Aufbau Praktische Handhabung Gütekriterien Studie von P. Steck Auswertung Kritik

    15. Gütekriterien/1 Durchführungsobjektivität aufgrund der meist sehr klaren Instruktionen gegeben; unterliegt lediglich den bei allen im Dialog durchge-führten Individualtests typischen Einschränkungen (reduziert wegen Einzeltestvorgabe) Ausnahme: Bilderordnen Auswertungsobjektivität wurde gegenüber dem HAWIE wahrscheinlich verbessert, da einfachere und häufiger eindeutige Bewertungsrichtlinien im Verbalteil vorgegeben werden Interpretationsobjektivität ist gegeben Objektivität (=Anwenderunabhängigkeit) Durchführungsobjektivität - Ausnahme: Dem Testleiter wird beim Bilderordnen die „Empfehlung“ gegeben, falls die Zeit noch reicht , die Testperson dazu aufzufordern, die Lösungen zu begründen oder beim Lösen eine Geschichte zu erzählen - damit wird eine Verletzung der Durchführungsobjektivität in Kauf genommen. Auswertungsobjektivität wurde gegenüber dem HAWIE wahrscheinlich verbessert, da einfachere und häufiger eindeutige Bewertungsrichtlinien im Verbalteil vorgegeben werden. Aber: trotzdem zeigt eine kleine Studie des Herausgebers des HAWIE-R, daß insbesondere beim Untertest Allgemeines Verständnis noch Bewertungsdifferenzen auftreten können. Im Mosaik-Test muß jetzt auch entschieden werden, ob eine Drehung um mehr als 30 Grad vorliegt; hier dürften Auswertungsdifferenzen auftreten.Objektivität (=Anwenderunabhängigkeit) Durchführungsobjektivität - Ausnahme: Dem Testleiter wird beim Bilderordnen die „Empfehlung“ gegeben, falls die Zeit noch reicht , die Testperson dazu aufzufordern, die Lösungen zu begründen oder beim Lösen eine Geschichte zu erzählen - damit wird eine Verletzung der Durchführungsobjektivität in Kauf genommen. Auswertungsobjektivität wurde gegenüber dem HAWIE wahrscheinlich verbessert, da einfachere und häufiger eindeutige Bewertungsrichtlinien im Verbalteil vorgegeben werden. Aber: trotzdem zeigt eine kleine Studie des Herausgebers des HAWIE-R, daß insbesondere beim Untertest Allgemeines Verständnis noch Bewertungsdifferenzen auftreten können. Im Mosaik-Test muß jetzt auch entschieden werden, ob eine Drehung um mehr als 30 Grad vorliegt; hier dürften Auswertungsdifferenzen auftreten.

    16. Gütekriterien/2 Reliabilität wurde mittels Cronbachs-a bestimmt: liegt für die einzelnen Untertests und pro Altersgruppe zwischen .64 (FL) und .95 (ZS, mit Testhalbierung) beim Gesamt-IQ bei mindestens .95 Standardmessfehler werden getrennt nach Skalen und Altersgruppen angegeben kritische Differenzen für Profilinterpretationen nicht angegeben Reliabilität (=Zuverlässigkeit, d.h. wie genau mißt der Test das, was er mißt) FL = Figurenlegen ZS = Zahlen-Symbol-Test ein Cronbachs-a von mindestens .90 wird darüber hinaus nur gelegentlich für die Untertests Allgemeines Wissen, Wortschatz-Test, Rechnerisches Denken und Gemeinsamkeitenfinden beobachtetReliabilität (=Zuverlässigkeit, d.h. wie genau mißt der Test das, was er mißt) FL = Figurenlegen ZS = Zahlen-Symbol-Test ein Cronbachs-a von mindestens .90 wird darüber hinaus nur gelegentlich für die Untertests Allgemeines Wissen, Wortschatz-Test, Rechnerisches Denken und Gemeinsamkeitenfinden beobachtet

    17. Gütekriterien/3 faktorielle Validität (= im Sinne einer Konstruktvalidierung) die Wechslersche Unterteilung in einen Verbal- und Handlungsfaktor wird bestätigt (allerdings haben ZN und RD auf beiden Faktoren substantielle Ladungen) Extremgruppenvalidierung Gruppenunterschiede zwischen Absolventen verschiedener Schultypen sowie zwischen Alkoholikern und Nicht-Alkoholikern bzw. Ähnlichkeiten zwischen Verwandten (z.B. Geschwister) werden als Hinweis für die Validität aufgeführt. Validität (=Gültigkeit, d.h. sie gibt an, ob der Test das mißt, was er zu messen vorgibt) Faktorielle Validität: ZN =Zahlennachsprechen RD = Rechnerisches Denken die höchsten Ladungen im 1. Faktor weist der Wortschatz-Test mit .86 auf, im 2. Faktor der Untertest Figurenlegen mit .78 die Ladungen mit jeweils anderen Faktoren sind durchweg klein Extremgruppenvalidierung: es ergeben sich weitgehende Unterschiede zwischen den Schulbildungen „Hauptschule“, „Realschule“ und „Gymnasium“ sowie zwischen Alkoholikern und Nicht-Alkoholikern.Validität (=Gültigkeit, d.h. sie gibt an, ob der Test das mißt, was er zu messen vorgibt) Faktorielle Validität: ZN =Zahlennachsprechen RD = Rechnerisches Denken die höchsten Ladungen im 1. Faktor weist der Wortschatz-Test mit .86 auf, im 2. Faktor der Untertest Figurenlegen mit .78 die Ladungen mit jeweils anderen Faktoren sind durchweg klein Extremgruppenvalidierung: es ergeben sich weitgehende Unterschiede zwischen den Schulbildungen „Hauptschule“, „Realschule“ und „Gymnasium“ sowie zwischen Alkoholikern und Nicht-Alkoholikern.

    18. Gütekriterien/4 Skalierung dazu werden nur Analysen der klassischen Test-theorie angeführt Trennschärfen sind gering, wie bei den Wechsler-Skalen üblich (vgl. z.B. Kubinger, 1983) Schwierigkeiten sind absichtlich so gewählt, daß der Test im unteren Leistungsbereich besser differenziert. „Er wurde in erster Linie für die klinisch-psychologische Diagnostik entwickelt, bei der es eher um die Untersuchung von Ausfaller-scheinungen geht“ (nicht für die Untersuchung Hochbegabter, S.46) Skalierung: hierzu werden nur Analysen der klassischen Testtheorie angeführt - „ Gegen eine Neukonstruktion auf probabilistischer Grundlage hatte sich der amerikanische Herausgeber jedoch schon bei der Neubearbeitung der Kinderform ausgesprochen.“(Handbuch S.9) Trennschärfen: sind gering, wie bei den Wechsler-Skalen üblich (vgl. z.B. Kubinger, 1983); Schwierigkeiten sind absichtlich so gewählt, daß der Test im unteren Leistungsbereich besser differenziert - „Der Test soll nicht der Untersuchung von Hochbegabten dienen. Er wurde in erster Linie für die klinisch-psychologische Diagnostik entwickelt, bei der es eher um die Untersuchung von Ausfallerscheinungen geht.“(S.46). Skalierung: hierzu werden nur Analysen der klassischen Testtheorie angeführt - „ Gegen eine Neukonstruktion auf probabilistischer Grundlage hatte sich der amerikanische Herausgeber jedoch schon bei der Neubearbeitung der Kinderform ausgesprochen.“(Handbuch S.9) Trennschärfen: sind gering, wie bei den Wechsler-Skalen üblich (vgl. z.B. Kubinger, 1983); Schwierigkeiten sind absichtlich so gewählt, daß der Test im unteren Leistungsbereich besser differenziert - „Der Test soll nicht der Untersuchung von Hochbegabten dienen. Er wurde in erster Linie für die klinisch-psychologische Diagnostik entwickelt, bei der es eher um die Untersuchung von Ausfallerscheinungen geht.“(S.46).

    19. Gütekriterien/5 Normierung beruht auf Gesamtstichprobe von N=2000 Testpersonen, die hinsichtlich Alter zwischen 16 und 74 Jahre sind, wobei die 20 bis 34jährigen überwiegen. aber: Schulbildung und Geschlecht der Stich- probe war für die BRD ca. um 1986 repräsentativ (wann genau die Normierung stattfand ist aus dem Handbuch nicht zu entnehmen) Normierung: Die eigentlichen Normen basieren lediglich auf den 20- bis 34jährigen, weil laut Wechsler: „die geistige Entwicklung in dieser Altersgruppe ihr Maximum erreiche und relativ konstant bleibe“ (S. 13) - die entsprechenden Untertest-Wertepunkte dienen auch der Berechnung des IQ. ! Ergänzend können altersspezifische Normwerte bzw. Normwerte für Gymnasiasten bestimmt werden, jedoch nur für die einzelnen Untertests, nicht für den IQ. Aber: wann genau die Normierung stattfand ist aus dem Handbuch nicht zu entnehmen, wahrscheinlich aber vor der Vereinigung, so daß fraglich ist, ob die Normen (insbesondere bei den Verbaltests) auch für die neuen Bundesländer gelten; dieser Einwand gilt möglicherweise auch für die Schweiz und Österreich.Normierung: Die eigentlichen Normen basieren lediglich auf den 20- bis 34jährigen, weil laut Wechsler: „die geistige Entwicklung in dieser Altersgruppe ihr Maximum erreiche und relativ konstant bleibe“ (S. 13) - die entsprechenden Untertest-Wertepunkte dienen auch der Berechnung des IQ. ! Ergänzend können altersspezifische Normwerte bzw. Normwerte für Gymnasiasten bestimmt werden, jedoch nur für die einzelnen Untertests, nicht für den IQ. Aber: wann genau die Normierung stattfand ist aus dem Handbuch nicht zu entnehmen, wahrscheinlich aber vor der Vereinigung, so daß fraglich ist, ob die Normen (insbesondere bei den Verbaltests) auch für die neuen Bundesländer gelten; dieser Einwand gilt möglicherweise auch für die Schweiz und Österreich.

    20. Das Verfahren ist: ökonomisch bietet gute Beobachtungsmöglichkeiten (z.B. im Handlungsteil Vorgehen nach „Versuch und Irrtum“ vs. planvolles Handeln) zumutbar (insbesondere für klinisches Klientel) Simulationen sind wie bei allen Leistungstests möglich; sie sind aber wegen guter Beobach-tungsmöglichkeiten eher erkennbar als bei anderen erwachsenendiagnostischen Verfahren keine systematischen Untersuchungen zur Fairneß vorhanden Ökonomisch: für einen Individualtest und entsprechend der Komplexität des Gültigkeitsbereichs sehr ökonomisch und Nützlich, da Intelligenz interaktiv (mit bestimmten Materialien einerseits und mit dem Testleiter andererseits), bei gleichzeitiger Beobachtungsmöglichkeit des Arbeits- und Kontaktverhaltens, erfasst wird. Für den Test gibt es im Erwachsenenbereich keine Alternative. Zumutbarkeit: ist im Sinne des Testkuratoriums (der Föderation deutscher Psychologenverbände; 1986) gegeben; vielleicht mit der Einschränkung, daß jede Testperson bei fast jedem Untertest solange getestet wird, bis sie versagt - und vielleicht frustriert wird. Verfälschbarkeit/Simulationen: bei Fragestellungen wie z.B. Rentenbegehren wichtig Fairneß: (d.h. ist nicht geprüft!) aber der Wortschatz-Test zeigt die höchsten Korrelationen zum Gesamt-IQ, das bedeutet, daß Bildungsfaktoren (vor allem schulisch-akademische, im Sinne westeuropäischer und US-amerikanischer Tradition) das Gesamtergebnis stark determinieren, so daß weniger Gebildete wohl auch als weniger intelligent erscheinen.Ökonomisch: für einen Individualtest und entsprechend der Komplexität des Gültigkeitsbereichs sehr ökonomisch und Nützlich, da Intelligenz interaktiv (mit bestimmten Materialien einerseits und mit dem Testleiter andererseits), bei gleichzeitiger Beobachtungsmöglichkeit des Arbeits- und Kontaktverhaltens, erfasst wird. Für den Test gibt es im Erwachsenenbereich keine Alternative. Zumutbarkeit: ist im Sinne des Testkuratoriums (der Föderation deutscher Psychologenverbände; 1986) gegeben; vielleicht mit der Einschränkung, daß jede Testperson bei fast jedem Untertest solange getestet wird, bis sie versagt - und vielleicht frustriert wird. Verfälschbarkeit/Simulationen: bei Fragestellungen wie z.B. Rentenbegehren wichtig Fairneß: (d.h. ist nicht geprüft!) aber der Wortschatz-Test zeigt die höchsten Korrelationen zum Gesamt-IQ, das bedeutet, daß Bildungsfaktoren (vor allem schulisch-akademische, im Sinne westeuropäischer und US-amerikanischer Tradition) das Gesamtergebnis stark determinieren, so daß weniger Gebildete wohl auch als weniger intelligent erscheinen.

    21. Gliederung Einführung Ziele und Aufbau Praktische Handhabung Gütekriterien Studie von P. Steck Auswertung Kritik

    22. Umfrage Psychologische Testverfahren in der Praxis

    23. Umfrage Im wesentlichen 3 Kategorien von Tests im dt. Raum (Kubinger; 1995)

    24. Datenerhebung Fragebogen wurde an 1000 zufällig ausgewählte Mitgliedern des Berufsverbandes Deutscher Psychologen (BDP) verschickt Rücklauf von 271 Fragebögen (27,1 %) davon konnten nur 250 ausgewertet werden

    25. Fragebogen

    26. Datenverarbeitung Auswertung erfolgte mittels Überführung in numerischen Code bei Ja/ Nein Antworten und Zuweisung in vorher festgelegten Kategoriensystemen (wurden überprüft durch 2 unabhängige Beurteiler ?Kappa- Koeffizient zwischen .72 und .98)

    27. Ergebnisse 169 von 250 Psychologen (67,9%) setzten Tests in der Berufspraxis ein 200 Tests waren erkennbar (von 254)

    28. Ergebnisse

    29. Vergleich

    30. Qualitätsmerkmale

    31. Abgelehnte Verfahren Gar nicht oder ungern verwendete Tests (N=121): - Rorschach- Test (24 Nennungen) - MMPI (13) - TAT (12) - IST/ IST 70 (11) - HAWIK/ HAWIK-R (8) - HAWIE/ HAWIE-R (3) Gründe / Nachteile: - Unökonomisch - Hauptgütekriterien/ Konstruktion ungenügend - Geringe /keine diagnostische Relevanz - Geringe /keine Akzeptanz - Auswertung schwer handhabbar

    32. Subtest und Anwendung 53 der Befragten gaben an, sich bei den Tests auf einzelne Subtests zu beschränken - v.a. bei HAWIE/ HAWIE-R; IST/ IST 70; HAWIK/ HAWIK-R; LPS; PFK u.a. 58 Befragte gaben an, die Tests in abweichender Form anzuwenden - v.a. bei HAWIK/ HAWIK-R; TAT u.a. Abweichungen beziehen sich auf Instruktion, Durchführung (Zweckentfremdung, Verkürzung, Modifizierung des Testmaterials) und Auswertung

    33. Fazit zur Umfrage Gehört mit zu den am häufigsten verwendeten Tests (national und international) Hat einen relativ stabilen Platz in der Rangordnung der letzten 20 Jahre

    34. Gliederung Einführung Ziele und Aufbau Praktische Handhabung Gütekriterien Studie von P. Steck Auswertung Kritik

    35. Auswertung/1 Allgemein: Auswertung erfolgt über die Anzahl richtig gelöster Aufgaben Berechnung von Verbal- IQ, Handlungs- IQ und Gesamt- IQ daneben werden noch alters- und bildungsspezifische Wertpunkttabellen angeben Dauer der Testauswertung: 5- 10 Minuten Auswertung, allgemein: die Auswertung erfolgt über die Anzahl der richtig gelösten Aufgaben es werden ein Verbal- IQ, ein Handlungs- IQ und ein Gesamt- IQ berechnet für diesen Zweck werden die Wertpunktsummen für die 6 Verbaltests, die 5 Handlungstests und für alle 11 Untertests berechnet und in IQ- Werte (normierter Mittelwert aller Wertpunkte) transformiert direkt aus Umrechnungstabellen daneben werden noch alters- und bildungsspezifische (Gymnasiasten und Abiturienten) Wertpunkttabellen angeben, die z.T. aber auf sehr kleinen SP beruhen Testauswertung dauert bei einem routinierten Testleiter 5- 10 Minuten Auswertung, allgemein: die Auswertung erfolgt über die Anzahl der richtig gelösten Aufgaben es werden ein Verbal- IQ, ein Handlungs- IQ und ein Gesamt- IQ berechnet für diesen Zweck werden die Wertpunktsummen für die 6 Verbaltests, die 5 Handlungstests und für alle 11 Untertests berechnet und in IQ- Werte (normierter Mittelwert aller Wertpunkte) transformiert direkt aus Umrechnungstabellen daneben werden noch alters- und bildungsspezifische (Gymnasiasten und Abiturienten) Wertpunkttabellen angeben, die z.T. aber auf sehr kleinen SP beruhen Testauswertung dauert bei einem routinierten Testleiter 5- 10 Minuten

    36. Auswertung/2 Berechnung der Wertpunkte: zunächst Berechnung der Punktzahl jeden Untertests = Rohwert die Rohwerte können in verschiedene Wertpunkte transformiert werden Ankreuzen der Rohwerte ergibt das Testprofil des Probanden Berechnung der Wertpunkte: zunächst Berechnung der Punktzahl jeden Untertests = Rohwert die einzelnen Untertest- Rohwerte werden in die entsprechende Ergebnisspalte des Protokollbogens eingetragen die Rohwerte können in verschiedene Wertpunkte transformiert werden Voraussetzung für die Bestimmung des IQ sind die „Wertpunkte A“ hierbei handelt es sich um die Abweichungswerte von den Erwartungswerten der Altersgruppe 20- 34 Jahre durch Ankreuzen der Rohwerte in der Wertpunkttabelle auf dem Deckblatt erhält man auch das Testprofil des Pb für die Interpretation der Testergebnisse kann es unter Umständen sinnvoll sein, die Abweichung der Rohwerte von anderen Referenzgruppen (z.B. Gymnasiasten) zu bestimmen hierfür gibt es die Spalte „Wertpunkte B“ 10 Wertpunkte entsprechen dem Durchschnitt der Altersgruppe, der der Pb zuzurechnen ist (Orientierungswerte) Berechnung der Wertpunkte: zunächst Berechnung der Punktzahl jeden Untertests = Rohwert die einzelnen Untertest- Rohwerte werden in die entsprechende Ergebnisspalte des Protokollbogens eingetragen die Rohwerte können in verschiedene Wertpunkte transformiert werden Voraussetzung für die Bestimmung des IQ sind die „Wertpunkte A“ hierbei handelt es sich um die Abweichungswerte von den Erwartungswerten der Altersgruppe 20- 34 Jahre durch Ankreuzen der Rohwerte in der Wertpunkttabelle auf dem Deckblatt erhält man auch das Testprofil des Pb für die Interpretation der Testergebnisse kann es unter Umständen sinnvoll sein, die Abweichung der Rohwerte von anderen Referenzgruppen (z.B. Gymnasiasten) zu bestimmen hierfür gibt es die Spalte „Wertpunkte B“ 10 Wertpunkte entsprechen dem Durchschnitt der Altersgruppe, der der Pb zuzurechnen ist (Orientierungswerte)

    37. Wertpunkteäquivalente für die Rohwerte

    38. Auswertung/3 Berechnung der IQ- Werte: Berechnung erfolgt über „Wertpunkte A“ Berechnung der Wertpunkte der 6 Verbaltests der 5 Handlungstests aller 11 Untertests drei Summenwerte werden im Protokollbogen eingetragen m.H. der IQ- Umrechnungstabelle wird der IQ bestimmt Berechnung der IQ- Werte: Berechnung erfolgt über „Wertpunkte A“ Berechnung der Wertepunkte der 6 Verbaltests der 5 Handlungstests aller 11 Untertests diese drei Summenwerte werden im Protokollbogen eingetragen m.H. der IQ- Umrechnungstabelle (S.86- 103) wird der IQ bestimmt Berechnung der IQ- Werte: Berechnung erfolgt über „Wertpunkte A“ Berechnung der Wertepunkte der 6 Verbaltests der 5 Handlungstests aller 11 Untertests diese drei Summenwerte werden im Protokollbogen eingetragen m.H. der IQ- Umrechnungstabelle (S.86- 103) wird der IQ bestimmt

    39. Inhaltliche Bedeutung der Skalen/1 Gesamt- IQ: Hinweis auf das allgemeine geistige Leistungsvermögen des Individuums ob eine Person eher praktisch oder verbal- theoretisch begabt ist Leistungsbeeinträchtigungen vor bestimmtem Hintergrund interpretieren Inhaltliche Bedeutung der Skalen: der Gesamt- IQ gibt einen Hinweis auf das allgemeine geistige Leistungsvermögen des Individuums gibt Auskunft darüber, ob eine Person eher praktisch oder verbal- theoretisch begabt ist Leistungsbeeinträchtigungen sollten immer vor dem Hintergrund milieuspezifischer Einflüsse und möglicher krankheits- oder verletzungsbedingter Behinderungen interpretiert werdenInhaltliche Bedeutung der Skalen: der Gesamt- IQ gibt einen Hinweis auf das allgemeine geistige Leistungsvermögen des Individuums gibt Auskunft darüber, ob eine Person eher praktisch oder verbal- theoretisch begabt ist Leistungsbeeinträchtigungen sollten immer vor dem Hintergrund milieuspezifischer Einflüsse und möglicher krankheits- oder verletzungsbedingter Behinderungen interpretiert werden

    41. Inhaltliche Bedeutung der Skalen/2 Allgemeines Wissen: überprüft dasjenige Wissen, „das sich ein Durchschnittsmensch [...] selbst aneignen kann“ (MATARAZZO, 1982) kulturabhängig Zahlengedächtnis: geringer Bedeutung für das allgemeine intellektuelle Leistungsniveau Inhaltliche Bedeutung der Skalen: Allgemeines Wissen: überprüft dasjenige Wissen, „dass sich ein Durchschnittsmensch mit durchschnittlichen Bildungsmöglichkeiten selbst aneignen kann“ (MATARAZZO, 1982) kulturabhängig/ sprachabhängig Zahlengedächtnis: scheint von geringer Bedeutung für das allgemeine intellektuelle Leistungsniveau zu sein trotzdem sind Leistungsausfälle klinisch bedeutsam, da es klinische Zshg.e geben kann Inhaltliche Bedeutung der Skalen: Allgemeines Wissen: überprüft dasjenige Wissen, „dass sich ein Durchschnittsmensch mit durchschnittlichen Bildungsmöglichkeiten selbst aneignen kann“ (MATARAZZO, 1982) kulturabhängig/ sprachabhängig Zahlengedächtnis: scheint von geringer Bedeutung für das allgemeine intellektuelle Leistungsniveau zu sein trotzdem sind Leistungsausfälle klinisch bedeutsam, da es klinische Zshg.e geben kann

    42. Inhaltliche Bedeutung der Skalen/3 Wortschatztest: „exzellentes Maß“ der allgemeinen Intelligenz weitgehend unabhängig vom Lebensalter Rechnerisches Denken: gutes allgemeines Intelligenzmaß Leistungen sind abhängig von schulischer und beruflicher Erfahrung Inhaltliche Bedeutung der Skalen: Wortschatztest: gilt als „exzellentes Maß“ der allgemeinen Intelligenzeiner Person (MATARAZZO) weitgehend unabhängig vom Lebensalter gutes Maß für Lernfähigkeit und verbale Informationsbreite des Probanden Rechnerisches Denken: gutes allgemeines Intelligenzmaß (MATARAZZO) Leistungen sind abhängig von schulischer und beruflicher Erfahrung COHEN (1942) weist darauf hin, dass das niedrige Testwerte auch auf mangelndes Sprachverständnis zurückzuführen sein können Inhaltliche Bedeutung der Skalen: Wortschatztest: gilt als „exzellentes Maß“ der allgemeinen Intelligenzeiner Person (MATARAZZO) weitgehend unabhängig vom Lebensalter gutes Maß für Lernfähigkeit und verbale Informationsbreite des Probanden Rechnerisches Denken: gutes allgemeines Intelligenzmaß (MATARAZZO) Leistungen sind abhängig von schulischer und beruflicher Erfahrung COHEN (1942) weist darauf hin, dass das niedrige Testwerte auch auf mangelndes Sprachverständnis zurückzuführen sein können

    43. Inhaltliche Bedeutung der Skalen/4 Allgemeines Verständnis: prüft den „gesunden Menschenverstand“ erfasst die Fähigkeit zum logischen Denken (WECHSLER) Gemeinsamkeiten finden: erlaubt quantitativen und qualitative Aussagen logische Struktur der Denkprozesse (WECHSLER, MATARAZZO) Inhaltliche Bedeutung der Skalen: Allgemeines Verständnis: prüft den „gesunden Menschenverstand“ erfasst die Fähigkeit zum logischen Denken (WECHSLER) abhängig von Sprachverständnis Gemeinsamkeiten finden: nach WECHSLER große Bedeutung sei besonders gut geeignet, um neben quantitativen Aussagen auch qualitative Aussagen zu machen gibt Auskunft über logische Struktur der Denkprozesse (WECHSLER, MATARAZZO) abhängig von sprachlichen FähigkeitenInhaltliche Bedeutung der Skalen: Allgemeines Verständnis: prüft den „gesunden Menschenverstand“ erfasst die Fähigkeit zum logischen Denken (WECHSLER) abhängig von Sprachverständnis Gemeinsamkeiten finden: nach WECHSLER große Bedeutung sei besonders gut geeignet, um neben quantitativen Aussagen auch qualitative Aussagen zu machen gibt Auskunft über logische Struktur der Denkprozesse (WECHSLER, MATARAZZO) abhängig von sprachlichen Fähigkeiten

    44. Inhaltliche Bedeutung der Skalen/5 Bilderergänzen: Fähigkeit, zwischen wichtigen und unwichtigen Details bei visuellen Vorlagen zu unterscheiden (WECHSLER) Bilderordnen: Fähigkeit, die Gesamtsituation zu verstehen und die Einzelaspekte hinsichtlich ihrer Bedeutung richtig einzuschätzen (WECHSLER) Inhaltliche Bedeutung der Skalen: Bilderergänzen: erfasst die Fähigkeit, zwischen wichtigen und unwichtigen Details bei visuellen Vorlagen zu unterscheiden (WECHSLER) unterschiedliche Meinungen aller Forscher darüber, was der Test misst Bilderordnen: Fähigkeit, die Gesamtsituation zu verstehen und die Einzelaspekte hinsichtlich ihrer Bedeutung richtig einzuschätzen (WECHSLER) Inhaltliche Bedeutung der Skalen: Bilderergänzen: erfasst die Fähigkeit, zwischen wichtigen und unwichtigen Details bei visuellen Vorlagen zu unterscheiden (WECHSLER) unterschiedliche Meinungen aller Forscher darüber, was der Test misst Bilderordnen: Fähigkeit, die Gesamtsituation zu verstehen und die Einzelaspekte hinsichtlich ihrer Bedeutung richtig einzuschätzen (WECHSLER)

    45. Inhaltliche Bedeutung der Skalen/6 Mosaik- Test: ausgezeichnete Prüfung der allgemeinen Intelligenz (WECHSLER) für qualitative Aussagen geeignet besonders gut für klinische Diagnostik Figuren legen: Hinweise über die Arbeitsstil der Probanden Inhaltliche Bedeutung der Skalen: Mosaik- Test: ausgezeichnete Prüfung der allgemeinen Intelligenz (WECHSLER) für qualitative Aussagen geeignet besonders gut für klinische Diagnostik, weil Patienten mit geistigem Abbau und Senile schlechte Leistungen erbringen und Patienten mit Hirnverletzungen andere Lösungsstrategien wählen als Gesunde Figuren legen: WECHSLER hatte methodische Bedenken bei diesem Untertest, da er schlecht in höheren Intelligenzbereichen differenziert er gibt jedoch Hinweise über die Arbeitsstil der ProbandenInhaltliche Bedeutung der Skalen: Mosaik- Test: ausgezeichnete Prüfung der allgemeinen Intelligenz (WECHSLER) für qualitative Aussagen geeignet besonders gut für klinische Diagnostik, weil Patienten mit geistigem Abbau und Senile schlechte Leistungen erbringen und Patienten mit Hirnverletzungen andere Lösungsstrategien wählen als Gesunde Figuren legen: WECHSLER hatte methodische Bedenken bei diesem Untertest, da er schlecht in höheren Intelligenzbereichen differenziert er gibt jedoch Hinweise über die Arbeitsstil der Probanden

    46. Inhaltliche Bedeutung der Skalen/7 Zahlen- Symbol- Test: erfasst die allgemeine psychometrische Geschwindigkeit gutes Maß für das Konzentrationsvermögen (WECHSLER) Ergebnisse sind in starkem Maße altersabhängig Inhaltliche Bedeutung der Skalen: Zahlen- Symbol- Test: erfasst die allgemeine psychometrische Geschwindigkeit gutes Maß für das Konzentrationsvermögen (WECHSLER) Ergebnisse sind in starkem Maße altersabhängigInhaltliche Bedeutung der Skalen: Zahlen- Symbol- Test: erfasst die allgemeine psychometrische Geschwindigkeit gutes Maß für das Konzentrationsvermögen (WECHSLER) Ergebnisse sind in starkem Maße altersabhängig

    47. Gliederung Einführung Ziele und Aufbau Praktische Handhabung Gütekriterien Studie von P. Steck Auswertung Kritik

    48. Kritik/1 Mängel am HAWIE-R: keine Bezug auf die probabilistische Testtheorie Vorwurf: artifizielle Messung Orientierung auf Denkresultat statt Denkprozess Status statt Entwicklungspotential Vernachlässigung der kreativen Komponenten Konzept des IQ Mängel am HAWIE-R: der HAWIE-R wurde ohne Bezug auf die probabilistische Testtheorie konstruiert ihm wird deshalb vorgeworfen, völlig artifiziell zu messen Orientierung auf das Denkresultat, nicht auf den Denkprozess; nur auf den Status, nicht auf das Entwicklungspotential (Lernfähigkeit) Vernachlässigung der kreativen Komponenten und der für die Erwachsenenintelligenz besonders wichtigen Weisheit (sensu Baltes) und sozial- praktischen Intelligenz (sensu Sternberg) Unterschätzung der Intelligenz von „Unterprivilegierten“ und kulturellen Minoritäten ein grundsätzliches Problem aller WECHSLER- Skalen liegt im Konzept des IQ als Durchschnittsleistung definiert ist mit ihm die Annahme impliziert, dass irgendwelche Untertest- „Tiefs“ einer Testperson durch beliebige Untertests- „Hochs“ egalisiert werden können Mängel am HAWIE-R: der HAWIE-R wurde ohne Bezug auf die probabilistische Testtheorie konstruiert ihm wird deshalb vorgeworfen, völlig artifiziell zu messen Orientierung auf das Denkresultat, nicht auf den Denkprozess; nur auf den Status, nicht auf das Entwicklungspotential (Lernfähigkeit) Vernachlässigung der kreativen Komponenten und der für die Erwachsenenintelligenz besonders wichtigen Weisheit (sensu Baltes) und sozial- praktischen Intelligenz (sensu Sternberg) Unterschätzung der Intelligenz von „Unterprivilegierten“ und kulturellen Minoritäten ein grundsätzliches Problem aller WECHSLER- Skalen liegt im Konzept des IQ als Durchschnittsleistung definiert ist mit ihm die Annahme impliziert, dass irgendwelche Untertest- „Tiefs“ einer Testperson durch beliebige Untertests- „Hochs“ egalisiert werden können

    49. Kritik/2 Mängel am HAWIE-R: Validität zu wenig untersucht einzelne Testitems werden bemängelt Probanden werden mit diagnostisch wenig informativen Items konfrontiert HAWIE- und HAWIE-R- Ergebnisse lassen sich nicht direkt vergleichen Normierungsstichprobe TEWES‘ Replik Einzelkritikpunkte: bereits frühe Testrezensenten (FAY, 1993; KUBINGER, 1993) kritisierten, wie wenig der HAWIE-R bisher auf seine Validität hin untersucht wurde besonders die Tatsache, dass zur prognostischen Validität (schulpsychologische Beratung) überhaupt keine Ergebnisse im Handbuch referiert werden das noch im Handbuch dargestellte tradierte Konzept mir den beiden Hauptfaktoren ist durch weiterführende Analysen erheblich differenziert worden danach sind- z.B. in der Inhaltsfacette- numerische, figurale und verbale Anforderungen unterscheidbar (s. auch JÄGERs Intelligenzstrukturmodell) Vertreter der probabilistischen Testtheorie bemängeln, dass für die einzelnen Untertests nicht geprüft wurde, ob überhaupt homogene Fähigkeiten geprüft werden FAY, 1993 bemängelt aus gutem (hier nicht darstellbaren) Grund einzelne Testitems (z.B. Wasserkrugbild in BE) Die Testperson wird wegen des großen Geltungsbereiches weiterhin mit vielen diagnostisch wenig informativen Items konfrontiert i.d.R. endet der Untertest bei klinischen Patienten mit einer „Frustration“ ein adaptiver Testaufbau könnte diesen Mangel überwinden direkte Vergleichbarkeit der alten HAWIE- Ergebnisse mit den neuen HAWIE-R- Ergebnissen ist nicht gegeben der HAWIE bringt durchschnittlich höhere Testwerte als der HAWIE-R (allerdings nur im Bereich bis IQ= 115, danach kehrt sich das Verhältnis um) Normierungsstichprobe (N= 2000), die hinsichtlich Alter, Schulbildung und Geschlecht für die BRD 1986 repräsentativ war wann genau die Normierung stattfand, ist nicht ersichtlich dies geschah wahrscheinlich vor der Vereinigung, so dass die Normen (insbesondere bei den Verbaltests) nicht für die neuen Bundesländer gelten (auch für Österreich und Schweiz nicht gegeben) TEWES: Normenaktualisierung: Normierung vor Vereinigung keine Übertragbarkeit, weil in beiden Gebieten Unterschiede im Bildungssystem und vermutlich auch in den Sprachgewohnheiten und Alltagserfahrungen bestanden Validität: die Kritik am Fehlen von Informationen zur prognostischen Validität ist nicht verständlich, da es ich um einen Erwachsenentest handelt (16- 74 J.) Einzelkritikpunkte: bereits frühe Testrezensenten (FAY, 1993; KUBINGER, 1993) kritisierten, wie wenig der HAWIE-R bisher auf seine Validität hin untersucht wurde besonders die Tatsache, dass zur prognostischen Validität (schulpsychologische Beratung) überhaupt keine Ergebnisse im Handbuch referiert werden das noch im Handbuch dargestellte tradierte Konzept mir den beiden Hauptfaktoren ist durch weiterführende Analysen erheblich differenziert worden danach sind- z.B. in der Inhaltsfacette- numerische, figurale und verbale Anforderungen unterscheidbar (s. auch JÄGERs Intelligenzstrukturmodell) Vertreter der probabilistischen Testtheorie bemängeln, dass für die einzelnen Untertests nicht geprüft wurde, ob überhaupt homogene Fähigkeiten geprüft werden FAY, 1993 bemängelt aus gutem (hier nicht darstellbaren) Grund einzelne Testitems (z.B. Wasserkrugbild in BE) Die Testperson wird wegen des großen Geltungsbereiches weiterhin mit vielen diagnostisch wenig informativen Items konfrontiert i.d.R. endet der Untertest bei klinischen Patienten mit einer „Frustration“ ein adaptiver Testaufbau könnte diesen Mangel überwinden direkte Vergleichbarkeit der alten HAWIE- Ergebnisse mit den neuen HAWIE-R- Ergebnissen ist nicht gegeben der HAWIE bringt durchschnittlich höhere Testwerte als der HAWIE-R (allerdings nur im Bereich bis IQ= 115, danach kehrt sich das Verhältnis um) Normierungsstichprobe (N= 2000), die hinsichtlich Alter, Schulbildung und Geschlecht für die BRD 1986 repräsentativ war wann genau die Normierung stattfand, ist nicht ersichtlich dies geschah wahrscheinlich vor der Vereinigung, so dass die Normen (insbesondere bei den Verbaltests) nicht für die neuen Bundesländer gelten (auch für Österreich und Schweiz nicht gegeben) TEWES: Normenaktualisierung: Normierung vor Vereinigung keine Übertragbarkeit, weil in beiden Gebieten Unterschiede im Bildungssystem und vermutlich auch in den Sprachgewohnheiten und Alltagserfahrungen bestanden Validität: die Kritik am Fehlen von Informationen zur prognostischen Validität ist nicht verständlich, da es ich um einen Erwachsenentest handelt (16- 74 J.)

    50. Kritik/3 1. Allgemeines Wissen: Normdaten medialer Darstellung 2. Bilderergänzen: physikalische Details Distraktoreninformationen 1. Allgemeines Wissen: sehr problematisches Item: „Zahl der Bundesländer“ und „Zahl der Einwohner Deutschlands“ wann die Normdaten erhoben wurden ist nicht ersichtlich im Handbuch problematisches Item: „Wer wählt bei uns den Bundeskanzler?“ es ist problematisch, ein Wissenselement in einen Test aufzunehmen, von dem man weiß, dass es alle vier Jahre Objekt exzessiver medialer Darstellung ist 2. Bilderergänzen: physikalische Details werden nicht beachtet, der Pb könnte abgelenkt werden (Item 7, Glas- Wasser) eine volle Punktzahl zu erreichen ist in diesem Falle also nur bei Nichtbeachtung von unbeabsichtigten Distraktoreninformationen möglich 1. Allgemeines Wissen: sehr problematisches Item: „Zahl der Bundesländer“ und „Zahl der Einwohner Deutschlands“ wann die Normdaten erhoben wurden ist nicht ersichtlich im Handbuch problematisches Item: „Wer wählt bei uns den Bundeskanzler?“ es ist problematisch, ein Wissenselement in einen Test aufzunehmen, von dem man weiß, dass es alle vier Jahre Objekt exzessiver medialer Darstellung ist 2. Bilderergänzen: physikalische Details werden nicht beachtet, der Pb könnte abgelenkt werden (Item 7, Glas- Wasser) eine volle Punktzahl zu erreichen ist in diesem Falle also nur bei Nichtbeachtung von unbeabsichtigten Distraktoreninformationen möglich

    51. Kritik/4 4. Bilderordnen: Distraktoren Unachtsamkeiten der Konstrukteure 6. Mosaik- Test: Kategorie des Drehfehlers 4. Bilderordnen: unnötige Distraktoren stören den Problemlöseprozess einige Unachtsamkeiten primen den Probanden 6. Mosaik- Test: neu eingeführt wurde die Kategorie des Drehfehlers der Pb kann das Muster bis zu 30 Grad drehen und trotzdem die Gesamtpunktzahl erreichen warum 30 Grad, wird nicht erklärt 4. Bilderordnen: unnötige Distraktoren stören den Problemlöseprozess einige Unachtsamkeiten primen den Probanden 6. Mosaik- Test: neu eingeführt wurde die Kategorie des Drehfehlers der Pb kann das Muster bis zu 30 Grad drehen und trotzdem die Gesamtpunktzahl erreichen warum 30 Grad, wird nicht erklärt

    52. Kritik/5 9. Allgemeines Verständnis: Fragestellung- Problematik „Warum muss man Steuern zahlen?“ „Wozu werden Steuereinnahmen gebraucht?“ „Warum gibt es ein gesetzliches Arbeitsverbot für Kinder?“ 9. Allgemeines Verständnis: Fragestellung- Problematik Item 5: „Warum muss man Steuern zahlen?“ wer hier den Grund nennt, nach dem eindeutig gefragt ist, also die zweifelsohne richtige Antwort „Weil es ein Gesetz ist.“ erhält 0 Punkte eine Antwort auf die gar nicht gestellte Frage „Wozu werden Steuereinnahmen gebraucht?“ dagegen bringt die volle Punktzahl (2 Punkte) Item 7: „Warum gibt es ein gesetzliches Arbeitsverbot für Kinder?“ (2 Antworten werden erfragt) antwortet man auf die Frage „Das Kind wird zu schlecht bezahlt und macht außerdem den Erwachsenen Konkurrenz auf dem Arbeitsmarkt.“, erhält man die volle Punktzahl (!) die Aussage „Kinderarbeit kann zu körperlichen und seelischen Entwicklungsschäden führen“ wird als 1-Punkt- Antwort klassifiziert also ist die Auswertungsobjektivität mangelhaft 9. Allgemeines Verständnis: Fragestellung- Problematik Item 5: „Warum muss man Steuern zahlen?“ wer hier den Grund nennt, nach dem eindeutig gefragt ist, also die zweifelsohne richtige Antwort „Weil es ein Gesetz ist.“ erhält 0 Punkte eine Antwort auf die gar nicht gestellte Frage „Wozu werden Steuereinnahmen gebraucht?“ dagegen bringt die volle Punktzahl (2 Punkte) Item 7: „Warum gibt es ein gesetzliches Arbeitsverbot für Kinder?“ (2 Antworten werden erfragt) antwortet man auf die Frage „Das Kind wird zu schlecht bezahlt und macht außerdem den Erwachsenen Konkurrenz auf dem Arbeitsmarkt.“, erhält man die volle Punktzahl (!) die Aussage „Kinderarbeit kann zu körperlichen und seelischen Entwicklungsschäden führen“ wird als 1-Punkt- Antwort klassifiziert also ist die Auswertungsobjektivität mangelhaft

    53. Kritik/6 11. Gemeinsamkeiten finden: 'darf, soll oder muss man eine falsche Antwort dann als richtig anerkennen, wenn die Trennschärfe besagt, dass die ansonsten in diesem Untertest „Guten“ dieser irrigen Auffassung sind?‘ Dilemma der theoriegeleitete Testkonstruktion 11. Gemeinsamkeiten finden: Gemeinsamkeit von Apfelsine und Banane anerkannt wird u.a. „Baumobst“, was falsch ist, denn Bananen wachsen nun mal nicht auf Bäumen darf, soll oder muss man eine falsche Antwort dann als richtig anerkennen, wenn die Trennschärfe besagt, dass die ansonsten in diesem Untertest „Guten“ dieser irrigen Auffassung sind? man steht damit vor dem klassischen Dilemma einer theoriegeleiteten Testkonstruktion einerseits der psychologisch schlüssigen Operationalisierung dessen, was sprachliches Abstraktionsvermögen sei und der Konfrontation dieser Überlegungen mit empirisch erhobenen Daten, andererseits der Einsicht, dass das Verhaftetsein in einer offensichtlichen Fehlvorstellung von biologisches Gegebenheiten als Mitindiz für ein überdurchschnittlich ausgeprägtes sprachliches Abstraktionsvermögen herangezogen werden kann es gibt also Sätze, über deren Richtigkeit sich unschwer Konsens herstellen lässt sie lassen sich nicht per Mehrheitsbeschluss von „richtig“ in „falsch“ umdefinieren es muss allerdings immer klar definiert sein, was unter dem mittels eines Verfahrens zu messenden Konstrukts zu verstehen sei und was die im Sinne dieses Konstrukts „richtigen“ Antworten sind11. Gemeinsamkeiten finden: Gemeinsamkeit von Apfelsine und Banane anerkannt wird u.a. „Baumobst“, was falsch ist, denn Bananen wachsen nun mal nicht auf Bäumen darf, soll oder muss man eine falsche Antwort dann als richtig anerkennen, wenn die Trennschärfe besagt, dass die ansonsten in diesem Untertest „Guten“ dieser irrigen Auffassung sind? man steht damit vor dem klassischen Dilemma einer theoriegeleiteten Testkonstruktion einerseits der psychologisch schlüssigen Operationalisierung dessen, was sprachliches Abstraktionsvermögen sei und der Konfrontation dieser Überlegungen mit empirisch erhobenen Daten, andererseits der Einsicht, dass das Verhaftetsein in einer offensichtlichen Fehlvorstellung von biologisches Gegebenheiten als Mitindiz für ein überdurchschnittlich ausgeprägtes sprachliches Abstraktionsvermögen herangezogen werden kann es gibt also Sätze, über deren Richtigkeit sich unschwer Konsens herstellen lässt sie lassen sich nicht per Mehrheitsbeschluss von „richtig“ in „falsch“ umdefinieren es muss allerdings immer klar definiert sein, was unter dem mittels eines Verfahrens zu messenden Konstrukts zu verstehen sei und was die im Sinne dieses Konstrukts „richtigen“ Antworten sind

    54. Fazit HAWIE-R: längst fällige Verbesserung des praktisch bewährten Tests HAWIE Nützlichkeit des HAWIE-R steht außer Frage globale Abschätzung des Intelligenzstatus für die klinische Einzelfalluntersuchung konkurrenzlos Fazit der HAWIE-R stellt gegenüber dem HAWIE eine bereits längst fällige Verbesserung eines praktisch bewährten Tests dar die Nützlichkeit des HAWIE-R steht außer Frage allerdings gestattet er lediglich eine globale Abschätzung des Intelligenzstatus‘ durch Vorgabe möglichst unterschiedlicher Aufgaben, die nach der Theorie von WECHSLER eine Vorhersage intelligenten Alltagsverhaltens zulassen soll der überzeugende Beweis für diese Behauptung ist aber immer noch nicht erbracht davon abgesehen sollten Profilinterpretationen nur bei sehr massiven Untertestdifferenzen gegeben werden trotz der aufgezeigten Mängel bleibt der HAWIE-R für die klinische Einzelfalluntersuchung Erwachsener und wegen seiner internationalen Verbreitung für die klinisch-psychologische Forschung gegenwärtig konkurrenzlos Fazit der HAWIE-R stellt gegenüber dem HAWIE eine bereits längst fällige Verbesserung eines praktisch bewährten Tests dar die Nützlichkeit des HAWIE-R steht außer Frage allerdings gestattet er lediglich eine globale Abschätzung des Intelligenzstatus‘ durch Vorgabe möglichst unterschiedlicher Aufgaben, die nach der Theorie von WECHSLER eine Vorhersage intelligenten Alltagsverhaltens zulassen soll der überzeugende Beweis für diese Behauptung ist aber immer noch nicht erbracht davon abgesehen sollten Profilinterpretationen nur bei sehr massiven Untertestdifferenzen gegeben werden trotz der aufgezeigten Mängel bleibt der HAWIE-R für die klinische Einzelfalluntersuchung Erwachsener und wegen seiner internationalen Verbreitung für die klinisch-psychologische Forschung gegenwärtig konkurrenzlos

    55. Vielen Dank für die Aufmerksamkeit!

More Related