310 likes | 437 Views
Matura in den Erstsprachen Grundlagen der Testpsychologie: Reliabilität und Validität Wien, 15. Oktober 2010 ao.Univ.Prof. Mag. Dr. Guenther Sigott Language Testing Centre Alpen-Adria-Universität Klagenfurt http://www.uni-klu.ac.at/ltc. Fairness / Objektivität. Ist klar, was getestet wird?
E N D
Matura in den ErstsprachenGrundlagen der Testpsychologie:Reliabilität und ValiditätWien, 15. Oktober 2010ao.Univ.Prof. Mag. Dr. Guenther SigottLanguage Testing CentreAlpen-Adria-Universität Klagenfurthttp://www.uni-klu.ac.at/ltc
Fairness / Objektivität • Ist klar, was getestet wird? • Konstrukt • Testmethode • Ist der Zweck der Prüfung klar? • Welche Folgen haben die Testergebnisse? • Bevorteilt die Prüfung bestimmte Gruppen von Kandidaten? • Ethnische Gruppen? • Sozioökonomische Gruppen? • Geschlecht? • Menschen mit Behinderungen? • Hängt das Resultat davon ab, wer die Prüfung durchführt? • ‘hilfsbereite’ oder weniger ‘hilfsbereite’ Testadministratoren • Hängt das Resultat davon ab, wer die Prüfung beurteilt? • Beurteilungskriterien • Werden die Prüfungsergebnisse richtig interpretiert? • Was misst die Prüfung und was wird behauptet, dass sie misst? • Gibt es fundierte Prozeduren zum Setzen von cutscores? • Bleibt die Schwierigkeit der Prüfung über verschiedene Prüfungstermine hinweg konstant?
Fairness / Objektivität resultiert aus Reliabilität und Validität • Reliabilität bedeutet Zuverlässigkeit. Das Ergebnis der Prüfung eines Kandidaten soll nicht vom Zufall abhängen, also nicht davon, wer beurteilt, oder wann und an welchem Ort beurteilt wird. Das Ergebnis soll auch nicht davon abhängen, welche Aufgabe gestellt wurde, sondern soll dasselbe sein auch wenn eine andere – vergleichbare - Aufgabe gestellt würde. • Validität setzt Reliabilität voraus. Validität ist gewährleistet, wenn die Prüfung jene Fähigkeiten misst, die gemessen werden sollen.
beurteilen v.t. • Etwas beurteilen – was? • Jemanden beurteilen – im Hinblick auf was? Beurteilung ist unmöglich, wenn wir uns über das WAS nicht im Klaren sind.
lehren v.t. • Etwas lehren – was? • Jemanden etwas lehren – was? Lehren ist unmöglich, wenn wir uns über das WAS nicht im Klaren sind.
Warum sich den Kopf über das WAS zerbrechen? Es ist wichtig, zu wissen was wir lehren wollen und was unsere Schüler lernen sollen (Lehr- und Lernziele). Es ist wichtig, zu wissen, was wir messen wollen (Testkonstrukte).
Fragen 1&2: Ist es klar, was gemessen werden soll und was tatsächlich gemessen wird? WHAT: curricular objectives / test construct Models of language competence Curriculum CEF HOW: test method
L.F. Bachman, Fundamental Considerations in Language Testing, OUP 1990, p. 87.
E8 Reading Strategies (extract) • Careful Reading • Understanding the Text • understanding explicitly stated main idea(s) and / or distinguishing that from supporting details • locating, identifying, understanding and comparing facts, opinions, definitions (this includes search reading strategies) • understanding the logical organisation of the text, e.g. understanding relationships among ideas in a text (problem – solution, cause – effect, temporal sequence, etc.) • understanding cohesive relationships (reference, ellipsis, substitution, conjunction, lexical cohesion) • making propositional inferences (deducing information that is not explicitly stated from information that is explicitly stated) • Adapted from Urquhart & Weir 1998
CEF Overall Written Production C1 Can write clear, well-structured texts of complex subjects, underlining the relevant salient issues, expanding and supporting points of view at some length with subsidiary points, reasons and relevant examples, and rounding off with an appropriate conclusion. B2 Can write clear, detailed texts on a variety of subjects related to his / her field of interest, synthesising and evaluating information and arguments from a number of sources.
WIE? Was tun wir, um den Schülern Gelegenheit zu geben, ihre Komptenzen zur Schau zu stellen?
Item 1 You are asking your friend a lot of questions about him and his family. Choose the right answer for each of the questions (there is only one correct answer per question!) and fill in the empty boxes with the correct number.
Item01 Test format: Grammar, Matching activity (2nd grade AHS) You are asking your friend a lot of questions about him and his family. Choose the right answer for each of the questions (there is only one correct answer per question!) and fill in the empty boxes with the correct number.
Item 1 Tick the answer which is grammatically correct: Is your brother good at swimming? Yes, he can. Yes, you are. Yes, he does. No, he isn’t.
You will have 10 minutes to do this task. Read the instructions carefully and then write your text on the separate sheet. Your short letter or e-mail should be 40 to 60 words long. Your American aunt has sent you a birthday present. Write a short letter or an e-mail to say thank you. Tell your aunt you really liked your present and why it is useful for you. You can also ask her if you could visit her in your summer vacation. You could start your letter like this: Test Method in Writing and SpeakingResist the temptation: keep method distinct from construct Dear Aunt Lizzy: .................................................. If you rate the resulting text for Grammar, what is construct, what method?
Test Method in Writing and SpeakingResist the temptation: keep method distinct from construct Du hast für diese Aufgabe 10 Minuten Zeit. Lies die Anleitung gut durch und schreib Deinen Text auf das beiliegende Blatt. Dein kurzer Brief oder Deine Email soll 40 bis 60 Wörter lang sein. Deine Tante in Amerika hat Dir ein Geburtstagsgeschenk geschickt. Schreib einen kurzen Brief oder eine Email, um dich zu bedanken. Sag Deiner Tante, dass Dir das Geschenk sehr gut gefällt und warum Du es gut gebrauchen kannst. Du kannst sie auch fragen, ob Du sie in den Sommerferien vielleicht besuchen kannst. Du könntest Deinen Brief so beginnen: Dear Aunt Lizzy: .................................................. If you rate the resulting text for Grammar, what is construct, what method?
Test Method ctd. If you rate the resulting text for Vocabulary, what is construct, what method? If you rate the resulting text for Cohesion and Coherence, what is construct, what method?
Test Method in Writing and SpeakingResist the temptation: keep method distinct from construct If you rate the resulting text for Vocabulary, what is construct, what method? If you rate the resulting text for Cohesion and Coherence, what is construct, what method?
Also? Um zu beschreiben, was die Prüfung messen soll, müssen wir zwischen Konstrukt und Methode klar unterscheiden. Wir wollen das Konstrukt messen und nicht die Fähigkeit, mit der Methode zu Rande zu kommen.
Fragen 2 - 5: Misst die Prüfung in allen Schulen dasselbe?Gibt es Parallelformen?Wird die Prüfung jedes Jahr dasselbe messen?Sind die Resultate von Jahr zu Jahr vergleichbar? • Wenn wir Klarheit über den Unterschied zwischen Konstrukt und Methode haben, sind wir in der Lage, diese Fragen zu diskutieren. • Verwendung derselben Prüfung in allen Schulen? • Verwendung derselben Prüfung in allen Jahren? (eine theoretische Möglichkeit) • Entwicklung von Parallel-Prüfungen, die dieselben Dinge messen und die gleich schwierig sind.
Gütekriterien für jeden Test Reliabilität (Zuverlässigkeit): Beurteilungen müssen zuverlässig sein. Interrater-Reliabilität: Übereinstimmung zwischen verschiedenen Ratern. Intrarater-Reliabilität: Übereinstimmung desselben Raters mit sich selbst zu verschiedenen Zeiten. Validität: Beurteilungen müssen das widerspiegeln, was beurteilt werden soll. Wenn “Erfüllung der Aufgabe” beurteilt werden soll, dürfen nicht Grammatik und/oder Textaufbau mitbeurteilt werden. > ASSESSORENTRAINING!!!
Frage 6: Misst die Prüfung tatsächlich was sie messen soll? • Konstrukt + Methode ergeben eine Prüfung, die vermutlich das misst, was wir messen wollen. Wir sind allerdings verpflichtet, nachzuweisen, dass wirklich das gemessen wird, was gemessen werden soll. Wir müssen Nachweise für die Reliabilität und die Validität erbringen. • Reliabilität: Messen wir überhaupt irgendetwas oder weisen wir bloß Schülerperformanzen Zahlen nach Zufallsprinzip zu? Voraussetzungen zur Sicherstellung von Reliabilität: - Beurteilungsskalen - ausgebildete Assessoren, die die Beurteilungsskalen gleichermaßen anwenden - wer die Prüfung durchführt, darf keinen Einfluss auf das Ergebnis haben - wer die Prüfung beurteilt, darf keinen Einfluss auf das Ergebnis haben • Validität: Messen wir das, was wir messen wollen? Zielen die Dimensionen der Beurteilungsskala auf jene Aspekte des Kompetenzmodells ab, ie von Interesse sind? Begleitforschung ist gefragt: - Inhaltliche Validierung - Konstruktvalidierung
Dimensionen vs Niveaus Dimensionen sind die Maßstäbe, mit denen wir die Fähigkeiten in einem Bereich messen, z.B. Erfüllung der Aufgabe, Textaufbau, Wortschatz, Grammatik/Rechtschreibung Niveaus sind die Marken auf dem Maßband. Diese können mit Deskriptoren beschrieben werden.
Analytische Skala: Entwurf 01 Beurteilungsbogen Deutsch.doc Beurteilungsbogen Deutsch_01.doc
Bezugsnorm • Normreferenzierung: Ergebnis wird im Hinblick auf den Mittelwert der Stichprobe interpretiert. • Kriteriumsreferenzierung: Ergebnis wird im Hinblick auf ein bestimmtes Niveau (Prüfungsziel – inhaltlich definiert) interpretiert.
RP neu ist kriteriumsreferenziert • Berichtsfunktion: was kann der/die KandidatIn? • Selektionsfunktion: ist der/die KandidatIn für bestimmte Berufe oder für das Universitätsstudium geeignet?
Thank you. Danke. Merci.