390 likes | 545 Views
Workshop 'Het bepalen van de cesuur en het geven van cijfers‘ Faculteit Psychologie en Pedagogische Wetenschappen 14 maart 2012. Enkele beschouwingen vanuit ‘Educational measurement’. Rianne Janssen Kwantitatieve psychologie en individuele verschillen Onderwijseffectiviteit & -Evaluatie.
E N D
Workshop 'Het bepalen van de cesuur en het geven van cijfers‘ Faculteit Psychologie en Pedagogische Wetenschappen 14 maart 2012 Enkele beschouwingen vanuit ‘Educational measurement’ Rianne Janssen Kwantitatieve psychologie en individuele verschillen Onderwijseffectiviteit & -Evaluatie
Vooraf Grade inflation High-stakes Item-centered methods mastery State view Criterion-referenced measurement Angoff Borderline method Cesuurbepaling Standard setting Analytical procedures Normconstantie Certification Domain score Grading Equating licensure Holistic scoring person-centered methods Continuum view of mastery
Overzicht • Onderzoek naar cesuurbepaling • Basiskader • Enkele aanbevelingen?
Onderzoek naar cesuurbepaling • Wie? • Wat? • Besluit?
Wie? • “High-stakes pupil testing” • “Licensure and certification” • Bv. National Board of Medical Examiners • (inter)nationale peilingen • Bv. behalen eindtermen? • Bv. ESLC: taalbeheersing in verschillende talen
Wat? • Ontwikkeling en vergelijking van verschillende methodes van cesuurbepaling • Empirisch en conceptueel • Formeel en niet-formeel • Experimenteel en praktijkgericht
Besluit? • Voor 1980: optimisme • 1970: mandated pupil proficiencytesting (deels als antwoord op ‘gradeinflation’) • daarna: pessimisme • Glass (1978): “setting performance standards on tests andexercisesbyknownmethods is a waste of time or worse” (reden: leidt tot arbitraire beslissingen) • Shepard (1979): “avoid setting standardswheneverpossible’ (reden: cognitief te complex voor beoordelaars) • Jaeger (1989): “Different procedures lead to different results”
Besluit? • Momenteel: realisme? • Cizek (2001): ‘Youcan’t live with it. Youcan’t live without it.’ • Kane (1994): “There is no gold standard. There is not even a silver standard.” • Onderscheid: ‘performance standard’ (conceptueel criterium) en ‘cut score’ (operationeel criterium) • “coherence of standard-setting process” • Referentiewerken • Cizek, G. J. (Ed.). Setting performance standards: Concepts, methods, andperspectives. Mahwah, NJ: Lawrence Erlbaum. • Cizet, G.J. & Bunch, M.B. (2007). Standard setting: A guide toestablishingandevaluating performance standards on tests. Thousand Oaks, CA: Sage.
Onderzoek naar cesuurbepaling • Veel procedures • Veel kritiek • Attitude: ‘er toch het beste van maken’
Overzicht • Onderzoek naar cesuurbepaling • Basiskader • Enkele aanbevelingen?
basiskader • Drie basisprincipes • de idee van meetschaal • Verschillende methodes
state view all or none qualitative distinction applicability specific domains (e.g., sums till 10) or very general domains (e.g. pilot, doctor) continuum view different degrees cut score needed generally applied in educational measurement Meskauskas (1976):mastery
nonmastery mastery The continuum view of mastery ability cutoff Opmerking: kritek Glass (1978) onvermijdelijk voor mensen rond de cesuur
Criteriumgericht • Criteriumgericht (“criterion-referenced”) en niet normgericht (“norm-referenced”): • Wel: Behalen studenten doelstellingen? • Niet: Hoeveel studenten slagen in andere opo’s? • Vertaling van criterium in minimumscore
Aanpak domeinscore volstaat niet Universum van vragen steekproef Proportie juiste antwoorden als schatting van domeinscore Probleem: verschillen tussen toetsopgaven!
Drie basisprincipes • Categorisatie van continue (latente) variabele • O.b.v. vertaling criterium in minimumscroe • Rekening houdend met verschillen tussen items
basiskader • Drie basisprincipes • de idee van meetschaal • Verschillende methodes
LEERLINGEN vaardigheid MEETSCHAAL OPGAVEN moeilijkheidsgraad beheersingin termen van kansen
Behalen eindterm Deze opgaven moeten de leerlingen nog niet beheersen Behalen eindterm nog niet Deze opgaven moeten de leerlingen beheersen TOETSNORM
basiskader • Drie basisprincipes • de idee van meetschaal • Verschillende methodes
category or state view Borderline (Livingston & Zieky, 1982) standard setting examinee-centered contrasting-groups (idem) continuum view Angoff (1971) Nedelsky (1954) item-centered Ebel (1972) Bookmark (Mitzel et al., 2001) Cito (van der Schoot, 1994) …
examinee-centered methods a. borderline method cutoff ability
cutoff examinee-centered methods b. contrasting-groups method masters nonmasters
category or state view Borderline (Livingston & Zieky, 1982) standard setting examinee-centered contrasting-groups (idem) continuum view Angoff (1971) Nedelsky (1954) item-centered Ebel (1972) Bookmark (Mitzel et al., 2001) Cito (van der Schoot, 1994) …
item-centered methods Angoff method • Procedure • Estimate P(success|MCS) • Cut score = sum of probabilities .50 high probability of success low probability of success items ability Minimally competent student Opmerking: kritiek Shepard (1979) Cognitief complexe taak!
item-centered methods Nedelsky method: probabilistic method for multiple-choice questions high probability of success MCS low probability of success difficulty ability 1. How many distractors can a MCS eliminate? 2. Determine the probability of success by guessing on the remaining response alternatives. 3. Cut score = sum of probabilities
item-centered methods IRT-based methods Bookmark method do not have to be mastered have to be mastered difficulty cutoff
item-centered methods IRT-based methods Cito method (p50 and p80 points on scale) cutoff
Different procedures, lead to different results… Van Nijlen, D., & Janssen, R. (2008). Modeling judgments in the Angoff and contrasting-groups method of standard setting. Journal of Educational Measurement, 45, 45-63
Gemeenschappelijke kenmerken • Groep beoordelaars • Verschillende rondes • Individuele oordelen • Discussie in kleine groepjes • Impact scores • Overbrenging cesuur op verschillende toetsen via gemeenschappelijke meetschaal
Verschillende methodes • Persoons- of itemgericht • IRT-gebaseerd of niet • Inschatting prestatie ‘grensgeval’ • Verschillende beoordelaars
Overzicht • Onderzoek naar cesuurbepaling • Basiskader • Enkele aanbevelingen?
Aanbevelingen? The union of the mathematician with the poet, fervor with measure, passion with correctness, this surely is the ideal. William James
Aanbevelingen? • Procedure van verantwoording • Formulering doelstellingen (‘performance standards’) • Expliciete toetsmatrijs • Kwaliteitsvolle items en scoring • Ideaal: meetschaal • Bepaling cesuur
Aanbevelingen? • Verantwoordelijkheid • Individuele docent • Docententeam! • Cf. formulering ‘performance standard’ • Cf. cesuurbepaling o.b.v. panel van experten
Aanbevelingen? • Voor verbetering vatbaar…
IRT oplossing voor equivaleren • de gemeenschappelijke opgaven bieden de mogelijkheid om een gemeenschappelijke meetschaal te construeren
ToetsmatrijsDefinitieve versie later op het jaar • Verwerkingsniveau • 40% kennisvragen • 60% inzicht- en toepassingsvragen Een oppervlakkige verwerking van de leerstof is niet voldoende!
Anecdote • Vraag: Geef de gaswet van Boyle. • Antwoord: P.V = constant • Score • ‘middelbaar’: 9.5/10 • ‘universiteit’: 0/10 • Immers:P.V = constant bij constante temperatuur