320 likes | 583 Views
Testtheorie. College 7. 15-5-2012 Samantha Bouwmeester. 1 0. P ( X g =1| q ). .5. -2 -1 0 1 2. q. Item response functie: S-curve, op grote gebieden vlak, op gering gebied steil. Op steile gebied zijn de meetwaarden q goed te onderscheiden.
E N D
Testtheorie College 7 15-5-2012 Samantha Bouwmeester
1 0 P(Xg=1|q) .5 -2 -1 0 1 2 q • Item response functie: • S-curve, op grote gebieden vlak, op gering gebied steil. • Op steile gebied zijn de meetwaarden q goed te onderscheiden. • Op vlakke gebied zijn de meetwaarden q vrijwel niet te onderscheiden. 2
IRF’s van items die verschillen in moeilijkheid/lokatie G K H P(Xg=1|q=0)=.95 Wie is/was de minister president van Nederland? Wie is/was de president van Frankrijk? P(Xk=1|q=0)=.73 Kabila! Wie is de president van Congo? P(Xh=1|q=0)=.12 3
P(Xl=1|q=-4)=.33 P(X2=1|q=-4)=.25 IRF’s van items die verschillen in kans op correct antwoordbijminimalemeetwaardeθ • Welke stad ligt niet aan de Middellandse zee? • Marseille • Perpignan • Nîmes • Nice • Wat is de hoofdstad van Noord-Holland? • Amsterdam • Haarlem • Leiden 4
Item respons functies van een goed en een slecht discriminerend item. 0.9 0.2 q=-1.5 q= 1.5 5
Item respons functies van drie slecht functionerende items • Dalend verband: hoe meer rekenvaardigheid, hoe kleiner de kans op goed antwoord....Dat is dus gek. • P(X=1) is gelijk voor alle waarden van q: item meet blijkbaar iets anders… • Single peaked item: vb. Ik vind dat er voldoende hard wordt opgetreden criminele allochtone jongeren. 6
Kenmerken van items die de exacte vorm bepalen: • Moeilijkheid (vaardigheden), populariteit (attitudes) (parameter: dg) • Discriminerend vermogen in het kritieke gebied (parameter: ag) • Pseudokansniveau (parameter: gg) dg, ag,enggzijn item-parameters omdat zij de kenmerken (vorm en lokatie) van een item (Xg) functie bepalen. Deze waarden kunnen verschillend zijn voor verschillende items. qiis een persoonsparameter omdat de (latente) meetwaarde een kenmerk van de persoon is. Deze waarde varieert voor personen met verschillende vaardigheid, symptomen, stijl, etc. 7
Item respons modellen • Een item respons model legt restricties op aan het antwoordgedrag. • Het ene model is restrictiever (strenger) dan het andere model. • Hoe restrictiever het model, des te moeilijker het zal passen op de data (werkelijkheid) maar hoe mooier de meeteigenschappen. (kennis kopen met assumpties) • Wij bespreken alleen IRT-modellen voor dichotome items, met een stijgende relatie tussen succeskans en meetlatwaarde. • Parametrische IRT modellen • Rasch (locatie parameter, δ) • 2 parameter logistisch model, Birnbaum (locatie δ en discriminatie α) • 3 parameter logistisch model (locatie δ, discriminatie α, pseudokans γ) • Non-parametrische IRT modellen • - Mokken’shomogeniteits model (MHM). IRF moetmonotoonniet-dalendzijn. • - Dubbelemonotoniemodel (DMM). IRF niet-dalend en IRF’s mogennietsnijden. 8
Even opfrissen: e = exp(onent) = 2.718281828 (net zoiets als π=3.14159265) e3 = exp(3) = e e e = 2.71~ 2.71~ 2.71~ = 20.09 exp(X) is de “inverse”functie van ln(X), en andersom, “inverse” is een soort “omgekeerd” Rekenmachine: e3 = 3invln • e0=1 • e-getal= tussen 0 en 1 • exwordtnooooit <0 • Als x toeneemt wordt ex énorm 9
Meetwaardepersooni Locatie-parameter van itemg Rasch-model Rob S. heeft een meetwaarde vanθ= -1 op de vaardigheidsschaal: spreken in het openbaar. Het item: Ik heb woordvindingsproblemen bij het spreken voor groepen, heeft eenδvan 0. De antwoordcategorieën zijn 0 (nee) en 1 (ja). Wat is de kans dat Rob S. het antwoord “ja” geeft op dit item, wanneer bekend is dat het item voldoet aan het Rasch model? 10
dh = 0 dk = 1.5 dg = -1.5 NB: alsd = q, dan is de kans .5: • 1 item parameterδg. • Items in hetRaschmodel verschillen alleen in moeilijkheid/populariteit(δ): dit maakt het model streng (past dus niet zo snel op echte data) • Alsδh>δg, dan is item h moeilijker dan item g. 11
Birnbaum model (2-parameter logistisch model) Ruud de W. heeft een meetwaarde vanqi= 1 op de vaardigheidsschaal rekenen. Het item: “e2+e3-e”, heeft eenδgvan 1 en eenαgvan 0.5 Wat is de kans dat Ruud de W. het correcte antwoord geeft op dit item, wanneer bekend is dat het item voldoet aan 2-par-Birnbaum model? NB: als δ=θ, dan is de kans .5 12
dg = -2, ag = 1 dk = 1, ak = .5 dh= 0, ah = 2 • 2 item parametersδg,αg. • Items in het 2-parameter logistisch model kunnen verschillen in moeilijkheid/populariteit(δ) en discriminerend vermogen(α):minder streng dan Rasch. • Hoe groterα, des te steiler de functie, des te beter het item discrimineert 13
Birnbaum-model(3-parameter logistisch model) Chiel B. heeft een meetwaarde vanθ= -2 op de vaardigheidsschaal taal. Het item: “Wat betekent ignoreren?”, is een 4-keuzevraag en heeft eenδgvan 1 en eenαgvan 1, en eenγgvan .25 Wat is de kans dat Chiel B. het correcte antwoord geeft op dit item, wanneer bekend is dat het item voldoet aan 3-par-logistisch model? 14
3 item parameters δg, αg, en,γg. • Items in het 3-parameter logistisch model kunnen verschillen in moeilijkheid (δ), discriminerend vermogen (α) en pseudokans (γ) dg = -2, ag = 2, gg = .2 dg = 1.5, ag = 1, gg=.25 dg = -1, ag = 1.5, gg=0 15
Mokkens model van monotone homogeniteit (MHM) • VolgensMokkenzijn de “parametrische”-functiesvaak te restrictiefvoorpsychologischeeigenschappen. • Daarom: non-parametrisch IRT-model=> de Item response functiewordt NIET gedefinieerd door parameters…(alleenpersoonsparameterθ, meetwaarde) P(X=1) 16 Ө
p j • Enigeeisaanfunctie: monotoon-nietdalend, daarom minder restrictiefdanparametrischemodellen. • Ordinaalmeetniveau van de psychologischeeigenschapq(tenminste interval meetniveaubijparametrischemodellen) Je kuntde personenalleen maar rangordenenvolgensq. alsqp>qj, dan P(X=1|qp) P(X=1|qj) 17
Mokkens model van dubbelemonotonie (DMM) • Monotoonnietdalend in q • Extra eis: de item response functiesmogennietsnijden (welraken). • DMM is daaromstrengerdan MHM. • Ordinaalmeetniveau, ordering van personenen itemsmogelijk. Volgorde van de kans op correct antwoord op de items is voorallewaarden van qgelijk! 18
(sub)populatieonafhankelijkheid Gegeven: een test die bestemd is voor een bepaalde populatie (bijv. 4-12 jarigen) met een aantal items die gekozen zijn uit een populatie van items. Vraag: zijn de schattingen van de meetwaarden (q) en itemkenmerken (d) onafhankelijk van de “sub”populatie (bijv. 5 jarigen)? • Onafhankelijkheid Meetwaarden Maakt het uit voor de (ordening van) de meetwaarden welke items (uit populatie van alle mogelijke items) men krijgt voorgelegd? • Onafhankelijkheid Item kenmerken Maakt het uit voor de (ordening van) de items (bijv. qua lokatie) welke (sub)populatie (uit populatie van alle mogelijke meetwaarden) de items maakt? 19
PopulatieonafhankelijkheidRasch model Populatie 1 Populatie 2 Populatie 3 Niet alleen ordening, maar zelfs verhouding (op een log-odds schaal)! Populatie-onafhankelijkheid van meetwaarden? Ja, immers: als geldt voor alle items. Populatie-onafhankelijkheid van items? Ja, immers: geldt voor alle meetwaarden als 20
Populatieonafhankelijkheid 2-par logistisch model Populatie 1 Populatie 2 Niet alleen ordening van personen maar zelfs van intervallen ! Populatie-onafhankelijkheid van meetwaarden? Ja, immers: als geldt voor alle items. Populatie-onafhankelijkheid van items? Nee, immers: Geldt NIET voor alle meetwaarden als 21
Populatieonafhankelijkheid 3-par logistisch model Populatie 2 Populatie 1 Populatie-onafhankelijkheid van meetwaarden? Ja, immers: als geldt voor alle items. Populatie-onafhankelijkheid van items? Nee, immers: Geldt NIET voor alle meetwaarden als 22
Populatieonafhankelijkheid MHM Populatie 1 Populatie 2 MHM_1 MHM_2 MHM_3 MHM_4 Populatie-onafhankelijkheid van meetwaarden? Ja, immers: als geldt voor alle items. Populatie-onafhankelijkheid van items? Nee, immers: geldt NIET voor alle meetwaarden als 23
Populatieonafhankelijkheid DMM Populatie 1 Populatie 3 DMM_1 DMM_2 DMM_3 DMM_4 Populatie-onafhankelijkheid van meetwaarden? Ja, immers: als geldt voor alle items. Populatie-onafhankelijkheid van items? Ja, immers: Geldt voor alle meetwaarden als 24
Hoe schatten we de nu meetwaarden(q) en de itemparameters? Personenkunnenwordengeordend op totaalscore • “iteratiefproces” • Oplossinggeeftwaardenvoor theta en delta waarbijalleresponspatronenzogoedmogelijkverklaardworden. Items kunnenwordengeordend op p-waarden “slechts 2 goed, maar welde 2 moeilijkste…” pp5 D A C B pp4 pp2 pp3 pp1 25
Nauwkeurigheid van metingen Parametrische IRT-modellengevengedetailleerdereinformatie over betrouwbaarheiddan KTT-modellen In KTT : standaarderror is constant over T In IRT: standaard error is functie van q, en dusnietoveralhetzelfde. Consequentie: een test is voorsommigewaarden van qinformatiever/ betrouwbaarderdanvoorandere! 26 26
Betrouwbaarheid van scores in IRT: • Eente moeilijk of te gemakkelijk item levertweiniginformatieop over de meetwaarde van eenpersoon, dusmeetwaardeniet erg betrouwbaar. • Item-informatiefunctiegeeftvoorelkewaarde van q de standaardmeetfout (SE) voorhet betreffende item • Test-informatiefunctie is optelsom van alleitem-informatiefuncties. 27
De plaats waar het item het steilst is, en dus het beste discrimineert, daar is de functie het informatiefst, heeft het de kleinste SE en is het dus het betrouwbaarst! Iteminformatiefunctie 28
Testinformatiefunctie testinformatiefunctie Itest (θ=0)=.2+.2+.25=.65 1.7 95% BI (θ=-2): 95% BI (θ=0): -5.3 -2.4 1.3 2.4 29
Doel-testinformatie functies: IQ achterstand IQ hoogbegaafd Zak-slaag bloktoets 30
Vraagonzuiverheid Item functioneertverschillend in verschillendepopulaties (Differential item functioning , DIF) voorbeeld: redactiesommen (geslacht, cultuur, achtergrond) Bijvraagonzuiverheiddoetvraagberoep op eenanderedantemetenpsychologischeeigenschap! NB. DIF is NIET hetzelfdealseenverschil in gemiddeldemeetwaarde van groepen! Vraagzuiver: IRF is identiek in verschillendegroepen. Mensen met dezelfdequitverschillendegroepenhebbendezelfde IRF, en dusdezelfdekansen op eengoedantwoord. 31
Voorbeeldvraagonzuiverheid: Jongens en meisjes met dezelfdeθhebbennietdezelfdekansom het item correct tebeantwoorden. 32