280 likes | 348 Views
KVANTITATÍV NYELVTUDÁSMÉRÉS. Dunaújvárosi Nemzetközi Lingvisztikai Konf., 2007. Balázs Béla. Bevezetés I. Az utolsó 25-30 évben a nyelvtudásmérés területén végzett kutatások intenzitása exponenciálisan növekedett.
E N D
KVANTITATÍV NYELVTUDÁSMÉRÉS Dunaújvárosi Nemzetközi Lingvisztikai Konf., 2007. Balázs Béla
Bevezetés I. • Az utolsó 25-30 évben a nyelvtudásmérés területén végzett kutatások intenzitása exponenciálisan növekedett. • Állandó gondot jelent azonban, hogy a nyelv-vizsgáztatás mindennapos gyakorlata távolról sem fejlődik olyan gyorsan, mint a nyelvvizsgáztatás elmélete. • A gyakorlatban dolgozó nyelvvizsgáztatók arra panaszkodnak, hogy az elméleti cikkeket nehéz megérteni, és azok gyakran számukra irrelevánsnak tűnnek, vagy legalábbis napi praxisuktól távol eső témákról szólnak. • A kutatók és a gyakorlati szakemberek ritkán kooperálnak. Már érzékelhető azonban, hogy a légkör lassan változik, és nagyon remélem, hogy jelen előadásom hozzá fog járulni e pozitív folyamat felgyorsításához.
Bevezetés II. • Magyarországon a klasszikus tesztelméletimód-szerekkel történő elemzéseknek jelentős múltja van, de az utóbbi évek nemzetközivizsgálatainak elem-zései rávilágítanak egy alapjaiban más módszerek-kel, más alapokonnyugvó tesztelmélet fontosságára. (Nem véletlen, hogy az EALTA tavalyi krakkói konferenciáján is komoly hangsúlyt kapott a téma.) • Ez a más módszer a tesztelméletek újabb generáció-játképező, valószínűségszámítási alapozású teszt-elmélet (Item Response Theory[IRT]), amely az itemek tulajdonságait valószínűségelméleti eszköz-ökkel jellemzi. Az idevágó modellek közül a Rasch-modellt fogom vázlatosan ismertetni. The European Association of Language Testing and Assessmentis a professional association for language testers inEurope
Rasch-modell I. • Egy nyelvvizsga keretében válasszunk egy átlagos képességű standard személyt. • Vegyünk egy átlagos nehézségű standard itemet. • A kiválasztás úgy történjen, hogy a standard személy a standard itemnél 50%-os valószínűséggel sikeres. • Adott itemhalmaznál az n-edik személy az i-edik itemnél Pnivalószínűséggel sikeres. • Az értékelés bináris: sikeres 1, sikertelen 0
Rasch-modell II. • Szeretnénk látni, hogy a két vizsgázó – Magdi és Nelli – közül melyik a jobb. • Különböző nehézségű itemek segítségével kell tesztelnünk. • Minden nehézségi fokon négy lehetőség fordul elő: • Magdi sikeres;Nelli sikertelen • Magdisikertelen;Nelli sikeres • Magdisikertelen;Nelli sikertelen • Magdi sikeres;Nelli sikeres • Ahhoz, hogy a teszt megbízható legyen, minden nehézségi fokon több kísérletet kell végrehajtatnunk.
Rasch-modell III. Nelli kudarc siker siker Magdi kudarc
Rasch-modell IV. • T10-át és T01-et kell összehasonlítanunk ahhoz, hogy megtudjuk: melyik vizsgázó jobb és mennyivel, mint a másik. De hogyan tegyük? • Inkább a (T10-T01) különbséget, vagy a (T10/T01) hányadost vegyük alapul? • Melyikük ad megbízhatóbb, reálisabb, a lényeget jobban megragadó alapot?
Rasch-modell V. Magdi sikeres, Nelli sikertelen Magdi sikertelen, Nelli sikeres Különbség Hányados
Rasch-modell VI. Ha • a valószínűsége, hogy Magdi az i itemnél sikeres: Pmi • a „ --”, hogy Magdi az i itemnél hibázik: (1 – Pmi) • a „ --”, hogy Nelli az i itemnél sikeres: Pni • a „ --”, hogy Nelli az i itemnél hibázik: (1-Pni) Akkor • a valószínűsége, hogy Magdi sikeres & Nelli hibázik:(P10) = Pmi (1 – Pni) • a valószínűsége, hogy Nelli sikeres & Magdi hibázik:(P01) = (1 – Pmi) Pni
Rasch-modell VII. • Homogén itemhalmaz esetén, minden i-re és j-re: A két vizsgázó közötti felkészültségi különb-ség „objektív”, nem függhet a felhasznált itemektől! • Ha Magdi és Nelli i nehéz-ségű itemen sokszor próbálkoznak, a következő reláció érvényesül: azaz:
Rasch-modell VIII. • Rendezzük át az egyenletet úgy, hogy mi, mj, ni,és nj szeparálódjanak egymástól:
Rasch-modell IX. • A valószínűségszámításból tudjuk, hogy az esély valamely esemény bekövetkezési valószínűségének és be nem következési valószínűségének hányadosa. Azaz:
Rasch-modell X. • Tegyük fel, hogy Nelli átlagos (standard) vizsgázó és a j item átlagos (standard) nehézségű. Akkor definíció szerint Pnj = 0,5. Emiatt ( j = 0 jelöli, hogy jstandard item. )
A siker esélye standard itemenStandard személy kudarcának esélye • Jelöljük az m személy sikerének esélyét a standard itemen bm-el. • Jelöljük továbbá a standard személy kudarcának esélyét az i itemen di-vel.
Rasch-modell XI. Láttuk, hogy: Azaz az m személy esélye a sikerre az i itemnél egyenlő a személy standard itemre vonatkozó sikere esélyének és az i itemnél bekövetkező kudarca esélyének hányadosával. behelyet- tesítve: kapjuk, hogy:
Rasch-modell XII. Mindkét oldal logaritmusát véve: Ne feledjük: log(A/B) = logA - logB
Rasch-modell XIII. Egyébként az IRT modellek közül csak a Rasch-modellnél független két teszt-személy képességének eltérése attól, hogy melyik itemeket használjuk, és egyedül itt teljesül, hogy az itemek nehézség-különbsége nem függ a tesztelt személyek képességétől. az m személy „képessége” definíció az i item „nehézsége” és így Rasch-model Valamely személy sikerének logaritmikus esélye az i itemen egyenlő a személy képességének és az item nehézségének különbségével.
Minden egyes vizsgázó számos képességgel rendelkezik, de ezek közül egyszerre egyet tesztelünk. Ezért az eredmény egyenes mentén (un. logit skálán) modellezhető. {Az L logit érték a siker esélyének logaritmusa: L = logit(p) = log(p/[1-p]) = log(p) – log(1-p).} Képzeljünk el egy egyre nehezedő item-gátakkal ellátott vizsga akadálypályát, amelyen különböző képességszintű vizsgázók verse-nyeznek. Az előbbiek szerint az egyes item-eken történő sikeres áthaladás esélye egyenlő a versenyző képességének és az item nehéz-ségének különbségével. Így a vizsgapályán felfelé haladva egyre felkészültebb egyedeket találunk. Vizsgapálya
Személy-item térkép A várható vizsgázói képesség-eloszlásnak megfelelő itemhalmaz esetén a teljesítmények a 0 nehézségi szint körül szórnak, míg túl könnyű feladatok esetén az értékek szignifikánsan pozitív, túl nehéz tételeknél pedig negatív középértéket mutatnak. Miután a KER-ben az A1, A2, B1, B2, C1, C2 szintek rögzítettek, és a vizsga-tételeknek ezekhez kell alkalmazkodniuk, a b. esetben az átlagosnál jobb, a c. esetbenviszont gyengébb felkészültségű vizsgázókkal van dolgunk (lásd a következő ábrát).
További jelölések Általános forma Általános forma • N vizsgázó, jelölés: 1, 2 … N • I item, jelölés: 1, 2 … I • Legyen Xni az n jelű vizsgázó ponteredménye az i itemre: 1, ha sikeres, 0, ha sikertelen. A sikeres teszt valószínűsége n képesség és i itemnehéz-ség esetén A kudarc valószínűsége n képesség és i itemnehézség esetén
Itemnehézségi görbék I. • A tudásszintmérő tesztek itemei leggyakrabban logisztikusak. A logisztikus jelleggörbének három szakasza van: a gyenge összpontszámok tartományában a görbe lassan emelkedik, majd valahol hirtelen meredekké válik, végül a magasabb összpontszámoknál ellaposodik. Általános alakja: Itt a, m, n ésvalós paraméterek. • A sokféle logisztikus görbe meredekségében, illetve abban különbözik egymástól, hogy melyik képességtartományba esik a meredek szakasz. • Az itemjellegfüggvény logisztikus, monoton növekvő, de csak 0 és 1 közötti értékeket vehet fel (mivel a függő változó valószí-nűség), értelmezési tartománya viszont az egész számegyenes. • A legegyszerűbb olyan függvény, amely 0-tól 1-ig nő, ha a független változó 0-tól végtelenig növekszik, az f(x) = x/(1 + x) függvény.
Itemnehézségi görbék II. P = f(, ) = [1 + exp(- ( - ))]-1
Item és teszt információs függvény • A klasszikus eljárásokkal szemben a valószínűségszámítási alapozású tesztelmélet – és ezen belül a Rasch-modell – módot talált arra, hogy a mérési hiba nagyságát a jelöltek képességeinek függvényében határozza meg. • két konzisztens becslésének összevetésekor azt tekinthetjük jobbnak, amelyiknek szórása kisebb. Minél kisebb a variancia (szórásnégyzet: 2), annál kevesebb mintavételre van szükség egy bizonyos pontosságú becslés realizálásához. Így kisebb becslés-variancia esetén a minta pontosabb „információt” ad, mint nagyobb variancia esetén. • Ebben az értelemben a minta „információtartalma” (melyet az un. információfüggvénnyel fejezünk ki) fordítva arányos a becslés szórásnégyzetével. (Ismeretes egyébként, hogy a becslés varian-ciája nem lehet kisebb a Rao-Cramer egyenlőtlenség által adott alsó korlátnál.) • A Rasch modell esetén az egyes itemek információfüggvénye az I() = P(1 - P) alakot ölti. Tekintve, hogy az item-információk addi-tívak, az egyes itemek információfüggvényeinek összege adja a teszt információfüggvényét: T() = Ii(). Az információs függvények leggyakoribb alkalmazását a vizsgák és általában tesztek szerkesztésénél találjuk.
Item információs függvény (IIF)Teszt információs függvény (TIF) IIF: I() = P(1-P) TIF: T() = Ii() 2 =T()-1 • Rasch-munkatáblázat\RaschExc800 • Rasch-munkatáblázat\RaschExc1024 k i=1 A becslések varianciája (2)fordítva arányos T()értékével.
Itemszerkesztés, itemillesztés I. Az információfüggvényen alapuló tesztszerkesztés menetét A. Birnbaum nyomán a következőkben összegezhetjük: • Határozzuk meg a teszt-információfüggvény kívánt alakját, tekintetbe véve, hogy milyen pontosságú képességbecslés- re van szükségünk az egyes képességszinteken. Eredményül kapjuk az un. cél-információs görbét. • Szelektáljunk olyan itemeket, amelyek információs görbéi kielégítően kitöltik a célfüggvény alatt lefedendő területet. • Az egymás után kiválasztott itemek információs görbéit rendre adjuk hozzá a korábbiak összegéhez, menet közben értékelve az egyre tökéletesedő teszt információfüggvényét. • Mindaddig folytassuk az eljárást, amíg a cél-információs görbe alatti terület nincs elfogadhatóan kitöltve (azaz a teszt-információ-függvény a képesség-kontínuum minden számba-jövő pontján elfogadható becslés-varianciát eredményez).
Itemszerkesztés, itemillesztés II. • A Rasch-modell előbbiekben felsorolt tulajdonságai természe-tesen csak akkor érvényesek, ha a teszt elfogadhatóan illesz-kedik a modellbe. A modell a helyes válasz esélyét a jelölt ké-pessége () és az item nehézsége () alapján határozza meg. Ezért ha valamely itemen a helyes válasz valószínűségét -n és -n kívül más is befolyásolja, a modell alkalmazhatósága sérül. • Azt, hogy valamely esetünkben alkalmazható-e a Rasch-modell, illeszkedésvizsgálat mutatja meg. Tekintsük a „vizsgapályát. A képességszint függőleges mozgásával szemben az illeszkedés vonatkozásában vizszintes elmozdulásról beszélhetünk. Egy-egy item vagy személy annál jobban illeszkedik a tesztadatok által meghatározott modellbe, minél közelebb helyezkedik el a pálya középvonalához. • Az illeszkedés jóságát matematikailag az infit paraméter mutat-ja, melynek meghatározásához – mind a képességek, mind az item-nehézségek vonatkozásában – rendszerint a maradék alapú illeszkedésvizsgálati módszeren alapuló Quest programot használják. (A vizsgapálya sötétzöld területeinek belső határa is ilyen módon rögzítődött.)
Köszönöm szíves figyelmüket Irodalom Georg Rasch (1901-1980)
Irodalom • Adams, R. J., & Khoo, S.-T. (1993). Quest: The interactive test analysissystem [Computer programmanual]. Hawthorn: The Australian Council for Educational Research. • Birnbaum, A.: Some latent trait models and their use in inferring an examinee’s ability, 1968. In: Lord, F. M., Norvick, M. R.: Statistical Theories of Mental Test Scores, Reading, MA: Addison-Wesley. • Embretson, S. E., Reise, S. P.: Item response theory for psychologists, Mahwah, NJ: Erlbaum, 2000. • Erickson, G.: What is a good language test?,http://www.ealta.eu.org/conference/2006/programme.htm, 2006. • Horváth, Gy.: A modern tesztmodellek alkalmazása, Akadémiai Kiadó, Budapest, 1997. • Molnár, Gy.: Az ismeretek alkalmazásának vizsgálata modern tesztelméleti (IRT) eszközökkel, Magyar Pedagógia, Vol.103, No.4, 423-446, 2003. • Müller, H.: Probabilistische Testmodelle für diskrete und kontinuier-liche Ratingskalen, Huber, Bern, 1999. • Müller, H.: Illustrationen zum Rasch-Modell,http://user.unifrankfurt.de/~hmvff/rabix/rabix101.pdf, 2002. • Rasch, G.: Probabilistic models for some intelligence and attainment tests, Copenhagen: Danmarks pædagogiske Institut, 1960. (Expanded edition, 1980. Chicago: University of Chicago Press.)