1 / 28

KVANTITATÍV NYELVTUDÁSMÉRÉS

KVANTITATÍV NYELVTUDÁSMÉRÉS. Dunaújvárosi Nemzetközi Lingvisztikai Konf., 2007. Balázs Béla. Bevezetés I. Az utolsó 25-30 évben a nyelvtudásmérés területén végzett kutatások intenzitása exponenciálisan növekedett.

teva
Download Presentation

KVANTITATÍV NYELVTUDÁSMÉRÉS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. KVANTITATÍV NYELVTUDÁSMÉRÉS Dunaújvárosi Nemzetközi Lingvisztikai Konf., 2007. Balázs Béla

  2. Bevezetés I. • Az utolsó 25-30 évben a nyelvtudásmérés területén végzett kutatások intenzitása exponenciálisan növekedett. • Állandó gondot jelent azonban, hogy a nyelv-vizsgáztatás mindennapos gyakorlata távolról sem fejlődik olyan gyorsan, mint a nyelvvizsgáztatás elmélete. • A gyakorlatban dolgozó nyelvvizsgáztatók arra panaszkodnak, hogy az elméleti cikkeket nehéz megérteni, és azok gyakran számukra irrelevánsnak tűnnek, vagy legalábbis napi praxisuktól távol eső témákról szólnak. • A kutatók és a gyakorlati szakemberek ritkán kooperálnak. Már érzékelhető azonban, hogy a légkör lassan változik, és nagyon remélem, hogy jelen előadásom hozzá fog járulni e pozitív folyamat felgyorsításához.

  3. Bevezetés II. • Magyarországon a klasszikus tesztelméletimód-szerekkel történő elemzéseknek jelentős múltja van, de az utóbbi évek nemzetközivizsgálatainak elem-zései rávilágítanak egy alapjaiban más módszerek-kel, más alapokonnyugvó tesztelmélet fontosságára. (Nem véletlen, hogy az EALTA tavalyi krakkói konferenciáján is komoly hangsúlyt kapott a téma.) • Ez a más módszer a tesztelméletek újabb generáció-játképező, valószínűségszámítási alapozású teszt-elmélet (Item Response Theory[IRT]), amely az itemek tulajdonságait valószínűségelméleti eszköz-ökkel jellemzi. Az idevágó modellek közül a Rasch-modellt fogom vázlatosan ismertetni. The European Association of Language Testing and Assessmentis a professional association for language testers inEurope

  4. Rasch-modell I. • Egy nyelvvizsga keretében válasszunk egy átlagos képességű standard személyt. • Vegyünk egy átlagos nehézségű standard itemet. • A kiválasztás úgy történjen, hogy a standard személy a standard itemnél 50%-os valószínűséggel sikeres. • Adott itemhalmaznál az n-edik személy az i-edik itemnél Pnivalószínűséggel sikeres. • Az értékelés bináris: sikeres  1, sikertelen  0

  5. Rasch-modell II. • Szeretnénk látni, hogy a két vizsgázó – Magdi és Nelli – közül melyik a jobb. • Különböző nehézségű itemek segítségével kell tesztelnünk. • Minden nehézségi fokon négy lehetőség fordul elő: • Magdi sikeres;Nelli sikertelen • Magdisikertelen;Nelli sikeres • Magdisikertelen;Nelli sikertelen • Magdi sikeres;Nelli sikeres • Ahhoz, hogy a teszt megbízható legyen, minden nehézségi fokon több kísérletet kell végrehajtatnunk.

  6. Rasch-modell III. Nelli kudarc siker siker Magdi kudarc

  7. Rasch-modell IV. • T10-át és T01-et kell összehasonlítanunk ahhoz, hogy megtudjuk: melyik vizsgázó jobb és mennyivel, mint a másik. De hogyan tegyük? • Inkább a (T10-T01) különbséget, vagy a (T10/T01) hányadost vegyük alapul? • Melyikük ad megbízhatóbb, reálisabb, a lényeget jobban megragadó alapot?

  8. Rasch-modell V. Magdi sikeres, Nelli sikertelen Magdi sikertelen, Nelli sikeres Különbség Hányados

  9. Rasch-modell VI. Ha • a valószínűsége, hogy Magdi az i itemnél sikeres: Pmi • a „ --”, hogy Magdi az i itemnél hibázik: (1 – Pmi) • a „ --”, hogy Nelli az i itemnél sikeres: Pni • a „ --”, hogy Nelli az i itemnél hibázik: (1-Pni) Akkor • a valószínűsége, hogy Magdi sikeres & Nelli hibázik:(P10) = Pmi (1 – Pni) • a valószínűsége, hogy Nelli sikeres & Magdi hibázik:(P01) = (1 – Pmi) Pni

  10. Rasch-modell VII. • Homogén itemhalmaz esetén, minden i-re és j-re: A két vizsgázó közötti felkészültségi különb-ség „objektív”, nem függhet a felhasznált itemektől! • Ha Magdi és Nelli i nehéz-ségű itemen sokszor próbálkoznak, a következő reláció érvényesül: azaz:

  11. Rasch-modell VIII. • Rendezzük át az egyenletet úgy, hogy mi, mj, ni,és nj szeparálódjanak egymástól:

  12. Rasch-modell IX. • A valószínűségszámításból tudjuk, hogy az esély valamely esemény bekövetkezési valószínűségének és be nem következési valószínűségének hányadosa. Azaz:

  13. Rasch-modell X. • Tegyük fel, hogy Nelli átlagos (standard) vizsgázó és a j item átlagos (standard) nehézségű. Akkor definíció szerint Pnj = 0,5. Emiatt ( j = 0 jelöli, hogy jstandard item. )

  14. A siker esélye standard itemenStandard személy kudarcának esélye • Jelöljük az m személy sikerének esélyét a standard itemen bm-el. • Jelöljük továbbá a standard személy kudarcának esélyét az i itemen di-vel.

  15. Rasch-modell XI. Láttuk, hogy: Azaz az m személy esélye a sikerre az i itemnél egyenlő a személy standard itemre vonatkozó sikere esélyének és az i itemnél bekövetkező kudarca esélyének hányadosával. behelyet- tesítve: kapjuk, hogy:

  16. Rasch-modell XII. Mindkét oldal logaritmusát véve: Ne feledjük: log(A/B) = logA - logB

  17. Rasch-modell XIII. Egyébként az IRT modellek közül csak a Rasch-modellnél független két teszt-személy képességének eltérése attól, hogy melyik itemeket használjuk, és egyedül itt teljesül, hogy az itemek nehézség-különbsége nem függ a tesztelt személyek képességétől. az m személy „képessége”  definíció az i item „nehézsége” és így Rasch-model Valamely személy sikerének logaritmikus esélye az i itemen egyenlő a személy képességének és az item nehézségének különbségével.

  18. Minden egyes vizsgázó számos képességgel rendelkezik, de ezek közül egyszerre egyet tesztelünk. Ezért az eredmény egyenes mentén (un. logit skálán) modellezhető. {Az L logit érték a siker esélyének logaritmusa: L = logit(p) = log(p/[1-p]) = log(p) – log(1-p).} Képzeljünk el egy egyre nehezedő item-gátakkal ellátott vizsga akadálypályát, amelyen különböző képességszintű vizsgázók verse-nyeznek. Az előbbiek szerint az egyes item-eken történő sikeres áthaladás esélye egyenlő a versenyző képességének és az item nehéz-ségének különbségével. Így a vizsgapályán felfelé haladva egyre felkészültebb egyedeket találunk. Vizsgapálya

  19. Személy-item térkép A várható vizsgázói képesség-eloszlásnak megfelelő itemhalmaz esetén a teljesítmények a 0 nehézségi szint körül szórnak, míg túl könnyű feladatok esetén az értékek szignifikánsan pozitív, túl nehéz tételeknél pedig negatív középértéket mutatnak. Miután a KER-ben az A1, A2, B1, B2, C1, C2 szintek rögzítettek, és a vizsga-tételeknek ezekhez kell alkalmazkodniuk, a b. esetben az átlagosnál jobb, a c. esetbenviszont gyengébb felkészültségű vizsgázókkal van dolgunk (lásd a következő ábrát).

  20. További jelölések Általános forma Általános forma • N vizsgázó, jelölés: 1, 2 … N • I item, jelölés: 1, 2 … I • Legyen Xni az n jelű vizsgázó ponteredménye az i itemre:  1, ha sikeres,  0, ha sikertelen. A sikeres teszt valószínűsége n képesség és i itemnehéz-ség esetén A kudarc valószínűsége n képesség és i itemnehézség esetén

  21. Itemnehézségi görbék I. • A tudásszintmérő tesztek itemei leggyakrabban logisztikusak. A logisztikus jelleggörbének három szakasza van: a gyenge összpontszámok tartományában a görbe lassan emelkedik, majd valahol hirtelen meredekké válik, végül a magasabb összpontszámoknál ellaposodik. Általános alakja: Itt a, m, n ésvalós paraméterek. • A sokféle logisztikus görbe meredekségében, illetve abban különbözik egymástól, hogy melyik képességtartományba esik a meredek szakasz. • Az itemjellegfüggvény logisztikus, monoton növekvő, de csak 0 és 1 közötti értékeket vehet fel (mivel a függő változó valószí-nűség), értelmezési tartománya viszont az egész számegyenes. • A legegyszerűbb olyan függvény, amely 0-tól 1-ig nő, ha a független változó 0-tól végtelenig növekszik, az f(x) = x/(1 + x) függvény.

  22. Itemnehézségi görbék II. P = f(, ) = [1 + exp(- ( - ))]-1

  23. Item és teszt információs függvény • A klasszikus eljárásokkal szemben a valószínűségszámítási alapozású tesztelmélet – és ezen belül a Rasch-modell – módot talált arra, hogy a mérési hiba nagyságát a jelöltek képességeinek függvényében határozza meg. • két konzisztens becslésének összevetésekor azt tekinthetjük jobbnak, amelyiknek szórása kisebb. Minél kisebb a variancia (szórásnégyzet: 2), annál kevesebb mintavételre van szükség egy bizonyos pontosságú becslés realizálásához. Így kisebb becslés-variancia esetén a minta pontosabb „információt” ad, mint nagyobb variancia esetén. • Ebben az értelemben a minta „információtartalma” (melyet az un. információfüggvénnyel fejezünk ki) fordítva arányos a becslés szórásnégyzetével. (Ismeretes egyébként, hogy a becslés varian-ciája nem lehet kisebb a Rao-Cramer egyenlőtlenség által adott alsó korlátnál.) • A Rasch modell esetén az egyes itemek információfüggvénye az I() = P(1 - P) alakot ölti. Tekintve, hogy az item-információk addi-tívak, az egyes itemek információfüggvényeinek összege adja a teszt információfüggvényét: T() = Ii(). Az információs függvények leggyakoribb alkalmazását a vizsgák és általában tesztek szerkesztésénél találjuk.

  24. Item információs függvény (IIF)Teszt információs függvény (TIF) IIF: I() = P(1-P) TIF: T() = Ii() 2 =T()-1 • Rasch-munkatáblázat\RaschExc800 • Rasch-munkatáblázat\RaschExc1024 k i=1 A becslések varianciája (2)fordítva arányos T()értékével.

  25. Itemszerkesztés, itemillesztés I. Az információfüggvényen alapuló tesztszerkesztés menetét A. Birnbaum nyomán a következőkben összegezhetjük: • Határozzuk meg a teszt-információfüggvény kívánt alakját, tekintetbe véve, hogy milyen pontosságú képességbecslés- re van szükségünk az egyes képességszinteken. Eredményül kapjuk az un. cél-információs görbét. • Szelektáljunk olyan itemeket, amelyek információs görbéi kielégítően kitöltik a célfüggvény alatt lefedendő területet. • Az egymás után kiválasztott itemek információs görbéit rendre adjuk hozzá a korábbiak összegéhez, menet közben értékelve az egyre tökéletesedő teszt információfüggvényét. • Mindaddig folytassuk az eljárást, amíg a cél-információs görbe alatti terület nincs elfogadhatóan kitöltve (azaz a teszt-információ-függvény a képesség-kontínuum minden számba-jövő pontján elfogadható becslés-varianciát eredményez).

  26. Itemszerkesztés, itemillesztés II. • A Rasch-modell előbbiekben felsorolt tulajdonságai természe-tesen csak akkor érvényesek, ha a teszt elfogadhatóan illesz-kedik a modellbe. A modell a helyes válasz esélyét a jelölt ké-pessége () és az item nehézsége () alapján határozza meg. Ezért ha valamely itemen a helyes válasz valószínűségét -n és -n kívül más is befolyásolja, a modell alkalmazhatósága sérül. • Azt, hogy valamely esetünkben alkalmazható-e a Rasch-modell, illeszkedésvizsgálat mutatja meg. Tekintsük a „vizsgapályát. A képességszint függőleges mozgásával szemben az illeszkedés vonatkozásában vizszintes elmozdulásról beszélhetünk. Egy-egy item vagy személy annál jobban illeszkedik a tesztadatok által meghatározott modellbe, minél közelebb helyezkedik el a pálya középvonalához. • Az illeszkedés jóságát matematikailag az infit paraméter mutat-ja, melynek meghatározásához – mind a képességek, mind az item-nehézségek vonatkozásában – rendszerint a maradék alapú illeszkedésvizsgálati módszeren alapuló Quest programot használják. (A vizsgapálya sötétzöld területeinek belső határa is ilyen módon rögzítődött.)

  27. Köszönöm szíves figyelmüket Irodalom  Georg Rasch (1901-1980)

  28. Irodalom • Adams, R. J., & Khoo, S.-T. (1993). Quest: The interactive test analysissystem [Computer programmanual]. Hawthorn: The Australian Council for Educational Research. • Birnbaum, A.: Some latent trait models and their use in inferring an examinee’s ability, 1968. In: Lord, F. M., Norvick, M. R.: Statistical Theories of Mental Test Scores, Reading, MA: Addison-Wesley. • Embretson, S. E., Reise, S. P.: Item response theory for psychologists, Mahwah, NJ: Erlbaum, 2000. • Erickson, G.: What is a good language test?,http://www.ealta.eu.org/conference/2006/programme.htm, 2006. • Horváth, Gy.: A modern tesztmodellek alkalmazása, Akadémiai Kiadó, Budapest, 1997. • Molnár, Gy.: Az ismeretek alkalmazásának vizsgálata modern tesztelméleti (IRT) eszközökkel, Magyar Pedagógia, Vol.103, No.4, 423-446, 2003. • Müller, H.: Probabilistische Testmodelle für diskrete und kontinuier-liche Ratingskalen, Huber, Bern, 1999. • Müller, H.: Illustrationen zum Rasch-Modell,http://user.unifrankfurt.de/~hmvff/rabix/rabix101.pdf, 2002. • Rasch, G.: Probabilistic models for some intelligence and attainment tests, Copenhagen: Danmarks pædagogiske Institut, 1960. (Expanded edition, 1980. Chicago: University of Chicago Press.)

More Related