Teorija odgovora na zadatke (Item Response Theory – IRT) Konceptualizacija i mogućnosti primjene

Sveučilište u Zagrebu Filozofski fakultet Odsjek za psihologiju Teorija odgovora na zadatke (Item Response Theory – IRT) Konceptualizacija i mogućnosti primjene

Teorija testova - definicija Skup modela, pretpostavki i dedukcija koji se odnose na probleme konstrukcije i psihometrijske evaluacije testova, te interpretaciju testovnih rezultata. Skupom pravila nastoji se formalizirati pridruživanje kvantitativnih oznaka ispitanicima, odnosno objektima mjerenja. Klasična teorija testova Moderna teorija testova

Teorija testova - problemi • metode za izbor testovnih čestica • postupci određivanja relevantnih psihometrijskih osobina česticakao što su težina, te diskriminativna valjanost • pravila za komponiranje čestica u cjelovite mjerne postupke koji će imati neke poželjne karakteristike • načela transformacije i vrednovanja kompozitnih rezultata određivanje pogreške mjerenja ukupnog rezultata • osjetljivost mjerenja

Teorija testova - koncepti • Lord i Novick (1968) mjerenje definiraju kao proceduru za pridavanje brojeva specifičnim osobinama eksperimentalnih jedinica tako da opišu i sačuvaju odnose u bihevioralnoj domeni. Skaliranje se može definirati kao pridavanje numeričkih vrijednosti objektima s ciljem reprezentiranja količine mjerenog atributa na nekoj rezultantnoj skali.

Teorija testova - koncepti • Skoro svi modeli skaliranja ispitanika mogu se opisati različitim tipovima krivulja koje povezuju mjereni atribut i vjerojatnost (ne)indikativnog odgovora. Funkcije ovog oblika nazivaju se linije traga zadataka ili karakteristične krivulje zadataka. • Mogući odgovori su alfa (točno, indikativno) ili beta (netočno, neindikativno). Linija traga opisuje očekivanu vjerojatnost odgovora alfa za ispitanike na različitim razinama atributa ili klase

Nunnally i Bernstein (1994) navode četiri moguće linije traga za dihotomno bodovane zadatke: • a) stupnjevita linija • b) krivulja u obliku slova S (sigmoidna) • c) krivulja nepravilnog monotonog oblika • d) krivulja nemonotonog oblika. Moguće je domisliti i drugačije modele u skladu s pretpostavljenim matematičkim funkcijama koje ih definiraju. • Apscisa se, kod ovakvih prikaza, odnosi na mjereni konstrukt, definiran u terminima njegove veličine (izraženosti) i uobičajeno se označava sa . Različiti modeli dovode do različitih linija traga.

- deterministički i probabilistički modeli • - monotoni i nemonotoni

Za razliku od fizikalnih mjerenja, gdje je dovoljan samo jedan indikator atributa, koji uz to dopušta i ponovljena mjerenja, u psihologiji, osobito teoriji testova, dominiraju kompozitna mjerenja, kod kojih procjena atributa predstavlja neku funkciju pojedinih čestica ili zadataka, koji se mogu koristiti u širem smislu za svaki podražaj u mjerenju.

Neki od razloga za korištenjem kompozitnih mjera jesu: • a) Pojedinačni zadaci obično nisko koreliraju s mjerenim atributom. • b) Pojedinačni zadaci imaju tendenciju da koreliraju i s drugim atributima, pored mjerenog. • c) Svaki zadatak sadrži dio varijance specificiteta u smislu da ne korelira s niti jednim općim atributom ili faktorom. • d) Pojedini zadaci mogu sadržavati znatnu količinu varijance pogreške. • e) Jedan zadatak omogućuje klasifikaciju ispitanika u mali broj kategorija (često samo u dvije).

Teorija testova - razvoj • 1895. Galtonov student Karl Pearson objavljuje formulu za koeficijent korelacije • 1904. E.L. Thorndike objavljuje prvu knjigu o teoriji testova: An Introduction to the Theory of Mental and Social Measurements. • Formula za pouzdanost dvostruko duljeg testa i njezina generalizacija na k-paralelnih testova prvi su put derivirani 1910. • Kuder i Richardson (1937) razvili nekoliko metoda za ispitivanje pouzdanosti.

Teorija testova - razvoj • 1951. Cronbach predlaže alpha koeficijent • 1936. i 1954 Guilford: Psychometric methods • 1950. Gulliksen: Theory of mental tests • 1968. Lord i Novick: Statistical theories of mental test scores.

Klasična teorija testova Tryon Thorndike Kuder Kelly Gulliksen Pearson Spearman Richardson Cronbach Brown Guilford Lord 1895 1951 Teorija pravih rezultata i pogreške mjerenja Eklektička teorija pravih rezultata i paralelnih testova Teorija uzoraka iz domene ponašanja

Model paralelnih testova Osnovne pretpostavke: a) Bruto rezultat svakog ispitanika predstavlja linearnu kombinaciju pravog rezultata i komponente pogreške X = T + E b) Pravi rezultat jednak je u svakom od paralelnih mjerenja c) Komponente pogreške potpuno su slučajne

Osnovni koncepti vezani uz pouzdanost mjerenja: Koeficijent pouzdanosti rxx : Standardna pogreška mjerenja: Determinante pouzdanosti: a) broj mjerenja b) pouzdanost svakog pojedinog mjerenja

Neke osnovne formule:

Nedostaci klasične teorije: Fundamentalna pretpostavka u osnovi koncepta pouzdanosti o paralelnim mjerenjima teško je ostvariva u praksi ovisnost indeksa lakoće i indikatora diskriminativnosti zadataka o uzorku ispitanika procjena pouzdanosti ovisna o uzorku ispitanika komparacija ispitanika prema sposobnosti mjerenoj skupom zadataka sadržanih u testu ograničena je na situaciju kada ispitanici rješavaju iste ili paralelne zadatke varijanca pogreške jednaka za sve ispitanike ne daje osnovicu za određivanje procjene uratka ispitanika u zadatku

Nedostaci klasične teorije: Mnogi testovi postignuća i sposobnosti su prilagođeni za ispitanike prosječnih sposobnosti, pri čemu testovi ne nude preciznu procjenu sposobnosti za vrlo uspješne i vrlo neuspješne ispitanike. Značajna poteškoća jest usporedba ispitanika koji rješavaju testove različite težine, budući da broj točnih odgovora ovisi o težinskoj strukturi zadataka

Razvoj modernih psihometrijskih koncepcija, koje u osnovi predstavljaju sustav modela povezanih skupom zajedničkih pretpostavki, organiziran je oko teorije latentnih osobina. Srodni termini korišteni za označavanje ovih modernih koncepcija jesu teorija karakteristične krivulje zadatka ili u novije vrijeme teorija odgovora na zadatke - TOZ (Item Response Theory - IRT).

IRT – razvoj ideje Weiss i Yoes (1991) navode da korijeni pojave TOZ-a leže u području psihološkog skaliranja, te psihofizici. Bazično, karakteristična krivulja zadatka (u nastavku KKZ)4 jest grafički prikaz razine uspješnosti u nekom zadatku ili zadacima u odnosu na neku nezavisnu mjeru kao što je mjerena osobina, dob, itd. Definiranje krivulje prikladnom matematičkom funkcijom jedan je od temeljnih problema teorije. 4 ICC - item characteristic curve

1916. Binet i Simone prvi grafički prikazuju razinu uratka u različitim kognitivnim testovima u odnosu na dob i koriste grafove u razvoju testova. Birali su zadatke za svoje testove inteligencije upravo na osnovu karakterističnih krivulja zadataka, iako ih tako nisu nazivali. Ovi grafikoni su ključni koncept u TOZ. Louis Guttman (1944) razvio je metodu skaliranja, koja se može razmotriti kao deterministički model TOZ-a. Razvio je ideju o "liniji traga", koja konceptualno odgovara karakterističnoj krivulji zadatka u TOZ-u.

Radovi Lorda početkom pedesetih, pod utjecajem Lawleya, općenito se smatraju rođenjem TOZ-a ili "moderne teorije testova" kako se još naziva 1952. Lord opisuje 2-parametarski model za dihotomne zadatke, zasnovan na modelu normalne krivulje Birnbaum 1957. (prema Lord i Novick, 1968) spomenuti model "kumulativne normalne krivulje" korišten od Lorda i drugih, zamjenjuje prikladnijim logističkim modelom. Razvio je potrebne statističke procedure za logističke metode i olakšao upotrebu ovih modela drugim psihometričarima. Sam je razvio 3-parametarski logistički model

Velik značaj ima danski matematičar Georg Rasch, koji je neovisno razvio 1-parametarski model TOZ (1960). Ovaj model se često naziva Raschov model. 1969. javlja se BICAL kao prvi program za procjenu parametara Raschovog modela.

OSNOVNI POJMOVI U osnovi svaki TOZ pristup pretpostavlja, da u testovnoj situaciji, uradak ispitanika u zadacima ili testu može biti predviđen (ili objašnjen) definiranjem veličine atributa koja se nalazi u osnovi uratka Odnos između "direktno mjerljivih" i "latentnih" kvantiteta opisan je matematičkom funkcijom. Zbog toga su modeli teorije odgovora na zadatke matematički modeli, zasnovani na specifičnim pretpostavkama o testovnim podacima.

OSNOVNI POJMOVI Jedna od temeljnih pretpostavki TOZ modela odnosi se na pretpostavljeni oblik karakteristične krivulje zadatka (KKZ) ili kako se ponekad naziva funkcija odgovora na zadatak (FOZ). Ukoliko u dvodimenzionalnom koordinatnom sustavu grafički prikažemo proporciju točnih ili indikativnih (alfa) odgovora u zadatku (ordinata) za skupine ispitanika s različito razvijenim mjerenim atributom (apscisa) dobit ćemo krivulju koja je najčešće monotona rastuća krivulja S-oblika Ovakva krivulja dobivena za jedan zadatak obično se naziva empirijska karakteristična krivulja zadatka ili empirijska funkcija odgovora na zadatak.

OSNOVNI POJMOVI Kod populacije ne govorimo više o proporciji točnih/indikativnih odgovora već ga mijenjamo konceptom vjerojatnosti točnog odgovora. Također grafikon se ne zasniva na ukupnom testovnom rezultatu, već se koristi neka procjena latentna osobine  koju čestice testa mjere. Grafikon za razinu populacije koji prikazuje vjerojatnost točnog odgovora na zadatak na različitim razinama latentne psihološke dimenzije predstavlja karakterističnu krivulju zadatka ili funkciju odgovora na zadatak

OSNOVNI POJMOVI Na osnovu takve, matematički definirane funkcije, moguće je odrediti kondicionalnu vjerojatnost točnog (ili netočnog) odgovora Pi() ili Qi() za ispitanika zadane  razine. Glavna razlika između popularnih TOZ modela jest u matematičkom obliku određenja Pi(), tj. definiciji karakteristične funkcije zadatka. Postoji nekoliko parametara ili numeričkih indikatora koji opisuju karakterističnu funkciju odgovora na zadatak, iako različiti modeli koriste samo neke od parametara za definiciju krivulje. Parametar težine zadatka, prema u TOZ-u, definira se kao sredina funkcije.

OSNOVNI POJMOVI Nadalje od važnosti u TOZ-u je točka u kojoj se krivulja (funkcija) mijenja iz pozitivno akcelerirane u negativno akceleriranu. U toj točki nagib krivulje je maksimalan, te je i diskriminativnost najveća. Diskriminativnost zadatka u TOZ-u proporcionalna je ovom maksimalnom nagibu krivulje Treći važan parametar jest vjerojatnost povezana s donjim krajem krivulje. Ovaj parametar određuje vjerojatnost točnog/indikativnog odgovora za ispitanike s vrlo niskom razinom sposobnosti. Parametar se ponekad označava kao parametar "donje asimptote" ili parametar "pseudo-pogađanja".

OSNOVNI POJMOVI Neka KKZ je potpuno definirana kada je specificiran njen opći oblik i kada su poznati njeni parametri za konkretni zadatak. Obzirom na broj parametara koji koriste za opis funkcije modeli se uobičajeno nazivaju 1-, 2- ili 3-parametarski.

Primjer karakteristične krivulje zadatka pod 3-PL modelom

Osnovne pretpostavke teorije odgovora na zadatke ispitanik koji zna točan odgovor na zadatak vjerojatno će točno odgovoriti na njega dimenzionalnost latentnog prostora – k latentnih dimenzija definira uradak ispitanika u zadatku jedna od temeljnih pretpostavki TOZ modela odnosi se na pretpostavljeni oblik karakteristične krivulje zadatka (KKZ) ili kako se ponekad naziva funkcija odgovora na zadatak (FOZ). Pretpostavka o lokalnoj neovisnosti. Lokalna neovisnost znači da vjerojatnost točnog odgovora na jedan zadatak ne ovisi o odgovorima na ostale zadatke Implicitna pretpostavka svih TOZ modela jest da testovi na koje se modeli odnose nisu primijenjeni pod uvjetima vremenskog ograničenja

Neki model TOZ-a specificira odnos između testovnog rezultata, dostupnog opažanju i latentne osobine ili sposobnosti za koju je pretpostavljeno da je u osnovi učinka u testu, a koju nije moguće direktno mjeriti. Unutar širokog okvira TOZ-a, mogu se operacionalizirati mnogi modeli zbog velikog broja mogućih matematičkih oblika karakteristične krivulje zadatka.

Teorija odgovora na zadatke - TOZ Item Response Theory - IRT Lord Swaminathan Guttman Moiser Lawley Lazarsfeld Samejima Wright Birnbaum Hambleton Rasch McDonald 1950 2000… logistički modeli za binarne zadatke 1- parametarski logistički 2- parametarski logistički 3 -parametarski logistički Model integrala krivulje normalne distribucije model za nominalne varijable model za kontinuirane varijable Multidimenzionalni modeli

Neki model TOZ-a specificira odnos između testovnog rezultata, dostupnog opažanju i latentne osobine ili sposobnosti za koju je pretpostavljeno da je u osnovi učinka u testu, a koju nije moguće direktno mjeriti. Unutar širokog okvira TOZ-a, mogu se operacionalizirati mnogi modeli zbog velikog broja mogućih matematičkih oblika karakteristične krivulje zadatka.

1-parametarski logistički model

Procjena individualnih parametara

Bazični problem teorije odgovora na zadatke jest procjena karakteristične krivulje zadatka, odnosno parametara koji su potrebni za njezino definiranje unutar odabranog modela. U osnovi problem je sličan regresijskom problemu, ali se ovdje najčešće radi o nelinearnoj regresiji. Treba odabrati logističku krivulju, poznatih karakteristika koja najbolje opisuje podatke. Ukoliko želimo procijeniti parametre zadataka kada je  poznato za svakog ispitanika, primijenit ćemo k zadataka na veliki broj ispitanika i dobiti funkciju vjerodostojnosti za odgovore N ispitanika na zadatak, koja izgleda:

Korisna osobina karakterističnih funkcija zadataka jest njihova aditivnost (shodno pretpostavci o lokalnoj neovisnosti). Tako se funkcije zadataka u testu mogu dodavati na svakoj razini latentne dimenzije. Ova krivulja, kreirana sumiranjem pojedinačnih funkcija zadataka naziva sekarakteristična krivulja testa (KKT) ili karakteristična funkcija testa (KFT). Apscisa kod funkcije KKT još uvijek predstavlja latentnu dimenziju () mjerenu testom. Ordinata predstavlja sumu vjerojatnosti točnih odgovora na svaki pojedini zadatak u testu. Kada se zbroje ove vjerojatnosti, tako dobiveni rezultat se naziva "pravi rezultat" ili procijenjeni broj točnih odgovora

Provjera prikladnosti modela

Koncept informacije u kontekstu teorije odgovora na zadatke

Koncept informacije u TOZ

Determinante preciznosti procjene individualnih parametara a) Što je parametar b sličniji vrijednosti , tj. što je zadatak težinski primjereniji razvijenosti latentne osobine kod ispitanika, informacije je veća b) Što je veća diskriminativnost zadatka informacija je veća c) Informacija se povećava smanjenjem parametra c, tj. reduciranjem vjerojatnosti slučajnog pogađanja. d) broj zadataka

Mogućnosti primjene TOZ Izrada banke zadataka (ITEM POOL) Kada postoji banka sadržajno-valjanih i tehnički provjerenih zadataka, konstruktor testa ima znatno olakšanu ulogu, te može sačiniti kvalitetniji test, nego kad sam priprema vlastiti test. Potencijali takve banke (osobito kalibrirane TOZ tehnikama) su: a) lako se može sačiniti test za mjerenje nekog željenog predmeta mjerenja b) unutar okvira banke zadataka možemo kreirati testove s željenim brojem zadataka c) kvaliteta testa se može značajno poboljšati

- određivanje pristranosti zadataka (item bias). • kompjutersko adaptivno testiranje (KAT).

Teorija odgovora na zadatke (Item Response Theory – IRT) Konceptualizacija i mogućnosti primjene