670 likes | 950 Views
Analisis item dan standardisasi tes. Tujuan. Memahami konsep dan strategi memilih item tes berdasarkan kriteria eksternal .
E N D
Tujuan • Memahamikonsepdanstrategimemilih item tesberdasarkankriteriaeksternal. • Memahamikonsepdanstrategimemilih item tesberdasarkankonsistensi internal yang meliputikesulitan item (indekskesulitan item ataup) dankemampuanmendiskriminankelompok (indeksdiskriminasi item atauD). • Memahamikonsepdanstrategimemilihpengganggu item pilihanganda (multiple-choice item distracters). • Memahamikonsepdanstrategimemilihtesberdasarkanitem-response curve danitem-response theory (IRT) • Mendeskripsikanstrategipengembangansampel standard. • Mendeskripsipersentildanjugaskor standard yang diikuti : skor z, skor Z, skor CEEB danskor standard yang dinormalisir.
Penghitunganstatistiktertentu yang harusditelitidenganseksamauntukmenentukanapakahsemua item padatesberfungsiseperti yang seharusnyadanbagaimanacaramenginterpretasikanskortes. • Analisis item berfokuspadamemfungsikanmasing-masing item sedangkanstandardisasitesberkaitandenganinterpretatifskornormatifpadatessecarakeseluruhanataupadabeberapabagianatau sub tes yang memuatnya.
Classical Test Theory (CTT) danItem-respons theory (IRT) bermanfaatpadapenyusunan, analisisdanpenerapantesdantergantungpadatugaskhusus. • Setelahtesdiselenggarakandandiberiskor, baruketahuanbahwatesitubelumdilaksanakandenganbaik. Ketikatesdiujicobapertama kali, tampaknyasejumlahmasalahdapatdiselesaikan. • Pelaksanaantes yang tidakbaikinimerupakansalahsatualasanmengapates yang didistribusikansecarakomersialdiselenggarakandulupadasampelorang. Setelahitutesdiselenggarakanbagipopulasisampeltersebut. Respon pilot sampelinikemudiandianalisisuntukmenentukanapakah item tersebutberfungsitepat.
Apapunjenistes – terstandardisasiataudibuat guru, kemampuanataukepribadian – analisishasil post-mortem ataupost hoc samaperlunyapadaperusahaanobatatauperusahaan lain yang bercirimanusia. • Diantarapertanyaan yang perludijawabadalah : Apakahwaktu yang tersediacukup ? Apakahpesertamemahamipetunjuktes ? Apakahkondisitesmemadai ? Apakahkeadaandaruratdiatasidengantepat ? Apakah item jelas ? Apakahtescukupwajar ? Kuesionerumpanbaliksederhana yang berkaitandenganpertanyaaninidanpertanyaan yang relevan lain seringkalidapatmembantumemperbaikitestersebut.
Analisisrespons yang disampaikanolehkelompokorangmengenaimasing-masing item padatesmemberikanbeberapafungsi. • Tujuanutamaanalisisitem semacamituadalahmembantumeningkatkantesdenganmemperbaikiataumenghapus item inefektif. • Fungsipenting lain darianalisis item, terutamaanalisis item padatespencapaianadalahmemberikaninformasidiagnostikmengenaiapa yang diketahuidantidakdiketahuiolehpesertates.
Tes yang mengacukeKriteriadanTesPenguasaan • Prosedur yang digunakandalammengevaluasiefektivitas item testergantungpadatujuantes. Misalnya, penyusuntesinginmendesaintes yang memprediksigejalaklinis yang relevan, sepertihasil diagnosis psikoterapiataupsikiatri. • Item padatesakandipilihberdasarkanpadaseberapabaguspenyusuntesmemprediksigejalaklinisini. • Penyusuntes lain berkaitandenganmenentukanseberapabanyakpesertatesmengetahuiisibidangakademi. Dalamkasusini, kinerjadiukurberdasarkankriteriaatau standard yang ditentukanoleh guru kelasataukebijakaninstitusi.
Tujuanpengetesancriterion-referenced(or domain referenced) testing semacamitubukanhanyauntukmenemukanbagaimanaskor yang diperolehseseorangdibandingkandenganorang lain tetapijugauntukmenentukandimanadiaberposisiterhadaptujuankuliahataugejalaklinistertentu. • Jeniskhusustes yang mengacukekriteriayang didisainuntukmengukurpencapaianketrampilankognitif yang lingkupnyaterbatasdikenalsebagaitespenguasaan (mastery test). • Skorseseorangpadatespenguasaandiungkapkandenganpersentasejumlah item total yang dijawabdenganbenar, skorsempurnamenunjukkan 100 % penguasaanmateri.
PerbedaanIndividudanValiditas Item • Karenasangatsulitmemperolehpersetujuanpadaseberapabanyakorangseharusnyatahumengenaisubjektertentuatauapa yang mendasarimenguasaanini, skortespsikologiataupendidikansecaratradisionaltelahdiinterpretasikandengancaramembandingkannyadenganskor yang diperolehorang lain. • Tespsikologitelahdirencanakanterutamauntukmemeriksaperbedaanantaraindividumengenaikarakteristikkognitifdanafektif.
Orangberbedadalamkemampuandankepribadianmerekadanparapsikologberusahamengevaluasiperbedaaninidenganberbagaijenistes.Orangberbedadalamkemampuandankepribadianmerekadanparapsikologberusahamengevaluasiperbedaaninidenganberbagaijenistes. • Para penyusuntes professional mencobamerencanakan item yang berbedabagiorang yang berbedadalamkaitannyadengankemampuanapa yang diukur . • Untukmenilaikemanfaatan item sebagaiukuranperbedaanindividudalamkemampuanataukarakteristikkepribadian, parapengujiperluukuranpatokaneksternalkarakteristikmenyangkutkarakteristik.
Validitas item untukmemprediksikeadaankriteriaeksternalditentukandenganmengkorelasikanskorpada item (noluntuksalahdan 1 untukbenar) denganskorpadaukuranpatokan. • Jeniskoefisienkorelasi yang berbeda-bedadigunakanuntuktujuanini yang paling umumkoefisiendua-rangkaiantitik (point biserial coefficient).
Item yang memilikikorelasiserendah 0,20 berdasarkankriteriamemberikankontribusiuntukmemprediksi item itu, meskipunkoefisienlebihtinggilebihdisukai. Item yang memilikikorelasihampirataukurangdari 0,00 dengan criteria pastiharusdiperbaikiataudibuang. • Item yang memilikikorelasitinggiberdasarkan criteria tetapikorelasirendahdengan item lain adalah yang terbaikkarena item itumembuatkontribusi yang lebihindependenterhadapprediksiskorkriteria.
IndeksKesulitanItem danIndeksDiskriminasi • Dalamkasustespencapaianprestasidikelas, item dikorelasikandenganskor total padatesitusendiri. Diasumsikanbahwarangkaian item sebagaikeseluruhanmerupakanukuranpencapaian yang memadaimengenaisubjek, skor total sebagaikriteriadalammenentukankonsistensi internal tes. • Prosedurjalanpintasadalahmenyortirparapesertatesmenjadi 3 kelompokmenurutskormerekapadatessebagaisatukeseluruhan : kelompoktinggiterdiridari 27 % yang membuatskortertinggi, kelompokrendahterdiridari 27 % yang membuatskorterendahdansisanya 46 % beradapadakelompoktengah. Jikajumlahrespondenkecil, kelompokskor 50 % tinggidanrendahdarites total kadangkaladigunakanuntuktujuananalisis item.
Nilaipdisebutindekskesulitan item (item difficulty indeks) dan D sebagaiindeksdiskriminasi item (item discrimination indeks). • Misalkandisumsikanbahwa 50 orangmengikutites. • Kemudian, kelompoktinggidanrendahdibentukdaribagianatas 0,27 x 50 = 14 dan 14 terendahpadaskortes total. Jika 12 orangpadakelompoktinggidan 7 orangpadakelompokrendahlolos item A maka p = (12 + 7)/28 = 0,68 dan D = (12-7)/14 = 0,36.
Indekskesulitan item memilikicakupandari 0,00 – 1,00. Item dengan p = 0,00 adalah item yang tidakseorangpunmenjawabbenardan item p = 1,00 dijawabbenarolehsemuaorang. • Nilai-p optimum untuk item tergantungpadasejumlahfaktor, yang mencakuptujuantesdanjumlahopsirespons. Jikatujuantesadalahmengidentifikasikanataumemilihhanyapresentasekecildaripelamarterbaikmakatesharuscukupsulitsepertitercerminpadanilai mean prendah. Jikatesdidesainuntukmenyaringhanyasedikitpelamar yang sangatburukmakanilai mean ptinggiadalah yang terbaik.
Nilai optimum ptergantungpadates. Misalnya, p optimum haruscukuprendahuntuk item tes yang didesainuntukmenentukanpenerimabeasiswaatauuntukpenempatantingkatlanjut, tetapicukuptinggipadates yang didesainuntukmengidentifikasikansiswa yang mengikuti program remidi. Padates yang didesainuntukmengukurcakupanluaskemampuan, nilai p optimum hampirmemdekati 0,5. • Nilai mean optimum puntuktessemacamitujugabervariasisecaraberkebalikandenganjumlahopsirespons (k), p untuk item yang dapatditerimaakanmasukkecakupan yang cukupsempit, sekitar 0,20 disekitarnilaidalamtabelini.
Indeksdiskriminasi item (D) adalahukuranefektivitas item dalammendeskripsikanantarapemilikskortinggidanrendahpadates. • Semakintingginilai D, semakinefektif item dalammendeskriminasikanantarapesertatesdenganskortinggidanpesertatesdenganskorrendahpadatessebagaisatukeseluruhan. • Ketika D adalah 1,00 semuapesertatesdikelompoktinggimenjawab item denganbenardantakseorangpundikelompokrendahpadaskortes total menjawab item denganbenar. • Akantetapi, jarang D seteradengan 1,00 dan item inibiasanyadianggapditerimajikaindeks D adalah 0,30 ataulebihtinggi.
Tetapi D dan p bukanindeksindependen, dannilai D minimum yang dapatditerimaketika p semakintinggiatausemakinrendahdaripadanilai optimum terutamaketikaukuran/besarkelompokpembandingtinggidanrendahadalahbesar.
Faktoryang MempengaruhiBerfungsinyaItem • Dalammenyusuntesterstandardisasi, sekarangmenjadipraktikumumuntukmenelititiap-tiapitem danstatistikyang terkaitdengannyauntukmendapatkanindikasimengenaidiskriminasiatau bias kelompok. • Indeksstatistikdifferential item function (DIF) seringkalidihitunguntukmempermudahprosesini. • Item dapat bias hanyaketika item itumengukursesuatu yang berbeda – karakteristikatauciriberbeda- dalamsatukelompokdengankarakteristikatauciri lain.
Jikaskor item mencerminkanperbedaannyatakemampuanataukarakteristikapa pun yang didesainuntukdiukuroleh item itu, item itusecarateknistidak bias. • Menyelenggarakananalisis item terpisahbagitiap-tiapkelompokakanmengungkapkankeberadaan bias item yakniapakah item tersebutmendeskriminasidenganbaikantarapemilikskortinggidanrendahpadakeduakelompoktersebut. • Analisis item menghasilkanperbaikansignifikanterhadapefektivitastes. Indeksdiskriminasi item secarakhususmerupakanukuran yang cukupbagusmengenaikualitas item. • Bersamadenganindekskesulitan ( p ), D dapatdigunakansebagaiperingatanbahwaada yang salahpada item tersebut.
Bank item semacamitudigunakantidakhanyaolehpenyusuntestradisional professional, tetapijugadiberikansebagaibahantambahanpadasejumlahbukuteks yang digunakansebagaitespraktekataumenjadikumpulan item untukmenyusuntesdikelas.
Konsistensi Internal Versus ValiditasInternal • Konsepvaliditas item biasanyamengacukehubungan item dengankriteriaeksternal. Sebaliknya, D adalahukuranhubunganskor item dengankriteriainternal – skor total – bukandengankriteriaeksternal. • Memilih item yang berdasarstatistikD menghasilkanjenistes yang berbedadaripada item yang terdiriatas item yang dipilihberdasarkorelasitinggidengankriteriaeksternal. • Kadangkalakombinasiduastartegimemadai : tesgabungandisusundarisubtes yang salingmemilikikorelasirendahdankorelasi yang substansialdengankriteriaeksternal, tetapi item-item subtessangatberkaitan.
Item Tes yang MengacukeKriteria • Indekskesulitandanindeksdiskriminasijugadapatdihitungberdasar item tes yang mengacukekriteriayang didesainuntukmenentukanposisipesertatesterhadaptujuanpendidikan yang telahditetapkan. • Dalamkasusini, pesertatesdibagimenjadi 2 kelompok : kelompokatas yang terdiridaripesertaU yang skortestotalnyamemenuhikinerja yang dapatditerima yang telahdirancangberdasarkriteriadaripesertatesL yang skortotalnyagagalmemenuhikriteria.
AnalisisterhadapPengganggu • Analisisitem pilihan-gandasecaratradisionaltelahmulaidenganpenghitunganindekskesulitandanindeksdiskriminasiuntuktiap-tiap item. • Analisiskeduaberkaitandenganberfungsinya k-1 opsi (penggangguataudistracter) salahuntuktiap-tiap item. Indeksdiskriminasi item (D) memberikaninformasipadaberfungsinyagangguansecarakeseluruhan. • D positifberartipadapesertatespadakelompokatas (padaskortes total) cenderungmemilihjawabandenganbenarsedangkan yang adadikelompokbawahcenderungmemilihsatupengganggubesarnya D menunjukkantingkatkecenderunganini. • D negatifmenunjukkanbahwapengganggudipilihlebihseringolehpesertatespadateskelompokatasdaripadaoleh yang adadikelompokbawahdanbahwa item ituperludirevisi.
KurvaKarakteristikItem • Nilai p dan D yang dapatditerimatidakmenjaminbahwa item berfungsidengantepatdisemua level kinerjates. • Agar sangatefektif, proporsiorang yang menjawab item tesdengantepatharusmeningkatdenganmantapseiringdenganpeningkatanskor total padatesatausubtes. • Apakah item tesberfungsidengancarainidapatditentukandariitem characteristic curve (ICC). Dalammenyusun ICC, proporsiresponden yang member jawabankuncidiplotterhadapskormerekaberdasarkankriteriainternal (misalnyaskortes total) atau criteria eksternalsepertipencapaianataukinerjapekerjaan.
Level kesulitan (b) adalahskor criteria yang 50 % pesertates member jawabanbenar (berdasarkunci); indeksdiskriminasi (a) adalahtingkatkemiringan (slope) kurvarespons-tem padapoin 50 %. • Misalkandaridua ICC yang diplotpadaGambar 4.1, nilai 0,5 padasumbu vertical berhubungandenganskor total 68 padakasus item 1 dan 77 padakasus item 2. • Akibatnyaitem 2 lebihsulitdaripada item 1. Akantetapi, ICC item 1 memilikikemiringanlebihcuramdaripada item 2 , maka item 1 mendiskriminasidenganlebihbaikdaripada item 2 antarapemilikskortinggidanrendahpadaseluruhtes.
Item response Theory • Metodeinipertama kali mengembangkanteorimengenaicaraberfungsinya item berdasarkanpengetahuanmengenaikemampuanataucirikepribadian (Trait). • Metodeinimembandingkanresponssesungguhnyaterhadap item untukmenentukanseberapabagusberfungsinya item. Jadi item sesungguhnyadibandingkandenganbagaimanaseharusnya item ituberfungsisecarateori.
SepertidigambarkanpadaGambar 4.2, bentukkurvarespons-item bervariasimengikutinilai parameter a dan b. Keduakurvapadagambarinidisusundenganfungsidua-parameter padarumus 4.5. • Padakurva P, parameter kesulitan (b) adalah 1,00 dan parameter diskriminan(a) adalah0,5; padakurvaQ, b= 0,25 dana = 0,75. • Catatbahwabadalahnilai (titikpadasumbu horizontal) yang berhubungandengan P() = 0,5 danaadalahkemiringankurvapada P() – 0,5. Pada model 3 parameter, badalahnilai P() yang berhubungandengan 0,5 ( c + 1) dengancadalahtitikpersilanganantarakurvarespons-item dengansumbuvertikal.
Skorpadakontinum, kemampuantersembunyi (latent ability continuum) dinyatakansebagai unit skor standard (z ), tetapipadapenerapansebagianbesarpendidikan, skor z diubahkeskala yang memiliki mean 300 dandeviasi standard 50. • Padaprakteksesungguhnya, parameter item danskorkemampuantersembunyi(latent ability score) pesertatestidakdiketahui.
Masalahnyaadalahmencarikurvarespons-item yang paling cocokdenganresponsterhadaptiap-tiap item. • Pencarianinimelibatkanprosedur yang mungkin-maksimumsecara iterative denganmengasumsikannilaiawaltertentuuntuk parameter itemnyadenganmenghitung P() yang berhubungandenganberbagainilai, membandingkanrespons-item hasilprediksidenganrespons-item sesungguhnyadanmelanjutkanprosessampaisolusiterbaikdapatdiraih. • Prosesestimasi parameter item membutuhkanresponsbanyakpesertates yang mewakilipopulasipotensipesertateskira-kira 2.000 untuk model tiga parameter dan 1.500 untuk model satu parameter (Rasch).
Tidaksepertimetodologipengetesantradisional, yang mengacaukanantaradiskriminasidankesulitantespadasampeltertentuorang yang dites, pada IRT makaparameternyaadalah, setidaknyadalamteori, independenterhadapsampeltes. • Sifat IRT yang menariklainnya, invariance kemampuantesdenganresponsterhadap item yang digunakanuntukmengestimasinya, berakarpadaprosespengestimasian. Fitur IRT iniberartibahwatespada level kesulitanmanapundapatdikelolauntukmenentukanposisiseseorangpadaberbagai level kemampuantersembunyi (latent ability continuum). • IRT telahdipergunakanuntukberbagaitujuan, yang meliputipenyusunantes, kalibrasiskortesuntukmenyediakankerangkaacuangunamenginterpretasikannya. Standardisasites, penentuandifferential item functioning (DIF) danpengetesanadaptif.
Standardisasidan Norma Tes • Fiturintipadasebagianbesartespsikologiadalahbahwaskorindividuharusdibandingkandenganbeberapakelompok normative. Fiturinimemungkinkankitaharusmenginterpretasikanmaknaskor. • Misalnya, kitatahubahwaseseorangmendapatskortinggipadaintroversikarenaorang lain meresponpada item samamenguasaisedikitjumlah item yang berkaitandenganintroversi. • Untukmenyelesaikantugasini, tes, inventori (kumpulansoaltes), skalaperingkatatauperalatanpsikometri lain harusdistandardisasi.
Testerstandardisasiapapunmemilikipetunjuk standard mengenaipenyelenggaraandanpemberianskor yang harusbenar-benardiikutisehinggahanyamenyisakanruangkeciluntukinterpretasidan bias pribadi. • Standardisasijugamelibatkanpengelolaantestesterhadapsampelorangdalamjumlahbesar (standardisasisampel) yang dipilihsebagaiwakildaripopulasisasaranberupaorang yang menjadisasarantes.
Tujuanutamastandardisasitesadalahuntukmenentukandistribusiskormentahpadasampelterstandardisasi (kelompoknorma). • Skormentah yang diperolehtersebutkemudiandikonversikankebeberapabentukskorturunanataunorma. • Dalammengevaluasianakcacat, kadangkalaperlumengelolatesdiluar level (out-of-level test) yang didesainuntuk level usiadan level grade dibawahorang yang menginterpretasikanskor.
MemilihSampelTerstandardisasi • Agar berfungsisecaraefektifpadainterpretasiskortes, normaharussesuaidengankelompokatauindividu yang dievaluasi. • Kapanpunskortesdikonversikandenganmengacuketabelnorma, pentinguntukmembuatcatatanmengenaikarakteristiksampel (usia, jeniskelamin, etnik, pendidikan , status sosioekonomi, wilayahgeografi) darikelompoknormatertentudanmemasukinikedalamsemuakomunikasimengenaikinerjaseseorang.
Ciripemilihansampelterstandardisasidaripopulasibervariasidaripengambilansampelsecaraacaksederhana (simple random sampling) sampaistrategipemilihansampel yang lebihrumitsepertipengambilansampelsecara cluster (cluster sampling). • Pengambilansampelsecara cluster lebihekonomisdaripadapengambilansampelsecaraacakterstratifikasidanlebihmungkindaripadapengambilansampelsecaraacaksederhanadalammenghasilkansampel yang mewakilipopulasisasaran. • Norma yang dipublikasikanpadabukupetunjukbermanfaatuntukmembandingkanskorpesertatesdenganskorsampelorangdariberbagailokasi, kadangkalacross sectiondariseluruhbagian Negara.
Norma UsiadanKelas • Norma usia (ekuivalen usia , usia pendidikan) merupakan skor median pada tes yang diperoleh orang pada usia kronologis tertentu; norma kelas (grade norm) (ekuivalen kelas) adalah skor median yang diperoleh siswa pada level kelas tertentu. • Norma usia dan norma kelas memiliki kelemahan yang serius. Masalah utama adalah pertumbuhan karakteristik kognitif, psikomotorik atau afektif tidak seragam pada seluruh cakupan usia atau kelas.