Analisis item dan standardisasi tes

Analisis item danstandardisasites

Tujuan • Memahamikonsepdanstrategimemilih item tesberdasarkankriteriaeksternal. • Memahamikonsepdanstrategimemilih item tesberdasarkankonsistensi internal yang meliputikesulitan item (indekskesulitan item ataup) dankemampuanmendiskriminankelompok (indeksdiskriminasi item atauD). • Memahamikonsepdanstrategimemilihpengganggu item pilihanganda (multiple-choice item distracters). • Memahamikonsepdanstrategimemilihtesberdasarkanitem-response curve danitem-response theory (IRT) • Mendeskripsikanstrategipengembangansampel standard. • Mendeskripsipersentildanjugaskor standard yang diikuti : skor z, skor Z, skor CEEB danskor standard yang dinormalisir.

Penghitunganstatistiktertentu yang harusditelitidenganseksamauntukmenentukanapakahsemua item padatesberfungsiseperti yang seharusnyadanbagaimanacaramenginterpretasikanskortes. • Analisis item berfokuspadamemfungsikanmasing-masing item sedangkanstandardisasitesberkaitandenganinterpretatifskornormatifpadatessecarakeseluruhanataupadabeberapabagianatau sub tes yang memuatnya.

Classical Test Theory (CTT) danItem-respons theory (IRT) bermanfaatpadapenyusunan, analisisdanpenerapantesdantergantungpadatugaskhusus. • Setelahtesdiselenggarakandandiberiskor, baruketahuanbahwatesitubelumdilaksanakandenganbaik. Ketikatesdiujicobapertama kali, tampaknyasejumlahmasalahdapatdiselesaikan. • Pelaksanaantes yang tidakbaikinimerupakansalahsatualasanmengapates yang didistribusikansecarakomersialdiselenggarakandulupadasampelorang. Setelahitutesdiselenggarakanbagipopulasisampeltersebut. Respon pilot sampelinikemudiandianalisisuntukmenentukanapakah item tersebutberfungsitepat.

Apapunjenistes – terstandardisasiataudibuat guru, kemampuanataukepribadian – analisishasil post-mortem ataupost hoc samaperlunyapadaperusahaanobatatauperusahaan lain yang bercirimanusia. • Diantarapertanyaan yang perludijawabadalah : Apakahwaktu yang tersediacukup ? Apakahpesertamemahamipetunjuktes ? Apakahkondisitesmemadai ? Apakahkeadaandaruratdiatasidengantepat ? Apakah item jelas ? Apakahtescukupwajar ? Kuesionerumpanbaliksederhana yang berkaitandenganpertanyaaninidanpertanyaan yang relevan lain seringkalidapatmembantumemperbaikitestersebut.

Analisisrespons yang disampaikanolehkelompokorangmengenaimasing-masing item padatesmemberikanbeberapafungsi. • Tujuanutamaanalisisitem semacamituadalahmembantumeningkatkantesdenganmemperbaikiataumenghapus item inefektif. • Fungsipenting lain darianalisis item, terutamaanalisis item padatespencapaianadalahmemberikaninformasidiagnostikmengenaiapa yang diketahuidantidakdiketahuiolehpesertates.

Tes yang mengacukeKriteriadanTesPenguasaan • Prosedur yang digunakandalammengevaluasiefektivitas item testergantungpadatujuantes. Misalnya, penyusuntesinginmendesaintes yang memprediksigejalaklinis yang relevan, sepertihasil diagnosis psikoterapiataupsikiatri. • Item padatesakandipilihberdasarkanpadaseberapabaguspenyusuntesmemprediksigejalaklinisini. • Penyusuntes lain berkaitandenganmenentukanseberapabanyakpesertatesmengetahuiisibidangakademi. Dalamkasusini, kinerjadiukurberdasarkankriteriaatau standard yang ditentukanoleh guru kelasataukebijakaninstitusi.

Tujuanpengetesancriterion-referenced(or domain referenced) testing semacamitubukanhanyauntukmenemukanbagaimanaskor yang diperolehseseorangdibandingkandenganorang lain tetapijugauntukmenentukandimanadiaberposisiterhadaptujuankuliahataugejalaklinistertentu. • Jeniskhusustes yang mengacukekriteriayang didisainuntukmengukurpencapaianketrampilankognitif yang lingkupnyaterbatasdikenalsebagaitespenguasaan (mastery test). • Skorseseorangpadatespenguasaandiungkapkandenganpersentasejumlah item total yang dijawabdenganbenar, skorsempurnamenunjukkan 100 % penguasaanmateri.

PerbedaanIndividudanValiditas Item • Karenasangatsulitmemperolehpersetujuanpadaseberapabanyakorangseharusnyatahumengenaisubjektertentuatauapa yang mendasarimenguasaanini, skortespsikologiataupendidikansecaratradisionaltelahdiinterpretasikandengancaramembandingkannyadenganskor yang diperolehorang lain. • Tespsikologitelahdirencanakanterutamauntukmemeriksaperbedaanantaraindividumengenaikarakteristikkognitifdanafektif.

Orangberbedadalamkemampuandankepribadianmerekadanparapsikologberusahamengevaluasiperbedaaninidenganberbagaijenistes.Orangberbedadalamkemampuandankepribadianmerekadanparapsikologberusahamengevaluasiperbedaaninidenganberbagaijenistes. • Para penyusuntes professional mencobamerencanakan item yang berbedabagiorang yang berbedadalamkaitannyadengankemampuanapa yang diukur . • Untukmenilaikemanfaatan item sebagaiukuranperbedaanindividudalamkemampuanataukarakteristikkepribadian, parapengujiperluukuranpatokaneksternalkarakteristikmenyangkutkarakteristik.

Validitas item untukmemprediksikeadaankriteriaeksternalditentukandenganmengkorelasikanskorpada item (noluntuksalahdan 1 untukbenar) denganskorpadaukuranpatokan. • Jeniskoefisienkorelasi yang berbeda-bedadigunakanuntuktujuanini yang paling umumkoefisiendua-rangkaiantitik (point biserial coefficient).

Item yang memilikikorelasiserendah 0,20 berdasarkankriteriamemberikankontribusiuntukmemprediksi item itu, meskipunkoefisienlebihtinggilebihdisukai. Item yang memilikikorelasihampirataukurangdari 0,00 dengan criteria pastiharusdiperbaikiataudibuang. • Item yang memilikikorelasitinggiberdasarkan criteria tetapikorelasirendahdengan item lain adalah yang terbaikkarena item itumembuatkontribusi yang lebihindependenterhadapprediksiskorkriteria.

IndeksKesulitanItem danIndeksDiskriminasi • Dalamkasustespencapaianprestasidikelas, item dikorelasikandenganskor total padatesitusendiri. Diasumsikanbahwarangkaian item sebagaikeseluruhanmerupakanukuranpencapaian yang memadaimengenaisubjek, skor total sebagaikriteriadalammenentukankonsistensi internal tes. • Prosedurjalanpintasadalahmenyortirparapesertatesmenjadi 3 kelompokmenurutskormerekapadatessebagaisatukeseluruhan : kelompoktinggiterdiridari 27 % yang membuatskortertinggi, kelompokrendahterdiridari 27 % yang membuatskorterendahdansisanya 46 % beradapadakelompoktengah. Jikajumlahrespondenkecil, kelompokskor 50 % tinggidanrendahdarites total kadangkaladigunakanuntuktujuananalisis item.

Nilaipdisebutindekskesulitan item (item difficulty indeks) dan D sebagaiindeksdiskriminasi item (item discrimination indeks). • Misalkandisumsikanbahwa 50 orangmengikutites. • Kemudian, kelompoktinggidanrendahdibentukdaribagianatas 0,27 x 50 = 14 dan 14 terendahpadaskortes total. Jika 12 orangpadakelompoktinggidan 7 orangpadakelompokrendahlolos item A maka p = (12 + 7)/28 = 0,68 dan D = (12-7)/14 = 0,36.

Indekskesulitan item memilikicakupandari 0,00 – 1,00. Item dengan p = 0,00 adalah item yang tidakseorangpunmenjawabbenardan item p = 1,00 dijawabbenarolehsemuaorang. • Nilai-p optimum untuk item tergantungpadasejumlahfaktor, yang mencakuptujuantesdanjumlahopsirespons. Jikatujuantesadalahmengidentifikasikanataumemilihhanyapresentasekecildaripelamarterbaikmakatesharuscukupsulitsepertitercerminpadanilai mean prendah. Jikatesdidesainuntukmenyaringhanyasedikitpelamar yang sangatburukmakanilai mean ptinggiadalah yang terbaik.

Nilai optimum ptergantungpadates. Misalnya, p optimum haruscukuprendahuntuk item tes yang didesainuntukmenentukanpenerimabeasiswaatauuntukpenempatantingkatlanjut, tetapicukuptinggipadates yang didesainuntukmengidentifikasikansiswa yang mengikuti program remidi. Padates yang didesainuntukmengukurcakupanluaskemampuan, nilai p optimum hampirmemdekati 0,5. • Nilai mean optimum puntuktessemacamitujugabervariasisecaraberkebalikandenganjumlahopsirespons (k), p untuk item yang dapatditerimaakanmasukkecakupan yang cukupsempit, sekitar 0,20 disekitarnilaidalamtabelini.

Indeksdiskriminasi item (D) adalahukuranefektivitas item dalammendeskripsikanantarapemilikskortinggidanrendahpadates. • Semakintingginilai D, semakinefektif item dalammendeskriminasikanantarapesertatesdenganskortinggidanpesertatesdenganskorrendahpadatessebagaisatukeseluruhan. • Ketika D adalah 1,00 semuapesertatesdikelompoktinggimenjawab item denganbenardantakseorangpundikelompokrendahpadaskortes total menjawab item denganbenar. • Akantetapi, jarang D seteradengan 1,00 dan item inibiasanyadianggapditerimajikaindeks D adalah 0,30 ataulebihtinggi.

Tetapi D dan p bukanindeksindependen, dannilai D minimum yang dapatditerimaketika p semakintinggiatausemakinrendahdaripadanilai optimum terutamaketikaukuran/besarkelompokpembandingtinggidanrendahadalahbesar.

Faktoryang MempengaruhiBerfungsinyaItem • Dalammenyusuntesterstandardisasi, sekarangmenjadipraktikumumuntukmenelititiap-tiapitem danstatistikyang terkaitdengannyauntukmendapatkanindikasimengenaidiskriminasiatau bias kelompok. • Indeksstatistikdifferential item function (DIF) seringkalidihitunguntukmempermudahprosesini. • Item dapat bias hanyaketika item itumengukursesuatu yang berbeda – karakteristikatauciriberbeda- dalamsatukelompokdengankarakteristikatauciri lain.

Jikaskor item mencerminkanperbedaannyatakemampuanataukarakteristikapa pun yang didesainuntukdiukuroleh item itu, item itusecarateknistidak bias. • Menyelenggarakananalisis item terpisahbagitiap-tiapkelompokakanmengungkapkankeberadaan bias item yakniapakah item tersebutmendeskriminasidenganbaikantarapemilikskortinggidanrendahpadakeduakelompoktersebut. • Analisis item menghasilkanperbaikansignifikanterhadapefektivitastes. Indeksdiskriminasi item secarakhususmerupakanukuran yang cukupbagusmengenaikualitas item. • Bersamadenganindekskesulitan ( p ), D dapatdigunakansebagaiperingatanbahwaada yang salahpada item tersebut.

Bank item semacamitudigunakantidakhanyaolehpenyusuntestradisional professional, tetapijugadiberikansebagaibahantambahanpadasejumlahbukuteks yang digunakansebagaitespraktekataumenjadikumpulan item untukmenyusuntesdikelas.

Konsistensi Internal Versus ValiditasInternal • Konsepvaliditas item biasanyamengacukehubungan item dengankriteriaeksternal. Sebaliknya, D adalahukuranhubunganskor item dengankriteriainternal – skor total – bukandengankriteriaeksternal. • Memilih item yang berdasarstatistikD menghasilkanjenistes yang berbedadaripada item yang terdiriatas item yang dipilihberdasarkorelasitinggidengankriteriaeksternal. • Kadangkalakombinasiduastartegimemadai : tesgabungandisusundarisubtes yang salingmemilikikorelasirendahdankorelasi yang substansialdengankriteriaeksternal, tetapi item-item subtessangatberkaitan.

Item Tes yang MengacukeKriteria • Indekskesulitandanindeksdiskriminasijugadapatdihitungberdasar item tes yang mengacukekriteriayang didesainuntukmenentukanposisipesertatesterhadaptujuanpendidikan yang telahditetapkan. • Dalamkasusini, pesertatesdibagimenjadi 2 kelompok : kelompokatas yang terdiridaripesertaU yang skortestotalnyamemenuhikinerja yang dapatditerima yang telahdirancangberdasarkriteriadaripesertatesL yang skortotalnyagagalmemenuhikriteria.

AnalisisterhadapPengganggu • Analisisitem pilihan-gandasecaratradisionaltelahmulaidenganpenghitunganindekskesulitandanindeksdiskriminasiuntuktiap-tiap item. • Analisiskeduaberkaitandenganberfungsinya k-1 opsi (penggangguataudistracter) salahuntuktiap-tiap item. Indeksdiskriminasi item (D) memberikaninformasipadaberfungsinyagangguansecarakeseluruhan. • D positifberartipadapesertatespadakelompokatas (padaskortes total) cenderungmemilihjawabandenganbenarsedangkan yang adadikelompokbawahcenderungmemilihsatupengganggubesarnya D menunjukkantingkatkecenderunganini. • D negatifmenunjukkanbahwapengganggudipilihlebihseringolehpesertatespadateskelompokatasdaripadaoleh yang adadikelompokbawahdanbahwa item ituperludirevisi.

KurvaKarakteristikItem • Nilai p dan D yang dapatditerimatidakmenjaminbahwa item berfungsidengantepatdisemua level kinerjates. • Agar sangatefektif, proporsiorang yang menjawab item tesdengantepatharusmeningkatdenganmantapseiringdenganpeningkatanskor total padatesatausubtes. • Apakah item tesberfungsidengancarainidapatditentukandariitem characteristic curve (ICC). Dalammenyusun ICC, proporsiresponden yang member jawabankuncidiplotterhadapskormerekaberdasarkankriteriainternal (misalnyaskortes total) atau criteria eksternalsepertipencapaianataukinerjapekerjaan.

Level kesulitan (b) adalahskor criteria yang 50 % pesertates member jawabanbenar (berdasarkunci); indeksdiskriminasi (a) adalahtingkatkemiringan (slope) kurvarespons-tem padapoin 50 %. • Misalkandaridua ICC yang diplotpadaGambar 4.1, nilai 0,5 padasumbu vertical berhubungandenganskor total 68 padakasus item 1 dan 77 padakasus item 2. • Akibatnyaitem 2 lebihsulitdaripada item 1. Akantetapi, ICC item 1 memilikikemiringanlebihcuramdaripada item 2 , maka item 1 mendiskriminasidenganlebihbaikdaripada item 2 antarapemilikskortinggidanrendahpadaseluruhtes.

Item response Theory • Metodeinipertama kali mengembangkanteorimengenaicaraberfungsinya item berdasarkanpengetahuanmengenaikemampuanataucirikepribadian (Trait). • Metodeinimembandingkanresponssesungguhnyaterhadap item untukmenentukanseberapabagusberfungsinya item. Jadi item sesungguhnyadibandingkandenganbagaimanaseharusnya item ituberfungsisecarateori.

SepertidigambarkanpadaGambar 4.2, bentukkurvarespons-item bervariasimengikutinilai parameter a dan b. Keduakurvapadagambarinidisusundenganfungsidua-parameter padarumus 4.5. • Padakurva P, parameter kesulitan (b) adalah 1,00 dan parameter diskriminan(a) adalah0,5; padakurvaQ, b= 0,25 dana = 0,75. • Catatbahwabadalahnilai (titikpadasumbu horizontal) yang berhubungandengan P() = 0,5 danaadalahkemiringankurvapada P() – 0,5. Pada model 3 parameter, badalahnilai P() yang berhubungandengan 0,5 ( c + 1) dengancadalahtitikpersilanganantarakurvarespons-item dengansumbuvertikal.

Skorpadakontinum, kemampuantersembunyi (latent ability continuum) dinyatakansebagai unit skor standard (z ), tetapipadapenerapansebagianbesarpendidikan, skor z diubahkeskala yang memiliki mean 300 dandeviasi standard 50. • Padaprakteksesungguhnya, parameter item danskorkemampuantersembunyi(latent ability score) pesertatestidakdiketahui.

Masalahnyaadalahmencarikurvarespons-item yang paling cocokdenganresponsterhadaptiap-tiap item. • Pencarianinimelibatkanprosedur yang mungkin-maksimumsecara iterative denganmengasumsikannilaiawaltertentuuntuk parameter itemnyadenganmenghitung P() yang berhubungandenganberbagainilai, membandingkanrespons-item hasilprediksidenganrespons-item sesungguhnyadanmelanjutkanprosessampaisolusiterbaikdapatdiraih. • Prosesestimasi parameter item membutuhkanresponsbanyakpesertates yang mewakilipopulasipotensipesertateskira-kira 2.000 untuk model tiga parameter dan 1.500 untuk model satu parameter (Rasch).

Tidaksepertimetodologipengetesantradisional, yang mengacaukanantaradiskriminasidankesulitantespadasampeltertentuorang yang dites, pada IRT makaparameternyaadalah, setidaknyadalamteori, independenterhadapsampeltes. • Sifat IRT yang menariklainnya, invariance kemampuantesdenganresponsterhadap item yang digunakanuntukmengestimasinya, berakarpadaprosespengestimasian. Fitur IRT iniberartibahwatespada level kesulitanmanapundapatdikelolauntukmenentukanposisiseseorangpadaberbagai level kemampuantersembunyi (latent ability continuum). • IRT telahdipergunakanuntukberbagaitujuan, yang meliputipenyusunantes, kalibrasiskortesuntukmenyediakankerangkaacuangunamenginterpretasikannya. Standardisasites, penentuandifferential item functioning (DIF) danpengetesanadaptif.

Standardisasidan Norma Tes • Fiturintipadasebagianbesartespsikologiadalahbahwaskorindividuharusdibandingkandenganbeberapakelompok normative. Fiturinimemungkinkankitaharusmenginterpretasikanmaknaskor. • Misalnya, kitatahubahwaseseorangmendapatskortinggipadaintroversikarenaorang lain meresponpada item samamenguasaisedikitjumlah item yang berkaitandenganintroversi. • Untukmenyelesaikantugasini, tes, inventori (kumpulansoaltes), skalaperingkatatauperalatanpsikometri lain harusdistandardisasi.

Testerstandardisasiapapunmemilikipetunjuk standard mengenaipenyelenggaraandanpemberianskor yang harusbenar-benardiikutisehinggahanyamenyisakanruangkeciluntukinterpretasidan bias pribadi. • Standardisasijugamelibatkanpengelolaantestesterhadapsampelorangdalamjumlahbesar (standardisasisampel) yang dipilihsebagaiwakildaripopulasisasaranberupaorang yang menjadisasarantes.

Tujuanutamastandardisasitesadalahuntukmenentukandistribusiskormentahpadasampelterstandardisasi (kelompoknorma). • Skormentah yang diperolehtersebutkemudiandikonversikankebeberapabentukskorturunanataunorma. • Dalammengevaluasianakcacat, kadangkalaperlumengelolatesdiluar level (out-of-level test) yang didesainuntuk level usiadan level grade dibawahorang yang menginterpretasikanskor.

MemilihSampelTerstandardisasi • Agar berfungsisecaraefektifpadainterpretasiskortes, normaharussesuaidengankelompokatauindividu yang dievaluasi. • Kapanpunskortesdikonversikandenganmengacuketabelnorma, pentinguntukmembuatcatatanmengenaikarakteristiksampel (usia, jeniskelamin, etnik, pendidikan , status sosioekonomi, wilayahgeografi) darikelompoknormatertentudanmemasukinikedalamsemuakomunikasimengenaikinerjaseseorang.

Ciripemilihansampelterstandardisasidaripopulasibervariasidaripengambilansampelsecaraacaksederhana (simple random sampling) sampaistrategipemilihansampel yang lebihrumitsepertipengambilansampelsecara cluster (cluster sampling). • Pengambilansampelsecara cluster lebihekonomisdaripadapengambilansampelsecaraacakterstratifikasidanlebihmungkindaripadapengambilansampelsecaraacaksederhanadalammenghasilkansampel yang mewakilipopulasisasaran. • Norma yang dipublikasikanpadabukupetunjukbermanfaatuntukmembandingkanskorpesertatesdenganskorsampelorangdariberbagailokasi, kadangkalacross sectiondariseluruhbagian Negara.

Norma UsiadanKelas • Norma usia (ekuivalen usia , usia pendidikan) merupakan skor median pada tes yang diperoleh orang pada usia kronologis tertentu; norma kelas (grade norm) (ekuivalen kelas) adalah skor median yang diperoleh siswa pada level kelas tertentu. • Norma usia dan norma kelas memiliki kelemahan yang serius. Masalah utama adalah pertumbuhan karakteristik kognitif, psikomotorik atau afektif tidak seragam pada seluruh cakupan usia atau kelas.

Analisis item dan standardisasi tes

Analisis item dan standardisasi tes

Presentation Transcript

Standardisasi

Rancangan dan Susunan Tes

Analisis finansial dan analisis ekonomi

Kebijakan Standardisasi dan Sertifikasi Tenaga Kesehatan

Tes dan Non Tes

ANALISIS INSTRUMEN DAN ANALISIS BUTIR INSTRUMEN

ANALISIS TES PSIKOLOGIS

TEKNIK ANALISIS ITEM TES HASIL BELAJAR

KARAKTERISASI DAN STANDARDISASI MUTU GABAH-BERAS

Standardisasi Material

MERANCANG TES KETERAMPILAN OLAHRAGA (ANALISIS VALIDITAS DAN RELIABILITAS TES)

VALIDITAS, RELIABILITAS dan STANDARDISASI

STANDARDISASI dan PERDAGANGAN GLOBAL

Program Pengisian Data dan Analisis Item [ PEDIA ]

Analisis dan Perancangan

ANALISIS DESKRIPTIF DAN ANALISIS ASOSIASI

PENGEMBANGAN DAN ANALISIS TES

ASESMEN TEKNIK NON TES DAN TES

ANALISIS INSTRUMEN DAN ANALISIS BUTIR INSTRUMEN

Tes Kecepatan dan Ketelitian Klerikal

Pusat Standardisasi dan Lingkungan Kementerian Kehutanan

TEKNIK PENGUJIAN VALIDITAS TES DAN VALIDITAS ITEM TES HASIL BELAJAR