530 likes | 1.28k Views
試題反應理論 (Item Response Theory). Helen Ou 2007 12.28 at Psy Test Course. 課程主題. 10 月 24 日 ( 三 ) 心理測驗編製與基本統計 11 月 28 日 ( 三 ) 古典測驗理論 — 信度理論 12 月 26 日 ( 三 ) 試題反應理論. 複習上次課程. 真實分數模式. 真實分數的存在並不受測量次數的影響,它代表長期測量結果「不變」的部份。而實際上,單獨一次測量所得的實得分數,
E N D
試題反應理論(Item Response Theory) Helen Ou 2007 12.28 at Psy Test Course
課程主題 • 10月24日(三) 心理測驗編製與基本統計 • 11月28日(三) 古典測驗理論—信度理論 • 12月26日(三) 試題反應理論
複習上次課程 真實分數模式 • 真實分數的存在並不受測量次數的影響,它代表長期測量結果「不變」的部份。而實際上,單獨一次測量所得的實得分數, • 總會與真實分數間產生一段差距,這段差距即稱作「隨機誤差分數」(random error score), • 或簡稱為「誤差」(error);誤差分數深受測量工具之精確度的影響很大,它代表某次測量結果「可變」的部份。若以數學公式來表示,這兩種分數與實得分數間的關係可以表示如下:
複習上次課程 真實分數理論的基本假設一 χ = t + e χ 代表實得分數, t 代表真實分數, e 代表誤差分數。
複習上次課程 Cronbach 係數 係數 = i=題數 S2i=每一題的總變異量 S2x=總分的總變異量
複習上次課程 測量標準誤 • 如果我們能以同一個測驗對一個學生重複測驗多次,每次的得分有點不同,這位學生分數的變異量之大小與信度有直接的關係。信度愈低,則學生的變異量(散佈範圍)就愈大。信度愈高,則各次得分之變異量就愈小。我們可用統計的方法來預估學生測驗分數可能的變異量,此即「測量標準誤」(Standard error of measurement)。 測量標準誤(^)=
1.圖一為一正立方體,A,B,C分別為所在的邊之中點,通過A,B,C三點的平面與此立方體表面相截,問下列何者為其截痕的形狀?1.圖一為一正立方體,A,B,C分別為所在的邊之中點,通過A,B,C三點的平面與此立方體表面相截,問下列何者為其截痕的形狀? (1) 直角三角形 (2) 非直角的三角形 (3) 正方形 (4) 非正方形的長方形 (5) 六邊形
複習上次課程 試題統計分析:難度(通過率) • 試題的難度 (P) 被定義為全體受試者答對或通過該題的百分比 (percentage passing) R=所有考生中答對的人數 n=所有考生人數
複習上次課程 鑑別度 (item discrimination) • 比較高、低分組的受試者在個別試題上通過人數的百分比, D 愈大表示試題愈能鑑別出高、低分組的受試者,並且個別試題與測驗總分的一致性愈高。 PH=所有考生中分數前33%者在該題的答對率 PL=所有考生中分數後33%者在該題的答對率
圖5 地理題 (P=.8,D=.32) 下圖是北半球四座山的示意圖,圖中分別標明山腳處不月份的月均溫。平均而言,地勢每升高100公尺,氣溫降低0.6℃。請問哪一座山的山頂,最可能出現終年積雪的現象﹖ (A)甲 (B)乙 (C)丙 (D)丁
歷史題(P=.67,D=.45)(P男=.60,P女=.71) • 作家描述一個城市:「與倫敦人口差不多,都在五萬人上下,全世界最上等的羊毛在此地加工,織成布料後,行銷各地。許多商人集資,要在市中心建一座大教堂。工程進行中,商船隊除了帶回印度香料外,還帶回亞洲黑鼠,使全城五分之四的人在一年中相繼死亡,勞工短缺,必須緊急進口奴隸應急,教堂興建工作才得以繼續。」這座城市可能是:(A) 十世紀的君士坦丁堡 (B) 十二世紀的雅典(C) 十四世紀的佛羅倫斯 (D) 十六世紀的巴黎
古典測驗理論之限制 • 用原始分數(或衍生分數)代表能力 • 仰賴複本測驗(parallel forms) • 古典測驗理論所採用的指標,諸如:難度、鑑別度、選擇題的誘答力、信度等,都是樣本依賴的指標。 • 假定所有人具有相同的的測量標準誤
試題反應理論(item response theory, IRT) • 受試者在某測驗上的表現情形,可由一組因素來加以預測或解釋,這組因素稱為潛在特質(latent traits)或能力(abilities)。 • 受試者的表現和潛在特質之間的關係,可透過一條連續遞增(monotonicallyincreasing)的函數來解釋,把不同能力的學生在某試題的得分期望連結成線,所形成的曲線則稱為試題特徵曲線(item characteristiccure,簡稱ICC)
1.00 .50 .00 p=.001 X L-θ 能力(或特質)極低的受試者(L-θ)答對的機率(p)微乎其微,我們以答對率p=.001為例來做圖. Probability 答對機率 特質程度
p=.999 1.00 X .50 .00 L-θ 能力(或特質)極高的受試者(H-θ)答對的機率(p)極高,我們以答對率p=.999為例來做圖. Probability 答對機率 X H-θ 特質程度
p=.900 1.00 X .50 .00 X 其餘受試者答對的機率介於兩者之間,我們以答對率p=.900為例來做圖. X H-θ L-θ 特質程度
1.00 答對 答錯 .80 .60 依此類推,將其他能力之受試者標示出來,此即試題特徵曲線 .40 . 20 .00
1.00 .80 .60 .40 . 20 .00 99%
1.00 .80 .60 p=.50 .40 . 20 1.00 .80 .60 p=.50 .40 . 20 .00 “Easy” item “Difficult” item
試題反應理論(item response theory; IRT) 參數:b [beta] 試題難度 a [afa] 試題鑑別度 c 猜測度 i=1…..n,n是測驗的總題數,J是考生數 e代表以底為2.718的指數。 常數D=1.702,θj 為考生 j 的能力 pi(Θ) 為能力為ΘJ的考生答對i試題i的機率 且pi(Θ)是一種S形曲線,其值介於0與1之間
單參數對數型模式 試題難度參數b正好坐落於正確反應機率為0.5時『能力量尺』上的點 當s型曲線越偏左,代表試題越簡單
雙參數對數型模式 試題鑑別度a為S型曲線的斜率 S型曲線越平緩代表試題越簡單
三參數對數型模式 猜測度c 代表低能力學生答對某試題的機率
IRT基本假設 • 單向度(unidimensionality) :測驗中的各個試題都測量到同一種共同的能力或潛在特質 • 局部獨立性(local independence):考生之作答情形完全由能力(特質)所影響 • 非速度測驗 • 知道--正確假設(know--correct assumption)
試題訊息曲線(IIC) 試題訊息量和受試能力間的關係則以試題訊息函數(item information function;IIF)來表示,若將函數式以圖形表示則稱為試題訊息曲線(IIC) (Lord,1980)。
描述試題或測驗、挑選測驗試題、以及比較測驗的相對效能的實用方法,該方法即需要使用試題訊息函數(item information function),作為建立、分析、與診斷測驗的主要參考依據。 試題訊息函數的定義如下:
IRT不如CTT普遍之因 • IRT是一種複雜深奧的測驗理論,這對於一般教育與心理學界學者而言,無非是一大挑戰。 • 多數當代測驗理論學者偏愛對理論模式的探討,遠勝於對實際應用的推廣工作。 • 過去,電腦科技的進步有限,當代測驗理論中對模式參數的估計,難以用手算或小型計算機順利進行,故在應用上更受限制。 • 礙於嚴苛的基本假設,當代測驗理論所能適用的教育與心理測驗資料有限,並且需要大樣本的配合,因此使得它的應用性大打折扣。
IRT的應用 • 編製測驗※ • 測驗等化※ • 建立題庫※ • 電腦化適性測驗
國中基測為何要用IRT • 兩次考試,考生有超過一次的施測機會,從中選出比較能夠代表真正能力的那一次的測驗分數 • 兩次考試在組卷前,就要先知道試題的難度,必須預試,並建立題庫。不同時間與不同樣本建立試題難度,必須要用IRT。 • 每次的分數,是考生的能力(θ)轉成量尺分數60分 • 兩次考完試的分數,要進行分數等化,沒有相同題、相同人也有學習進步的問題,僅能用用IRT進行等化。
國中基測測驗編製方式 命題 預試 多次,少題,小樣本 入題庫 第一次組卷 第一次考試 成績公佈,第一次招生 第二次組卷 第二次考試 等化 成績公佈,第二次招生
國中基本學力測驗分數的建立 SEM = SD x 40 題左右的測驗,信度應該有 0.85 左右。 採用 Kelley (引自 Brennan , 1989)對測量標準誤差分數的建議,認為以 3 分為一個測量標準誤差單位較為理想。 計算出來的群體分數的標準差為7.75。再根據常態分布的機率來看,正負四個標準差就能涵蓋幾乎全部( 99.99% )的人。因此,若要涵蓋所有的群體,量尺分數就必須要有62分( 7.75*4*2 )。 為了使用上的方便,我們單純的將量尺分數定成 1-60 分,這就是基本學力測驗分數的由來。
兩次國中基測如何進行等化 • IRT 最為有力的地方,是同一個考生若在同一個時段考兩次試,即使作答不同的試題,所估計出來的兩個能力參數的值,理論上是一樣大小的。如果考完第一次之後隔了一些時日再考第二次,以至於兩次考試之間有成長(或進步)的現象存在,那麼根據第二次測驗的結果所估計得到的能力參數值,將會大於第一次測驗後所估計得到的。因為IRT 具備這樣的特性,因此透過用IRT 方法所進行的等化之後,我們有信心考生在第二次測驗所得到的量尺分數絕對是合理、公平、公正的;而且從兩次測驗所得到的量尺分數之間也是可以相互比較的。 • 影響整個基本學力測驗等化程序的關鍵點,其實是在於各個題目的試題參數(item parameter)是否被精確地估計
國中基測的問題 • 基本學力測驗試題較簡單,高分群分發困難。考生在簡單題中重複練習,害怕錯誤。(與IRT無關) • 兩次考試的等化如何進行,只要不是篤定第一志願,再考一次是有利的。 (與IRT無關) • 要答對相當題才有分。高分者錯的少扣的多。這是評量觀點,不是教育觀點。 (與IRT有關)