測驗的信度

測驗的信度 歐滄和

信度的意義 • 測量的一致性 • 測量的誤差

信度的特性 • 一般而言，心理與教育測驗的信度比自然科學為低。 • 自然科學的特徵通常可以直接測量，但心教測驗只能間接測量而推論之。 • 自然科學的工具精確性相當高。 • 自然科學測量的特徵相當穩定，不像心理特徵變化很大。

信度…... • 信度所關心的是測驗分數的一致性或穩定性。 • 一個具有良好信度的測驗，使用在不同的主試者、評分者、時間、情境或使用類似的問題，其所得的分數應該接近相同或一致。 • 一般而言，受誤差的影響愈小，分數愈一致。所以信度主要在說明測驗分數中測量誤差所佔的成分。

效度…... • 測驗有種種不同的目的，而測驗效度就是指能否達到這些目的的程度。 • 測驗的效度高，則測驗能正確實現所欲測量的目的。如果效度低，不僅無法達成目標，甚至會提供不正確的資料而作成錯誤的決定。

◆信度、效度的意義 D B C C C B A A A D D B 　　　信度(Reliability):測驗是否精準(Precision) 　　　效度(Validity) :測驗是否正確(Accuracy)

◆信度、效度的意義 C C C D B D A A A B B D A：精準又正確(Reliable & Valid ) B：不精準但正確(Unreliable but Valid ) C：精準但不正確(Reliable but Invalid ) D：不精準也不正確(Unreliable & Invalid )

由變異量看信度與效度 實得分數目標台的聲音同頻道上它台的聲音雜音效度信度

信度與效度的關係 • 信度高，效度不一定高。 • 信度低，效度一定低。 • 效度高，信度一定高。

測量的一致性 • 相同的個人在不同的時間，以相同的測驗測量，或以複本測驗測量，或在不同的情境下測量，所得結果的一致性。 • 兩次測驗的結果相當一致，表示測驗分數具有穩定性　可靠性　可預測性

測量的誤差 • 測驗或測驗的分數，反應出真實量數的程度或沒有誤差的程度。信度是在估計測量的誤差有多少，以及有多少比率是由測量誤差所造成的。 • 如果測驗分數中包含很多的誤差成分，信度就低；如果測驗分數中包含很少的誤差成分，信度就高。

信度的特性 • 信度不是一種普遍的特質，所以，測驗分數不可能在任何情境下都是可靠的或一致的。 • 信度會因情境(如受測族群)改變而變。

信度的特性 • 本質上，信度是一種統計的概念，採用邏輯的分析，無法提供有效的證據。 • 確定信度的兩個主要方法： • 同一個測驗對單一受試者測很多次 • 分析受試者內在的變異，這個差異通常以測量標準誤(standard error of measurement)表示。 • 這個方法只適用於無生命之物。 • 同一個測驗對同一群受試者測兩次 • 根據他們的分數在團體中的相對位置，分析受試者相互間的變異量，以相關係數來表示。 • 現在常用的方法。

信度的特性 • 測驗的信度愈高愈好。但是沒有測驗是完全可靠的，所有測驗都有某些程度的不可靠，因為測量誤差是無法避免的。 • 因此信度要多高才可使用，需視使用的目的和情況而定。愈是重大決定，信度就要愈高

信度的原理--真實分數與測量誤差 • X = T + E X：實得分數 T：真實分數 E：誤差分數 • 真實分數:普遍性分數，無法正確量到，需在多次重試求取平均數做為真實分數。 • 誤差分數及測量誤差，可正可負可零，理論上多次重試的結果誤差平均數為零。

信度的原理--真實分數與測量誤差 • 測量誤差 • 非系統誤差 • 隨機的　沒有規則　不可預測的 • 稱為隨機誤差，愈大則信度愈低 • 系統誤差 • 固定一致的影響測驗 • 稱為常誤或偏誤 • 通常不影響信度，但會影響效度

信度的原理--真實分數與信度 • X = T + E • Ｓx ²=Ｓt ² +Ｓe ² • Ｓx ² 　實得分數總變異量 • Ｓt ²　真實分數的變異量　　 • Ｓe ²　測量誤差的變異量

信度的原理--真實分數與信度 • 實得分數的總變異量是由真實分數所造成的變異比率和誤差分數所造成的變異比率之和。 • Ｓx ²/Ｓx ² =Ｓt ²/Ｓx ² +Ｓe ²/Ｓx ² • 信度rxx為真實分數的變異量與實得分數的變異量之比率。 • rxx =Ｓt ²/Ｓx ² • 或　 rxx =Ｓx ²/Ｓx ² -Ｓe ²/Ｓx ² = 1 -Ｓe ²/Ｓx ²

估計信度的方法 • 重測方法 • 複本方法 • 內部一致性方法 • 評分者方法 • 每種方法都在說明測量誤差的不同來源

重測方法 • 採用同一個測驗在不同時間，重複測量相同的一群受試者兩次，根據這兩次分數求得的相關，稱為重測信度係數。 • 此係數可以表明測驗結果經過一段期間後的穩定性，故又稱穩定係數。

重測方法 • 重測間隔時間 • 視工具的用途來決定間隔時間 • 缺點 • 易受練習與記憶影響 • 題目的性質因重測而改變，如推理變記憶 • 無法複製相同情境

複本方法 • 複本測驗----題目不同但內容相似 • 指兩份測驗在內容、型式、題數、難度、指導說明、時間限制、與例題等方面，必須類似或相等。通常是根據相同的設計說明表分別獨立編製而成。

複本信度 • 兩個複本測驗實施於一群相同的受試者，依據所測量到的分數求相關，即複本信度。 • 此信度係數可以說明兩個複本測量相同行為或內容的程度。信度愈高，試題樣本預可靠，愈能代表所預測量之範圍。

實施複本測驗的方法 • 同一時間連續實施 • 反應工具內容所造成的誤差，無法反應受試者本身所造成的誤差，此種複本信度又稱等值係數。 • 間隔一段時間實施 • 可反應工具內容所造成的誤差與受試者本身所造成的誤差，此種複本信度又稱穩定與等值係數。

複本方法的缺點 • 複本測驗編製不易　費時　成本高 • 還是有受練習的影響

內部一致性方法 • 較簡單的方式，一次OK • 折半方法 • 庫李方法 • Cronbach  • 只說明概念，公式以後用到時再自己查。 • 現在的統計軟體很方便。

折半方法內部一致性方法 • 理論上與同時實施複本測驗一樣，都可以說明測驗試題取樣的適當程度。 • 折半方法是憑一次測驗結果，求兩半分數的相關，所以其信度係數有時被稱為內部一致性係數。 • 如何折半 • 隨機 • 奇偶數

折半方法內部一致性方法 • 因折半的關係，實際上只是半個測驗的信度，所以當其他條件相同時，題數愈多，可靠信愈高。 • 折半信度愈高表示兩半測驗的內容愈一致，即內容取樣愈適當。與同時實施複本信度一樣，只反應取樣內容的誤差，無法反應個人因時間取樣的誤差。

庫李方法內部一致性方法 • 依據受試者對所有題目的反應，分析題目間的一致性，以確定測驗中的題目是否測量相同的特質。 • 題目一致性受到兩種誤差的影響 • 內容取樣 • 取樣內容的異質性 • 取樣內容同質性愈高，題目的一致性也愈高。

庫李方法內部一致性方法 • 對測驗題目的基本假定 • 題目的計分屬於非對即錯 • 題目沒有明顯受到速度的影響 • 題目是同質性的 • 庫李20與21計算公式= Cronbach 係數

Cronbach 內部一致性方法 • 多重計分的測驗，如李克氏量表(Likert scale)，無法使用庫李信度，可採用Cronbach 。 • 庫李方法是Cronbach 的特例，SPSS只有Cronbach  • 庫李方法與Cronbach 的限制 • 不適用速度測驗 • 只能反映內容的一致性，無法反應時間取樣

評分者間信度 • 採用不同評分者評閱測驗卷，而估計評分的一致性，稱為評分者信度。適合主觀題目的測驗。 • 兩個評分員之間 • 等級分數　　斯皮爾曼等及相關 • 連續分數　　皮爾遜積差相關 • 多位評分員之間　肯德爾和諧係數　

影響信度的因素 • 測驗的長度 • 測驗愈長(題數愈多)，內容取樣愈具代表性，信度愈高 • 團體的變異量 • 計算信度所用團體的變異性愈大，信度愈高 • rxx = 1 -Ｓe ²/Ｓx ²

信度題數試題數與信度的關係

影響信度的因素 • 測驗的難度 • 太難或太簡單均會降低信度(分數變異縮小) • 施測程序的標準化 • 情境與條件與建立常模的相一致 • 測驗計分的客觀性 • 愈客觀，信度愈高 • 估計信度的方法 • 不同方法，其所處理的誤差來源不同，所以信度亦會不同，其中以複本重測信度最低

100 75 50 25 0 分數評量次數 1 2 3 難度太小難度太大適當難度平均數（M）：85 21 60 標準差（) ：3.9 4.2 12.4 信度（KR21）：0.43 0.46 0.90 分數之分散度和難度與信度之間的關係

理想的信度係數 • 信度要多高 • 團體比較用可低一些 • 個人決策用應較高 • 需要哪種信度 • 重測信度----　性向測驗，智力測驗 • 複本信度----　成就測驗 • 內部一致性----人格測驗

測量標準誤 • 測量標準誤與信度係數一樣，都是用來表示測驗信度的方法。 • 信度係數較適合於比較不同測驗的信度高低； • 測量標準誤則較適合於解釋個人真正能力所在的區間。

測量標準誤的意義 • 一個人接受某一測驗 N 次，所得的分數應是以其真實分數為中心而構成的常態分配。這個分配的標準差，就是測量標準誤。 • SEmeas.=Sx 根號(1- rxx) • SEmeas. 測量標準誤 • Sx 測驗的標準差 • rxx 測驗的信度係數

測量標準誤與信度的關係 • SEmeas.=Sx√(1- rxx) • 當信度(rxx )等於1時，測量標準誤(SEmeas)為0；當信度等於0時，測量標準誤等於團體分數的標準差(Sx) • 信度愈高，測量標準誤愈低；信度愈低，測量標準誤愈高

測量標準誤的應用 • 解釋個人真正分數的可能範圍 • 某生智力測驗得到130，此測驗信度為0.96，標準差為15，該生的真實分數落在哪個可信賴範圍 • SEmeas.=Sx√(1- rxx)=3 • 依據常態分配， • 落在127--133(上下一個標準差)的機率為68.26% • 落在124--136(上下兩個標準差)的機率為95.44% • 落在121--139(上下三個標準差)的機率為99.72%

測量標準誤的應用 • 比較不同測驗分數的差異 • 差異標準誤 • SEdiff = √(SE²meas.x+ SE²meas.y) • SEdiff = S√(2- rxx - ryy)

比較不同測驗分數的差異 • 某生語言推理得54分；數學得62，分數相差8。兩測驗是以M=50，S=10的T分數表示。語言推理測驗的信度為0.85；數學測驗的信度為0.90 • 差異標準誤 SEdiff=S根號(2- rxx - ryy)=5 • 以95%的信賴水準必須差異大於1.96*5=9.8 • 以99%的信賴水準必須差異大於2.58*5=13

測驗的信度

測驗的信度

Presentation Transcript