400 likes | 549 Views
測量的效度信度. 蔡佳泓 政大選舉研究中心 副研究員. 課程大綱. 測量 量表. 測量. 測量 (measurement) 指的是將數字指定到某個研究對象,使其具有某種數字化的特質。 一般將測量的程度分為:名目、順序、等距、等比等四種測量程度。. 名目尺度. 名目尺度的內涵是標示分析對象的種類 。 性別(男或女或?)、職業(經理、教師、農民等)、省籍(閩南、客家、大陸各省市、越南?)、宗教(佛教、民間信仰、伊斯蘭教 … . )、居住地 …. 順序尺度. 順序尺度提供的資訊是由高而低的排序,顯示研究對象的特質為高、中、低,強或弱、冷或熱等程度 。
E N D
測量的效度信度 蔡佳泓 政大選舉研究中心 副研究員
課程大綱 • 測量 • 量表
測量 • 測量(measurement)指的是將數字指定到某個研究對象,使其具有某種數字化的特質。 • 一般將測量的程度分為:名目、順序、等距、等比等四種測量程度。
名目尺度 • 名目尺度的內涵是標示分析對象的種類。 • 性別(男或女或?)、職業(經理、教師、農民等)、省籍(閩南、客家、大陸各省市、越南?)、宗教(佛教、民間信仰、伊斯蘭教….)、居住地…
順序尺度 • 順序尺度提供的資訊是由高而低的排序,顯示研究對象的特質為高、中、低,強或弱、冷或熱等程度。 • 教育程度、社會階層等
等距尺度 • 等距尺度假定每個刻度之間的距離相等,所以可以做各種數學運算。 • 智力、溫度等
等比尺度 • 等比尺度在自然科學中較常見,只是比等距尺度多了絕對的零。 • 重量、長度、時間、面積等
信度效度 • 一個好的問項所引出來的答案,要能夠可靠又有效地測量我們所要描述的現象。在測量的意義上:「信度」是用來衡量答案的一致程度:當我們所要描述的狀態一致的時候,答案也是一致的。而「效度」是用在評量我們所得到的真實價值,彼此契合到什麼地步。
信度 • 測量到的結果不管任何時間都一致, 不會有誤差。 • 測量誤差可用E=X-T表示,X是觀察到的特質,T是真實特質。 • 信度高的測量, 才有信心用來預測未來。
信度的例子 • 儀器的信度:視力、 聽力、 體重、心跳速度等。 • 測驗的信度:考試、 智力測驗。 • 問卷的信度:受訪者的回答, 包括態度、 行為、 事實等等。
信度的原理 • 從測量誤差的公式可得X=E+T。 • 從變異量的公式可得Sx2= ST2 +SE2 • 而真實特質的變異量佔觀察特質的變異量比率ST2 / Sx2稱為信度, 通常以rho表示。
信度的估計 • 以上的公式有兩個未知數E 、 T, 只有一個已知數X。 • 假設X’是平行測驗所得的值, 統計學家發現, X跟X’的相關係數= ST2 / Sx2,剛好就是rhox。
平行測驗原理 • 同一團體但不同時間所得的分數 • 不同團體但同一時間所得的分數 • 所得的分數或回答做相關分析得到的相關係數,可以代表真實分數所佔的比率,即信度。 最高為1 。 • 相關係數:Σ(x-x_bar)(y-y_bar)/sqrt(Σ(x-x_bar) 2) sqrt(Σ(y-y_bar)2)
折半信度(1) • 將一份問卷或測驗分為兩部份 • 計算全部問卷或測驗的信度(Spearman-Brown):2rhoxx’/1+ rhoxx’ • 假設折半的相關係數為0.75, 那麼全部的信度為2*.75/1+.75=.857
折半信度(2) • 假設有類似的題目加入原來的量表,則可用以下公式計算信度n*rhoxx’/1+(n-1) rhoxx’ n是題目加長或減短倍數 • 比方說有一個10題的量表, 拆成5題5題, 計算其信度得到0.2,如果再設計一個有20題的量表, 那麼跟這個量表平行的量表的信度將是4*0.2/1+(4-1)*0.2=0.5
內在信度 • Cronbach’s alpha: N*(mean of rho)/1+ (N-1)*(mean of rho) • 題目越多, 在rho相同的情況下,alpha越大
效度 • 測量能夠測到真正的特質, 即效度。 • X=T+E。E若一直為0就是有效度。E若是不為0但是為一固定常數, 就是有信度。所以信度可以說是效度的必要條件。 • 有信度不一定有效度, 有效度則一定有信度。
效度的例子 • 溫度計---可以用來測溫度,但是不會有人拿來測溼度。 • 倍數高的望遠鏡可以幫我們測量行星之間的距離。 • 用X光或超音波測量骨密度。 • 用巴式量表測量身體功能 • 用GRE測量留學生的智力
效度 • 表面效度(face validity) • 內容效度(content validity) • 預測效度(predictive validity) • 建構效度(construct validity)
表面效度 • 就測量的表面來決定是否有效度。 • 例如: 用尺測量身高腰圍等, 用水測量大象的重量,用IQ量表測量人的智商等。
內容效度 • 單獨的測量可能具有表面效度,而多重測量可能具有內容效度,例如測量對於人性的看法,可能問好幾個問題(多數人可以信任、多數人的看法是對的、人與人之間常會有衝突等)
預測或實用效度 • 用另一個獨立且有效的測量來評估測量的效度。 • 以實證方法評估 • 例如: 學生托福成績應該與其在國外語言表達能力有關; 國外語言表達能力的測量有無效度可以用托福成績來確定。
建構效度 • 與預測效度類似, 但是更注重測量與測量之間的理論關係。 • 例如: 人格特質與行為有關; 家庭教育又與人格特質有關; 家庭社會地位可能與家庭教育有關等等。 • 檢驗建構:效度相關研究,因素分析,實驗研究等
內在與外在效度 • 內在效度指在特定研究中測量是否適當?例如研究政黨,所有的政黨是否符合同樣的定義(參與選舉提名候選人等) ,並且它們不同於社會運動或利益團體等。 • 外在效度指不同研究可應用同一測量,即不因時間與地點而改變
何謂量表 • 一個量表所代表的概念,其特質表現在每個問題上面。也就是說,個別問題是這個概念的「果」而不是「因」 • 一個量表代表一個概念或特質,我們期望透過個別的問題,能夠發現問題背後所共通的意涵。
Thurstone Scaling • 假設在沒有任何尺度的情況下, 以相對判斷的方法了解受訪者的偏好
Thurstone Scaling • 我相信教會是美國最偉大的機構 • 我相信宗教, 但我很少去教會 • 我想教會有礙信仰因為它依賴各種迷信及神話
Thurstone Scaling • 選擇題目條件一: 高低中位數分布於各題, 表示有代表性 • 選擇題目條件二: 離散程度小
Guttman Scaling • Guttman Scaling希望從回答中得到更多資訊,除了受訪者同意個別問題的數目之外,還可以看出同意的形態是否符合預期。
Guttman Scaling (Rosenberg Self-Esteem Scale) • 1.我覺得我有一些好的人格特質 • 2.我希望我能夠得到更多人的尊敬 • 3.我覺得我是一個有價值的人,至少跟 別人比起來我不輸人 • 4.我覺得我並沒有太多可以值得驕傲的 • 5. 我對自己採取正面積極的態度
Guttman Scaling • 除非有很好的理論, 否則設計困難度高 • 必須應用其他分析工具做為指標: CR=1.0-(# of errors)/total responses=1.0-(# of errors)/[(# of items)*(# of respondents)]
Likert Scaling • 通常我們最常見的是Likert Scaling,分析方法是給每個問題的回答一個分數,累計之後便是受訪者的態度。
Likert Scaling • 好的法律與制度比好的領袖更重要。 • 無論一個人的政治觀點為何,都可以公開發表。 • 政府自然會為人民解決困難,我們人民不要發表太多的意見。 • 一個社會如果有許多不同的團體,就會影響我們社會的安定與和諧。
Likert Scaling • 相關係數—計算每個回答者分數之間的相關性以去掉不相關的問題 • 應用信度的測量: 折半信度, 將問題分為兩部份, 然後分別計算問題之間的相關性,最後再計算全部的相關性, 並考量兩半相關性之間的相關性. • Cronbach’s Alpha=N(rho)/[1+ (rho)(N-1)]