经典测评理论的发展、技术及运用

经典测评理论的发展、技术及运用 西北师范大学教育科学学院吕国光 Email:lugg@nwnu.edu.cn

吕国光生活小档案 • 山 • 茶 • 书

主要内容 • 测评的含义及教育测评的历史发展 • 经典测评理论实施的条件 • 经典测评理论的实施技术及在教育评价中的运用

测评的含义及教育测评的历史发展 • 测评的含义 • 教育测评的历史发展

教育测评的含义和特点 • 测评(Measurement):通常是指人们对客观事物进行某种数量化的测定。天平、秤、尺子、温度计。 • 教育测评(Educational Measurement)：对学生的学习能力、学业成绩、兴趣爱好、思想品德以及教育措施上许多问题的数量化测定。主要用于对学生精神特性的测定。

教育测评是困难的 教育测评是可能的 Thordike（1918）说：“凡是存在的事物都有数量。” Mccall（1922）说“凡是有数量的都可以测量” 测量中的误差来源测量的仪器和设备所测量事物的一致性程度测量人的因素教育测评的含义和特点

教育测评的含义和特点 • 教育测评的特点 • 教育测评一般是间接测评 • 教育测评的度量单位是相对的 • 教育测评是为实现教育目的服务的

教育测评的历史发展 • 主观经验性考试阶段（1864年以前） • 客观标准化测验阶段（1864-1940年） • 经典测评理论成熟和深入发展阶段（1940-）

主观经验性考试阶段 • 西周：“古之教者，家有塾，党有庠，术有序，国有学。比年入学，中年考校。一年视离经辨志，三年视敬业乐群，五年视博习亲师，七年视论学取友，谓之小成；九年知类通达，强立而不返，谓之大成。”（《学记》） • 隋炀帝大业二年（606年）分科考试。 • 局限：题目数量少；评价缺乏客观的评分标准

客观标准化测验阶段 • 1864年英国教师George Fisher收集许多学生成绩样本，分别优劣，汇集成《量表集》（Scale Book），作为度量学生各科成绩的标准。 • 1895年美国学者Rice主张用统一的测验考察、比较各校学生的成绩，并编制了算术、语言等测验。 • 1905年法国学者Binet和Simon制订的第一个智力量表。

经典测评理论的成熟和深入发展 • 1940年由美国学者Tyler主持的“八年研究”结束，标志经典测评理论（Classical Test Theory CTT）的成熟。 • 1963年Cronbach发表了《概化理论：信度理论的丰富和发展》标志着概化理论（Generalizability Theory GT）的诞生。 • 1952年美国学者Lord创立了项目反应理论（Item Response Theory，IRT）

经典测评理论实施的条件 • 信度 • 效度 • 难度 • 区分度

一、信度(reliability)的意义 • 概念:可靠性或可靠的程度 • 信度指观测值和真值相差的程度 • 信度指统计量与参数之间的接近程度 • 信度是指一种测验对相同被试再次测验时引起同样反映的程度

信度指观测值和真值相差的程度 • X=T+E • X表示观测值,T表示真值,E表示误差分数.在团体测验中, T可以理解为许多人(理论上应是无限多人)在相同条件下进行同类测量所获得的大量观测值的平均数.各人的真值与观测值之差仍称测量误差. • E=X-T

由于测量误差是随机产生的,与真值无关.在理论上正的误差分数和负的误差分数相抵消,平均误差为0.根据这一假设,观测值的方差应等于真值的方差加上测量误差的方差.即:由于测量误差是随机产生的,与真值无关.在理论上正的误差分数和负的误差分数相抵消,平均误差为0.根据这一假设,观测值的方差应等于真值的方差加上测量误差的方差.即: σx ²=σt² +σe ²

于是，信度（用rxx表示）可定义为真值方差（ σt ²）与观测值方差（ σx ²）的比率。即： rxx =σt ²/σx ² 此公式表明：真值的方差在观测值方差中所占的比重越大，则信度就越高。

计算信度的公式 rxx =σt ²/σx ²（1） σx ²=σt ² +σe ²（2） σt ² =σx ² -σe ²（3） rxx =σt ²/σx ² = 1- σe ² / σx ² （4）

信度系数的计算 • 常用的信度系数有： • 稳定性系数（coefficient of stability） • 等值性系数（coefficient of equivalence） • 内部一致性系数（coefficient of internal constancy）

稳定性系数 • 稳定性系数（coefficient of stability）：用同一量表对相同被试在不同时间测验两次的观测分数的相关系数。

稳定性系数的意义 • 任何事物都在运动变化着，但也具有一定的稳定性，所以才能对事物进行测量和研究。教育测量也是假定所测量的特性处于相对稳定的状态，如果用同一种量表对相同的被试测量两次，其结果应相同或近似。换言之，测量结果应具有稳定性。例如，在一次测验中得高分的学生，在另一次测验中也有得高分的倾向，被试在两次测验中的相对地位也非常接近。这种稳定性也就表明测验结果是可靠的或信度高的。

使用稳定性系数时要注意的问题 • 两次测验的时间间隔要适宜； • 重测法适用于速度测验而不适用于难度测验。 • 要注意提高被试的积极性。

等值性系数 • 等值性系数（coefficient of equivalence）是以两个等值（题型、题数、难度、区分度等）但具体内容不同的量表，在最短时距内，对相同被试先后试测两次所获得的两组对应分数的相关系数。等值性系数可采用复份法（equivalence forms reliability）

使用等值性系数时要注意的问题 • 复份法的关键是两个量表必须等值。 • 两次测验的时间间隔要尽可能短。 • 如果两次测验紧接，应注意被试厌倦态度。 • 标准化测验一般有复份，若没有说明等值信度，或等值性系数较低，则使用复本时应慎重。

内部一致性系数 • 内部一致性系数（coefficient of internal constancy）：是同一测验量表的两个部分得分的相关系数。 • 计算内部一致性系数的方法有两种：（1）分半法（2）Cronbach α

分半法 • 将测验按题目的编号分为两半：一半是奇数题，一半是偶数题。先计算每个人的奇数题和偶数题总分，然后求奇数题和偶数题总分的相关系数。最后用Spearman-Brown公式校正。求整个测验的信度系数。 • 问题：为什么要进行校正呢？

Cronbach α系数 • 使用最广泛的信度系数 • 计算公式： • α=n/（n-1）*（1-∑ σi²/ σx ²）其中，n为题目数， ∑ σi²为每题被试观测分数的方差之和， σx ²为所有被试观测总分的方差。

影响信度的因素 • 测验的长度 • 测验愈长，内容愈具代表性，信度愈高 • 变量的方差 • 方差愈大，信度愈高 rxx = 1 -σe²/σx ²

信度题目数和信度的关系

测验的难度 • 太难或太简单均会降低信度 • 测验的客观性 • 愈客观，信度愈高

100 75 50 25 0 分數 1 2 3 难度太小难度太大难度适当平均数（M）：85 21 60 标准差（) ：3.9 4.2 12.4 信度（KR21）：0.43 0.46 0.90 分数之分散度和难度与信度之间的关系

提高测验信度的方法 • 延长测验长度——新增加的题目与原有测验题目应有相同的统计性质，同时，不影响被试回答问题的方法。 • 难度要适当。经验表明，难度在.40-.70之间是合适的，也有人认为.25-075都有利于提高测验信度。 • 测验的内容应尽量同质； • 测量时间要充分； • 测量的程序应统一； • 评分要客观。 • 加大应试者之间的差异

效度的意义 • 测验分数的正确性，意即“有多正确的程度” • 效度的种类 • 内容效度(content validity) • 效标关联效度(criterion-related validity) • 建构效度(construct validity) • 传统上强调效度的概念有三种，而且是有所区别的

內容效度(content validity) • 意义：测验在逻辑上能测出所要测量的变量或特质的程度；测验内容的代表性或取样的适切性；又称为逻辑效度(logical validity)或专家效度(expert validity) • 考验方法：由专家以逻辑判断的方式来决定，测验内容是否具有代表性以代表潜在的总体试题

效标关联效度(criterion-related validity) • 意义：测验分数与外在效标间的关联程度，效标是指测验所要衡量或预测的某些特质。又称为统计效度(statistical validity)或实证效度(empirical validity) • 类型 • 同时效度(concurrent validity) 预测效度(predictive validity) • 考验方法：求测验分数与其他测验成绩之相关。其他测验成绩如在同时测量则为同时效度；如在往后测量则为预测效度

结构效度(construct validity)的意义 • 测验能够测量到理论上的结构或特质的程度。(“结构”是用来解释人类行为的理论构想或心理特质，它是观察不到的，但心理学假设它是存在的，以便能解释人类的行为，ex: 动机、性向、焦虑等。构念有其理论基础，因此依据理论可以预测人类的行为)

结构效度的考查方法 • 评分标准及规则能够合理反映构念所指称的特质之结构 • 方法：因素分析(factor analysis)将看似复杂的因素或特质，归纳成几个共同的因素，用以解析评分项目的结构并与理论中的构念结构相互参照

难度 • 难度（Difficulty）的意义难度指测验的难易程度。在教育测量中一般用通过率作为指标。若用公式表示，即： P=R/N [以 (0,1)为记分方式] P=X/K[以 (0,K)为记分方式] Q=1-P 整个测验的难度等于全部被试测验总分的平均数对于测验满分值之比.

难度对测验的影响 • 测验的难度影响测验分数的分布形态 • 测验难度影响测验分数的离散程度（Ebel的实验） • 测验难度影响测验的鉴别能力

测验的适宜难度 • .50 • .20-.80

区分度 • 区分度(Discrimination)是指测验对被试实际水平的区分程度.

区分度的计算方法 客观题（1）D=Ph-Pl • 其中， D为区分度符号，Ph为高分组通过试题的人数比例，Pl为低分组通过试题的人数比例。（27%）

经典测评理论的实施技术及在教育评价中的运用经典测评理论的实施技术及在教育评价中的运用 • 简单介绍SPSS统计软件 • SPSS统计软件在使用经典测评理论实践中的运用.

有关教育测评的资源 • ERIC Clearinghouse on Assessment and Evaluation at http://www.ericae.net • Mental Measure Yearbook at http://www.unl.edu/buros/ • ETS Test Collection at http://www.ets.org/testcoll/index.html

下面的网站都提供有关统计与测评方面的课程 • www.dartmouth.edu/~chance • www.statistics.com/ • www.resample.com/ 一本介绍统计学的基础知识和各种常用的统计方法的电子教材： • www.statsoft.com/textbook/stathome.html

That’s all… Thank you!

经典测评理论的发展、技术及运用

经典测评理论的发展、技术及运用

Presentation Transcript