第四章测验质量的分析与评估

第四章测验质量的分析与评估

量化分析的两个层次 • 试题（项目）层面 • 难度 • 区分度 • 答案分布 • 测验层面 • 信度 • 效度 • 整卷难度

试题的难度 • 即试题的难易程度，通常定义为通过率（得分率）

试题（项目）的难度 • 对于1、0记分试题： • 若试题为选择题，考虑到猜测因素的影响，可对上述公式进行校正： • 但一般对选择题的难度不作校正，以便对其进行更细致的选项分析，这时应该明白，难度中包含有猜测因素的影响

试题（项目）的难度 • 对于k、0记分试题： • 难度的等距量表：以通过率定义的难度不是等距的量度，而是顺序量度，应用正态分布理论，可将其转换为等距量度

试题（项目）的恰当难度 • 常模参照测验要从区分功能考虑试题难度 • 对于一般的常模参照测验，如果是自由反应式试题，不必考虑猜测因素，最适当的难度为0.50，过难或过易试题都不利于区分被试 • 对于选拔性考试，则使试题的难度对录取线上的被试来说，难度为0.50

试题（项目）的恰当难度 • 如果是选择题，考虑猜测因素的影响，最恰当难度，应该比猜测成功的概率与1.00之间的中点值再容易一些 • 但这只是理论上的建议，实际命题时并不一定能遵守

试卷的恰当难度分布 • 常模参照测验的目的是将被试个体与群体比较，以区分不同层次的被试，这就要从区分功能考虑试题难度 • 就单个试题而言，如果是自由反应式试题，不必考虑猜测因素，最适当的难度为0.50，过难或过易试题都不利于区分被试

试题（项目）的区分度 • 试题的区分度是指试题对于被试反应的区分程度和鉴别能力 • 区分度的取值范围在－1到1之间 • 区分度有两种计算方法：相关法和高低分组法

试题（项目）的区分度 • 用高低分组法计算区分度的方法 • 组的划分：按总分，上下各27%分别为高人组和低人组 • 试题的区分度（这种方法求得的常称为鉴别指数）等于高低分组的得分率之差

试题（项目）的区分度 • 用相关法计算区分度，应视试题的计分方式，适当选择相关系数 • 点二列相关——1，0计分 • 二列相关——连续计分，但以某一分数为界，人为分为通过与不通过两类 • 积差相关——连续计分

试题（项目）的区分度 • 相关法计算区分度的伪相关校正 • 因为题分是总分的一部分，会造成两者相关虚假地增大，即存在伪相关因素 • 伪相关因素只在题分占总分比例较大时，才会明显，这时需进行校正，或选用高低分组方法计算区分度

难度与区分度最大值的关系

答案分布 • 选择题：从各选项上学生人数分布，分析选项的编写质量 • 正确选项人数比例与预设相似 • 每个错误选项人数比例大致相同 • 注意：每个选项都有明确目的 • 非选择题：从答案代码的分布，检查评分标准的合理性 • 避免某一层次人数过于集中 • 避免出现断层 • 注意：层次划分要有依据，符合逻辑

信度－－主要内容 • 信度回答什么问题 • 信度是如何定义的 • 信度是如何估计的 • 如何选择信度系数 • 影响信度的主要因素有哪些

信度回答什么问题？ • 信度（reliability）表示的是测量的可靠性 • 测量越准确，信度越高 • 测量的误差越小，信度越高

信度是如何定义的？先来看真分数模型 • 信度可从三个角度来定义： • 大批平行测验向同一被试施测所得误差分数的标准误 • 观察分数与真分数的相关－－信度指数 • 两平行测验的观察分数的相关－－信度系数

真分数模型 • 真分数、观察分数和测量误差 • 观察分数指是个体在一次测验中获得的分数 • 真分数是指个体在被测量的特质上的真实值 • 多次测量个体的同一特质，所得的观察分数一般是不同的，这意味着观察分数通常不等于真分数，即存在误差

真分数模型 • 真分数理论的假设 • 假设一：真分数不变（特质恒定） • 假设二：误差随机分布 • 假设三：观察分数＝真分数＋测量误差即 X＝T＋E

真分数模型 • 平行测验 • 平行测验指的是能以相同的程度测量同一心理特质的两个多个测验 • 平行测验满足： • 观察分数的平均数相等 • 观察分数的方差相等 • 返回信度的定义

信度系数的估计 • 信度指数在理论上能够很好地反映信度的含义，但不能直接得出 • 信度系数只需找到平行测验，就可经过计算得到 • 用不同的方法来得到平行测验，就可估出不同的信度

平行测验的获得 • 一个测验重复使用－－重测信度 • 编制两个平行的复本－－复本信度 • 将一个测验分成两半－－分半信度复本测验指的是在性质、内容、题型、题量、难度等方面都一致的两份或多份测验

重测信度（稳定性系数） • 优点： • 只需一份测验 • 测量的属性完全相同 • 缺点 • 易受前测影响 • 需考虑被试成熟的因素 • 两次测试时被试主观状态不同可能造成影响 • 两次测试时客观条件不同也可能造成影响 • 适用范围： • 速度测验 • 异质性测验

复本信度（等值性系数） • 优点： • 可避免重测信度的一些问题 • 如在间隔一段时间使用复本，可得到稳定性和等值性系数 • 缺点 • 复本难以编制 • 被试连续接受两次相似的测试会有厌倦感 • 复本的作答方式对被试可能有迁移作用 • 适用范围： • 所有性质的测验

分半信度（内部一致性系数） • 优点： • 只需一次施测就可得出信度 • 缺点 • 分半方法不同，估出的信度不同－－一般采用按题号奇偶分半的方法 • 适用范围： • 适用于同质性测验不适用于异质性测验 • 适用于难度测验不适用于速度测验－－会造成虚假的高信度

内部一致性系数－－超越分半的方法 • KR20公式： • 避免了分半的问题 • 但只适用于1、0记分的试题 • 估出的信度比分半信度低 • α系数： • 适用于k、0记分的情况 • 估出的是信度的最低限

评分者信度－－另一种重要的信度 • 评分者信度指的是多位评分者对同一组被试作答反应评分的一致性情况 • 评分者信度可用积差相关、α系数或肯德尔和谐系数估计

影响信度的主要因素 • 评分者信度：为其他信度的上限 • 被试的变异程度：变异程度越大，信度就会越高 • 测验的题量：增大题量，信度会随之提高 • 测验的难度：过难的试题导致猜测，会降低信度

测量标准误

效度－－主要内容 • 什么是效度 • 效度的种类 • 效度系数的估计

效度(validity)亦称测验的有效性，指一套测验对应该测试的内容所测的程度效度(validity)亦称测验的有效性，指一套测验对应该测试的内容所测的程度 • 或者说，效度是根据测验分数做出的推论的恰当程度

效度的种类 • 内容效度 • 效标关联效度 • 结构效度

内容效度 • 指测验是否测试了应该测试的内容或者说所测试的内容是否反映了测试的要求 • 内容效度考虑两个因素： • 测量的内容范围 • 项目的代表性 • 内容效度的验证一般采用逻辑分析的方法测验的项目能否包含所测的内容的主要方面？各部分项目所占比例是否适当？

效标关联效度 • 指测验跟测验以外的，作为测验是否有效的标准的测量之间的一致性 • 通常用测验分数与效标分数的相关作为测验的效度系数 • 根据效标的不同，可分为并存效度和预测效度 • 效标的测量有较高的要求

结构效度 • 指测验能够说明心理学上理论的结构或特质的程度 • 验证的方法： • 多质多法（MTMM） • 探索性因子分析（EFA） • 验证性因子分析（CFA）

信度与效度的关系 • 信度是效度的必要而不充分条件

第四章 测验 质量的分析与评估