第八章测评质量检验

第八章测评质量检验

本讲内容 • 效度的概念及其分析方法 • 信度的概念及其分析方法 • 区分度的概念及其分析方法 • 选题质量分析及其分析方法

效度 • 效度的概念效度是指测评结果对所测评素质反映的真实程度。对这种真实性的考评，常见的方法有三种： • 从内容性质方面分析其内容效度 • 从效标相关性方面分析其关联效度 • 从实证方面分析其结构效度 • 内容效度是指实际测评到的内容与期望测评的内容的一致性程度。当实际测评到的内容与我们事先所想测评到的内容越一致时，则说明测评结果的内容效度越高，测评结果就越有效。内容效度在实际操作中的鉴定主要采用定性分析的方法, 有蓝图对照分析法与专家比较判断法。

结构效度 • 结构效度又称作构想效度、构思效度、构念效度、构建效度等。结构效度是指实际所测评的结果与想测评素质的同构程度。它表明了在多大程度上，实际测评结果能够被看作是索要测评的素质在结构上的替代物。 • 在素质测评中，它是人们最关心的一种效度。这是由素质测评的间接性所决定的。人们总是通过选取一些具体的行为测评来判断实际的素质水平。 • 结构效度与检验效度的人对素质结构的理解有直接关系。如果李某认为忠诚这一素质即对本企业的忠诚，张某认为忠诚这一素质表现为实事求是的态度，那么对于向其他企业说明本企业产品所存在的问题这一行为，显然李某与张某会把它归类到不同的素质成分中给与不同的素质成分中并给与不同的评价。因此结构效度的检验分析也是一种定性的主观判断。在分析考评过程中，要采取有力措施把主观影响控制在最低点上。

结构效度 • 结构效度的分析可按一下几步进行： 1.给所要测评的素质的结构模式下一个操作化的定义 “我们所要测评的素质是对xx的态度、有关xx的品质、有关xx的技能。”像这样一些表述所测评素质的具体形象是什么，结构是什么，我们并不清楚，它仍然是从具体行为概括出某种意识或观念，因此对结构效度的分析没有多大意义。这里的构建不是从行为向观念构建，而是相反，由观念向具体行为的构建。不是简单还原，而是在更高的水平上抓住所测素质的本质特征，确定一个可感觉可操作的结构模式，由这种具体的结构模式作为抽象观念建构的替代物。这种替代物的成分显然应该是我们世纪能够看到的、听到的、感觉到的东西。例如：外显行为、客观性生理反应等。素质测评的目标体系实际上就是所测素质的一个行为构建模型，这种结构模型分别由项目、指标、权重、标度等组成。这种模型的建构，在很大程度上取决于所测素质本身的特征及其抽象程度等组成。

要定义或建构一个素质的结构模型，可以从以下几方面着手：要定义或建构一个素质的结构模型，可以从以下几方面着手：首先，采取工作分析方法，对所想测评的素质进行结构分析与行为分析，确定各种素质结构及其代表的行为。其次，用图表的形式逐一列出工作分析得到的素质因素及其特征行为。除此之外，还可以通过查找历史上或现在人们对所测评素质的模型的现成资料，丰富已有分析的结果。再次，还要另外准备一份与已经建构的模型可能混淆的但关系密切的其他模型图表。要反问自己并向人说明为什么所测素质是你所定义的结构模型而不是其他别的结构模型。

2.收集事实资料，评判结构效度，具体方法有：2.收集事实资料，评判结构效度，具体方法有： • 排除法如果测评结果能明确的排除它所对应素质结构模型的其他解释，那就表明所获得的测评结果具有较好的结构效度。 • 咨询法可以请一些有经验的专家就你所获得的测评结果、所对应的素质结构进行判断或推断，问他们该测评结果实际测评的素质是什么。如果大家的回答与你所想测评的素质结构几乎一致，那么说明你的测评有较好的结构效度。 • 相关法找一个具有较高结构效度的测评工具或结果，与你所获得的测评结果进行相关性分析，如果相关性很高，说明你的测评结果具有较高的结构效度。例如：某一个具有“自尊”结构效度的测评量表，它的测评结果就应该与自信、社交能力及领导作用等测评量表的测评结果成正比，而与诸如内向性、自卑、孤独等测评量表测评的结果成反比。

逻辑分析法 当大家对所测素质的结构模型具有比较一致的认识时，只要能判定测评内容（工具）选择正确，且整个测评过程除了一切外来干扰因素，就可以说测评结果具有较好的结构效度。例如：测评时间足以保证被测评者完成所有的工作，被测评者没有受到催促因素的影响；测评工具的指导十分明确，被测操作准确。 • 多元分析多元分析就是采取聚类分析与主成分分析等数学手段，对测评结果进行分析，看分析的结果。例如：所找出的主要因素与分类结果与所想测评素质的结构是否一致，如果一致，则说明所获得的测评记过具有较好的结构效度。

关联效度 • 又称实证效度、效标效度、效标关联效度，是指测评结果与效标的一致性程度。效标是一种用来衡测评有效性的外在参照标准, 它可以是一种测评的结果, 也可以是标准测评分数。根据效标是否可以同时获得, 可将关联效度分为同时效度与预测效度。作为效标的结果与预测结果同时获得, 这种效度称之为同时效度。当作为效标的结果是后来测评中获得, 这种效度称为预测效度。它反映了现在的测评结果对未来素质发展的预测程度。例如：两个人同时采用观察评定与问卷测验测评同一个人的工作态度，两个测评结果相关系数很高，例如0.80，那么以后在类似的情况下，可以用问卷测验代替花时太多的行为观察法。

关联效度 例如想检测一下自编品德测评的效度，决定采用效标关联中的同时效度分析方法，故让被测者同时接受自编品德测验与卡特尔16因素问卷测验。关联效标的分析关键在于效标的选择。效标作为衡量测评结果有效性的参照标准，应该是可以测评到且独立于所分析的测评结果的行为结果。效标可以分为行为效标与观念效标。行为效标的选择以客观性为依据。常见的行为效标有以下几种： • 学术成就 • 特殊训练成绩 • 实际工作表现与成绩 • 团体特征 • 等级评定结果 • 先前被证明是有效的测评结果

效度分析中的几个理论问题 • 关于效度概念的研究 1921年美国教育研究指导协会提出,效度是“测验在多大程度上测到所要测的东西”。同时被提出的还有“预测效度”和“共时效度”,后来被统称为“效标效度”。 19世纪30年代,人们将更多的注意力放在测验对于具体目标课程的代表性高低上。于是引入“课程效度”,后更名为“内容效度”。 1954年美国心理学会出版了《关于心里测验和诊断的技术建议书》，明确列举了四种类型的效度：预测效度、同时效度、构想效度、内容效度。美国心理学会、美国教育研究学会和国家教育测量委员会1966年联合出版的《教育与心理测验的标准和指南》中，将效度类型进一步简化为效标关联效度、构想效度和内容效度三种。Ｃｒｏｎｂａｃｈ和Ｍｅｅｈｌ又进一步把前两类归结为准则关联效度。这是一种三位一体的分类法观点。Ｃｒｏｎｂａｃｈ指出,延续了30年的旧观念(即把效度分为相互分离且并列的三类)已经过时,取而代之的是一元论的产生。

测试解释 测验使用证据基础结构效度结构效度+适切性和实用性后果基础结构效度+隐含的价值结构效度+适切性和实用性+社会效果Ｍｅｓｓｉｃｋ以建构效度概念为中心,提出了检验测验效度的四个层面(渐进矩阵)。关于效度概念的研究

关于效度概念的研究 • 结构效度概念产生后第二年,Ｌ.Ｊ.Ｃｒｏｎｂａｃｈ和Ｐ.Ｅ.Ｍｅｅｈｌ提出了5种验证方法,即分组区分法、相关矩阵与因素分析法、内部结构研究、不同场合下的变化研究、过程研究。 • DeborahLee提到,效度指的是一个测验准确测量它所要测的东西的能力,包括内容效度、效标关联效度和结构效度。 • 张厚粲、孙晓敏、王晶、叶映华、郑全全对效度概念演进及其新发展进行了研究。张厚粲、孙晓敏（孙晓敏、张厚粲，2004）回顾了心理测量学中效度概念发展的三个阶段,早期效度概念关注的是两个变量之间的相关.随后重点转向效度的多种类型,现阶段则注重考察测验的构想效度。总之,效度确证成为一个持续不断的动态过程;在这个过程中,运用各种技术不断地评价、质疑和检查由测验分数所作推论和解释的有效性成为心理与教育测量研究中不可或缺的组成部分。

关于结构效度的研究 • 肯贝尔和菲斯克（D.W.Fiske）对构想效度的考验办法进行了研究（肯贝尔和菲斯克，1959），1960年肯贝尔指出，要确定一个测验的构想效度，则该测验不仅应与测量相同特质或构想等理论上有关的变量有高的相关，也应与测量不同特质或构想等理论上有关的变量有低的相关，前者称为会聚效度，后者称为区分效度。 • 聂建中、汤晓媚（聂建中、汤晓媚，2006年5月）对结构效度的发展演变进行了综述，文章分析了结构效度在内容、验证方式和威胁因素这三方面所发生的变化,指出结构效度从概念、内容到与其他效度的关系上都发生了微妙的变化,其概念内涵更加清晰,涵盖内容更加广泛,在整个效度概念中占据了更加重要的位置。同时,还指出了以往常用的结构效度验证方法的不足,提出要对结构效度进行试前和实施阶段的理论验证。

效度应用 • 内容效度分析适用于某些对员工进行选拔和分类的职业测验，舍恩菲尔特、阿克、柏尔森（Schoenfeldt，Acker&Perlson,1976）清楚而详细的说明了编织工业阅读测验是怎样应用各种内容效度分析法。在编制联邦政府和州政府公务员测验时，这种方法得到了广泛的采用。 • 郭庆科（郭庆科，2002）对各种效度的应用进行了分析，他指出效标关联资料可以应用于对个人分数的预测（包括简单回归法、多种测验信息的综合）、人员的分类与安置（人员分类的性质、人员分类的优点、差异效度）。

信度 • 信度的概念信度是指测评结果所反映素质的准确性。对于这种准确性的考评目前大致有稳定系数、等值系数、分半系数、内部一致系数、评分一致性系数等。以上几种信度都是针对常模参照测验而言的，标准参照测验中的信度计算通常使用分类一致性信度，这种信度的的常用估计方法是考察同一批被测者在两次是册或者复本测验中的分类是否一致。标准参照测验中的信度也可以使用K系数计算，较分类一致性信度在统计上更合理（Cohen,1968;Aiken,1988）。

再测信度 • 指以同样的测评与选拔工具, 按照同样的方法, 对于相同的对象再次进行测评与选拔, 所得先后结果的一致性程度。再测信度的计算一般采用皮尔逊积差相关系数。 • 个体的素质测评在测评过程中会涉及许多因素的影响，素质本身有时也无法精确定义。我们常常把对个体测评结果的准确性检验，置于群体测评结果的相互关系中，转化为两次位置关系的一致性分析。当同一对象的测评结果以同样的测评方式再次获得后，其顺序位置关系变异很小时，则说明测评结果比较准确。 • 例如：在技能测评中李某的分数是８８，在全体被测者中排名第一，这到底准不准呢？我们再重复测评一次，结果李某的分数是９５，还是排名第一，而且其他被测的位置顺序变化很小，我们就可以说第一次的技能测评结果很可靠。

复本信度 • 复本信度测评结果相对另一个非常相同的测评结果的变异程度。 • “非常相同”一般以等值解释。所谓等值, 是指在测评内容、效度、要求、形式上都与原测评一样, 其中一个测评可以看作是另一个测评的近似复写, 即复本。 • “变异程度”一般以它的反义词“一致性”解释。 • 因此复本信度实际上是一种用等值系数揭示的信度。等值系数即为两组测评结果的相关系数。

一致性信度 • 一致性信度又称同质性信度，是一种常用的估计信度的方法，反映了测验题目与所测量内容的一致性程度。 • 一致性信度的计算公式主要有分半信度，主要采用斯皮尔曼-布朗修正公式计算；库德-理查逊公式和克伦巴赫а系数。 • 如果被测在第一个项目上比其他人分数高，在第二个项目上又比其他人高，在第三个项目上也比其他人高．．．．．．相反另一个人在第一个项目上比其他人分数低，在第二个项目上又比其他人低，在第三个项目上也比其他人低．．．．．．那么毫无疑问，我们会认为测评结果比较可靠。

评分者信度 • 评分者信度指多个测评者给同一组被测样组进行评分的一致性程度。 • 测评与选拔结果的差异程度来自两方面一是被测评者自身, 二是被测评者及其测评。信度主要是对后者的度, 测评者及其测评的无关差异越小, 测评与选拔结果就越可靠。 • 测评者的评分是引起主观性测评结果差异的主要原因。客观性测评是利用计算机评分, 不受主观因素影响, 不存在评分误差。评分者信度主要采用肯德尔和谐系数计算。

速度测验的信度 • 速度测验是指那种由于时限很紧或题目很多使被试不可能全部完成的测验。 • 以上介绍的几种信度都是针对常模参照测验而言的，速度测验中的信度通常采用做答速度的一致性为依据。可以使用重测法和复本法，根据被试两次回答题目数量的变化对速度的一致性作出估计。

测验类型 信度低中高成套成就测验 0．66 0．92 0．98 学术能力测验 0．56 0．90 0．97 成套倾向测验 0．26 0．88 0．96 客观人格测验 0．46 0．85 0．97 兴趣问卷 0．42 0．84 0．93 态度量表 0．47 0．79 0．98 信度多高才算可靠 • 对人事测评中信度系数与测评质量的关系，以下给出了几种心理测验的信度系数：

信度系数类型 估计方法应用稳定性系数重测法（积差相关）人格、速度测验等值性系数复本法（积差相关）智力、学绩、速度测验等值稳定性系数复本法（积差相关）智力、学绩、人格测验内部一致性系数分半法（积差相关，用斯-布公式校正）库德尔-理查森公式法 α系数法智力、学绩、选拔测验评分信度系数斯皮尔曼等级相关法肯德尔和谐系数法作文、创造力、投射、道德判断测验各种信度系数应用

项目分析 • 适合度在素质测评中，项目不仅仅是试题，更多的是一些咨询问题或观察评定点（指标），它们无难易之分，适合度指的是被测者行为符合项目测评标准的程度。当项目为试题时，适合度即难度；当项目是问卷中的问题时，符合度即所有选对的被测者人数与总人数之比；当项目为观察评定量表中的指标时，符合程度即所有被测得分平均值与指标满分值之比。 • 区分度又称鉴别力，指项目得分对被试实际能力或心理特质水平的区分能力或鉴别力，也即项目得分的高低与被试实际能力或心理特质水平高低的一致性程度。项目区分度的计算方法主要有相关分析法（包括积差相关法、二列相关法和点二列相关法）、极端组法（鉴别度指数、临界比）和因素分析法 • 独立性在能力测评中，常常需要项目之间有一定的独立性。所谓独立性即非相关性或低相关性。独立性的分析一般采用项目间分数的相关系数揭示，根据实际得分分布是否均匀，可以分别采用rφ系数法和列联表χ²检验法。

项目分析 • 选项质量对于诱答或正答质量的分析方法有两种： • 诱惑力分析法这种方法是采用表格形式，分别统计高分组与低分组中的被测者对同一项目各选项的选择次数。 • “白智”试测法这种方法是找一些对测验内容一无所知或十分陌生的人作为被测者进行测试，通过分析这些人对每个诱答选择的人次来分析选项的质量。

其他指标的分析 • 客观性测评的客观性由测评方法的客观性与测评者的客观性两方面构成 • 总体分布与水平总体分布指测评结果在各水平层次上的分布情况，总体水平一般指对测评结果集中量的分析。 • 区分性与差异性测评工具的区分性是指把不同水平的被测者区分开来的程度，测评区分性一般通过测评结果差异性的分析来揭示。 • 误差误差是指通过测评结果的定性定量分析，判断测评结果是否受到心理效应的严重影响。分析的主要内容是心理误差、标准误差以及单个测评结果的致信区间。

其他指标的分析 • 误差 • 心理误差 • 哈罗效应误差　哈罗效应又称晕轮效应，是指测评者往往会因为对被测评者整体印象的好坏从而影响他对每个素质的测评。例如因看到一个人相貌端庄、严肃，就容易产生此人责任感很强的看法。由哈罗效应引起的误差叫哈罗效应误差。　哈罗效应还表现为因对某个重要因素的印象好坏而对整体评价产生影响，所谓一好百好，一丑白丑。虽然这是一种泛化影响，而前者是一种演绎影响。

趋中心理误差 趋中心理误差是指因为测评者既不愿把被测评的过好，也不愿把被测评的过差而过于集中在中间段而产生的误差。这种误差使有差异的被测得到相同或相近的分数，缺乏区分性。可以通过测量结果的分布及差异量分析来揭示这种误差的情况。 • 宽大心理误差　　宽大心理误差指因测评者不坚持测评的标准要求就高不就低的测评而产生的误差。这种误差表现为皆大欢喜，高分低能。另一种负向宽大心理误差，则是过于严格，以一些脱离实际的高标准去测评人的素质，测评结果普遍较低。 • 逻辑误差　　逻辑误差指测评者不是实事求是的对每个素质独立地测评，而是依据其是否相关的特点而进行逻辑上的推断。

对比效应误差 对比效应误差指测评者在测评过程中因被测与标准间存在某种明显的反差而产生的误差。这种误差又叫托衬效应误差。　例如鹤立鸡群，绿叶丛中一点红。 • 接近效应误差接近效应误差是指测评者往往会把在时间、内容、形状等特征相似或相近的两个对象，给以同样的评价，而不论他们实际上是否有差别。　例如某个素质低的人夹杂在两个素质好的人之间，其测评分数就容易偏高，相反，一个素质高的人夹杂在两个素质好的人之间，，他的分数就有可能偏低。

谢谢大家!

第八章 测评质量检验