第五章测试与测试理论

第五章测试与测试理论

内容简介 • 本章首先对测试及其分类作了简单的说明，随后对测试数据的记述与处理进行了讨论，最后重点讨论了项目反映理论的基本内容及其应用。

学习目标 • 1．知道测试的意义与几种不同的分类； • 2．掌握几种测试数据的统计测度； • 3．了解测试数据应具备的特性； • 4．掌握测试数据的交换； • 5．了解何为项目反映理论。

第一节测试的意义与分类 • 什么是测试? • 就是教学过程中，为了对个人或集团的技能、知识、能力、适应性等进行测定，往往需要通过一定的时间序列、适当的课题或其它的各种手段来完成。这些问题、课题、手段就是测试。比如学校中的平时小测验，期中考试，期末考试，毕业论文，企业中的资格考试等都是测试。

广义的测试 • 针对心理特性的测试。如为了了解某些人的心理问题，而要求他们做的能体现他们内心想法的测试，测试的本身并不存在正确答案，知识随着不同人的心理想法不同而有所不同的测试。程序教学机器是指装入预先编制的程序教材后，能自动起到刺激－反应－强化的作用的机械装置。

狭义的测试 • 针对具体的技能、知识、能力、适应性等特性的测试。如学生在校所经历的各种基于知识掌握程度的测验。

5.1.1　测试的意义 • 测试的目的是为了实现个人、集团的技能、知识、能力、适应性的测试。 • 平时小测验，期中考试，期末考试就是为了了解学生对一个阶段的知识掌握程度，毕业论文是为了总结学生在校所学到的各方面知识与技能，而企业中的资格考试则是为了考察员工对工作适应的能力。测试与评价具有密切的关系：测试的结果是评价的根据，评价的要求对测试的构成具有重要的指导意义。 • 就像学校的期末考试的结果反映了该生在整个学年的学习情况，教师和学生本人可以以此结果为依据，进行评价而得出该生学习的情况，从而可以有针对性地对其不足的地方进行辅导，那么就会有更好的掌握。

5.1.2　测试的几种分类 • 一. 器具测试与纸笔测试 • 根据给出问题和课题的材料不同，可将测试分为器具测试和纸笔测试。 • 器具测试：使用器具给出课题，被测试者以口头或器具的操作对给定的课题进行回答。它主要用于各种智能测试和适应性测试。( 计算机考试中的上机考试就是要求考生在计算机上回答问题，这时候的计算机就是测试中所用到的器具。) • 纸笔测试：纸张（试卷）的形式给出测试的问题或测试的课题，被测试者以笔答的形式进行回答。 ( 纸笔测试主要用于学历测试和各种心理测试。现在我们一般的考试多采用这种形式来进行测试，即在考卷上用笔答题。 )

二. 客观测试与非客观测试 • 根据评分的客观性，可将测试分为客观测试和非客观测试。

客观测试 • 客观测试指测试的评分不会因评分者而异，不论是谁评分，都具有相同的评分结果。 • 内容扩展 : 作为客观测试，要求评分的标准明确化。用于客观测试的问题形式主要有：对错（是非）题、多重选择题、匹配题等及其这些问题形式所派生的各种形式的问题，对与错的区分很明确，不会产生模棱两可的情况。

非客观测试 • 非客观测试：评分标准具有一定的模糊性，评分过程中具有一定的主观意志要考生自己发挥而并没有明确答案的测试。 • 论文题、问答题是这类测试的主要问题形式，只要考生在答题的过程中将问题分析清楚就可以得到分数。

三. 综合测试与分析测试 • 根据测定尺度的数据，可将测试分为综合测试和分析测试。

综合测试 • 综合测试：测定尺度只有一个，全部测试的评价可以用一个数字、一种符号、一段评语予以总结，进行综合评价。 • 对数学题的测试，每一道就只有一个标准答案，答题是否正确完全基于这个答案的正确性，即它评价的标准只有一个。

分析测试 • 分析测试：具有多个测定尺度，对于每一种观点、每一个因子、每一项低位目标都有一个评价结果。这是一种基于不同观点的评价（分析的评价）。 • 在对于问答题的测试中，由于每个考生的想法都不相同，他们的答案就会随他们的观点而有所不同，在分析其答案的过程中要对每一个观点都进行分析，进行全面的考虑，这时候就需要用到分析测试。

四. 标准测试与非标准测试 • 根据测试的制作人员、制作过程和适用范围的不同，可将测试分为标准测试和非标准测试。

标准测试 • 标准测试：由多名测试专家与学科专家，经过严格的标准化过程所制作的测试。标准化测试的评价标准，具有较大的适用范围。 • 一般某些全国性的、地区性的统一测试都属于这种类型的测试。像高考就是这种测试，由高考命题组来统一出题，题目的答案具有明确的很规范的标准。

非标准测试 • 非标准测试：主要用于教师个人或研究人员个人，根据教育目的或研究目的的需要所进行的测试。它的标准化程度较低，适用的范围较小。 • 用于老师为了检验学生在某一阶段的学习情况而搞的小测验。它主要是为了让教师了解学生对知识的掌握程度，它常用于对某个班级或某个年级的测试。

五. 集团基准测试与达到基准测试 • 根据评价标准的不同，可将测试分为集团基准测试和达到基准测试

集团基准测试 • 集团基准测试：以测试对象集团的统计性质（如：频度分布，平均值、标准偏差等）作为标准（集团标准）的测试，这是一种进行相对评价的测试。 • 在一个具有8个班级的年级中，相对于班与班之间学习成绩的高低就要用到平均分这个概念，将8个班级分别作为8个集体，用集体的平均分去进行测试比较。

达到基准测试 • 达到基准测试：一种基于应该达到的目标（达到目标）或某种评价观点作为评价基准的测试。这是一种绝对测试，其评价结果，根据测试的正答率，按达到、没达到这样的两个级别，或达到、基本达到、没达到这样的三个级别所表示。 • 英语四级考试就分为三等85分以上为优秀,60到84.5之间的这么大的范围内都是合格，而60分以下就是不合格。

第二节测试数据的统计测度 • 5.2.1　平均值、分散和标准偏差 • 5.2.2　协方差和相关系数

5.2.1　平均值、分散和标准偏差 • 1.平均值

2.分散（方差）

3.标准偏差（方均根值）Sx • 分散的量纲是测试得分量纲的平方。为了使表示测试得分分散程度的统计量与测试得分具有相同的量纲，我们引入标准偏差Sx ，并以它来表示测试得分的分散程度。

5.2.2　协方差和相关系数

1.共分散

2.相关系数 • 共分散Sxy可以表示两次测试间的相关程度，但在计算Sxy时，其数值与样本的数量及样本值的大小有关，即Sxy的取值范围与参加测试的人数、测试的评分大小有关，这给多个测试间相关程度的比较带来了一定的困难。为此，应对Sxy的取值范围标准化。相关系数是基于这一思想进行定义的。

第三节测试数据应具备的特性 • 什么是再测试 • 同一测试试卷，让同一被测试群体，以一定的时间间隔进行两次测试，我们将两次测试得分间的相关系数作为信度系数的估计值。比如:一个班级的学生参加一次数学测试,两天后教师又让这些学生再次做了这份同样的试卷,那么通过这个班的学生对同一份试卷的两次不同的答案进行比较就可以得出,哪些题目是学生真正掌握的,即是可信的,而哪些是他们通过猜测得出的,即为不可信。

什么是平行测试 • 我们称具有相同测试目的、相同测试内容、相同问题形式、相同难度、相同区分度的不同测试为平行测试，我们也可称之为代替测试。若两组测试得分的真值相等，误差的分散相等，这样的两组测试，我们也称之为平行测试。如教师为了防止作弊而出的两份题型相近,难度相仿的A,B卷分别在不同班级使用时的测试。

什么是信赖性 • 信赖性是针对测试得分的精度而言的，它是一种表示测试结果正确性的概念和量度。

什么是妥当性 • 妥当性是表示测试结果心理特性的概念和量度。妥当性用于表示测试结果与测试目的间的匹配程度，即通过测试的结果在多大程度上能达到预定测试目的的要求。妥当性是测试的一种基本的特性。测试的妥当性，往往以效度所表示。

一种合理的、有效的测试，其测试数据（得分）应具备一定的特性。在这些特性中，最重要的是信赖性（信度）和妥当性（效度）。一种合理的、有效的测试，其测试数据（得分）应具备一定的特性。在这些特性中，最重要的是信赖性（信度）和妥当性（效度）。

5.3.1 测试的误差模型 • 测试过程中，由于各种原因，会使测试产生一定的误差。测试误差产生的原因是多方面的，有心理的因素、有测试实施的因素、有测试环境的因素、有评分标准的因素，也有评分人员的因素等等。

它表示，当N足够大时，测试得分的平均值 与得分真值的平均值是一致的

它表示，测试得分的分散是得分真值的分散与测试误差分散之和，即得分的分散由真值的分散与误差的分散所产生。

5.3.2 测试的精度与信赖度 • 测试数据的一个重要特性应该是，测量的误差小、精度高。测试的精度表示了测试的信赖性，测试的精度越高，测试的可信程度也越高。测试的信赖度由测试的信度所表示，信度高低的量化由信度系数所给出。

由于得分真值的分散不可能测定，因此，我们不能直接根据定义式来求信度系数。信度系数往往是以一定的方法进行估计的。

5.3.3 信度系数的估计 • 由于同一被测试群体的测试得分具有相关性，因此，可以利用间接的方法对测试的信度系数来进行估计。 • 1.再测试法

再测试法的实施过程中，应慎重地选择两次测试时间的时间间隔。间隔选择过短，由于记忆的影响，信度系数的估计值偏高；间隔选择过长，由于受个别心理特性变化的影响，信度的估计值偏低。如何决定两次测试间的间隔是再测试法应处理的一个重要问题。

2.平行测试法 • 平行测试法是基于两次测试的等价性对信度系数进行估计的。平行测试法克服了再测试法在实施过程中存在的一些问题，但与之带来的是，用于平行测试的两组测试真正做到是平行测试的测试是很困难的。这是实施平行测试的主要问题。

3.折半法 • 在实施折半法时，一般将测试的项目分为奇数号项目、偶数号项目这样两组项目群，并以这两组项目群进行测试，我们也可称这样的测试方法为奇偶法。

5.3.4 妥当性 • 检验测试的妥当性的方法有多种，从妥当性的观点出发，其主要方法有：

1.内容的妥当性 • 内容的妥当性是指测试的项目群应充分反映需要测试领域的内容要求。对应于需要测试的内容的母集团，用于测试的项目群不应有任何偏向，它是全面反映母集团要求的样本。在考察内容的可靠性时，应充分对用于测试的各个项目进行研讨、推敲。在决定测试项目时，应由各方面的专家共同研讨、共同决定。 • 内容的妥当性在学力测试中十分重要。为了有效地决定测试的项目，应将需要测试的内容领域以目标细目表，或内容行为矩阵所表示，并基于这样的表格或矩镇决定测试的内容和项目。

2.基准关联的妥当性 • 所谓基准关联的妥当性是指以该测试以外的数据作为外部基准，用测试的结果与外部基准数据的相关性来研究测试结果的妥当性。 • 基准关联的妥当性可分为并存的妥当性和预测的妥当性，二者的区别在于用作外部基准数据的收集时期的不同。 • 并存妥当性的外部基准是由其他的测试，或其他的手段获得的数据作为外部基准的。例如，为了讨论新的智能测试的妥当性，我们可以用已有的智能测试数据作为外部基准。作为以精神障碍的诊断为目的的性格测试的外部基准，可以使用精神科的诊断。这些外部基准是在测试时，或测试以前所收集的。 • 预测的妥当性是以测试后，例如若干年后被测试者的实际数据作为外部基准来研究测试结果的妥当性的。作为入学测试的妥当性，可以用入学后被测试者的实际学习成绩作为外部基准。显然，经入学测试选派的学生，在入学后都能很好地完成预定的学习，这样的入学测试就是妥当的。

3.构成概念的妥当性 • 构成概念妥当性是指该测试与心理学理论所进行的预测不产生任何矛盾，与心理学理论预测的行为结果具有很好的关联性。 • 在内容的妥当性研讨中，若预定领域内容的母集团不甚清楚，或在基准关联的妥当性研讨中，若适当的外部基准难以寻求，这时，可使用构成概念的妥当性来研究测试结果的妥当性。 • 上述有关信赖性和妥当性的讨论几乎都是基于相关系数展开的。这种讨论对于相对评价为目的的集团基准式(NRT)是有意义的，但对达到基准测试(CRT)几乎是没有多大意义的。对于达到基准测试的信赖性和妥当性是一种与相关系数没有多大关联的概念。有关达到基准测试的信赖性和妥当性的定义和表示方法有多种不同的提案，这里不予讨论，读者可参考其他有关文献。

第四节测试数据的交换 • 什么是百分排位 • 所谓百分排位（或称百分顺序位，简称百分位）是指被测试集团人数为100名，从低位开始，相当于指定的某一位的成绩是多少，或者说，从低位开始，相当于百分之多少位的成绩是多少的一种排位方法。这种排位是以百分位所表示的。

什么是多级评定值 • 根据需要，我们可以直接利用测试得分的平均值和标准偏差，将测试得分变换为具有指定的多个级别（段位）的评定值，例如，将百分制得分变换为具有无个级别评定值的五分制。称经过这种变换后的变换值为多级评定值。

第五章 测试与测试理论