第四章测试效度及其验证方法（一）

第四章测试效度及其验证方法（一） 湖南师范大学外国语学院邓杰教授

教学目标 • 了解单一效度论时期的效度概念及验证方法 • 效标关联效度 • 相关分析的原理及SPSS操作 • 假设检验的原理与方法 • 了解效度分类说时期不同效度的概念内涵及验证方法 • 效标关联效度、内容效度和构念效度 • 评分一致性分析及SPSS操作 • 因子分析的原理及SPSS操作 • 回归分析的原理及SPSS操作 • 结构方程模型的原理及AMOS操作

主要时期：20世纪50年代以前 效度概念：效标关联效度验证方法：相关分析（Pearson积距相关和Spearman等级相关）单一效度论

效标关联效度（Criterion-relatedValidity） • 概念内涵：当前测试与标准测试的相关程度 • 验证方法：求两个测试成绩的相关系数（CorrelationCoefficient） • 两个子类 • 同期效度（ConcurrentValidity） • 预测效度（PredictiveValidity） • 主要问题 • 标准测试自身的效度 • 同期效度两个测试的可比性 • 预测效度两个测试相关的意义效标关联效度当前测试标准测试相关分析 Validity＝Correlationefficient A test is valid for anything with which it correlates.

相关分析 线性相关非线性相关或曲线相关 Pearson 积距相关（定距数据）相关系数r 的取值范围为 [-1,1]，其中： • |ｒ|＜0.3称为微弱相关 • 0.3≤ |ｒ|＜0.5称为低度相关 • 0.5≤ |ｒ|＜0.8称为显著相关 • 0.8≤ |ｒ|＜1称为高度相关或强相关 Spearman 等级相关（定序数据）

积距相关示例 p/2 p/2 拒绝区间 α/2 接受区间 1-α 拒绝区间 α/2 • p表示H0成立的概率，为一个非常小的概率。 • 如果p值比更小，则说明H0几乎不可能成立，完全有理由拒绝H0而接受H1； • 相反，如果p值大于，则说明拒绝H0的理由还不够充分，只能接受H0。 • 如果p值不大，即使接受H0，结论的说服力也不强；如果p值为大概率，那么接受H0同样具有说服力。 • 检验结果 • 说明.963的相关系数具有统计意义，两组成绩显著正相关原假设(Null Hypothesis)：H0: r=0 备择假设(Alternative H )：H1: r≠ 0 接受H1的条件极度苛刻，H1被接受则结论说服力强，所以期望的结论通常为H1

主要时期：20世纪50～80年代中期 效度类别：效标关联效度、内容效度、构念效度验证方法：评分一致性分析（Cronbach 系数和KendalW协同系数）、因子分析、回归分析、结构方程模型效度分类说

三位一体 • 内容效度和构念效度作为效标关联效度的补充效标关联效度当前测试标准测试相关分析内容效度构念效度分数潜在特质相关性典型性充足性专家评判多质多法、因子分析、结构方程等

内容效度（ContentValidity） • 定义 • 试题或任务在多大程度上代表了目标内容的范畴或全域 • 内涵 • 测试内容的相关性、典型性及充足性 • 检验方法 • 专家评判：先检验评判一致性，再分析有效程度目标内容抽样测试内容内容效度相关性典型性充足性专家评判

评分员之间的一致性检验（Inter-raterConsistencyTest）评分员之间的一致性检验（Inter-raterConsistencyTest）

定距分的一致性（Cronbach 信度系数） 注意： 1. 行为学生，列为评分员 2. 两位专家时，等同于Pearson相关系数至少还应同时报告项总体平均分和标准差或方差 • ＜ 0.6，较差 • 0.6≤ ＜ 0.8，较好 • ≥0.8，很好

定序分的一致性（Kendall’sW 协同系数） 注意： 1. 行为专家，列为考生 2. 两位专家时，也可进行Spearman等级相关分析 H0: 专家评判不具一致性 H1: 专家评判具有一致性请解读此统计结果

构念效度（ConstructValidity） • 定义 • 分数解释构念的合理性程度 • 内涵 • 分数的真实含义，即分数到底意味着什么 • 验证方法 • 多质多法分析（Multitrait-Multimethod, MTMM） • 因子分析（Factoranalysis） • 结构方程模型（StructuralEquationModel）构念效度分数潜在特质多质多法、因子分析、结构方程等

多质多法分析（MTMM） Method1 Trait1 Method2 Trait2 Method3 Trait3 Method4 异法同质的相关强——又称聚合效度（Convergent Validity）同法异质的相关弱——又称区分效度（Discriminant Validity）

方法一：因子分析(FactorAnalysis)

因子分析的原理 x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 r3,1 降维 r4,1 r2,1 r8,3 r5,3 r3,2 r2,3 r7,2 r1,1 r10,3 r6,1 r1,2 r9,2 r1,3 Factor2 Factor3 Factor1 探测结构降维: 因子个数应远小于原有变量个数探测结构：一个因子应可解释一种类别特征，如能力特征、任务特征、评判特征信息损失小：因子应能反映原有变量的绝大部分信息因子独立性：各因子应不相关，否则即意味着存在未被提取的因子变量相关性：同类变量相关应趋向1，不同类变量相关应趋向0（因子分析中旋转的目的）

因子分析数学模型 线性组合矩阵因子维度 f2 fk f1 共同度(Commonality) x1 变量维度 x2 所有因子共同代表变量（xi）的程度（xi 应只与一个因子高度相关）；值越接近1，信息丢失越少 xp 特征值(EigenValue) 因子负荷(Loading) 特殊因子（标准化后）因子（fj）代表所有变量的程度（f1个最大）变量（xi）与因子（fj）的相关程度降维后的信息丢失程度；值越接近0，信息丢失越少标准化后，所有变量的总方差为 p，特征值与p之比即为因子的方差贡献率标准化，即令

因子分析例析 3位教师对31个学生的作文进行评分，评判指标包括内容(Content)、结构(Structure)、词汇(Vocabulary)和连贯(Cohesion) 四个项目，评判等级从低到高分为1～5共五个等级。请先检验评分员之间的一致性，再通过因子分析对评分结果做出解释。因子分析数据表评判一致性分析数据表评判一致性检验结果

SPSS操作 使因子负荷向0或1分化（相关变量逐步聚拢，不相关变量逐步远离）

因子分析适宜性检验 拒绝“各变量各自独立”的原假设，适合做因子分析 KMO检验检验取样足够度，值越大取样越充分，最大值为1 • Bartlett的球形检验 • 检验各变量是否各自独立 • H0：各变量各自独立 • H1：各变量互不独立（存在相关）各变量存在相关且取值范围大致相当时，数据分布才有可能呈球形

结果与讨论 共同度（Commonality）公共因子能体现绝大分变量80%以上的信息 p为原始变量数；k为提取因子数方差贡献率（%ofVariance）特征值占原始变量总数的百分比特征值（EigenValue）前3个成份的特征值总计达10.5，方差贡献率累积接近80% 累积方差贡献率应不低于80% 旋转后，各因子的特征值和贡献率趋于均匀 (本例中成份4无明显改善) 用4个因子代替12个变量，约丢失15%的信息

结果与讨论 成份得分矩阵与旋转成份矩阵结果类似，但成份4更难以解读 • 4个成份与12个变量的相关系数表明： • 前3个成份分别代表第2、1和3位评分教师； • 第4个成份虽与Structure1和Structure3两个变量存在一定关联，但两变量分别与成份2和成份3的关联更强结论：因子分析未能提取与内容、结构、词汇和连贯相关的4个成份，但前3个成份能很好代表3位评分教师，这说明本次写作成绩能说明教师的评分情况，但难以解释写作能力的结构维度（试讨论可能的原因）。

方法二：回归分析(RegressionAnalysis)

回归模型（RegressionModel） y因变量（DependentVariable） x自变量（IndependentVariable） y x x1 x2 x6 y … y 和 x 均为观测值预测值（PredictedValue) 残差（Residual) 一元线性回归模型截距（Intercept)，常量斜率（Slope)，回归系数 y 。。。。。曲线性回归模型（指数曲线）。。 x 多元线性回归模型

回归分析的内容 2. 回归系数显著性 1. 回归方程显著性回归平方和残差平方和 Sig. 应小于.05 总方差是否显著大于1 Sig. 应小于.05 H0：x和 y 的线性关系不明显 H1：x和y 的线性关系明显

3. 残差分析 残差应不包含明显的规律性或趋势性，即残差序列服从正态分布，且不存在自相关。 DW(Durbin-Watson)检验自相关系数 P-P图：累积概率围绕对角线波动完全负相关负相关；不相关正相关完全正相关 Q-Q图：数据点在直线上下随机散布（探测离群值或异常）残差服从均值为0，方差为的正态分布

回归分析例析 专家根据可能的猜测因素对选项的可猜性进行了评判，结果如下表所示。试分析导致选项可猜的主要因素和次要因素。（选项可猜）（选项不可猜） GPrb：可猜性 ACmm：常识性 ADet：限定 AClu：前后题线索 AStm：与题干的关系 AInc：包含关系 AOpp：对立关系 ASmn：语义凸显 AFrm：形式凸显 AElm：排除法 y Distractor Key x 1 2 3 －3 －2 －1 -3 肯定错；-2很可能错；-1 可能错 0 不可猜 1 可能对 2 很可能对 3 肯定对

SPSS操作 R方（R2），又称复相关系数或判决系数，反映回归模型解释总方差的比例。共线性：各变量应相互独立，否则应先进行因子分析，再用因子代替原始变量。个案的观测值及其与期望值的差残差分布正态性 Q-Q图(Quantile-QuantilePlot，分位数)： Y：标准化残差；X：标准化预测值 P-P图(Probability-Probability Plot)

回归方程显著性 所有模型都能拟合随着解释变量的增多，回归平方和越来越大、残差平方和越来越小逐步方法各步骤纳入的变量

相关性 相关矩阵五个变量显著相关，说明导致选项可猜的主要因素为此五种

模型汇总 回归模型能够解释总方差的比例。一般应不低于80％。 R方更改量越大，预测性越强。一般应大于10％。残差自相关检验结果。DW应约为2。

回归系数显著性 Sig.应小于.05 容差：Tolerance 表示未被其他变量解释的量。值最小，说明可被其他变量解释的量越多，共线性问题越严重。 VIF：VarianceInflationFactor （膨胀因子），为容差的倒数。一般应小于2，意味容差大于50％。

残差分析 分布高度集中在均值周围且标准差非常小 1个正离群值 2个负离群值 2个负离群值 1个正离群值

方法三：结构方程模型 (StructuralEquationModeling,SEM)

结构方程模型基础（Greekletters）

测量模型与结构模型 /fai/ 协方差 (Covariance) 因子分析模型验证性因子分析，ConfirmatoryFactorAnalysis－CFA 探索性因子分析，ExploratoryFactor Analysis-EFA (SPSS中) 潜变量 (latent) /ksai/ 负荷 (loading) 观测变量 (observed) 误差 (error) 误差 (error) 图1 测量模型图（MeasurementModel）直接效应 (Direct Effect) 间接效应 (Indirect Effect) • Direct effect(直接效应) is that influence of one variable on another that is unmediated by any other variables in a path model • Indirect effects(间接效应) of a variable are mediated by at least one intervening variable • Total effects(总效应) are the sum of direct and indirect effects • Total effects = Direct effect + Indirect effects 内生变量（果） (endogenous) 外源变量（因） (exogenous) 回归分析模型图2 结构模型图（PathModel）

全模型（FullModel） 验证性因子分析路径（回归）分析图3 全模型图

样本规模大小(Sample size) • 数据服从正态分布、无缺失值和异常值（Bentler&Chou，1987）时，样本比例最小为估计参数的5倍，10倍更合适，否则，样本比例应为估计参数的15倍。 • 用极大似然法（Maximumlikelihood）估计时，Loehlin（1992）建议样本数至少为100，200较为适当。当样本数400－500时，此法会变得过于敏感，而使得模型不适合。

模型拟合优度评价

模型建构（AMOS软件） 3. 选择，打开数据表文件，并浏览数据。 1. 选择，快速绘制潜变量及其观测变量。 2. 选择，把观测变量旋转到适当位置。 5. 运用插件（Plugins）自动为潜变量和参数（负荷及误差）命名，添加协方差（双箭头），或调整观测变量的大小。 4. 选择图标，将数据表字段拖至为各观测变量，建立变量与字段的关联。

输出设置 输出效应值输出标准化估计值（不同单位数据可比）输出修正指数（MI）（提示如何修正模型）输出临界比（CR）（逐步比较参数的差异临界比）

模型修正例析 H0:数据完全拟合模型最小样本差异卡方检验的P值应>0.05；CMIN/DF应小于2. 一次修改一个，且MI为最大值 RMSEA应<.05；PCLOSE应>0.05. H0:RMSEA无异于.05

模型修正例析 最小样本差异卡方检验的P值应>0.05；CMIN/DF应小于2. GFI和AGFI分别由.975和.913提高到.998和.990. RMSEA应<.05；PCLOSE应>0.05.

输出结果解读（结构方程模型经典案例——惠顿的社会疏离感［SocialAlienation］历时研究）输出结果解读（结构方程模型经典案例——惠顿的社会疏离感［SocialAlienation］历时研究）标题例6，模型A：通过中间变量 SES (Socio-Economic Status)，探索分析社会疏离感的稳定性。相关系数、标准差和均值来自Wheaton et all (1977)。观测变量 67年和71年的难以名状感(anomia)和无力感(powles) 为基于量表Anomia和Powerlessness的观测值；教育(education)和SEI分别为67年时的受教育年限和邓肯社会经济指数值。模型识别各误差项到观测变量的方差固定为1，各潜变量到观测变量的路径中，一条路径的方差固定为1，其余自由估计。

Notes for group (Group number 1) The model is recursive.（递归模型） Sample size = 932（样本量） Unobserved, exogenous variables eps1 eps2 eps3 eps4 ses delta1 zeta1 zeta2 delta2 Variables Summary (Group number 1) Your model contains the following variables (Group number 1) Observed, endogenous variables anomia67 powles67 anomia71 powles71 educatio SEI Unobserved, endogenous variables 71_alienation 67_alienation 由箭头引导的变量（外源/外生）有箭头指向的变量（内生变量） Variable Counts (Group number 1) Number of variables in your model: 17 Number of observed variables: 6 Number of unobserved variables: 11 Number of exogenous variables: 9 Number of endogenous variables: 8

Parameter summary (Group number 1) 样本矩：6个观测变量的方差及其协方差（6中取2的组合数＝15）。 Computation of degrees of freedom (Default model) Number of distinct sample moments:21 Number of distinct parameters to be estimated:15 Degrees of freedom (21 - 15):6 ChiSquareGoodness/BadnessofFit （卡方拟合优度/劣度）卡方值越小，拟合越好。 H0：观察（实际）协方差矩阵与模型（期望）协方差矩阵相等（没有差异） Result (Default model) Minimum was achieved Chi-square = 71.544 Degrees of freedom = 6 Probability level = .000

Regression Weights: (Group number 1 - Default model) C.R.(CriticalRatio,临界比)= Estimate/S.E.(StandardError, 标准误，即标准差的平均值) H0：回归系数为0 H1：回归系数不为0 若回归系数不具统计意义，则应删除相应路径。 Variances: (Group number 1 - Default model) H0：方差为0 拒绝H0 ***:P小于.001(小数点后4位)

Modification Indices (Group number 1 - Default model) Covariances: (Group number 1 - Default model) 模型修正可以减少卡方值一次修改一个； M.I.为最大值；理论上应有合理解释（本例中，67年和71年的难以名状感应具有相关性，增加两观测变量误差的协方差具有合理性） Variances: (Group number 1 - Default model) Regression Weights: (Group number 1 - Default model) 若两个方差或回归系数的估计值差异不显著，可取同样的名称，以减少估计参数的数目，简化模型。

Hoelter’sCriticalN: (Group number 1 - Default model) 在.05 和 .01 显著性水平上可以接受的最大样本量。本例的样本量为932，远超过临界样本量，导致模型被拒绝。

TEM8实例分析 二阶三因子模型能最好解释TEM8人文知识题所测试的目标构念。除此以外，还应报告哪些数据？一阶三因子一阶单因子 (First-Order) 二阶三因子 (Second-Order)

第四章 测试效度及其 验证方法（一）