660 likes | 1.11k Views
项目反应理论简介. 华东师范大学心理系 文 剑 冰. 经典测量理论( CTT ). 经典测量理论的假设 X = T + E 经典测量理论的信度 经典测量理论的效度 经典测量理论的试题参数 经典测量理论的测验编制. 经典测量理论的假设. 观察分数=真分数+误差分数 X = T + E 观察分数与误差分数之间互相独立 误差分数的平均数为 0 多次测量的误差分数之间相关为 0. 经典测量理论的信度. 信度的概念 “真实分数方差在观测分数方差中所占的比率” 信度系数的估计方法 重测信度(稳定性系数) 复本信度(等值性系数) 内部一致性信度
E N D
项目反应理论简介 华东师范大学心理系 文 剑 冰
经典测量理论(CTT) • 经典测量理论的假设 X=T+E • 经典测量理论的信度 • 经典测量理论的效度 • 经典测量理论的试题参数 • 经典测量理论的测验编制
经典测量理论的假设 • 观察分数=真分数+误差分数 X=T+E • 观察分数与误差分数之间互相独立 • 误差分数的平均数为0 • 多次测量的误差分数之间相关为0
经典测量理论的信度 • 信度的概念 “真实分数方差在观测分数方差中所占的比率” • 信度系数的估计方法 • 重测信度(稳定性系数) • 复本信度(等值性系数) • 内部一致性信度 • 评分者信度 • 信度系数的应用
经典测量理论的试题参数 • 难度指标(通过率或得分率P值) • 区分度指标(鉴别力指数D或相关系数r) D= PH-PL
经典测量理论的测验编制 • 假设被试的特质是正态分布,从而测验总分的分布也是正态 • 测验分数尽可能区分被试,因此测验总分的变异程度越大越好 • 测验中试题的难度中等为好,区分度越大越好
经典测量理论的缺陷 • 参数依赖于样本 • 能力量表与难度量表不统一 • 对于所有被试的测量误差相等 • 无法反应潜在特质与被试作答之间的关系 • 在测验编制问题上的困惑
准备知识 • 标准分数 • Z>0,高于平均,Z<0,低于平均 • P(-1.96<Z<1.96)=0.950 • P(-3<Z<3)=0.997
项目反应理论(IRT) 项目反应理论 (Item Response Theory) 三个理论假设 • 单维性假设 • 局部独立性假设 • 项目反应模型(项目特征函数)
项目反应模型 单参数模型(Rasch模型) 双参数模型 三参数模型
项目反应模型的参数 • 单参数模型 双参数模型 三参数模型
极低能力被试答对的概率为0 c=0 参数的含义(c)
低能力被试 可能答对的 可能性不为0 C=0.2 参数的含义(c)
项目反应模型参数的估计 • 反应模式(110)的概率: • L=P1P2Q3 • 极大似然估计和贝叶斯估计(联合后验分布的众数)
能力参数的估计方法 • 极大似然法(ML) • 使已知反应模式的似然函数值达到最大 • MAP(Maximum a Posteriori) • 使后验概率函数值达到最大 • EAP(Expected a Posteriori) • 后验概率函数值的平均数
估计项目参数的方法 • 联合极大似然估计法(JMLE) • 边际极大似然估计法(MMLE) • 条件极大似然估计法(CMLE) • 联合估计时标尺的建立(通常设能力均数为0) • P(0.5;1.0,-0.8,0.2)=P(2;1.0,0.7,0.2) =P(2;2.0,1.35,0.2)
参数估计时标尺的建立 P(0.5;1.0,-0.8,0.2)=P(2;1.0,0.7,0.2) =P(2;2.0,-0.15,0.2) • 通常将被试能力平均值设定为0
信息函数 • 试题信息函数 • 测验信息函数(试题信息函数之和)
信息函数的性质 • 同一试题信息函数随着所测被试能力的不同而不同;同时试题信息函数受试题自身特征的影响。 • a,b相同的试题,c值大的信息量小。 • a值大的试题,只是在较窄的区间内提供的信息量多,a值小的试题,对能力的估计提供帮助不大,但是广泛地分布在较宽区间 • 试题提供信息量最大的位置,是在接近试题难度(比难度稍大)之处
模型-资料的拟合度检验 • 卡方检验 • 将被试按能力分组,
项目反应理论的特点与优点 • 非线性、非确定性的模型 • 参数独立于所使用的样本 • 试题难度与被试能力的统一 • 对于不同能力的被试测量误差也不同 • 提出测验编制的指导原则
IRT的其他模型 • 单维多等级模型 等级反应模型(GRM) 分部评分模型(PCM) • 多维模型 能力有不同的维度,试题的区分度(/难度),在相应的维度上的取值不同
项目反应理论的应用 • 测验编制 • 计算机化自适应测验 • 测验等值 • 测验偏差
测验偏差 • 测验偏差(Bias)或项目功能差异(Differential Item Functioning,DIF ) • 来自不同族群的能力相同被试,在试题上答对的概率不同,则说存在项目功能差异
项目偏差与项目功 能差异 • 项目偏差(item bias) :如果来自不同团体的具有相同能力的个体对某题正确回答的概率不同,那么这道题就存在偏差。但是“偏差”一词常用于社会学中,且带有判断和评价含义,把“偏差”这词语应用于统计学中不适合。 • 项目功能差异(Differential Item Functioning)指的是在控制团体能力之后,一个项目在不同团体中显示的不同统计特性。 • 项目影响(item impact)是指目标组与参照组在某题上的差异真的是由于两者在测验所测的能力上有差异。
项目反应理论的常用软件 • BILOG • 二级记分,单参,双参,三参模型 • MULTILOG • 多级记分,GRM, • PARSCALE • 多级记分,GRM,PCM,GPCM
数据的准备 • 数据文件是ASCII码的文本文件 • 至少包含ID和答题情况
Title line BILOG 程序文件 (*.BLM) IRT calibration of chinese and maths score. >COMMENT >GLOBAL DFN=‘C:\YAN2.DAT', NIDW=5, NPARM=2, SAVE; >SAVE SCO = ‘YAN2.SCO', PARM = ‘YAN2.PAR', TST = ‘YAN2.TST‘,IST=‘YAN2.IST’; >LENGTH NITEMS=(80); >INPUT NTOT=80,NALT=4, KFN=‘KEY.TXT’,OFN=‘OMIT.TXT’; (5A1,80A1) >CALIB NQPT=40, CYC=100, NEW=30, CRIT=.001, PLOT=0; >SCORE MET=2, IDIST=0, RSC=0, INF=1;
数据文件名 模型参数个数 保存外部文件 个人ID位数 BILOG 程序文件 (*.BLM) IRT calibration of chinese and maths score. >COMMENT >GLOBAL DFN=‘C:\YAN2.DAT', NIDW=5, NPARM=2, SAVE; >SAVE SCO = ‘YAN2.SCO', PARM = ‘YAN2.PAR', TST = ‘YAN2.TST‘,IST=‘YAN2.IST’; >LENGTH NITEMS=(80); >INPUT NTOT=80,NALT=4, KFN=‘KEY.TXT’,OFN=‘OMIT.TXT’; (5A1,80A1) >CALIB NQPT=40, CYC=100, NEW=30, CRIT=.001, PLOT=0; >SCORE MET=2, IDIST=0, RSC=0, INF=1;
保存试题参数,被试参数,CTT结果,测验信息函数保存试题参数,被试参数,CTT结果,测验信息函数 BILOG 程序文件 (*.BLM) IRT calibration of chinese and maths score. >COMMENT >GLOBAL DFN=‘C:\YAN2.DAT', NIDW=5, NPARM=2, SAVE; >SAVE SCO = ‘YAN2.SCO', PARM = ‘YAN2.PAR', TST = ‘YAN2.TST‘,IST=‘YAN2.IST’; >LENGTH NITEMS=(80); >INPUT NTOT=80,NALT=4, KFN=‘KEY.TXT’,OFN=‘OMIT.TXT’; (5A1,80A1) >CALIB NQPT=40, CYC=100, NEW=30, CRIT=.001, PLOT=0; >SCORE MET=2, IDIST=0, RSC=0, INF=1;
(分)测验题数 BILOG 程序文件 (*.BLM) IRT calibration of chinese and maths score. >COMMENT >GLOBAL DFN=‘C:\YAN2.DAT', NIDW=5, NPARM=2, SAVE; >SAVE SCO = ‘YAN2.SCO', PARM = ‘YAN2.PAR', TST = ‘YAN2.TST‘,IST=‘YAN2.IST’; >LENGTH NITEMS=(80); >INPUT NTOT=80,NALT=4, KFN=‘KEY.TXT’,OFN=‘OMIT.TXT’; (5A1,80A1) >CALIB NQPT=40, CYC=100, NEW=30, CRIT=.001, PLOT=0; >SCORE MET=2, IDIST=0, RSC=0, INF=1;
标准答案文件名 omit文件名 总题数 选项个数 BILOG 程序文件 (*.BLM) IRT calibration of chinese and maths score. >COMMENT >GLOBAL DFN=‘C:\YAN2.DAT', NIDW=5, NPARM=2, SAVE; >SAVE SCO = ‘YAN2.SCO', PARM = ‘YAN2.PAR', TST = ‘YAN2.TST‘,IST=‘YAN2.IST’; >LENGTH NITEMS=(80); >INPUT NTOT=80,NALT=4, KFN=‘KEY.TXT’,OFN=‘OMIT.TXT’; (5A1,80A1) >CALIB NQPT=40, CYC=100, NEW=30, CRIT=.001, PLOT=0; >SCORE MET=2, IDIST=0, RSC=0, INF=1;
FORTRAN 语言 读数据的格式A,X,T,I,/ BILOG 程序文件 (*.BLM) IRT calibration of chinese and maths score. >COMMENT >GLOBAL DFN=‘C:\YAN2.DAT', NIDW=5, NPARM=2, SAVE; >SAVE SCO = ‘YAN2.SCO', PARM = ‘YAN2.PAR', TST = ‘YAN2.TST‘,IST=‘YAN2.IST’; >LENGTH NITEMS=(80); >INPUT NTOT=80,NALT=4, KFN=‘KEY.TXT’,OFN=‘OMIT.TXT’; (5A1,80A1) >CALIB NQPT=40, CYC=100, NEW=30, CRIT=.001, PLOT=0; >SCORE MET=2, IDIST=0, RSC=0, INF=1;
BILOG 程序文件 (*.BLM) IRT calibration of chinese and maths score. >COMMENT >GLOBAL DFN=‘C:\YAN2.DAT', NIDW=5, NPARM=2, SAVE; >SAVE SCO = ‘YAN2.SCO', PARM = ‘YAN2.PAR', TST = ‘YAN2.TST‘,IST=‘YAN2.IST’; >LENGTH NITEMS=(80); >INPUT NTOT=80,NALT=4, KFN=‘KEY.TXT’,OFN=‘OMIT.TXT’; (5A1,80A1) >CALIB NQPT=40, CYC=100, NEW=30, CRIT=.001, PLOT=0; >SCORE MET=2, IDIST=0, RSC=0, INF=1; 试题参数估计时的设定 画出拟合度差(p<=指定数值)的试题
BILOG 程序文件 (*.BLM) IRT calibration of chinese and maths score. >COMMENT >GLOBAL DFN=‘C:\YAN2.DAT', NIDW=5, NPARM=2, SAVE; >SAVE SCO = ‘YAN2.SCO', PARM = ‘YAN2.PAR', TST = ‘YAN2.TST‘,IST=‘YAN2.IST’; >LENGTH NITEMS=(80); >INPUT NTOT=80,NALT=4, KFN=‘KEY.TXT’,OFN=‘OMIT.TXT’; (5A1,80A1) >CALIB NQPT=40, CYC=100, NEW=30, CRIT=.001, PLOT=0; >SCORE MET=2, IDIST=0, RSC=0, INF=1; 被试能力估计时的设定 测验信息曲线 0-不做重新标刻(缺省) 1-按scale和location线性变换 3-按样本的L和S重新标刻 3-EAP时潜变量以L为均数S为标准差 1-ML 2-EAP(缺省) 3-MAP
BILOG 结果文件 (*.PH1) CTT的试题参数 ITEM STATISTICS FOR SUBTEST TEST0001 ITEM*TEST CORRELATION ITEM NAME #TRIED #RIGHT PCT LOGIT PEARSON BISERIAL ------------------------------------------------------------------------- 1 ITEM0001 480.0 395.0 82.3 -1.54 0.318 0.468 2 ITEM0002 480.0 357.0 74.4 -1.07 0.306 0.415 3 ITEM0003 480.0 444.0 92.5 -2.51 0.252 0.469 4 ITEM0004 480.0 321.0 66.9 -0.70 0.468 0.608 5 ITEM0005 480.0 292.0 60.8 -0.44 0.119 0.151 6 ITEM0006 480.0 265.0 55.2 -0.21 0.162 0.204 7 ITEM0007 480.0 315.0 65.6 -0.65 0.288 0.372 8 ITEM0008 480.0 247.0 51.5 -0.06 0.391 0.490 9 ITEM0009 480.0 178.0 37.1 0.53 0.128 0.163 10 ITEM0010 480.0 253.0 52.7 -0.11 0.406 0.509 Ln[(1-p)/p]