1 / 43

2009 年全国高等师范院校第五届生物学课程与教学论学术论坛 生物学试题和试卷的定量分析 宋锡全 贵州师范大学生命科学学院 2009 年 9 月于成都

2009 年全国高等师范院校第五届生物学课程与教学论学术论坛 生物学试题和试卷的定量分析 宋锡全 贵州师范大学生命科学学院 2009 年 9 月于成都. 1 问题提出. 2 研究目的. 7 不同专家、学者公开发表的相关数据. 3 信度分析. 4 效度分析. 6 区分度分析. 5 难度分析. 一、问题提出.

tammy
Download Presentation

2009 年全国高等师范院校第五届生物学课程与教学论学术论坛 生物学试题和试卷的定量分析 宋锡全 贵州师范大学生命科学学院 2009 年 9 月于成都

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 2009年全国高等师范院校第五届生物学课程与教学论学术论坛生物学试题和试卷的定量分析宋锡全贵州师范大学生命科学学院2009年9月于成都2009年全国高等师范院校第五届生物学课程与教学论学术论坛生物学试题和试卷的定量分析宋锡全贵州师范大学生命科学学院2009年9月于成都

  2. 1 问题提出 2 研究目的 7 不同专家、学者公开发表的相关数据 3 信度分析 4 效度分析 6 区分度分析 5 难度分析

  3. 一、问题提出 定性分析是日常教学工作中绝大多数工作者采用的主要形式,如学生测验质量分析包括集体质量(含平均分、标准差等)和个体质量(标准分、百分数等)。而定量分析是平时教学工作中很少被采用的。但是,试题和试卷的定量分析是最客观和合理的。我们将重点介绍定量分析主要体现在考题的信度、效度、难度和区分度上。

  4. 二、研究目的 试卷质量统计分析与评价是考试管理中一项重要工作,也是我们评价考试质量的最重要、最有效的方法。它能够为改进考试设计工作,使之更符合考生实际提供重要信息;也能够为改进命题工作提供大量信息,提高试题和试卷的编制质量;也是完善题库,提高题库试题质量的重要途径。

  5. 三、信度分析 1、考试误差 • 考试误差主要来源于三个方面,其一为试题试卷质量;其二考生水平考试时的应试状态,也即考生的临场发挥;其三为考试的实施办法及过程控制。 • 根据误差产生因素的不同,考试误差一般分为两类。一类是由在考试过程不可预期的偶然因素导致的,称为随机误差;(实施和评分)一类是在考试过程中一旦出现便始终存在的恒定因素导致的,称作系统误差。(命题) • 在考试中,我们把因偶然因素所引起的随机误差的控制程度叫做考试信度,把系统误差和随机误差的综合控制程度叫做考试效度。

  6. 2、信度概念 信度是反映考试可靠性的指标,考试的信度是指考试分数的可靠程度。如果我们将考试成绩看成由真分数(包含系统误差)和随机误差分数构成,信度即为真分数的方差与考生观察分数方差之比。简单的说,就是重复参加同一次考试成绩的一致性。信度是考试公平性的重要体现。对考生提供相同难度的试题,对社会提供同一标准的评价。

  7. 3、信度系数的计算 信度系数的计算有多种方法,各种方法所适用的信度类型不同,因此,在计算信度系数时,必须认真考虑实际所求信度的类型,然后选择恰当的计算信度系数公式[1]。 3.1 再测信度 同一测验前后两次施测于同一组被试,根据受试者前后两次测验分数计算所得相关分数为再测信度。

  8. 3.2 复本信度 复本信度法是让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。复本信度属于等值系数。复本信度法可以用在试卷命题上,即根据相同的命题双向细目表,制作两份在内容、难度和题型上尽可能类似的试卷,然后分别用这两份试卷来测验同一群学生(可连续或相隔一段时间实施),每位学生各得两个分数,再求出两组分数之间的相关系数,即为信度系数。这两份试卷互称为复本,得出的信度也叫复本信度。

  9. 3.3 分半信度 将试卷中的题目按单、双题号分为两半,然后用斯皮尔曼-布郎校对公式(spe-arman-brown formula)公式计算其信度。该方法的优点是不需用两套试卷去考两次。公式为:Rtt=2Rhh/(1+Rhh)。其中,Rtt为分半信度系数;Rhh为两半分数的相关系数。分半信度又称内部一致性系数,它不适用于速度测验,这一点需要注意。

  10. 3.4 库李法(Kuder-Richardson method) 库李二氏于1937年提出一些评估信度的公式,其中比较常用的有两个公式,称为KR20和KR21。其计算公式如下: KR20 =K/K-1[1-∑pq/s2] KR21 = K/K-1[1-M(K-M/K s2)] 其中,K:试题数,p:答对某一试题的学生所占的比例,q:答错某一试题的学生所占的比例(q=1-p),s:分数之标准差,M:分数之平均数。

  11. 当评价工具的难度大体上均在50%左右时,用KR21来计算信度比较简便,不过当试题之难度不一,且变化很大时,使用KR21往往会低估信度。库李法与等分法就内容上来说,都在估算评价工具的内部一致性[刘恩山,2003]。当评价工具的难度大体上均在50%左右时,用KR21来计算信度比较简便,不过当试题之难度不一,且变化很大时,使用KR21往往会低估信度。库李法与等分法就内容上来说,都在估算评价工具的内部一致性[刘恩山,2003]。

  12. 3.5 评分者信度 是指不同评分者的评判结果的可靠性,即不同的评分者所评分数是否一致评分者信度,一般测验应有较高的评分者信度。如果评分是客观的并有统一的规定,这点能够得到保证,一般不用考察评分者信度。

  13. 4、信度值 信度多少通常以α系数表示,若α系数低于0.35属于低信度,应该拒绝使用;介于0.50~0.70属于尚可接受,高于0.70以上属于高信度。通常教学评量所参考的α系数应不低于0.80才是。信度的最大值为1,最低为0,大规模的考试要求信度在0.9以上。国外一般知识性测验要求在0.95以上,常达到0.95。

  14. 5、影响信度的因素 (1)试卷的长度(题量); (2)题型的选择(即使用的题型); (3)命题的规范化; (4)考试设计:即答题时间是否充分,是 否提供考试指导,是否具备举办考试的条件(空间场地、温度条件、灯光噪音、运动等) ; (5)评分方法(例如提供指导,评分者检查系统)。

  15. 6、提高信度措施 (1)年与年之间考试内容覆盖面要广且一致; (2)用同等的作业任务评价考生; (3) 试题或项目必须具备评分的一致性; (4)年与年之间试题的难度水平保持一致; (5)控制测验的质量; (6) 控制举办测验的条件; (7)控制评分的过程; (8)控制评等级的过程。

  16. 四、效度分析 1、效度概念 效度(Validity)即有效性,指考试对所要测量的知识、技能和能力测量的精确程度。 2、效度计算 为了检验考试的效度,必须找到一个能代表考试目标的外在标准,将侍评价的考试与这个标准相比较,由两者相一致的程度来推断考试的效度(有的考试不预先进行模拟测验,没有与现行考试目标相一致的考试,所以找不到代表考试目标的外在标准,可以用学生前几次测验的平均成绩为外在标准来计算相关系数)。计算效度采用积矩相关系数法[赵珂,2001 ]。

  17. 3、效度值 效度的大小是以效度系数来表示的,最高值为1,最低值为-1。1表示考试结果与考生的实际水平完全相符,-1表示考试结果与考生的实际水平完全相反,0则表示与所要测的完全无关。一般考试的效度应在0.4~0.7之间[陈继贞等,2003]。

  18. 4、效度类型 4.1 内容效度 指的是一个考试所测量的内容的代表性程度。内容效度的高低与我们通常说的“覆盖面”有关。在高考命题时,为了把握好内容效度常用制作双向细目表(能力层次与题型、章节内容)的办法进行控制。在高等教育和中专自学考试命题时,为把握好内容效度常用制作三向细目表(能力层次与题型、章节内容、题量)的办法进行控制。 系统的检验方法有:专家判断、再测、统计分析等方法。

  19. 4.2 构想效度 是指测验能够检验理论的抽象概念或特质的程度,可用验证性因素的分析方法加以考察。 4.3 实证效度 实证效度又称为效标关联效度,用测验分数与效度标准之间的相关系数表示。效度标准是根据经验选用的某一个标准测验。

  20. 4.4 预测效度 衡量考试有效性的一个重要方法是评价这项考试所做出的预测是否成立。例如用高考的成绩来预测入学后的考生学习情况,如果准确性高则说明高考的预测效度较好[项伯衡等,2001 ]。

  21. 5、提高考试效度措施 (1)控制系统误差——来自命题; (2)适当加大题量,扩大样本的容量和代表性; (3)适当增加题型的多样性,根据课程特点,确定主客观试题的合适比例; (4)编写双向细目表,保证测验体现考试大纲的要求; (5)精心命题——试题考核目标明确。

  22. 6、信度与效度的关系 从信度与效度的关系来看,测验的效度高,其信度也高;但信度高的测验,其效度并不一定高,测验结果具有一致性的测验,在信度上是高的,在效度上则不一定高。

  23. 五、难度分析 1、难度概念 指题目的难易程度,或说测验的难易程度,常以试题的通过率作为难度的指标。 2、计算方法 2.1客观性试题难度P(这时也称通过率)计算公式:P=k/N(k为答对该题的人数,N为参加测验的总人数) 2.2主观性试题难度P计算公式: P=X/M(X为试题平均得分;M为试题满分)

  24. 2.3 适用于主、客观试题的计算公式: P=(PH+PL)/2(PH、PL分别为试题针对高分组和低分组考生的难度值) 在大群体标准化中,此法较为方便。具体步骤为:①将考生的总分由高至低排列;②从最高分开始向下取全部试卷的27%作为高分组;③从最低分开始向上取全部试卷的27%作为低分组;④按上面的公式计算。

  25. 例1:一次生物测试中,在100名学生中,高低分组各有27人,其中高分组答对第一题有20人,低分组答对第一题的有5人,这道题的难度为:例1:一次生物测试中,在100名学生中,高低分组各有27人,其中高分组答对第一题有20人,低分组答对第一题的有5人,这道题的难度为: PH=20/27=0.74PL=5/27=0.19P=(0.74+0.19)/2=0.47

  26. 另外,也有学者认为难度应以失分率来表示,其公式:另外,也有学者认为难度应以失分率来表示,其公式: Q(失分率)=1-[R(平均分)/N(满分)] Q值越小,题目越容易;Q值越大,题目越难。 整个试卷的难度等于所有试题难度之平均值(包括主、客观试题)。

  27. 2.4 难度系数计算公式: 一套试题的难度系数最终要考完以后才能知道。具体算法是用参加考试的人平均分除以试题的总分,或者用参加考试的人的总得分除以所有试卷的总分也一样。

  28. 对一道题来说,也是这样,比如一道题是4分,共有100个人参加考试,其中30人做对了,得4分,50人半对,得2分,那么参考人共得30×4+50×2=220分,再除以总分400分,得到难度系数0.55。对一道题来说,也是这样,比如一道题是4分,共有100个人参加考试,其中30人做对了,得4分,50人半对,得2分,那么参考人共得30×4+50×2=220分,再除以总分400分,得到难度系数0.55。

  29. “难度系数”也可以理解成“容易度系数”。一道10分的试题如果难度系数为0.5,可以理解为这道10分的试题平均得分为5分。“参考样题”中,将每一道样题的难度系数都公布了,样题是过去几年的高考试题,难度系数是国家高考后测量的结果,十分准确,具有很高的可信度。

  30. 一般来说高考试卷易中难试题的比例为2:6:2或3:5:2,过去的《考试说明》一直是这样表述的,现在的表述是“以中等试题为主”,但数据上,没有什么变化,中低档试题占八成,750分占600分。那么什么是中低档试题呢?一般来说难度系数在0.4-0.7的试题为中等试题,低于0.4的为难题,高于0.7的为容易题。

  31. 3、难度值 难度值在0至1之间。P>0.8试题太易;P<0.2时,试题太难。一份试卷应该由不同难度按一定比例组成。一般地说,P>0.8 、P<0.2的试题各占10%;P=0.2~0.4,和P=0.6~0.8的试题各占20%;P>0.4、P<0.6的中等难度试题应占60%。整套试卷平均难度在0.4~0.6之间。

  32. 六、区分度分析 1、区分度概念 指测验对考生实际水平的区分程度或鉴赏能力。它是题目质量和测验质量的一个重要指标。 2、计算方法 2.1客观性试题区分度D的计算公式: D=PH-PL(PH、PL分别为试题高分组和低分组考生的难度值) 选27%的高分组(非正态分布取1/3左右的高分组),计算高分组某题通过的百分数PH,再计算低分组(低分部分的27%的被试,非正态分布取1/3左右)通过某题的百分比PL。PH、PL的计算方法同上。

  33. 2.2主观试题(非选择题)区分度D的计算公式:2.2主观试题(非选择题)区分度D的计算公式: D=(XH-XL)/N(H-L) (XH表示接受测验的高分段学生的总得分数,XL表示接受测验的低分段学生的总得分数,N表示接受测验的学生总数,H表示该题的最高得分,L表示该题的最低得分。)

  34. 一般被试样本人数应在370人左右,这样27%的高分组与低分组大约100左右。如果被试人数少,可取27%稍大些的比率,划分低分组与高分组。一般被试样本人数应在370人左右,这样27%的高分组与低分组大约100左右。如果被试人数少,可取27%稍大些的比率,划分低分组与高分组。 整个试卷的区分度,是所有试题区分度的平均值。

  35. 3、区分度值 一般区分度的取值范围是-1.00≤D≤+1.00,其值越大区分效果越佳。D>0.4时,区分效果好,说明该题目能起到很好的区分作用;D<0.2时,说明该题目的区分性很差,必须淘汰;0.3≤D≤0.39,区分效果良好;0.2≤D≤0.29区分效果尚好,需要修改。D值为负数时,说明试题或答案有问题。

  36. 4、区分度与难度的关系 难度与区分度的关系非常密切,一般来说,较难的试题对高水平的考生区分度高,较易的试题对水平低的考生区分度高。一般讲难度越大或越小,其区分度越差。难度值为0.5时,其区分度最好。要达到区分度最好,要求各难度题目的分布也应中间难度题目多,两头难度(较易或较难)的题目数少些,为正态分布最好。

  37. 七、不同专家、学者公开发表的相关数据

  38. 难度 信度 区分度 项伯衡等 P≥7 容易题 R=0.9以上 好 D>0.4 区分性较好 P0.4-0.7 中难题 D0.39-0.3 良好 D0.29-0.2 尚好,需修改 D0.2以下 淘汰 金娣等 P0.0-0.2 难题 未谈 D>0.25(英国) 良好 P0.3-0.7 中难题 未谈 D ≥ 0.3(美国) 良好 P0.8- 1.0 易题 未谈 D = 0.2-0.29尚可,需修改 D<0.2,区分性差,必须淘汰 D0.4以上 区分性好

  39. 难度 信度 区分度 刘恩山等 P=1 完美 未谈 D>0.4 极佳的试题 D0.39-0.3 尚可的试题,可能需要稍加改进 D0.29-0.2 不佳的试题,必须加以改进或废弃 D0.19以下 极差的试题,应废弃 陈继贞等 P0.3-0.7中等难题 未谈 D>0.4 非常好 P0.4-0.6 适宜 未谈 D0.39-0.3 良好,如能改进更好 P0.6- 0.8 易题 未谈 D = 0.2-0.29 尚好,用时需改进 D 0.19以下, 差,必须淘汰,改进

  40. 难度 信度 区分度 周美珍(本科教材) P178-179页 R最高为1 D=0.3-0.39 良好,如能改更好 最低为0 D=0.2-0.29 尚可,用时需改进 P0.3-0.7 R0.9以上(1985年上海0.96) D= 0.19以下,差,必须淘汰,改进 周美珍(研究生教材——生物教育学) P0.5 左右高考为宜 D=0.4-0.6 较好 P0.8 左右会考为宜 同上 宋锡全(生物学通报,1992第三期) D 0.3-0.7 或0.2-0.6计,区分性强,教好 P0.3-0.7 R最高为1 R最低为0 D=0.3以下, 区分性教差 P<0.3 难题 国外P0.95以上 D0.2-0.3以下,题难 D>0.7 太容易 D0.3-0.7,难易适度 P=0.5 最好 D0.3以下 区分性教差

  41. 主要参考文献: [1] 孟庆茂.教育科学研究方法[M].北京:中央广播电视大学出版社,2001:185~188 [2] 刘恩山. 中学生物学教学论[M].北京:高等教育教育出版社,2003:199~209 [3] 赵珂.试卷质量指标分析[J].新疆教育学院学报,200l,17(4):134~136 [4] 陈继贞,张祥沛,曹道平. 生物学教学论[M].北京:科学出版社,2003:234~243 [5] 项伯衡,郑春和.生物学教育测量与评价[M].南宁:广西教育出版社,2001:118~127 [6] 宋锡全,王素英.多项选择题的编写[J].生物学通报, 1992,27(3):40~46 [7] 任占营,杜其军等.《计算机操作系统》试题库系统的设计与实现[J].防灾科技学院学报,2007,9(2):92—94

  42. Thank You ! 敬请各位专家、研究生批评指正!

More Related