全国商务英语考试的信效度、难度及趋势研究

全国商务英语考试的信效度、难度及趋势研究 江进林对外经济贸易大学 jinlinj@gmail.com

Outline • 研究对象 • 研究目的 • 研究问题 • 研究方法 • 研究结果与讨论 • 结论

I. 研究对象 • 全国国际商务英语考试（二级） • 商务部中国国际贸易学会与对外经济贸易大学联合开发的商务英语应用能力测试，主要考查考生在国际商务环境中应用英语的能力，考试对象为有意从事国际商务工作的高等院校学生、国际商务从业人员以及其他社会人员。 • 包括听、说、读、写、译五个模块，涵盖语言和商务知识两方面的内容，其中商务知识包括国际贸易、国际金融、国际市场营销、跨国公司管理、国际商法等6类，涉及国际商务中的主要业务，如国际贸易的基本概念、合同磋商的基本环节等（王立非等，2009）

II. 研究目的 • 以2009、2010年的考试数据为依据，对该考试的信度、效度及各题项的难度进行统计分析，并对两年的考试成绩进行比较，以检验其有效性、科学性和稳定性，提出改进意见。

III. 研究问题 • 商务英语二级考试的信度和效度如何？ • 考试各题项的难度如何？ • 两年考试成绩的走势如何？

IV. 研究方法 信度：测量结果一致、稳定，本研究采用分半信度与Cronbach’s Alpha来检验考题的内部一致性。效度：理论论据和经验证据对测试分数的解释、使用，以及建立在测试分数上的种种推断及行为决策的充分性和合理性的支持程度（AERE, 1999; Messick, 1989: 13）。本研究采用题项与总分的相关度来考察题项是否有效地测量了所要考的内容。

IV. 研究方法（cont’d） 难度指题项能测量的量的多少，如果题项的难度太低，得分会聚集在高分端，出现天花板效应；如果难度太高，得分会集中在低分端，出现地板效应。本研究采用项目反应理论（IRT）中的多面Rasch模型考察各题项的难度。模型的基本思想：测试结果并不仅仅反映考生能力，而是考生能力、考生类型、评分员严厉度、试题难度等多种因素（即多个面）共同作用的结果。该模型可以排除这些因素的影响，将考试中各个面的真实测量值分离出来，用同一个logit尺度进行估算（Linacre, 2011；江进林、文秋芳，2010；张新玲、曾用强、张洁，2010；刘建达，2005）。

V. 研究结果与讨论 5.1 基本情况统计 5.2 测试信度分析 5.3 测试效度分析 5.4 测试难度分析 5.5 两年成绩比较

基本情况统计

基本情况统计（cont’d） • 听力、阅读、翻译、写作与口语模块的最低分基本上为0，最高分都接近满分。除了口语外，其他部分的平均分仅略高于满分分值的一半，成绩偏低。口语模块的标准差最大，可能是因为口语的分值最大（50分），导致考生成绩的差异较大。

基本情况统计（cont’d） • 独立样本t检验：两年考试中本、专科院校各模块的成绩及总成绩均具有显著差异，符合本科院校成绩好于专科院校的整体情况。 • 2009年本、专科院校总平均成绩的差异高达9.15分，阅读和听力模块的平均分差异最大，分别达到2.51和2.38分；口语平均分的差异最小，为0.94分。2010年本、专科院校总平均成绩的差异达到8.91，阅读和听力模块的平均分差异仍然最高，分别达到3.13和2.97分；写作的平均分差异最小，为0.56分。

测试信度分析 • 考试分为口试和笔试，口试为若干套平行试题，笔试包括A、B两份平行试卷，其主观题完全相同，客观题部分仅4个选项的顺序不同，可视为一份试卷。由于每名考生只考一次，适合采用分半信度和Cronbach’s Alpha来考察试卷信度。

测试信度分析—分半系数 • 计算分半信度时，采用按模块分半和按奇偶分半结合的方法，将听力、阅读、翻译、写作、口语模块内的题项都按奇偶数分为两半。需要注意的是，写作只有1道题，口语部分也只有4道题的总分，无法一分为二，因此笔者将写作和口语分别划入第一和第二部分。不过，这种做法会在一定程度上降低信度系数。统计结果表明，2009年考试的Guttman分半信度系数为0.771，2010年为0.732，表明试卷具有良好的信度。

测试信度分析（cont’d） — 整体试卷的Cronbach’s Alpha • 2009、2010年整体考试的Alpha系数分别为0.711、0.689，表明两次考试的内部一致性都较好。 • 2009年第11、20、46、50题的得分与总分经校正后的相关系数低于0.1，第46、50题的得分与总分的相关系数仅为0.030和0.009。删除这两个题项后，试卷的Alpha系数与未删除时（0.711）相比并未显著提高，因而这两个题项可能需要修改。 • 2010年第30、32、34题的得分与总分经校正后的相关系数呈负向，这是考试中不应出现的情况；第21、26、27、39、40、45题的得分与总分经校正后的相关系数低于0.1，表明这6道题与考试所测内容的关系不紧密。删除这9个题项后，考试的一致性保持不变甚至略有提高，因而这些题项可以修改或删除。 • 两年考试中，口语部分的得分（t64-67）与考试总分经校正后的相关系数分别达到0.377与0.327，但删除该部分后，试卷的Alpha系数均明显高于未删除时，这可能因为口试为人工评分，信度较低，从而影响到考试的内部一致性。

测试信度分析（cont’d） — 分模块的Cronbach’s Alpha

测试效度分析 • 题项得分与总分的相关系数 • 题总相关不满足测试要求的题项：

测试难度分析 • 将考生、考生院校、考生性别和题项设为四个面，采用John M. Linacre设计的软件FACETS来实施多面Rasch模型 • 考生院校分为本专科两种，项目有64个（口语总分为1个项目），第1-60个为客观题，采用二分选择模型（dichotomous model）进行分析，第61-64个为主观题，采用多元选择模型（polytomous model）进行分析，并且根据项目的分值使用10、20、50分制模型。

测试难度分析（cont’d） • 2009年logit尺度图： • 考生能力值约在-3.17和+2之间。除了少数处于-3.17水平的低能力考生外，其他考生的能力分布比较均匀。 • 题项难度：除了第13题外，其他题项分布比较集中。按惯例，占难度跨度前20%的题项不应超过所有题项的三分之一。题项的整体难度可能需要下调。在选拔性考试中，可将第13题的难度上调，缩小所有题项的难度跨距。

测试难度分析（cont’d） • 2010年logit尺度图： • 考生的能力值约在-1.25和+1.875之间，分布比较均匀。 • 题项难度约在-2.75和+2.25之间，没有出现难度很大或很小的题项。题项难度跨距的前20%约在+1.25和+2.25之间，该范围内约有9个题项，少于题项总数的三分之一（约13个），因此题项的整体难度合适。

测试难度分析（cont’d） • 两次考试中的题项难度都存在显著差异，符合测试要求。 • 2009年所有题项的平均难度为0，标准差为1.16；题项难度的分隔指数为23.33，分隔指数信度达到1，卡方检验的显著性为0.00。2010年题项的平均难度为0，标准差为1.11；题项难度的分隔指数为24.58，分隔指数信度达到1，卡方检验的显著性为0.00。

测试难度分析（cont’d） • 拟合数据Infit MnSq与Outfit MnSq，反映项目对考生的区分情况，一般应在0.5-1.5的范围内（Linacre, 2002）。 • 两年考试试题的拟合数据基本上在0.5-1.5之间，都能合理区分考生。只有口语总分（t64-67）的拟合统计量略大于1.5，表明该题的主观评分不稳定，出现了很多极高与极低分数，或者该题存在项目功能差异（Differential Item Functioning），有利于某个群体的考生，应由专家进一步判断和调整难度。

两年成绩比较

两年成绩比较（cont’d） • 2010年考试的总平均成绩比2009年高，相差6.05分。 • 在各模块中，差异最大的是写作，2010年写作的平均成绩比2009年高3.36分； • 其次是翻译部分，2010年比2009年高1.24分，其中英译汉和汉译英分别比2009年高0.52和0.72分； • 2010年口语模块的平均成绩比2009年高1.05分。 • 两年的阅读成绩基本持平，2010年比2009年略高。 • 2010年的听力成绩比2009年略低，相差0.12分。

两年成绩比较（cont’d） • 本科院校： • 2010年总平均成绩与各模块的成绩都高于2009年，总成绩高出5.63分，写作部分的平均成绩差异最大，高出2.78分，口语部分其次，高出1.19分。听力部分差异最小，高出0.37分。

两年成绩比较（cont’d） • 专科院校： • 2010年总平均成绩比2009年高5.87分，写作部分的平均成绩差异高达3.84分，翻译部分相差1.61分，口语和阅读成绩也高于2009年，仅听力部分的平均成绩比2009年低，相差0.22分。

两年成绩比较-小结 • 2010年的考试成绩与2009年相比稳中有升，其中进步最大的是写作，平均分提高了3分多，其次是翻译和口语，均提高了1分左右。阅读和听力提升幅度不大。 • 本科院校2010年的总成绩与听说读写译五项技能的成绩均高于2009年，尤其是写作和翻译。 • 专科院校2010年的总成绩和各模块的成绩也基本上高于2009年，写作和翻译部分提高的幅度甚至超过本科院校，不过阅读部分的提升非常有限，并且听力与2009年相比稍有退步。

结论 • 两年考试的总平均成绩分别为90.08和96.13分，听力、阅读、翻译与写作的平均成绩约为各自总分分值的一半，本科院校的总成绩与各模块的成绩都显著高于专科院校。 • 分半信度、Alpha系数及题总相关数据显示，整体考试与各模块都具有良好的信度和效度。 • 考试题项的难度分布均匀，且具有较好的区分度，符合出题要求。 • 少数笔试试题与考试所测的内容联系不紧密，需要修改或删除。口试部分也影响到考试信度，需要加强评分员培训，确保始终采用统一的评分标准。 • 2010年的成绩与2009年相比稳中有升，其中进步最大的是写作和翻译，阅读和听力部分提升不大，需要进一步加强。针对以上研究结果，今后应该在出题环节注意题项的针对性和难易度，改进口试的评分信度，以便进一步提高考试的信效度。

谢谢！

全国商务英语考试的信效度、难度及趋势研究

全国商务英语考试的信效度、难度及趋势研究

Presentation Transcript