習熟度別クラス編成のための英語基礎力判定標準化テスト作成の試み

習熟度別クラス編成のための英語基礎力判定標準化テスト作成の試み習熟度別クラス編成のための英語基礎力判定標準化テスト作成の試み木村　哲夫（新潟青陵大学）日本言語テスト学会　第12回全国研究大会

発表の流れ • 研究経過と背景 • 習熟度別クラス分けテストの理想像 • Research Questions • 研究方法・分析手順 • 分析結果 • 項目温存 • Fit重視 • 考察 • 疑似クラス分けテスト • 他のテストスコアとの相関分析 • まとめと今後の課題

研究経過概略 • LMSの中からMoodleを選択（木村, 2006) • Moodleによるテスト実施とデータ収集・分析の実際（木村, 2008a) • TOEIC模擬問題による2PLM項目分析 • 通過率と識別力が低いものが多い • Moodleを利用したテスト項目分析とアダプティブ・テスト開発の可能性(木村, 2008b) • 英検の過去問40問による1PLMと2PLM項目分析

習熟度別クラス分けのためのテスト 英検の過去問題正当数に基づくスコア TOEIC 模擬問題オリジナル問題オリジナル問題標準化されたスコア TOEIC IP CASEC

熟度別クラス分けのためのテストの理想像 標準化されたＣＡＴが理想

Research Questions 条件を満たすテストを個人レベルで作成可能か？ Yes どのようなモデルで分析するのがよいか？作成したテストでうまくクラス分けできるか？ Yes 1PLM 2PLM NTT 確信度テスト

方法 • 項　目：文法語彙問題・・・・・・80問（英検3～準1級）　　　リスニング会話問題・・・47問（英検3～準1級）　　　　　リスニング説明文問題・・35問（英検3～2級） • 被験者：Ｎ大学およびＳ大学1年生268名 • 電子化：PDF→OCR→TXT→Excel→ Multiple ChoiceMaker→ GIFT→Moodle • 実　施： Moodleでチャレンジ・クイズ4回分として設定　　　　　毎回3パート各10分で実施(6~7月) • 1回目は授業内に全員で実施 • 2回目～4回目は隔週で任意の課題として実施 • その他：4月 CASEC ：S大学全員 7月 TOEIC／TOEIC Bridge：希望者 8月 CASEC： S大学ほぼ全員

データ数一覧 予想よりデータ数が少ないため2PLMによる分析は断念 ●受験者数は各区分で全項目に解答した人数

分析手順（その1：項目温存） Moodle 小テスト詳細結果 Excelで 01データ 1PLM (周辺最尤法) 除去除去 Misfit Person ? Misfit除去の基準 Misfit Person：ZL ＜－1.96 Misfit Item：P.BIS＜0.25 Misfit Item? 基準を超えるMisfitがなくなった段階で分析終了

分析手順（その2：Fit重視） Moodle 小テスト詳細結果 Excelで 01データ 1PLM (周辺最尤法) 除去 Misfit除去の基準 Misfit Person：ZL ＜－1.96 Misfit Item：P.BIS＜0.25 Misfit Person or Item ? 基準を超えるMisfitがなくなった段階で分析終了

分析手順（その3： NTTによる分析） テスト区分ごとに、以下のデータについて、Neural Test Theory (Shojima, 2008 ) により、ノード数10とノード数５に設定し2回分析。 • Misfit除去前のデータ • 分析手順(その1)でMisfit除去後のデータ • 分析手順(その2)でMisfit除去後のデータ本来NTTの枠組み内で考えられているmisfitの指標を使うべきだが、そのための計算プログラムがまだないので、今回はこの手順とした。

使用したプログラム • Multiple Choice Maker： GIFTファイル作成マクロMoodleResources（株）eラーニングサービス https://e-learning.ac/moodle-resources/ • Easy Estimation (Ver.0.4.2)：項目パラメタ推定プログラム周辺最尤推定法・EMアルゴリズムによる１～３PLMに対応 • Easy EstTheta(Ver0.1.1)：特性値推定プログラムPersonFitの指標は、Drasgow, Levine, & Williamas(1985) およびDrasgow, Levine , & McLaughlin(1987)のZL統計量 • EasyNTT(Ver.0.2.3)： NTT計算プログラム「ニューラルテスト理論」荘島（2007）によるItem Reference Profileおよび各受験者の潜在ランクを計算新潟大学　熊谷　龍一 http://itranalysis.main.jp

項目数・受験者数（その1：項目温存）

項目数・受験者数（その2：FIT重視）

文法語彙問題(vg)の項目分析推移

リスニング会話問題(dlg)の項目分析推移

リスニング説明文問題(mlg)の項目分析推移

文法語彙問題(vg) Misfit除去前後の通過率 (n=222) (n=170) (n=193)

会話問題(dlg) Misfit除去前後の通過率 (n=157) Misfit Item=5 (n=139) (n=125)

説明文問題(mlg) Misfit除去前後の通過率 (n=119) (n=108) (n=112)

Misfit除去前後の基本統計量と信頼性 ＜＞＜

疑似クラス分けテスト 除去されなかった68問すべてを回答していた学生75人のデータにより、擬似的に習熟度別クラス編成を行い結果を分析した。

各テスト区分のテスト情報曲線

各テスト区分のテスト参照プロファイル

語彙文法問題(vg)とCASECとの相関 Vg (I=36 N=105) θ1vg ： 1PLMによる能力推定値　　　 θ2vg：NTTによる能力推定値(Rank) C-S1 ：CASECセクション１（語彙） C-S2 ：CASECセクション２（表現） C-S3 ：CASECセクション３（リスニング） C-S4 ：CASECセクション４（ディクテーション） C-T ：CASEC合計点 θ1vg との相関：ピアソンの積率相関係数 θ2vg との相関：スピアマンの順位相関係数

会話問題(dlg)とCASECとの相関 Dlg (I=13 N=82) θ1dlg ： 1PLMによる能力推定値 θ2dlg：NTTによる能力推定値(Rank) C-S1 ：CASECセクション１（語彙） C-S2 ：CASECセクション２（表現） C-S3 ：CASECセクション３（リスニング） C-S4 ：CASECセクション４（ディクテーション） C-T ：CASEC合計点 θ1dlg との相関：ピアソンの積率相関係数 θ2dlg との相関：スピアマンの順位相関係数

説明文問題(mlg)とCASECとの相関 Mlg (I=19 N=81) θ1mlg ： 1PLMによる能力推定値 θ2mlg：NTTによる能力推定値(Rank) C-S1 ：CASECセクション１（語彙） C-S2 ：CASECセクション２（表現） C-S3 ：CASECセクション３（リスニング） C-S4 ：CASECセクション４（ディクテーション） C-T ：CASEC合計点 θ1mlg との相関：ピアソンの積率相関係数 θ2mlg との相関：スピアマンの順位相関係数

語彙文法問題(vg)とTOEIC Bridgeとの相関 Vg (I=36 N=22) θ1vg ： 1PLMによる能力推定値 θ2vg：NTTによる能力推定値(Rank) TB-L ：TOEIC Bridge Listening Score TB-R ： TOEIC Bridge Reading Score TB-T ： TOEIC Bridge Total Score θ1vg との相関：ピアソンの積率相関係数 θ2vg との相関：スピアマンの順位相関係数

会話問題(dlg)とTOEIC Bridgeとの相関 Dlg (I=13 N=21) θ1dlg ： 1PLMによる能力推定値　 θ2dlg：NTTによる能力推定値 TB-L ：TOEIC Bridge Listening Score TB-R ： TOEIC Bridge Reading Score TB-T ： TOEIC Bridge Total Score θ1dlg との相関：ピアソンの積率相関係数 θ2dlg との相関：スピアマンの順位相関係数

説明文問題(mlg)とTOEIC Bridgeとの相関 Mlg (I=19 N=16) θ1mlg ： 1PLMによる能力推定値 θ2mlg：NTTによる能力推定値 TB-L ：TOEIC Bridge Listening Score TB-R ： TOEIC Bridge Reading Score TB-T ： TOEIC Bridge Total Score θ1mlg との相関：ピアソンの積率相関係数 θ2mlg との相関：スピアマンの順位相関係数

疑似クラス分けテストとCASECとの相関 NTTが想定しているのは順序尺度であり、この足し算にはやや無理がある。本来はGraded Neural Test Model で合成を行うべきだが、まだ計算プログラムが未完成。今回はこれで一般的な傾向をつかむこととしたい。 (I=75 N=55) θ1-T=θ1vg+θ1dlg+θ1mlg： 1PLMによる能力推定値 θ2-T= θ2vg+θ2dlg+θ2mlg：NTTによる能力推定値 θ1 との相関：ピアソンの積率相関係数 θ2 との相関：スピアマンの順位相関係数

疑似クラス分けテストとTOEIC Bridgeとの相関 (I=75 N=13) θ1-T=θ1vg+θ1dlg+θ1mlg： 1PLMによる能力推定値 θ2-T= θ2vg+θ2dlg+θ2mlg：NTTによる能力推定値 θ1 との相関：ピアソンの積率相関係数 θ2 との相関：スピアマンの順位相関係数

NTTによるクラス分けのシミュレーション1

NTTによるクラス分けのシミュレーションと1PLMによる能力推定値の比較1NTTによるクラス分けのシミュレーションと1PLMによる能力推定値の比較1

NTTによるクラス分けのシミュレーション2

NTTによるクラス分けのシミュレーションと1PLMによる能力推定値の比較2NTTによるクラス分けのシミュレーションと1PLMによる能力推定値の比較2

クラス分けテストのテスト参照プロファイル1クラス分けテストのテスト参照プロファイル1

クラス分けテストのテスト参照プロファイルと1PLM のθ

まとめ 条件を満たすテストを個人レベルで作成可能か？ ⇒ 　可能どのようなモデルで分析するのがよいか？　　⇒　1PLM または NTT 　　⇒　事前にmisfitを適切に取り除く作成したテストでうまくクラス分けできるか？　　⇒　NTTを利用した方が解釈・判断が容易

今後の課題 どのような項目がよい項目か？ Misfitsをどのように取り除くのがよいか？項目バンクを構築できないか？ＣＡＴにできないか？

ご静聴ありがとうございました。問い合わせ先：kimura@n-seiryo.ac.jp

引用文献・参考文献 秋山實.(2006).「オーブンソースソフトウェアmoodleのオンラインテスト機能を基盤としたアイテム開発スキーム」教育システム情報学会研究報告, vol.20, no.6, 79-82. 張一平.(2007).『確信度テスト法と項目反応理論』東京大学出版会. Drasgow, F., Levine, M. V., & McLaughlin, M. E. (1987). Detecting inappropriate test scores with optimal and practical appropriateness indices. Applied Psychological Measurement, II, 59-79. Drasgow, F., Levine, M. V., & Williams, E. A. (1985). Appropriateness measurement with polychotomous item response models and standardized indices. British Journal of Mathematical and Statistical Psychology, 38, 66-86. 木村哲夫.(2006).「大学におけるe-learningを活用した英語教育のあり方についての研究」新潟青陵大学平成17年度共同研究費報告書. 木村哲夫.(2008a).「Moodleを使ったテスティングとそのデータ分析」『金谷憲教授還暦記念論文集』pp.247-258. 桐原書店. 木村哲夫.(2008b).「Moodleを利用したテスト項目分析とアダプティブ・テスト開発の可能性」『第34回全国英語教育学会東京研究大会予稿集』pp.340-341. 大友賢二.(1996).『項目応答理論入門』大修館書店. 大友賢二・中村洋一(2002). 『テストで言語能力ははかれるか～言語テストデータ分析入門～』河源社. Reise, S. P. & Due, A. M. (1991). The influence of test characteristics on the detection of aberrant Response patterns. Applied Psychological Measurement, Vol. 15, No. 3, 217-226 Shojima, K. (2008) .Neural test theory: A latent rank theory for analyzing test data. DNC Research Note, 08-01. 荘島宏二郎.(2008a).ニューラルテスト理論－資格試験のためのテスト理論－平成20年度全国大学入学者選抜研究連絡協議会，研究発表予稿集，163-168. 荘島宏二郎.(2008b). The structural neurofield mapping: A latent rank model for multivariate data. 日本行動計量学会第36回大会. 芝祐順.(1991).『項目反応理論：基礎と応用』東京大学出版. 靜哲人.(2007).『基礎から深く理解するラッシュモデリング』関西大学出版. 豊田秀樹.(2002).『項目反応理論[入門編]』朝倉書店.

習熟度別クラス編成のための 英語基礎力判定標準化テスト 作成の試み