1 / 38

言語テストにおける段階評価の実際: 入試とプレイスメントテストのデータ処理

言語テストにおける段階評価の実際: 入試とプレイスメントテストのデータ処理. 日本言語テスト学会第 13 回全国研究大会 2009年9月7日 新潟青陵大学 木村哲夫. 発表の概要. 段階評価とは?. なぜ段階評価なのか?. 入試における段階評価. プレイスメントテストにおける段階評価. 段階評価とは?. 能力を順序尺度上(潜在ランク)で評価する 評価.

joel-garner
Download Presentation

言語テストにおける段階評価の実際: 入試とプレイスメントテストのデータ処理

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 言語テストにおける段階評価の実際:入試とプレイスメントテストのデータ処理言語テストにおける段階評価の実際:入試とプレイスメントテストのデータ処理 日本言語テスト学会第13回全国研究大会 2009年9月7日 新潟青陵大学 木村哲夫

  2. 発表の概要 段階評価とは? なぜ段階評価なのか? 入試における段階評価 プレイスメントテストにおける段階評価

  3. 段階評価とは? 能力を順序尺度上(潜在ランク)で評価する評価 ニューラルテスト理論(neural test theory:NTT):自己組織化マップ(self-organizing map, SOM)や生成トポグラフィックマッピング(generative topographic mapping, GTM)のメカニズムを利用したノンパラメトリック・テスト理論 (Shojima, 2008)

  4. なぜ段階評価か?:NTTの利点 荘島(2008)

  5. 3 4 1 2 体重と体重計 荘島(2008)より引用 • 現象(連続) • 測定(高解像度) Weight

  6. 能力とテスト 荘島(2008)より引用 • 現象(連続?) • 測定(低信頼性・低解像度) 4 3 2 1 Ability

  7. なぜ段階評価か?:NTTの利点 荘島(2008)

  8. なぜ段階評価か?:NTTの利点 松宮・荘島(2008)

  9. なぜ段階評価か?:NTTの利点 松宮・荘島(2009) Shoujima(2009)

  10. Continuous academic ability evaluation scale based on IRT or CTT It is difficult to explain the relationship between scores and abilities because individual abilities also change continuously For Qualifying Tests Ordinal academic ability evaluation scale based on Neural Test Theory Because the individual abilities also change in stages, it is easy to explain the relationship between scores and abilities. This increases the test’s accountability. Graded evaluation ↓ Accountability ↓ Qualification test Shoujima(2009)より引用

  11. 項目分析手法とソフトウエア ※段階ニューラルテスト(graded neural test, GNT)モデル:多値の  順序データに対応するためのNTTの拡張モデル

  12. 入試データを段階評価にしたら • 会話応答はリスニングではなくテキストを読む形式。 • 多肢選択は作文を除き4択、作文は選択肢の語句を並び替え、2番目と5番目を回答(片方正解は0点)。 • 長文内語句穴埋と長文読解は、それぞれ2種類の文章からなる。

  13. 入試データを段階評価にしたら

  14. 入試データを段階評価にしたら

  15. 入試データを段階評価にしたら テスト適合度はランク数を増やしても大きく変わらないが、 RMPに基づくテスト適合度はランク数を増やすにつれて下がる。今回はQ=10とした場合の段階評価について、素点合計との差を見ることにする。

  16. 入試データを段階評価にしたら ある学科で40人程度を入学させようとする場合

  17. 入試データを段階評価にしたら

  18. 入試データを段階評価にしたら

  19. 入試データを段階評価にしたら

  20. 入試データを段階評価にしたら 原因①:IRPが平坦な(識別力が低い)項目がいくつかあるため 能力の低い受験生がたまたま正解しても、能力の高い受験生がうっかり不正解しても潜在ランクの推定には影響を与えない。

  21. 入試データを段階評価にしたら (10) Compared to Christmas in Western counties, in Japan it is very much (15)oriented. (A) commerce (B) commercial (C) commercially (D) commercialized

  22. 入試データを段階評価にしたら 原因②:IRPが単調増加しない(識別力に問題がる)項目がいくつかあるため 中程度の能力の受験者には魅力的に見える選択肢だが、低い能力の受験者は文脈に関係なく自分の知っている語句の選択肢を選んで、偶然正解したのではないか?

  23. 入試データを段階評価にしたら What Vermont lacks in size, it makes up for in beauty. It is known as the Green Mountain State. The name comes from the Green Mountains, ( which ) divide the state up and down the center. (32), the name Vermont comes from the French "verdmont," meaning green mountain. 32 (A) As a result(B) Finally(C) However(D) In fact

  24. 入試データを段階評価にしたら 恣意的な配点による素点に基づく通常の処理よりも、項目のIRPによる重みづけによる段階評価による入試は ① 合否ボーダーラインを検討しやすいのではないか? ② テスト得点のみに頼った入試からの脱却につながるのではないか? ③ より優秀な学生を獲得できる可能性が高いのでは? ④ IRPやTRPを出題者にフィードバックすることで、次年度問題作成において質の向上につながるのでは?

  25. 英語プレイスメントテスト作成の流れ 項目選択のための予備テスト 項目分析 CTT:点双列相関係数(P.BIS) IRT: 1PLMによる項目分析(ZL値) NTT:項目参照プロファイル(IRP) Misfit除去の基準 Misfit Person:ZL <-1.96 Misfit Item:P.BIS<0.25 misfit の除去 プレイスメントテスト完成

  26. 予備テストの項目数と受験者数 misfit の除去

  27. 2段階モデルによる英語プレイスメントテストの分析2段階モデルによる英語プレイスメントテストの分析 ① 2008 疑似クラス分け(N=75) ② 2009 N短大のクラス分け(N=125) SUM 潜在ランク(Rvg, Rdlg, Rmlg) の単純和(SUM)をもとに 5クラス分け NTT(Q=10)により下位テストの潜在ランク(Rvg, Rdlg, Rmlg)を求め GTN 潜在ランク(Rvg, Rdlg, Rmlg) を項目としてGNT(Q=5)により5クラス分け • NTT分析は予備テストで得られたIRPを固定し、①はneutet、②はexametrikaを使 • LRT-SOMモデルにより、潜在ランクの目標分布を指定せずに行った。 • GNTの分析はexametrikaを使いLRT-SOMモデルにより、 潜在ランクの目標分布を • 一様分布として行った。

  28. SUMによるクラス分けとGNTによるクラス分けの相関SUMによるクラス分けとGNTによるクラス分けの相関 • ①のGNTをQ=10とした場合は、弱順序配列を満たさなかった • 順位相関係数はスピアマンの順位相関係数

  29. 下位テストのテスト参照プロファイル(TRP) ① 2008 (N=75) Vg Dlg Mlg ② 2009(N=125) Vg Dlg Mlg

  30. GNTのテスト参照プロファイル(TRP) ① 2008 (N=75) ② 2008(N=125)

  31. 下位テストの相対潜在ランク分布(LRD)と • 相対ランク・メンバーシップ分布(RMD) ① 2008 (N=75) Vg Dlg Mlg ② 2009(N=125) Vg Dlg Mlg

  32. GNTの相対潜在ランク分布(LRD)と相対ランク・メンバーシップ分布(RMD)GNTの相対潜在ランク分布(LRD)と相対ランク・メンバーシップ分布(RMD) ① 2008 (N=75) ② 2009(N=125)

  33. GNTの項目参照プロファイル(IRP) ① 2008 (N=75) ② 2009(N=125)

  34. GNTの境界カテゴリ参照プロファイル(BCRP) ① 2008 (N=75) RVg RDlg RMlg ② 2008(N=125) RVg RDlg RMlg

  35. GNTの項目カテゴリ参照プロファイル(ICRP) ① 2008 (N=75) RVg RDlg RMlg ① 2008 (N=125) RVg RDlg RMlg

  36. 2段階モデルによる英語プレイスメントテストの分析(まとめ)2段階モデルによる英語プレイスメントテストの分析(まとめ) NTTとGNTの2段階で分析することで、クラス(能力)の境界を解釈・設定しやすくなる。 予備テストで識別力の高い項目を用意した場合 SUMでもGNTでもほぼ同様のクラス分けができる。 SUMとGNTによるクラス分けで異なる結果が出るのは、GNTは下位テストの識別力の差を考慮するためであろう。 GNTで一様分布を指定することで、より均等なクラス分けが実現する。

  37. 2段階モデルによる英語プレイスメントテストの分析(今後に向けて)2段階モデルによる英語プレイスメントテストの分析(今後に向けて) 下位テストに読解問題を加える(GNTによる分析) 英語基礎力の構成概念の妥当性の検討 各下位テストに項目数を増やし(等化)アイテムバンクを構築・公開:学校(教員)間での共有 各下位テストをMoodle-based CATにする 潜在ランクを何らかのCan-D0-Chartへ対応づける

  38. ご静聴ありがとうございました。 本英語プレイスメントテスト実施ご希望の方、 本研究についてご質問のある方は、 kimura@n-seiryo.ac.jp あてにご連絡ください。

More Related