380 likes | 820 Views
一般化可能性理論 (generalizability theory) とパフォーマンス評価 (performance assessment). 日本学術振興会・東京工業大学 村山 航 murakou@orion.ocn.ne.jp. Contents. 一般化可能性理論とは パフォーマンス評価に対する一般化可能性理論研究の現状. Contents. 一般化可能性理論とは パフォーマンス評価に対する一般化可能性理論研究の現状. 古典的テスト理論. 信頼性 (reliability) = 尺度の一貫性・安定性 信頼性係数 全分散における真値の分散の占める割合
E N D
一般化可能性理論 (generalizability theory) とパフォーマンス評価 (performance assessment) 日本学術振興会・東京工業大学 村山 航 murakou@orion.ocn.ne.jp
Contents • 一般化可能性理論とは • パフォーマンス評価に対する一般化可能性理論研究の現状
Contents • 一般化可能性理論とは • パフォーマンス評価に対する一般化可能性理論研究の現状
古典的テスト理論 • 信頼性 (reliability) = 尺度の一貫性・安定性 • 信頼性係数 • 全分散における真値の分散の占める割合 • 誤差分散が大きいと小さくなる • 推定方法 • 再テスト法,平行テスト法,Cronbachのαなど
補足:信頼性と妥当性 • 妥当性:測定したいものを測定できているか 信頼性:高妥当性:高 信頼性:低妥当性:低 信頼性:高妥当性:低 ※ 妥当性が高く信頼性が低いことは考えにくい(信頼性は妥当性の必要条件)
古典的な「信頼性」概念の限界 • 意味が多義的:「安定」「一貫」とは何か? • 時間的に安定しているのか:再テスト信頼性 • (同じ概念を測定する)テスト・項目間で一貫しているのか:α係数 • ポイント:「誤差」の意味によって信頼性の意味も変わってくる 時間的な変動⇒時間的安定性 項目間の変動⇒項目間一貫性 評定者間の違い⇒評定者間一貫性
一般化可能性理論(generalizability theory)とは • 古典的テスト理論より洗練された形で信頼性を評価する手法:以下の2つの段階がある • Generalizability (G) study • 分散分析 (ANOVA) の原理を用いて,異なるソースの誤差分散の成分を分離して推定する • Decision (D) study • G study で得られた分散成分をもとに,さまざまなデザインにおける信頼性を評価する
用語 • 相 (facet) • 評定者,項目,時間といったテストの諸側面.一般化可能性理論では,この相ごとに誤差を分離していく. • 測定の対象 (object of measurement) • 多くの場合,人(もしくは学校).ここの分散が真値の分散とみなされる. • ユニバース(universe) • それぞれの相における母集団(のようなもの). • 一般化可能性理論で「母集団」(population)という言葉は「測定の対象」にのみ使われる.
具体例(Brennan et al., 1996 より) • California Assessment Program (CAP) の理科のアセスメント(一種のパフォーマンス評価) • 5つの課題 (t) • 3人の評価者 (r) がすべての課題を評価 • 得点はどれも1点-4点 • 評価の対象は当然受験者 (p) p x t x rデザインと呼ぶ (すべての要因がクロス) 課題ごとに評価者が違うなら p x (r : t) デザイン(”A:B” は”AはBにネストされた”という意味)
G study • 変量効果の分散分析により分散成分 (平均平方和MSではないので注意)を推定 • ユニバース・母集団における個々の効果の分散 • p x t x rデザインのとき,求める分散成分は交互作用を含め,p, t, r, pt, pr, tr, ptr + eの 7 つ. ※ 注: 複数の水準がないとその相の分散は推定できない(例:評定者1人だと評定者相の分散成分は推定できない)
全ての課題・評定者の評定を平均したとき,生徒の得点が母集団でどれくらい分散しているか ⇒ 大きいほどよい(生徒の能力を識別できている) CAPの結果 得点の課題間での(ユニバースにおける)ばらつき.難易度にばらつきがあると,ここが大きくなる 評定者間の評定のばらつき 課題によって生徒の順序が入れ替わる程度(A君はB君より課題1が得意だが,課題2はB君の方がA君より得意) 評定者によって生徒の順序が入れ替わる程度 全要因の交互作用+その他の誤差
G study より分かったこと • 個々の得点は生徒間の個人差をある程度は捉えている • ただし,課題によって生徒の順序が入れ替わってしまう ⇒ 大問題(テスト結果が使われた課題に大きく依存してしまうから) • 評定者間のばらつきは思ったほど大きくない(むしろ小さい)
D study G study の分散成分 「1つの観測得点」に関するもの(e.g., A君の課題Pにおける評定者αの評定値) 実際に興味があるのは 「5つの課題の平均点」や「2人の評定者の平均点」に関する信頼性 • D studyにおける信頼性の推定 • 複数の相からのサンプルにおける「平均値」の信頼性(一般化可能性)を求める • 「評定者を4人に増やしたら?」といった仮想の実験デザインに対する信頼性の推定も可能
p x t x rデザインにおける推定 Variance component in D study (平均値を取る相を大文字で表現) Variance component in G study 測定の対象の分散はそのまま 平均値の標準誤差を算出する公式を適用(分散をサンプル数で割る)
2種類の信頼性係数 • Dependability Coefficient Φ • 以外すべてを誤差と考える • Generalizability Coefficient ρ2 (or Eρ2) • Personとの交互作用のみを誤差と考える
Φとρ2の違い • ポイント: や が大きいのは問題か? 生徒の能力順位を知りたいとき だけが大きい例 課題A(易) 1位:太郎君(95点)2位:直美さん(90点)3位:亮君(80点) … 55位:瑛太君(35点)56位:拓也君(30点) 課題B(難) 1位:太郎君(55点)2位:直美さん(50点)3位:亮君(45点) … 55位:瑛太君(5点)56位:拓也君(0点) 問題ナシ(順位は課題によって変わらないから).むしろ怖いのは が大きいとき が高いのがよい
Φとρ2の違い • ポイント: や が大きいのは問題か? 生徒の絶対得点(e.g., 60点)で選抜したいとき だけが大きい例 課題A(易) 1位:太郎君(95点)2位:直美さん(90点)3位:亮君(80点) … 55位:瑛太君(35点)56位:拓也君(30点) 課題B(難) 1位:太郎君(55点)2位:直美さん(50点)3位:亮君(45点) … 55位:瑛太君(5点)56位:拓也君(0点) 大問題(選んだ課題により60点の意味が違ってくるから). が高いのがよい
2種類の信頼性係数:まとめ • 受験者の相対順位に興味がある場合は の大きさをみる必要性 • 多くの場合はこちらが重要 • 相関に興味がある場合もこちら • Cronbachのα係数は p x I デザインにおけるこの係数と等しい • 受験者の絶対得点に興味がある場合(e.g., standard settingなど)は, の大きさをみる必要性
CAPの結果 Eρ2 = 0.73 Φ= 0.70 3 人の評価者,5 つの課題の平均値を使うと信頼性はまずます (ユニバースから別の3人の評価者,5つの課題を選んできても結果は安定)
仮想のデザインに対する信頼性の推定 • 評定者や課題を増やす(減らす)と信頼性はどうなるのか? ntや nrに値を代入することで,推定が可能 Efficient なテスト設計が可能!
CAPの場合 評定者の数を増やしても信頼性はそんなに増えない:もともと が小さいので • Brennan (1996) より 課題が増えると信頼性はかなり改善:もともと が大きいので
D study より分かったこと • 3人の評定者,5つの課題である程度は信頼性が保たれている • 課題を増やすことでより信頼性を高めることが可能. • 評定者を増やしてもそれほど信頼性は高まらない(コストによっては,課題を増やし,評定者を減らすという選択もよい).
一般化可能性理論:その他1 • Nested デザイン • G study, D study のどちらでも適用可能 • Nestedデザインでも基本はBalanced design • アンバランスドデザインの場合 • 分散成分の推定が難しい ⇒ できれば避けたい • 最尤法 (Searle et al., 1992),もしくはAnalogous ANOVA (Brennan, 2001) を用いる • 多変量一般化可能性理論(後述)を用いる
一般化可能性理論:その他2 • 多変量一般化可能性理論 • 一般化可能性理論の拡張 • 固定因子 (fixed factor ) にあたる部分を多変量の従属変数として一般化可能性理論を適用 • 具体例:山森(2003) • 従属変数ごとに各相の水準数が違ってよい:単変量だとアンバランスドなデザインも,多変量だとバランスドデザインになるときがあり ※注:複数の課題があっても,random factorであるならば,これらを従属変数にしてはダメ
一般化可能性理論:その他3 • 分散成分の標準誤差 (see Brennan, 2001) • 水準数が少ない相で得られた分散成分は精度が低い可能性 • 相の水準数を増やすことで標準誤差は減る • ソフトウェア • G study: SASのvarcomp, mixed • D study: SASマクロ -> http://flash.lakeheadu.ca/~boconno2/gtheory/gtheory.html • GENOVA (Brennan): http://www.education.uiowa.edu/casma/GenovaPrograms.htm
Contents • 一般化可能性理論とは • パフォーマンス評価に対する一般化可能性理論研究の現状
パフォーマンス評価実施者の陥穽 • 「評定の客観性・一貫性が保たれなくてはいけないから,ルーブリックをしっかりと作成し,評定者も複数人確保しよう!」 • 「評定者間の相関 (inter-rater reliability) が高ければ問題がないだろう」 • 「高い一般化可能性係数が得られた.これで万事問題なし!」 もちろん,これらは大切なこと.しかし…
むしろ非常に大きいのは,人と課題の交互作用!むしろ非常に大きいのは,人と課題の交互作用! Brennan (1996) より先行研究のまとめ 近年の先行研究を見る限り,評定者によるばらつきはほとんどない!
CAPの場合:reprise 評定者の数を増やしても信頼性はそんなに増えない:もともと が小さいので • Brennan (1996) より 評定者より課題の数を増やすことが大切!(時間的制約があるとはいえ) 課題が増えると信頼性はかなり改善:もともと が大きいので
Inter-rater reliability神話の危険性 • 基本的に,ある課題に対して2人の評定者が評定したときの相関係数 • 非常によく使われる指標 しかし… p x tの成分が真値と交絡し,信頼性を過大推定してしまう(Brennan, 2000) 複数の課題間の分散をまったく考慮に入れていない パフォーマンス評価の大きな問題点を見逃す可能性
課題・評定者以外の相の効果 Ruiz-Primo et al. (1993) o = occasion = 時間間隔(5ヶ月) 生徒が2回目の時には課題ごとにストラテジーを変えている可能性 Eρ2 = 0.04, Φ = 0.04
信頼性と妥当性は別 • 村山 (2008):教師による生徒の意欲の評価 • 複数の評定者を使用 • 評定者間一貫性は非常に高い • 妥当性(生徒の自己報告と教師の評定との相関)は非常に低い: r = 0.00 – 0.15 (!)
まとめ • パフォーマンス評価を実施すると,つい「評定者」の相だけに目が向きがちである • もちろんそれは大切 • しかし,これまでの研究でもっとも問題になっているのは p x t の成分(選ばれた課題によって受験者の得手・不得手が顕著に違う) • 対策:完全な対策は存在しない • 課題を増やす:時間的制約のコストがかかる • 出題領域を狭くする:測定できる能力も狭くなってしまう • 他の相(occasionなど)や妥当性にも気を配る必要性
文献 1 • 一般化可能性理論 • オリジナル • Cronbach, Gleser, Nanda, & Rajaratnam (1972). The dependability of behavioral measurements. • 初学者用文献 • Brennan (1992). Elements of geeneralizability theory (rev. ed.). • Shavelson & Webb (1991). Generalizability theory: A primer. • より包括的な文献 • Brennan (2001). Generalizability theory. • 日本語の文献 • 現代テスト理論(池田央) • 教育測定学(Linn著,池田央ら監訳) 第3章
文献 2 • 一般化可能性理論のパフォーマンス評価への適用 • レビュー • Brennan (1996). Generalizability of performance assessments. In Phillips (Ed.). Technical issues in performance assessments. • Cronbach et al. (1997). Generalizability analysis for performance assessments of student achievement or school effectiveness. Educational and Psychological Measurement. • 事例 • Ruiz-Primo et al. (1993). On the stability of performance assessments. Journal of Educational Measurement. • Shavelson et al. (1993). Sampling variability of performance assessments. Journal of Educational Measurement. • Webb et al. (2000). The dependability and interchangeability of assessment methods in science. Applied Measurement in Education.