1 / 35

一般化可能性理論 (generalizability theory) とパフォーマンス評価 (performance assessment)

一般化可能性理論 (generalizability theory) とパフォーマンス評価 (performance assessment). 日本学術振興会・東京工業大学 村山 航 murakou@orion.ocn.ne.jp. Contents. 一般化可能性理論とは パフォーマンス評価に対する一般化可能性理論研究の現状. Contents. 一般化可能性理論とは パフォーマンス評価に対する一般化可能性理論研究の現状. 古典的テスト理論. 信頼性 (reliability) = 尺度の一貫性・安定性 信頼性係数 全分散における真値の分散の占める割合

denton
Télécharger la présentation

一般化可能性理論 (generalizability theory) とパフォーマンス評価 (performance assessment)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 一般化可能性理論 (generalizability theory) とパフォーマンス評価 (performance assessment) 日本学術振興会・東京工業大学 村山 航 murakou@orion.ocn.ne.jp

  2. Contents • 一般化可能性理論とは • パフォーマンス評価に対する一般化可能性理論研究の現状

  3. Contents • 一般化可能性理論とは • パフォーマンス評価に対する一般化可能性理論研究の現状

  4. 古典的テスト理論 • 信頼性 (reliability) = 尺度の一貫性・安定性 • 信頼性係数 • 全分散における真値の分散の占める割合 • 誤差分散が大きいと小さくなる • 推定方法 • 再テスト法,平行テスト法,Cronbachのαなど

  5. 補足:信頼性と妥当性 • 妥当性:測定したいものを測定できているか 信頼性:高妥当性:高 信頼性:低妥当性:低 信頼性:高妥当性:低 ※ 妥当性が高く信頼性が低いことは考えにくい(信頼性は妥当性の必要条件)

  6. 古典的な「信頼性」概念の限界 • 意味が多義的:「安定」「一貫」とは何か? • 時間的に安定しているのか:再テスト信頼性 • (同じ概念を測定する)テスト・項目間で一貫しているのか:α係数 • ポイント:「誤差」の意味によって信頼性の意味も変わってくる 時間的な変動⇒時間的安定性 項目間の変動⇒項目間一貫性 評定者間の違い⇒評定者間一貫性

  7. 一般化可能性理論(generalizability theory)とは • 古典的テスト理論より洗練された形で信頼性を評価する手法:以下の2つの段階がある • Generalizability (G) study • 分散分析 (ANOVA) の原理を用いて,異なるソースの誤差分散の成分を分離して推定する • Decision (D) study • G study で得られた分散成分をもとに,さまざまなデザインにおける信頼性を評価する

  8. 用語 • 相 (facet) • 評定者,項目,時間といったテストの諸側面.一般化可能性理論では,この相ごとに誤差を分離していく. • 測定の対象 (object of measurement) • 多くの場合,人(もしくは学校).ここの分散が真値の分散とみなされる. • ユニバース(universe) • それぞれの相における母集団(のようなもの). • 一般化可能性理論で「母集団」(population)という言葉は「測定の対象」にのみ使われる.

  9. 具体例(Brennan et al., 1996 より) • California Assessment Program (CAP) の理科のアセスメント(一種のパフォーマンス評価) • 5つの課題 (t) • 3人の評価者 (r) がすべての課題を評価 • 得点はどれも1点-4点 • 評価の対象は当然受験者 (p) p x t x rデザインと呼ぶ (すべての要因がクロス) 課題ごとに評価者が違うなら p x (r : t) デザイン(”A:B” は”AはBにネストされた”という意味)

  10. G study • 変量効果の分散分析により分散成分 (平均平方和MSではないので注意)を推定 • ユニバース・母集団における個々の効果の分散 • p x t x rデザインのとき,求める分散成分は交互作用を含め,p, t, r, pt, pr, tr, ptr + eの 7 つ. ※ 注: 複数の水準がないとその相の分散は推定できない(例:評定者1人だと評定者相の分散成分は推定できない)

  11. 全ての課題・評定者の評定を平均したとき,生徒の得点が母集団でどれくらい分散しているか ⇒ 大きいほどよい(生徒の能力を識別できている) CAPの結果 得点の課題間での(ユニバースにおける)ばらつき.難易度にばらつきがあると,ここが大きくなる 評定者間の評定のばらつき 課題によって生徒の順序が入れ替わる程度(A君はB君より課題1が得意だが,課題2はB君の方がA君より得意) 評定者によって生徒の順序が入れ替わる程度 全要因の交互作用+その他の誤差

  12. G study より分かったこと • 個々の得点は生徒間の個人差をある程度は捉えている • ただし,課題によって生徒の順序が入れ替わってしまう ⇒ 大問題(テスト結果が使われた課題に大きく依存してしまうから) • 評定者間のばらつきは思ったほど大きくない(むしろ小さい)

  13. D study G study の分散成分 「1つの観測得点」に関するもの(e.g., A君の課題Pにおける評定者αの評定値) 実際に興味があるのは 「5つの課題の平均点」や「2人の評定者の平均点」に関する信頼性 • D studyにおける信頼性の推定 • 複数の相からのサンプルにおける「平均値」の信頼性(一般化可能性)を求める • 「評定者を4人に増やしたら?」といった仮想の実験デザインに対する信頼性の推定も可能

  14. p x t x rデザインにおける推定 Variance component in D study (平均値を取る相を大文字で表現) Variance component in G study 測定の対象の分散はそのまま 平均値の標準誤差を算出する公式を適用(分散をサンプル数で割る)

  15. 2種類の信頼性係数 • Dependability Coefficient Φ • 以外すべてを誤差と考える • Generalizability Coefficient ρ2 (or Eρ2) • Personとの交互作用のみを誤差と考える

  16. Φとρ2の違い • ポイント: や が大きいのは問題か? 生徒の能力順位を知りたいとき だけが大きい例 課題A(易) 1位:太郎君(95点)2位:直美さん(90点)3位:亮君(80点) … 55位:瑛太君(35点)56位:拓也君(30点) 課題B(難) 1位:太郎君(55点)2位:直美さん(50点)3位:亮君(45点) … 55位:瑛太君(5点)56位:拓也君(0点) 問題ナシ(順位は課題によって変わらないから).むしろ怖いのは が大きいとき が高いのがよい

  17. Φとρ2の違い • ポイント: や が大きいのは問題か? 生徒の絶対得点(e.g., 60点)で選抜したいとき だけが大きい例 課題A(易) 1位:太郎君(95点)2位:直美さん(90点)3位:亮君(80点) … 55位:瑛太君(35点)56位:拓也君(30点) 課題B(難) 1位:太郎君(55点)2位:直美さん(50点)3位:亮君(45点) … 55位:瑛太君(5点)56位:拓也君(0点) 大問題(選んだ課題により60点の意味が違ってくるから). が高いのがよい

  18. 2種類の信頼性係数:まとめ • 受験者の相対順位に興味がある場合は の大きさをみる必要性 • 多くの場合はこちらが重要 • 相関に興味がある場合もこちら • Cronbachのα係数は p x I デザインにおけるこの係数と等しい • 受験者の絶対得点に興味がある場合(e.g., standard settingなど)は, の大きさをみる必要性

  19. CAPの結果 Eρ2 = 0.73 Φ= 0.70 3 人の評価者,5 つの課題の平均値を使うと信頼性はまずます (ユニバースから別の3人の評価者,5つの課題を選んできても結果は安定)

  20. 仮想のデザインに対する信頼性の推定 • 評定者や課題を増やす(減らす)と信頼性はどうなるのか? ntや nrに値を代入することで,推定が可能 Efficient なテスト設計が可能!

  21. CAPの場合 評定者の数を増やしても信頼性はそんなに増えない:もともと が小さいので • Brennan (1996) より 課題が増えると信頼性はかなり改善:もともと が大きいので

  22. D study より分かったこと • 3人の評定者,5つの課題である程度は信頼性が保たれている • 課題を増やすことでより信頼性を高めることが可能. • 評定者を増やしてもそれほど信頼性は高まらない(コストによっては,課題を増やし,評定者を減らすという選択もよい).

  23. 一般化可能性理論:その他1 • Nested デザイン • G study, D study のどちらでも適用可能 • Nestedデザインでも基本はBalanced design • アンバランスドデザインの場合 • 分散成分の推定が難しい ⇒ できれば避けたい • 最尤法 (Searle et al., 1992),もしくはAnalogous ANOVA (Brennan, 2001) を用いる • 多変量一般化可能性理論(後述)を用いる

  24. 一般化可能性理論:その他2 • 多変量一般化可能性理論 • 一般化可能性理論の拡張 • 固定因子 (fixed factor ) にあたる部分を多変量の従属変数として一般化可能性理論を適用 • 具体例:山森(2003) • 従属変数ごとに各相の水準数が違ってよい:単変量だとアンバランスドなデザインも,多変量だとバランスドデザインになるときがあり ※注:複数の課題があっても,random factorであるならば,これらを従属変数にしてはダメ

  25. 一般化可能性理論:その他3 • 分散成分の標準誤差 (see Brennan, 2001) • 水準数が少ない相で得られた分散成分は精度が低い可能性 • 相の水準数を増やすことで標準誤差は減る • ソフトウェア • G study: SASのvarcomp, mixed • D study: SASマクロ -> http://flash.lakeheadu.ca/~boconno2/gtheory/gtheory.html • GENOVA (Brennan): http://www.education.uiowa.edu/casma/GenovaPrograms.htm

  26. Contents • 一般化可能性理論とは • パフォーマンス評価に対する一般化可能性理論研究の現状

  27. パフォーマンス評価実施者の陥穽 • 「評定の客観性・一貫性が保たれなくてはいけないから,ルーブリックをしっかりと作成し,評定者も複数人確保しよう!」 • 「評定者間の相関 (inter-rater reliability) が高ければ問題がないだろう」 • 「高い一般化可能性係数が得られた.これで万事問題なし!」 もちろん,これらは大切なこと.しかし…

  28. むしろ非常に大きいのは,人と課題の交互作用!むしろ非常に大きいのは,人と課題の交互作用! Brennan (1996) より先行研究のまとめ 近年の先行研究を見る限り,評定者によるばらつきはほとんどない!

  29. CAPの場合:reprise 評定者の数を増やしても信頼性はそんなに増えない:もともと が小さいので • Brennan (1996) より 評定者より課題の数を増やすことが大切!(時間的制約があるとはいえ) 課題が増えると信頼性はかなり改善:もともと が大きいので

  30. Inter-rater reliability神話の危険性 • 基本的に,ある課題に対して2人の評定者が評定したときの相関係数 • 非常によく使われる指標 しかし… p x tの成分が真値と交絡し,信頼性を過大推定してしまう(Brennan, 2000) 複数の課題間の分散をまったく考慮に入れていない パフォーマンス評価の大きな問題点を見逃す可能性

  31. 課題・評定者以外の相の効果 Ruiz-Primo et al. (1993) o = occasion = 時間間隔(5ヶ月) 生徒が2回目の時には課題ごとにストラテジーを変えている可能性 Eρ2 = 0.04, Φ = 0.04

  32. 信頼性と妥当性は別 • 村山 (2008):教師による生徒の意欲の評価 • 複数の評定者を使用 • 評定者間一貫性は非常に高い • 妥当性(生徒の自己報告と教師の評定との相関)は非常に低い: r = 0.00 – 0.15 (!)

  33. まとめ • パフォーマンス評価を実施すると,つい「評定者」の相だけに目が向きがちである • もちろんそれは大切 • しかし,これまでの研究でもっとも問題になっているのは p x t の成分(選ばれた課題によって受験者の得手・不得手が顕著に違う) • 対策:完全な対策は存在しない • 課題を増やす:時間的制約のコストがかかる • 出題領域を狭くする:測定できる能力も狭くなってしまう • 他の相(occasionなど)や妥当性にも気を配る必要性

  34. 文献 1 • 一般化可能性理論 • オリジナル • Cronbach, Gleser, Nanda, & Rajaratnam (1972). The dependability of behavioral measurements. • 初学者用文献 • Brennan (1992). Elements of geeneralizability theory (rev. ed.). • Shavelson & Webb (1991). Generalizability theory: A primer. • より包括的な文献 • Brennan (2001). Generalizability theory. • 日本語の文献 • 現代テスト理論(池田央) • 教育測定学(Linn著,池田央ら監訳) 第3章

  35. 文献 2 • 一般化可能性理論のパフォーマンス評価への適用 • レビュー • Brennan (1996). Generalizability of performance assessments. In Phillips (Ed.). Technical issues in performance assessments. • Cronbach et al. (1997). Generalizability analysis for performance assessments of student achievement or school effectiveness. Educational and Psychological Measurement. • 事例 • Ruiz-Primo et al. (1993). On the stability of performance assessments. Journal of Educational Measurement. • Shavelson et al. (1993). Sampling variability of performance assessments. Journal of Educational Measurement. • Webb et al. (2000). The dependability and interchangeability of assessment methods in science. Applied Measurement in Education.

More Related