一般化可能性理論とパフォーマンス評価 (performance

一般化可能性理論 (generalizability
theory) とパフォーマンス評価
(performance assessment)
日本学術振興会・東京工業大学
村山 航
[email protected]
Contents
一般化可能性理論とは
パフォーマンス評価に対する一般化可能性
理論研究の現状
Contents
一般化可能性理論とは
パフォーマンス評価に対する一般化可能性
理論研究の現状
古典的テスト理論
信頼性 (reliability) = 尺度の一貫性・安定性
信頼性係数
– 全分散における真値の分散の占める割合
– 誤差分散が大きいと小さくなる
推定方法
– 再テスト法,平行テスト法,Cronbachのαなど
補足:信頼性と妥当性
妥当性:測定したいものを測定できているか
信頼性:高
妥当性:高
信頼性:低
妥当性:低
信頼性:高
妥当性:低
※ 妥当性が高く信頼性が低いことは考
えにくい(信頼性は妥当性の必要条件)
古典的な「信頼性」概念の限界
意味が多義的:「安定」「一貫」とは何か?
– 時間的に安定しているのか:再テスト信頼性
– (同じ概念を測定する)テスト・項目間で一貫して
いるのか:α係数
ポイント:「誤差」の意味によって信頼性の意
味も変わってくる
時間的な変動⇒時間的安定性
項目間の変動⇒項目間一貫性
評定者間の違い⇒評定者間一貫性
一般化可能性理論
(generalizability theory) とは
古典的テスト理論より洗練された形で信頼性
を評価する手法:以下の2つの段階がある
– Generalizability (G) study
分散分析 (ANOVA) の原理を用いて,異なるソースの
誤差分散の成分を分離して推定する
– Decision (D) study
G study で得られた分散成分をもとに,さまざまなデ
ザインにおける信頼性を評価する
用語
相 (facet)
– 評定者,項目,時間といったテストの諸側面.一
般化可能性理論では,この相ごとに誤差を分離
していく.
測定の対象 (object of measurement)
– 多くの場合,人(もしくは学校).ここの分散が真
値の分散とみなされる.
ユニバース(universe)
– それぞれの相における母集団(のようなもの).
– 一般化可能性理論で「母集団」(population)とい
う言葉は「測定の対象」にのみ使われる.
具体例 (Brennan et al., 1996 より)
California Assessment Program (CAP) の理
科のアセスメント(一種のパフォーマンス評価)
– 5つの課題 (t)
– 3人の評価者 (r) がすべての課題を評価
– 得点はどれも1点-4点
– 評価の対象は当然受験者 (p)
p x t x r デザインと呼ぶ (すべての要因がクロス)
課題ごとに評価者が違うなら p x (r : t) デザイン
(”A:B” は”AはBにネストされた”という意味)
G study
変量効果の分散分析により分散成分 (平均
平方和MSではないので注意)を推定
– ユニバース・母集団における個々の効果の分散
– p x t x r デザインのとき,求める分散成分は交互
作用を含め,p, t, r, pt, pr, tr, ptr + e の 7 つ.
※ 注: 複数の水準がないとその相の分散は推定できない
(例:評定者1人だと評定者相の分散成分は推定できない)
CAPの結果
Variance
components
Persons (p)
Estimates
of σ
0.298
Tasks (t)
0.092
Raters (r)
0.003
pt
0.493
pr
0.000
tr
0.002
ptr + e
0.148
全要因の交互作用+その他の誤差
全ての課題・評定者の評定を
平均したとき,生徒の得点が
母集団でどれくらい分散して
いるか ⇒ 大きいほどよい(生
徒の能力を識別できている)
得点の課題間での(ユニ
バースにおける)ばらつき.
難易度にばらつきがある
と,ここが大きくなる
評定者間の評定のばらつき
課題によって生徒の順序が
入れ替わる程度(A君はB君よ
り課題1が得意だが,課題2
はB君の方がA君より得意)
評定者によって生徒の順序
が入れ替わる程度
G study より分かったこと
個々の得点は生徒間の個人差をある程度は
捉えている
ただし,課題によって生徒の順序が入れ替
わってしまう ⇒ 大問題(テスト結果が使われ
た課題に大きく依存してしまうから)
評定者間のばらつきは思ったほど大きくない
(むしろ小さい)
D study
G study の分散成分
実際に興味があるのは
「1つの観測得点」に関する
もの(e.g., A君の課題Pに
おける評定者αの評定値)
「5つの課題の平均点」や「2
人の評定者の平均点」に関
する信頼性
D study における信頼性の推定
– 複数の相からのサンプルにおける「平均値」の信頼性(一
般化可能性)を求める
– 「評定者を4人に増やしたら?」といった仮想の実験デザ
インに対する信頼性の推定も可能
p x t x r デザインにおける推定
Variance component
in G study
Variance component in
D study (平均値を取る相
を大文字で表現)
測定の対象の分
散はそのまま
平均値の標準誤
差を算出する公
式を適用(分散
をサンプル数で
割る)
2種類の信頼性係数
Dependability Coefficient Φ
–
以外すべてを誤差と考える
Generalizability Coefficient ρ2 (or Eρ2)
– Personとの交互作用のみを誤差と考える
Φとρ2 の違い
ポイント:
や
が大きいのは問題か?
だけが大きい例
課題A(易)
課題B(難)
1位:太郎君(95点)
2位:直美さん(90点)
3位:亮君(80点)
1位:太郎君(55点)
2位:直美さん(50点)
3位:亮君(45点)
…
…
55位:瑛太君(35点)
56位:拓也君(30点)
55位:瑛太君(5点)
56位:拓也君(0点)
生徒の能力順位
を知りたいとき
問題ナシ(順位は課
題によって変わらな
いから).むしろ怖い
のは
が大きいとき
が高いのが
よい
Φとρ2 の違い
ポイント:
や
が大きいのは問題か?
だけが大きい例
課題A(易)
課題B(難)
1位:太郎君(95点)
2位:直美さん(90点)
3位:亮君(80点)
1位:太郎君(55点)
2位:直美さん(50点)
3位:亮君(45点)
…
…
55位:瑛太君(35点)
56位:拓也君(30点)
55位:瑛太君(5点)
56位:拓也君(0点)
生徒の絶対得点
(e.g., 60点)で
選抜したいとき
大問題(選んだ課題
により60点の意味が
違ってくるから).
が高いのが
よい
2種類の信頼性係数:まとめ
受験者の相対順位に興味がある場合は
の大きさをみる必要性
– 多くの場合はこちらが重要
– 相関に興味がある場合もこちら
– Cronbachのα係数は p x I デザインにおけるこの
係数と等しい
受験者の絶対得点に興味がある場合(e.g.,
standard settingなど)は, の大きさをみる
必要性
CAPの結果
Variance
components
G study
D study
Estimates Estimates
nr=3, nt=5
Persons (p)
0.298
0.298
Tasks (t)
0.092
0.018
Raters (r)
0.003
0.001
pt
0.493
0.099
pr
0.000
0.000
tr
0.002
0.000
ptr + e
0.148
0.010
Eρ2 = 0.73
Φ= 0.70
3 人の評価者,5
つの課題の平均値
を使うと信頼性は
まずます
(ユニバースから別
の3人の評価者,5
つの課題を選んで
きても結果は安定)
仮想のデザインに対する信頼性の推定
評定者や課題を増やす(減らす)と信頼性は
どうなるのか?
nt や nr に値を
代入することで,
推定が可能
Efficient なテスト
設計が可能!
CAPの場合
Brennan (1996) より
評定者の数を増やしても信
頼性はそんなに増えない:も
ともと
が小さいので
課題が増えると信頼性はかなり改
善:もともと
が大きいので
D study より分かったこと
3人の評定者,5つの課題である程度は信頼
性が保たれている
課題を増やすことでより信頼性を高めること
が可能.
評定者を増やしてもそれほど信頼性は高まら
ない(コストによっては,課題を増やし,評定
者を減らすという選択もよい).
一般化可能性理論:その他1
Nested デザイン
– G study, D study のどちらでも適用可能
– Nestedデザインでも基本はBalanced design
アンバランスドデザインの場合
– 分散成分の推定が難しい ⇒ できれば避けたい
– 最尤法 (Searle et al., 1992),もしくは
Analogous ANOVA (Brennan, 2001) を用いる
– 多変量一般化可能性理論(後述)を用いる
一般化可能性理論:その他2
多変量一般化可能性理論
– 一般化可能性理論の拡張
– 固定因子 (fixed factor ) にあたる部分を多変量
の従属変数として一般化可能性理論を適用
– 具体例:山森(2003)
※注:複数の課題があっても,
random factorであるならば,
これらを従属変数にしてはダメ
– 従属変数ごとに各相の水準数が違ってよい:単
変量だとアンバランスドなデザインも,多変量だと
バランスドデザインになるときがあり
一般化可能性理論:その他3
分散成分の標準誤差 (see Brennan, 2001)
– 水準数が少ない相で得られた分散成分は精度が低い可
能性
– 相の水準数を増やすことで標準誤差は減る
ソフトウェア
– G study: SASのvarcomp, mixed
– D study: SASマクロ -> http://flash.lakeheadu.ca/
~boconno2/gtheory/gtheory.html
– GENOVA (Brennan): http://www.education.uiowa.
edu/casma/GenovaPrograms.htm
Contents
一般化可能性理論とは
パフォーマンス評価に対する一般化可能性
理論研究の現状
パフォーマンス評価実施者の陥穽
「評定の客観性・一貫性が保たれなくてはい
けないから,ルーブリックをしっかりと作成し,
評定者も複数人確保しよう!」
「評定者間の相関 (inter-rater reliability) が
高ければ問題がないだろう」
「高い一般化可能性係数が得られた.これで
万事問題なし!」
もちろん,これらは大切なこと.しかし…
むしろ非常に大きい
のは,人と課題の交
互作用!
Brennan (1996) より先行研
究のまとめ
近年の先行研究を見る限り,評定者
によるばらつきはほとんどない!
CAPの場合:reprise
Brennan (1996) より
評定者の数を増やしても信
頼性はそんなに増えない:も
ともと
が小さいので
評定者より課題の数
を増やすことが大
切!(時間的制約が
あるとはいえ)
課題が増えると信頼性はかなり改
善:もともと
が大きいので
Inter-rater reliability神話の危険性
基本的に,ある課題に対して2人の評定者が
評定したときの相関係数
– 非常によく使われる指標
しかし…
複数の課題間の分
散をまったく考慮に
入れていない
p x t の成分が真値
と交絡し,信頼性を
過大推定してしまう
(Brennan, 2000)
パフォーマンス評価の大きな問題点を見逃す可能性
課題・評定者以外の相の効果
Ruiz-Primo et al. (1993)
Source VC (%) Source
p
0.07(4) ro
r
0.00
to
t
0.00
prt
o
0.01(1) pro
pr
0.01(1) pto
pt
0.63(32) rto
po
0.00
prto + e
rt
0.00
Eρ2 = 0.04, Φ = 0.04
VC (%)
0.00
0.00
0.00
0.01
1.16(59)
0.00
0.08(4)
o = occasion
= 時間間隔
(5ヶ月)
生徒が2回目の時
には課題ごとにス
トラテジーを変え
ている可能性
信頼性と妥当性は別
村山 (2008):教師による生徒の意欲の評価
– 複数の評定者を使用
– 評定者間一貫性は非常に高い
– 妥当性(生徒の自己報告と教師の評定との相関)
は非常に低い: r = 0.00 – 0.15 (!)
まとめ
パフォーマンス評価を実施すると,つい「評定者」の相
だけに目が向きがちである
– もちろんそれは大切
しかし,これまでの研究でもっとも問題になっているの
は p x t の成分(選ばれた課題によって受験者の得
手・不得手が顕著に違う)
– 対策:完全な対策は存在しない
課題を増やす:時間的制約のコストがかかる
出題領域を狭くする:測定できる能力も狭くなってしまう
他の相(occasionなど)や妥当性にも気を配る必要性
文献 1
一般化可能性理論
– オリジナル
Cronbach, Gleser, Nanda, & Rajaratnam (1972). The
dependability of behavioral measurements.
– 初学者用文献
Brennan (1992). Elements of geeneralizability theory (rev.
ed.).
Shavelson & Webb (1991). Generalizability theory: A primer.
– より包括的な文献
Brennan (2001). Generalizability theory.
– 日本語の文献
現代テスト理論(池田央)
教育測定学(Linn著,池田央ら監訳) 第3章
文献 2
一般化可能性理論のパフォーマンス評価への適用
– レビュー
Brennan (1996). Generalizability of performance assessments.
In Phillips (Ed.). Technical issues in performance assessments.
Cronbach et al. (1997). Generalizability analysis for performance
assessments of student achievement or school effectiveness.
Educational and Psychological Measurement.
– 事例
Ruiz-Primo et al. (1993). On the stability of performance
assessments. Journal of Educational Measurement.
Shavelson et al. (1993). Sampling variability of performance
assessments. Journal of Educational Measurement.
Webb et al. (2000). The dependability and interchangeability of
assessment methods in science. Applied Measurement in
Education.