ニューラルテスト理論による大問形式の英語読解問題の

潜在ランク理論に基づく
コンピュータアダプティブテスト
○木村
哲夫*,**, 永岡慶三**
*新潟青陵大学看護福祉心理学部, **早稲田大学大学院人間科学研究科
日本テスト学会第9回大会
2011年9月11日
2
CAT for Everyone
MOTTO
&
Happy CAT
3
Outline
1. 本研究の目的
2. CATの根源？
3. CATアルゴリズム
4. LRT－CATアルゴリズムの提案
5. 今後の研究の方向性
4
本研究の目的
潜在ランク理論（latent rank theory, LRT）
に基づくCATアルゴリズムの提案
今後の研究の方向性を示す
本研究において、LRTはニューラルテスト理論（neural
test theory, NTT: Shojima, 2007）のことをさす。
5
CATの根源
Paper-Pencil Test
Computer Assisted Test
Computer Adaptive Test
コンピュータを利用したテスト実施の個別化と効率化
① 受験者の能力に合った問題の出
題
② 時間短縮と測定精度の向上
Adaptive
Test
Self-scoring flexilevel test (Lord, 1971)
Binet’s IQ test (Binet’s & Simon, 1905)
6
Flexilevel Test (Lord,1971)
The middle difficulty item, number 11 in difficulty-order
① ②
①
② ③
③ ④
④
1. A slightly easier item, number 10
in difficulty-order
①
① ②
② ③
③ ④④
1. A slightly harder item, number 12
in difficulty-order
①
① ②
② ③③ ④④
2. A slightly easier item, number 9 in 2. A slightly harder item, number 13
difficulty-order
in difficulty-order
①
①
① ②
② ③③ ④④
① ②
② ③
③ ④
④
3.
3.
・
・
・
10. The easiest item, number 1 in
difficulty-order
① ②
② ③
③ ④
④
・
・
・
10. The hardest item, number 21 in
difficulty-order
①
① ②② ③③ ④④
7
Computerized Implementation of a
Flexilevel Test and Its Comparison with
a Bayesian Computerized Adaptive Test
(DeAyala & Koch,1986)
シミュレーションデータにより、flexilevel CATが、ベイ
ズ推定法に基づくIRT-CATの結果と比較して遜色ないこ
とを示す。
IRTに基づき項目特性を求められたアイテムバンクを用
意しなくてもflexilevel CATは実行可能であり、教室環境
で有効な方法であることを示唆。
8
Binet’s IQ test (Binet’s & Simon,1905)
The First Adaptive Test
9
Stratified adaptive test (Weiss,1973)
10
CAT-Pharmacology (Halktis,1993)
11
LRT－CATアルゴリズムの提案(前提)
LRTは順序尺度上にテストを標準化する理論
項目の特性は項目参照プロフィル(item reference profile,
IRP)で表されるが、これはIRTの場合(項目特性曲線を描
くこと)と似ているところが多い。
受験者の特性を、一義的に能力推定値をランクとしてと
らえるだけでなく（LRTで受験者の潜在ランクを順序尺
度上に推定することは、IRTで潜在能力を連続変数上の
一つの値で推定することと同義である）、ランクメン
バーシッププロファイル(rank membership profile, RMP)
として多義的に表現できる。
12
LRTの項目特性のとらえ方
項目参照プロファイル(IRP)
1.0
0.8
0.8
Probability
Probability
1.0
0.6
0.4
0.2
0.0
2
3
4
Latent Rank
5
1.0
0.6
0.4
0.2
0.0
1
Vg30
Vg03
Probability
Vg01
1
2
3
4
Latent Rank
5
0.8
0.6
0.4
0.2
0.0
1
2
3
4
5
Latent Rank
プレイスメントテストの分析：木村 (2009a)
13
LRTの受験者能力のとらえ方
ランク・メンバーシップ・プロファイル(RMP)
受験者61
受験者43
1.0
1.0
0.8
0.8
0.8
0.6
0.4
0.2
0.0
1
2
3
4
Latent Rank
5
Probability
1.0
Probability
Probability
受験者37
0.6
0.4
0.2
0.0
0.6
0.4
0.2
0.0
1
2
3
4
Latent Rank
5
1
2
3
4
5
Latent Rank
プレイスメントテストの分析：木村 (2009a)
RMPは、受検者や先生にフィードバックすべき教育診断情
報として活用することができる。(植野・荘島, 2010)
14
LRT－CATアルゴリズムの提案
中央のランクの項目を中心に各ランクに所属する項目を
１つずつ５項目選び実施
初期暫定RMPの算出
推定ランク±１の範囲で
暫定RMPとIRPの差分ベクトルの積和平均が
最小となるものを選択し実施
暫定RMPの算出
YES
終了
終了条件を
満たす？
NO
15
LRT－CATアルゴリズムの提案
How to start
中央のランクの項目を中心に各ランクに所属する項目を
１つずつ５項目選び実施
多様なランクに所属する
項目をTestlet として実施
このTestlet の結果を受験
者の初期RMPとする
16
LRT－CATアルゴリズムの提案
How to select the next item
推定ランク±１の範囲で
暫定RMPとIRPの差分ベクトルの積和平均が
最小となるものを選択し実施
IRP
ItemID
R01
Item001
0.27 0.41 0.59 0.70 0.75
Item002
0.42 0.47 0.58 0.72 0.82
Item003
Item004
0.24 0.27 0.36 0.49 0.60
0.28 0.32 0.42 0.56 0.66
Item005
0.50 0.56 0.66 0.75 0.81
･･･
Item200
･･･
R02
･･･
R03
･･･
R04
･･･
R05
･･･
0.73 0.81 0.89 0.94 0.95
17
LRT－CATアルゴリズムの提案
How to select the next item
推定ランク±１の範囲で
暫定RMPとIRPの差分ベクトルの積和平均が
最小となるものを選択し実施
IRP
D01
D02
R05
ItemID
Item001
0.27 0.41 0.59 0.70 0.75
Item001
0.14 0.18
Item002
0.42 0.47 0.58 0.72 0.82
Item002
0.05
Item003
Item003
0.04 0.09 0.13
Item004
0.24 0.27 0.36 0.49 0.60
0.28 0.32 0.42 0.56 0.66
Item004
0.04 0.10 0.13 0.10
Item005
0.50 0.56 0.66 0.75 0.81
Item005
0.06 0.10 0.09 0.06
･･･
････････････
0.08 0.08 0.05 0.01
Item200
･･･
･･･
R04
IRPの差分ベクトル
R01
･･･
R03
D04
ItemID
･･･
R02
D03
･･･
･･･
0.73 0.81 0.89 0.94 0.95
Item200
D01
D02
D03
D04
0.11 0.04
0.11 0.14 0.10
0.11
18
LRT－CATアルゴリズムの提案
How to select the next item
推定ランク±１の範囲で
暫定RMPとIRPの差分ベクトルの積和平均が
最小となるものを選択し実施
IRPの差分ベクトル
① R01~ R04 と
D01~D04 の積和
② R02~ R05 と
D01~D04 の積和
①と②の平均が最
小になるものを次
の項目として選択
ItemID
D01
D02
D03
D04
Item001
0.14 0.18
Item002
0.05
Item003
0.04 0.09 0.13
Item004
0.04 0.10 0.13 0.10
Item005
0.06 0.10 0.09 0.06
･･･
････････････
0.08 0.08 0.05 0.01
Item200
0.11 0.04
0.11 0.14 0.10
0.11
19
LRT－CATアルゴリズムの提案
How to select the next item
推定ランク±１の範囲で
暫定RMPとIRPの差分ベクトルの積和平均が
最小となるものを選択し実施
Van der Linden (1998)の中に出てくるMaximum Expected Posterior Weighted
Information という方法に相当し、おそらく、CATの初期（RMPなだらか）に
は、全般に識別力が高いIRPを持つ項目が選択され、CAT終期（RMPがとがっ
てくる）には、局所的に（受験者の暫定ランクの付近で）急峻なIRPを持つ項目
が選択されると思われる（荘島, personal communication, May 9, 2010）。
20
LRT－CATアルゴリズムの提案
How to end
① 暫定RMPの変化が一定値以下になった場合
② SEが一定以下の値になった場合
③ 実施項目数が一定数に達した場合
これらの条件を組み合わせてどのような条件でCATを終了させるのが最適か
は、シミュレーションによって確認することが可能である。
90～95%以上の受験者が終了条件に達する項目数を割り出し、またシミュレー
ションの結果、90～95%以上が真値とのずれが1ランク以内に収まる項目数を割
り出し、全員にその項目数を受験させるというのが現実的であろう。
21
今後の研究の方向性
LRTに基づき分析した英語テストのアイテムバンク（木
村・永岡, 2010）の一部を使い、LRT-CATを実施する場
合に、何項目で終了させるかについて、シミュレーショ
ンデータから探る。
Moodle上でLRTに基づくCATを実行するモジュール（秋
山・木村・荘島, 2011)により、実際にLRT-CATを実施
し、終了時の測定誤差やRMPの変化がどの程度であった
か確認する。
項目選択条件に改良を加え、時間短縮と測定精度の向上
だけでなく、受験者の自己効力感をそがずに、学習に対
するモチベーションを維持できる工夫をする。
22
今後の研究の方向性
項目選択方法については、シミュレーションによる検討
が必要（今回の方法はIRTで言えば、bパラメータについ
ては大まかに、aパラメータを詳細に吟味したものといえ
る）。
「暫定RMPとIRPの積和」から困難度および情報量を
重視した選択方法、単純に推定ランクとIRP指標βを使
う方法、これらを今回の方法と組み合わせた方法など
と比較する。
今回の方法で、各項目の使用頻度はどうだったのか検討
し、アイテムバンクをどのように拡充するか？
23
引用文献
秋山實・木村哲夫・荘島宏二郎(2011) LRTモデルに基づくCATの開発とシミュレーションに
よる特性解析．日本テスト学会第9回大会発表論文抄録集．
Binet, A., & Simon, Th. A. (1905). Méthode nouvelle pour le diagnostic du niveau intellectuel
des anormaux. L'Année Psychologique, 11, 191-244.
DeAyala, R. J. & Koch, W. R. (1986). A Computerized Implementation of a Flexilevel Test and
Its Comparison with a Bayesian Computerized Adaptive Test. (ERIC, ED269437).
Halkitis, P. N. (1993). A computer-adaptive testing algorithm. Rasch Measurement
Transactions 6:4, 245-5.
木村哲夫・永岡慶三（2010）Moodleによる小規模ＣＡＴ構築に向けて１：アイテムバンクの
拡充．JSET26講演論文集, 343-344.
Kimura, T. & Ohnishi, A. (2011). Moodle UCAT beta version: a computer-adaptive test module
based on Rasch model. JALTCALL 2011.
Linacre, J. M. (1987). UCAT: a BASIC computer-adaptive testing program. MESA
Psychometric Laboratory. (ERIC ED 280 895).
Lord, F. M. (1971). The self-scoring flexilevel test. Journal of Educational Measurement, 8,
147-151.
Shojima, K. (2007). Neural test theory. DNC Research Note, 07-02.
Shojima, K. (2008-). Exametrika Ver. 4.3 [Computer software]. Retrieved July 7, 2010, from
http://www.rd.dnc.ac.jp/~shojima/exmk/index.htm
Van der Linden, W. J. (1998). Bayesian item selection criteria for adaptive testing.
Psychometrika, 63, 201-216.
24
ご静聴ありがとうございました。
• 謝辞：
▫ 本研究の一部は、科学研究費補助金基盤研究(C)(課題番号：
22520590）を利用して行われました。
▫ データ分析に関して、大学入試センター研究開発部の荘島
宏二郎准教授より多くの助言をいただきました。ここに心
より感謝申し上げます。
木村哲夫([email protected])

Download Report