潜在ランク理論に基づく コンピュータアダプティブテスト ○木村 哲夫*,**, 永岡慶三** *新潟青陵大学看護福祉心理学部, **早稲田大学大学院人間科学研究科 日本テスト学会第9回大会 2011年9月11日 2 CAT for Everyone MOTTO & Happy CAT 3 Outline 1. 本研究の目的 2. CATの根源? 3. CATアルゴリズム 4. LRT-CATアルゴリズムの提案 5. 今後の研究の方向性 4 本研究の目的 潜在ランク理論(latent rank theory, LRT) に基づくCATアルゴリズムの提案 今後の研究の方向性を示す 本研究において、LRTはニューラルテスト理論(neural test theory, NTT: Shojima, 2007)のことをさす。 5 CATの根源 Paper-Pencil Test Computer Assisted Test Computer Adaptive Test コンピュータを利用したテスト実施の個別化と効率化 ① 受験者の能力に合った問題の出 題 ② 時間短縮と測定精度の向上 Adaptive Test Self-scoring flexilevel test (Lord, 1971) Binet’s IQ test (Binet’s & Simon, 1905) 6 Flexilevel Test (Lord,1971) The middle difficulty item, number 11 in difficulty-order ① ② ① ② ③ ③ ④ ④ 1. A slightly easier item, number 10 in difficulty-order ① ① ② ② ③ ③ ④④ 1. A slightly harder item, number 12 in difficulty-order ① ① ② ② ③③ ④④ 2. A slightly easier item, number 9 in 2. A slightly harder item, number 13 difficulty-order in difficulty-order ① ① ① ② ② ③③ ④④ ① ② ② ③ ③ ④ ④ 3. 3. ・ ・ ・ 10. The easiest item, number 1 in difficulty-order ① ② ② ③ ③ ④ ④ ・ ・ ・ 10. The hardest item, number 21 in difficulty-order ① ① ②② ③③ ④④ 7 Computerized Implementation of a Flexilevel Test and Its Comparison with a Bayesian Computerized Adaptive Test (DeAyala & Koch,1986) シミュレーションデータにより、flexilevel CATが、ベイ ズ推定法に基づくIRT-CATの結果と比較して遜色ないこ とを示す。 IRTに基づき項目特性を求められたアイテムバンクを用 意しなくてもflexilevel CATは実行可能であり、教室環境 で有効な方法であることを示唆。 8 Binet’s IQ test (Binet’s & Simon,1905) The First Adaptive Test 9 Stratified adaptive test (Weiss,1973) 10 CAT-Pharmacology (Halktis,1993) 11 LRT-CATアルゴリズムの提案(前提) LRTは順序尺度上にテストを標準化する理論 項目の特性は項目参照プロフィル(item reference profile, IRP)で表されるが、これはIRTの場合(項目特性曲線を描 くこと)と似ているところが多い。 受験者の特性を、一義的に能力推定値をランクとしてと らえるだけでなく(LRTで受験者の潜在ランクを順序尺 度上に推定することは、IRTで潜在能力を連続変数上の 一つの値で推定することと同義である)、ランクメン バーシッププロファイル(rank membership profile, RMP) として多義的に表現できる。 12 LRTの項目特性のとらえ方 項目参照プロファイル(IRP) 1.0 0.8 0.8 Probability Probability 1.0 0.6 0.4 0.2 0.0 2 3 4 Latent Rank 5 1.0 0.6 0.4 0.2 0.0 1 Vg30 Vg03 Probability Vg01 1 2 3 4 Latent Rank 5 0.8 0.6 0.4 0.2 0.0 1 2 3 4 5 Latent Rank プレイスメントテストの分析:木村 (2009a) 13 LRTの受験者能力のとらえ方 ランク・メンバーシップ・プロファイル(RMP) 受験者61 受験者43 1.0 1.0 0.8 0.8 0.8 0.6 0.4 0.2 0.0 1 2 3 4 Latent Rank 5 Probability 1.0 Probability Probability 受験者37 0.6 0.4 0.2 0.0 0.6 0.4 0.2 0.0 1 2 3 4 Latent Rank 5 1 2 3 4 5 Latent Rank プレイスメントテストの分析:木村 (2009a) RMPは、受検者や先生にフィードバックすべき教育診断情 報として活用することができる。(植野・荘島, 2010) 14 LRT-CATアルゴリズムの提案 中央のランクの項目を中心に各ランクに所属する項目を 1つずつ5項目選び実施 初期暫定RMPの算出 推定ランク±1の範囲で 暫定RMPとIRPの差分ベクトルの積和平均が 最小となるものを選択し実施 暫定RMPの算出 YES 終了 終了条件を 満たす? NO 15 LRT-CATアルゴリズムの提案 How to start 中央のランクの項目を中心に各ランクに所属する項目を 1つずつ5項目選び実施 多様なランクに所属する 項目をTestlet として実施 このTestlet の結果を受験 者の初期RMPとする 16 LRT-CATアルゴリズムの提案 How to select the next item 推定ランク±1の範囲で 暫定RMPとIRPの差分ベクトルの積和平均が 最小となるものを選択し実施 IRP ItemID R01 Item001 0.27 0.41 0.59 0.70 0.75 Item002 0.42 0.47 0.58 0.72 0.82 Item003 Item004 0.24 0.27 0.36 0.49 0.60 0.28 0.32 0.42 0.56 0.66 Item005 0.50 0.56 0.66 0.75 0.81 ・・・ Item200 ・・・ R02 ・・・ R03 ・・・ R04 ・・・ R05 ・・・ 0.73 0.81 0.89 0.94 0.95 17 LRT-CATアルゴリズムの提案 How to select the next item 推定ランク±1の範囲で 暫定RMPとIRPの差分ベクトルの積和平均が 最小となるものを選択し実施 IRP D01 D02 R05 ItemID Item001 0.27 0.41 0.59 0.70 0.75 Item001 0.14 0.18 Item002 0.42 0.47 0.58 0.72 0.82 Item002 0.05 Item003 Item003 0.04 0.09 0.13 Item004 0.24 0.27 0.36 0.49 0.60 0.28 0.32 0.42 0.56 0.66 Item004 0.04 0.10 0.13 0.10 Item005 0.50 0.56 0.66 0.75 0.81 Item005 0.06 0.10 0.09 0.06 ・・・ ・・・ ・・・ ・・・ ・・・ 0.08 0.08 0.05 0.01 Item200 ・・・ ・・・ R04 IRPの差分ベクトル R01 ・・・ R03 D04 ItemID ・・・ R02 D03 ・・・ ・・・ 0.73 0.81 0.89 0.94 0.95 Item200 D01 D02 D03 D04 0.11 0.04 0.11 0.14 0.10 0.11 18 LRT-CATアルゴリズムの提案 How to select the next item 推定ランク±1の範囲で 暫定RMPとIRPの差分ベクトルの積和平均が 最小となるものを選択し実施 IRPの差分ベクトル ① R01~ R04 と D01~D04 の積和 ② R02~ R05 と D01~D04 の積和 ①と②の平均が最 小になるものを次 の項目として選択 ItemID D01 D02 D03 D04 Item001 0.14 0.18 Item002 0.05 Item003 0.04 0.09 0.13 Item004 0.04 0.10 0.13 0.10 Item005 0.06 0.10 0.09 0.06 ・・・ ・・・ ・・・ ・・・ ・・・ 0.08 0.08 0.05 0.01 Item200 0.11 0.04 0.11 0.14 0.10 0.11 19 LRT-CATアルゴリズムの提案 How to select the next item 推定ランク±1の範囲で 暫定RMPとIRPの差分ベクトルの積和平均が 最小となるものを選択し実施 Van der Linden (1998)の中に出てくるMaximum Expected Posterior Weighted Information という方法に相当し、おそらく、CATの初期(RMPなだらか)に は、全般に識別力が高いIRPを持つ項目が選択され、CAT終期(RMPがとがっ てくる)には、局所的に(受験者の暫定ランクの付近で)急峻なIRPを持つ項目 が選択されると思われる(荘島, personal communication, May 9, 2010)。 20 LRT-CATアルゴリズムの提案 How to end ① 暫定RMPの変化が一定値以下になった場合 ② SEが一定以下の値になった場合 ③ 実施項目数が一定数に達した場合 これらの条件を組み合わせてどのような条件でCATを終了させるのが最適か は、シミュレーションによって確認することが可能である。 90~95%以上の受験者が終了条件に達する項目数を割り出し、またシミュレー ションの結果、90~95%以上が真値とのずれが1ランク以内に収まる項目数を割 り出し、全員にその項目数を受験させるというのが現実的であろう。 21 今後の研究の方向性 LRTに基づき分析した英語テストのアイテムバンク(木 村・永岡, 2010)の一部を使い、LRT-CATを実施する場 合に、何項目で終了させるかについて、シミュレーショ ンデータから探る。 Moodle上でLRTに基づくCATを実行するモジュール(秋 山・木村・荘島, 2011)により、実際にLRT-CATを実施 し、終了時の測定誤差やRMPの変化がどの程度であった か確認する。 項目選択条件に改良を加え、時間短縮と測定精度の向上 だけでなく、受験者の自己効力感をそがずに、学習に対 するモチベーションを維持できる工夫をする。 22 今後の研究の方向性 項目選択方法については、シミュレーションによる検討 が必要(今回の方法はIRTで言えば、bパラメータについ ては大まかに、aパラメータを詳細に吟味したものといえ る)。 「暫定RMPとIRPの積和」から困難度および情報量を 重視した選択方法、単純に推定ランクとIRP指標βを使 う方法、これらを今回の方法と組み合わせた方法など と比較する。 今回の方法で、各項目の使用頻度はどうだったのか検討 し、アイテムバンクをどのように拡充するか? 23 引用文献 秋山實・木村哲夫・荘島宏二郎(2011) LRTモデルに基づくCATの開発とシミュレーションに よる特性解析.日本テスト学会 第9回大会 発表論文抄録集. Binet, A., & Simon, Th. A. (1905). Méthode nouvelle pour le diagnostic du niveau intellectuel des anormaux. L'Année Psychologique, 11, 191-244. DeAyala, R. J. & Koch, W. R. (1986). A Computerized Implementation of a Flexilevel Test and Its Comparison with a Bayesian Computerized Adaptive Test. (ERIC, ED269437). Halkitis, P. N. (1993). A computer-adaptive testing algorithm. Rasch Measurement Transactions 6:4, 245-5. 木村哲夫・永岡慶三(2010)Moodleによる小規模CAT構築に向けて1:アイテムバンクの 拡充.JSET26講演論文集, 343-344. Kimura, T. & Ohnishi, A. (2011). Moodle UCAT beta version: a computer-adaptive test module based on Rasch model. JALTCALL 2011. Linacre, J. M. (1987). UCAT: a BASIC computer-adaptive testing program. MESA Psychometric Laboratory. (ERIC ED 280 895). Lord, F. M. (1971). The self-scoring flexilevel test. Journal of Educational Measurement, 8, 147-151. Shojima, K. (2007). Neural test theory. DNC Research Note, 07-02. Shojima, K. (2008-). Exametrika Ver. 4.3 [Computer software]. Retrieved July 7, 2010, from http://www.rd.dnc.ac.jp/~shojima/exmk/index.htm Van der Linden, W. J. (1998). Bayesian item selection criteria for adaptive testing. Psychometrika, 63, 201-216. 24 ご静聴ありがとうございました。 • 謝辞: ▫ 本研究の一部は、科学研究費補助金基盤研究(C)(課題番号: 22520590)を利用して行われました。 ▫ データ分析に関して、大学入試センター研究開発部の荘島 宏二郎准教授より多くの助言をいただきました。ここに心 より感謝申し上げます。 木村哲夫([email protected])
© Copyright 2024 ExpyDoc