項目応答理論とニューラルテスト理論の比較研究 - 大学入試センター

項目応答理論とニューラルテスト理論の比較研究
A comparison between item response theory and neural test theory
山川
修*
荘島 宏二郎**
Osamu Yamakawa*
Kojiro Shojima**
福井県立大学 学術教養センター*
大学入試センター 研究開発部**
Center for Arts and Sciences, Fukui Prefectural University*
The National Center for University Entrance Examinations**
<あらまし> 新入生のコンピュータ利用能力をいくつかの段階に分け,その段階に応じた
教育を提供するために,コンピュータ利用能力テストの反応データを項目応答理論(IRT)
とニューラルテスト理論(NTT)で分析した.本稿では,IRT と NTT の特徴の違いを分析
結果から示し,今後の NTT 利用の可能性について議論を行う.
<キーワード> 項目応答理論 ニューラルテスト理論
1. はじめに
高校における教科「情報」の必修化に伴い,
大学初年時におけるコンピュータ利用教育の
見直しが各大学で計画されている.福井県立
大学でも 2004 年度から項目応答理論(Item
Response Theory : IRT)を使い大学新入生の
コンピュータ利用能力を測定する研究を続け
てきた(山川ら 2006,2007a).さらに,IRT
を使い推定した学生のコンピュータ利用能力
(スコア)に適した教材を選択し提供するた
めの指標の開発を行っている(山川ら 2007b).
これら一連の研究の目的は,新入生のコンピ
ュータ利用能力をいくつかの段階に分け,そ
の段階に応じた教育を提供することである.
近年,テスト受験者を IRT のような連続尺
度に位置づけるのではなく潜在的な順序尺度
に位置づけるためのニューラルテスト理論
(Neural Test Theory : NTT)が開発された
(Shojima 2007a, 2007b).上述したコンピ
ュータ利用能力テストにおいては,厳密な連
続尺度は必要ではなく,ある程度段階分けで
きれば良いので,NTT が利用できないかと考
え,各大学の授業等,比較的小規模な被験者
を対象にテストを行う場合,IRT の連続尺度
による位置づけと,NTT による潜在的な順序
尺度による位置づけが,どのように違うのか
を調べた.
教育測定 テスト
2.
項目応答理論(IRT)
項目応答理論(IRT)は,項目反応理論と
も呼ばれるが,テストの難易度に依存しない
連続尺度で被験者の能力を推定したり,テス
ト項目の特徴を捉えたりするための統計理論
である(Lord 1952,芝 1991).IRT では,
等化という手順を踏むことにより,一部のテ
スト項目を変更して別の集団にテストを実施
した場合でも,共通の尺度上で被験者の能力
を推定することが可能になる.そのため,今
回のように,継続的に大学入学生の利用能力
を測定する場合,適していると考えられる.
IRT において,テスト項目に対する被験者
の能力値(スコア)と正答確率の関係を表現
するために,様々なモデル(項目特性関数:
ICC)が存在するが,本研究では,2母数ロ
ジスティックモデルを採用した.2母数ロジ
スティックモデルにおける ICC は以下のよ
うに表現できる.
Pj (θ ) =
1
1 + exp(− Da j (θ − b j ))
ここで, Pj (θ ) は項目 j に正答する確率, θ
は被験者特性値(能力),exp( ) は指数関数,
D は定数1.7である.また a j と b j は項目 j を
特徴づける母数で,a j は識別力を示し,b j は
困難度を表す.
NTT は統計的学習理論の一つであるが,学習
1
は被験者の反応データを使って参照ベクトル
を更新することにより実施される.学習は一
0.8
正答確率
a=0.7,b= -1.2
定の基準の下に終了させるが,学習後の参照
0.6
ベクトルの(項目)成分を潜在ランクの順番
0.4
a=0.4,
b=0
0.2
0
に並べたものを,その項目の Item Reference
a=1.2, b=1.5
Profile (IRP)と呼び,これは IRT の ICC に相
当する.NTT の特徴の一つは IRP が ICC と
比べると多様であることである.
・4
・2
0
2
4
特性値
図1 識別力と困難度が違う場合の ICC
4.
テスト結果の分析
2006 年度の新入生に対してコンピュータ
利用教育の最初と最後に,学生のコンピュー
タ利用能力を測るため,選択式の 30 問から
識別力a と困難度b が違う3種類の項目特性曲
なるテストを実施した.ここでは,利用教育
線の例を図1に示す.困難度が大きい場合,曲線
前を p テスト(プレースメントテスト),利
は右にずれ,識別力が大きい場合,曲線の中央付
用教育後を a テストと(アチーブメントテス
近の傾きは急になる.
ト)呼ぶことにする.
この p テストと a テストの反応データ(332
ニューラルテスト理論(NTT)
ニューラルテスト理論(NTT)は順序尺度
を 仮 定 し た テ ス ト 理 論 で あ り ( Shojima
2007a, 2007b),ニューラルネットワークモ
デルの一つである自己組織化マップ
(Self-Organizing Map : SOM ; Kohonen
1995)のメカニズムを応用している.NTT
ではランク数が Q である潜在的な順序尺度
を仮定し, Q 個のランクを,それぞれ,ノー
ド R1 , L , R q とし, R q > L > R1 の順で能力が
高いとする.各ノードは n 次元の参照ベクト
ル(Reference Vector)を持つ.ここで n は
テストの項目数である.潜在ランクと参照ベ
クトルの関係を図2に示す.
人分)を IRT と NTT を使って分析した.IRT
の分析には BILOG-MG3 を利用した.また,
NTT の分析には EasyNTT (熊谷 2007)を利
用し,10 ランクに分類した.
IRP と ICC のサンプルとして項目 9,18.20
の例を図3に示す.
1
項目20-IRP
項目20-ICC
項目18-IRP
項目18-ICC
項目09-IRP
項目09-ICC
0.8
正解確率
3.
0.6
0.4
0.2
0
1
2
3
4
5
6
7
8
9
10
潜在ランク
図3 IRP と ICC の比較
ICC は連続尺度上の関数であるが,図3では
IRP との比較のためスコア(シータ)を等間
隔に区切りランク付けをしている.IRT によ
り推定された ICC と NTT により学習された
IRP は,傾向は比較的似ている.ICC では 2
母数ロジスティックモデルを採用しているた
め単調増加になっているが,IRP では潜在ラ
図2
潜在ランクと参照ベクトル
ンクが上位でも正解確率が低くなる(項目
09)など関数の自由度が高いことがわかる.
たグラフである.中心の点は当該ランクにお
次に,IRT により推定したスコア(シータ)
けるスコアの平均値であり,エラー棒はその
分布と NTT により分類した潜在ランク分布
標準偏差である.別計算とは,p テストと a
を図4と図5にそれぞれ示す.
テストのデータを別々に計算させたものであ
り,同一計算とは,2つのテストのデータを
割合
0.25
混ぜて計算させたものである. また,図7に
0.20
a テストから算出された a ランクと a スコア
0.15
の関係を示す.
0.10
700
0.05
250
300
350
400
450
500
550
600
650
700
750
スコア
pスコア
0.00
図4 IRT によるスコア(シータ)分布
650
別計算
600
同一計算
550
500
450
400
350
0.18
300
0
0.16
2
4
pランク
6
8
10
割合
0.14
図6
0.12
p テストのスコアとランクの関係
0.1
700
0.08
0.06
1
2
3
4
5
6
7
8
9
10
潜在ランク
図5 NTT による潜在ランク分布
aスコア
0.04
650
別計算
600
同一計算
550
500
450
400
350
IRT によるスコア分布は正規分布に,NTT
300
0
による潜在ランク分布は一様分布に近い分布
になっている.つまり,NTT は IRT と比べる
図7
2
4
aランク
6
8
10
a テストのスコアとランクの関係
と,スコア分布の密度が高いところでは狭い
スコア間隔でランクを設定し,低いところで
これらの図より次のことがいえる.
は広い間隔でランクを設定していることにな
る.
これまでの分析では,p テストと a テスト
(1) 同一計算の場合は,両テストとも逆S字
カーブになっており,スコア分布の密度が
を一まとめにして NTT の分析を実施したが,
高いところで,細かく順序付けている.
NTT に前述のような性質があると,被験者の
(2) 別計算の場合,同一計算と比べて,各ラ
スコア分布が異なっている場合,潜在ランク
ンクのスコア範囲がずれており, p テスト
への分け方も異なることが予想される.その
と a テストでは,各ランクのスコア範囲が
点を確かめるため,別々に p テストと a テス
ずれる方向が逆である.
トにおける被験者の反応データを NTT に与
えて学習させた場合と,一緒に学習させた場
最初の項目は,図4と図5からの当然の帰
合で,個々の被験者の潜在ランクにどのよう
結として理解される.すなわち,正規分布に
な違いが出るかを調べた.
なっているスコア分布と,一様分布的なラン
図6は,p テストのデータから NTT により
ク分布との対応をとるためには,密度が高い
算出されたランク(p ランク)と IRT により
中心部がより細かくランク付けされなければ
算出されたスコア(p スコア)の関係を示し
ならないためである.
2つ目の項目の理由を調べるために,テス
ト毎のスコア分布を図8に示す.
NTT を経年的に運用する難しさが予想され
るので,今後の研究が望まれる.
NTT は,IRT に比べて,まだよくその性質
0.35
0.25
割合
が分かっていないため,現実の運用にはまだ
pスコア
aスコア
p+aスコア
0.30
まだ困難が生じるであろう.しかしながら,
0.20
項目の特徴を探索的にとらえるためには,
0.15
IRT より豊かな表現力がある.今後,状況を
0.10
考慮した IRT と NTT の使い分けが起こって
0.05
いくことが考えられる.
0.00
250
300
350
400
450
500
550
600
650
700
750
スコア
図8
テスト毎のスコア(シータ)分布
p テストはコンピュータ利用教育前に実施
謝 辞
本研究の一部は,科学研究費補助金,基盤研
究(C)(課題番号 18500716),基盤研究(B)
(課題番号 18300290)の助成を受けている.
し,a テストは利用教育後に実施しているた
め,p テストのスコア(p スコア)分布より a
分けしたことになるので,各ランクのスコア
参考文献
熊谷龍一 (2007) EasyNTT.
(http://irtanalysis.main.jp/).
Lord, F. M.(1952)A theory of test scores,
Psychometric Monograph, No.7.
芝 祐順 編(1991)項目反応理論,東京大学
出版会,東京.
範囲が項目3のように逆にずれることになる.
Shojima, K. (2007a) Neural test theory for
テストのスコア(a スコア)分布の方が,右
にずれている.同一計算においては,図8の
p+a スコア分布に対して NTT を使ってラン
ク分けしたことになり,別計算においては p
スコア分布,a スコア分布をそれぞれランク
rank-ordered response data, 日本教育
5.
まとめと考察
大学初年時のコンピュータ利用能力を判断
工学会第 23 回全国大会講演論文集,
pp.645-646.
するには,順序尺度によるランク分けで十分
Shojima, K. (2007b) Neural test theory,
ではないかと考え, NTT による尺度付けを
DNC Research Note, 07-02.
試みた.従来から実施してきた IRT による
Shojima, K. (2007c) Equating tests under
連続尺度と比較したところ,得点密度が高い
neural test theory, DNC Research
受験者をより細かく順序付け,潜在ランク分
Note, 07-10.
布が一様分布に近くなる NTT の特徴がハッ
山川 修, 田中武之,菊沢正裕(2006)項目
キリと表れた.人間が外界を認識する際,刺
応答理論を利用した能力別編成クラス
激が多い部分をより細かく分類する特徴があ
の効果測定,日本教育工学会第 22 回全
るが,NTT はニューラルネットワークモデル
国大会講演論文集,pp.975-976.
が基礎にあるので,人間のこうした認識の特
徴を備えていると考えることもできる.
NTT では異なった得点分布の反応データ
Yamakawa,O., Kikusawa,M., Tanaka,T.,
(2007a)
Ability Measurement in
Computer Literacy using the Item
から等化を行い同一基準でランク付けを行う
Response Theory for Adaptive
手法も開発されている( Shojima 2007c).
Learning, Proceedings of E-Learn
したがって,潜在ランク分布の変化を見るこ
とで,当該集団の学力の変化を追跡すること
2007, pp.549-554.
山川 修,菊沢正裕,田中武之(2007b)項目
ができる.ただし,等化を行うことによる分
応答理論を使った学生の能力推定に対
布の変化,解釈上の問題,経験の不足など,
応する教材選択手法の開発,第4回
WebCT 研究会予稿集,pp.39-42.