Form A 得点分布

項目反応理論によるテストの作成
2009 07 30
東京工業大学 大学院社会理工学研究科
前川 眞一
1
なぜ IRT か





コアカリの進展具合は大学により異なる。
終了判定の時期が異なる。
同じ問題を使うことが出来ない。
異なる問題の間の比較を可能にする。
テスト理論の利用
2
複数のフォーム(版、問題冊子)

大規模試験 には複数のテストフォーム (form) が
存在する。

セキュリティのため。
 問題漏洩、緊急事態への対応


それぞれの form は異なる問題
で構成されている。
異なる form の得点は比較可能なのか?
3
異なるフォームの比較



一般的に、テストフォームに含まれる 問題が
異なる場合、テスト得点の比較は出来ない。
易しいテストの 50 点をとった人と、
難しいテストの 40 点をとった人は
どちらが良くできる人なのか?
テスト問題の難易度と、受験生の能力を分離し
て考える必要がある。
4
異なるフォームの比較

比較可能にするためには
フォーム間に共通な問題(項目)を入れる。
 統計的性質の分かっている問題を入れる。
 能力の等しいと考えられる集団に実施する。


大規模試験 ではフォームの間に共通の問題と
統計的性質の分かっている問題が入っている。
5
複数のフォーム

大規模試験 のフォームは、以下の2種類の問題か
ら構成されている。
統計的性質の分かっている問題
 新作問題


これらの項目に含まれる情報を利用して異なる
フォーム間の得点を比較可能に
なるようにしている。
6
日本の伝統的なテスト文化


年に一度、同一問題での試験の一斉実施
新作問題のみでの試験の実施
(プリテスト無し)





試験問題の公開
大問形式の利用 (小さな項目の寄せ集めではない)
問題作成とテスト編集の融合 (権威主義)
素点・配点の利用(0点と満点)
科挙の影響が大きい?
7
日本的テスト文化(理由)







年に一度、同一問題での試験の斉一実施
(同一問題でないと不公平)
新作問題のみでの試験の実施(プリテスト無し)
(たまたまプリテストを覚えていると得)
試験問題の公開
(情報公開?規制緩和?)
大問形式の利用
(多肢選択式で思考力を測る努力、細かいスペックの欠如?)
問題作成とテスト編集の融合
(権威主義、測定学への無関心)
素点・配点の利用(0点と満点)
(権威主義、測定学への無関心、尺度得点への不信感)
危機管理体制の不備
(資金的問題?)
8
世界標準?




独立項目 + 大問
比較可能な尺度得点を受験生へ
年に複数回、異なる問題での分散実施
コンピュータ化


何時でも何処でも
自由記述
9
テストの等化と尺度化



異なるテストフォームの得点を比較可能とする
作業を等化(equating)と呼ぶ。
テスト理論(test theory)と呼ばれる
統計的方法を用いる。
特に大規模試験 では、項目反応理論
(Item Response Theory, IRT)
と呼ばれるテスト理論が用いられている。
10
テスト理論


テスト理論は 20 世紀初頭から発達
古典的テスト理論(classical test theory)
X
=
T
+ E
観測される得点 = 真の得点 + 誤差
この部分だけほしい
11
項目反応理論(項目応答理論)
項目反応理論は 1950 年代から発達

テストを構成する項目の統計的性質に着目
主にアメリカ、オランダ、イスラエル

アジア諸国ではあまり利用されていない。

12
項目反応理論




項目の難易度と、受験生の能力の分離
全ての項目が共通にはかっている 1 次元の
能力値を θ で表す。
項目の特性を項目パラメタ a, b で表す。
能力値が θ の人が、項目パラメタ
を持つ項目 j に正答する確率を
と表し項目特性曲線と呼ぶ ICC or IRF。
Item Characteristic Curve, Item Response Function
13
原点と単位の不定性



θ の原点と単位は決まっていない。
どのように1次変換をしても良い。
ふつうは全受験生の θ の平均を 0、
標準偏差を 1 とする。
14
15
16
項目特性曲線
17
古典的項目統計量との関係
b
a
項目合計点相関
項目通過率
18
正答数得点とθの関係の例
θ
正答数
19
多値項目
20
21
22
項目パラメタが既知の場合
23
テスト特性曲線
項目パラメタが分かっている項目でテストを作ると
何が出来るか。
能力値が θ の人が p 個の項目からなるテストで取れると
考えられる得点(期待値)をテスト特性曲線 TCC と呼ぶ。
項目特性曲線を足し合わせたもの。
24
3項目からなるテストのテスト特性曲線
25
プール問題の項目特性曲線(例)
26
テスト(フォーム)特性曲線(例)
各フォームに
含まれる
項目特性曲線
の平均
27
フォーム間の比較(等化)
True Score
10
9
TCCA
TCCB
8
7
テスト A の 8 点は
テスト B の 5 点。
8 点でも 5 点でも
θ は 1.0 。
6
5
4
テスト A の 3 点は
テスト B の 2 点。
3 点でも 2 点でも
θ は -2.0 。
3
2
1
0
-4.0 -3.0 -2.0 -1.0
0.0
1.0
2.0
3.0
4.0
θ
28
29
複数のテスト
30
フォーム間の比較(等化)
True Score
10
9
TCCA
TCCB
8
7
テスト A の 8 点は
テスト B の 5 点。
8 点でも 5 点でも
θ は 1.0 。
6
5
4
テスト A の 3 点は
テスト B の 2 点。
3 点でも 2 点でも
θ は -2.0 。
3
2
1
0
-4.0 -3.0 -2.0 -1.0
0.0
1.0
2.0
3.0
4.0
θ
31
難易度の異なる複数のテスト
32
原点と単位の不定性




θ の原点と単位は決まっていない。
どのように1次変換をしても良い。
ふつうは全受験生の θ の平均を 0、
標準偏差を 1 とする。
異なるフォームごとに項目パラメタを推定する
と比較が出来ない。
33
項目バンク(項目プール)



item bank, item pool
統計的性質の分かっている項目の集合
良い問題を作るのは非常にむつかしい。
したがって、それらは公開せずに
蓄積し、再利用すべき。
34
項目バンクの作成




一度に全ての項目を同じ受験生に受けさせるこ
とは困難。
共通項目を含む小テストを複数作り、
共通項目の情報を利用して各フォームを繋いで
いく。
しかし、先ほどの不定性の問題が残る。
適切なデザインが必要。
35
テストのデザイン
36
アンカー項目の線形性
3.0
y = 0.8453x - 0.3501
R2 = 0.8671
2.0
0.50
y = 0.9234x
0.50
y = 0.9234x
1.0
0.25
0.25
0.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
-1.0
-2.0
0.00
0.00
0.25
0.50
-3.0
0.00
0.00
0.25
0.50
37
テストのデザイン 1
38
テストのデザイン 2
39
テストのデザイン 3
40
項目バンクの作成
1
2
3
4
5
テストA
テストB
テストC
テストD
テストE
テストF
41
項目バンクの作成
42
項目バンクの作成
43
項目バンクの作成
44
項目バンクの作成
45
尺度化の手順
46
尺度化の手順


項目パラメタの推定と等化
共通項目を用いて全ての項目パラメタを
比較可能とすること。
尺度得点の算出
計算される個人の得点に意味を持たせること。
この尺度得点なら、規準集団でどのくらいの位
置か?
47
尺度化:得点の意味


基準集団内の位置(順位)に基づく方法
点数を見れば、その人が基準集団の中で
どの位置にいるかが分かる。
偏差値の考え方。
特定の問題セットの正答率に基づく方法
点数を見れば、その人が、ある問題セットで
何点を取れるかが分かる。
48
正規偏差値



基準集団においてθが正規分布するように変換する。
θz=t(θ)
これを線形に変換して平均と標準偏差を決める。
x = s θz+ m = u(θ)
この変換を常に施す。
49
IRTに基づく段階評価
50
正規化変換の例
thetaZ_new
5
4
3
2
1
0
-5
-4
-3
-2
-1
thetaZ_new
0
1
2
3
4
-1
-2
-3
-4
-5
51
項目パラメタの推定と等化
◎
一次元性の確認をする。
①
両テストフォームの受験者の
項目反応データ(正解=1、不正解=0)から、
一括して項目パラメタ値を推定する。この際、
両テストフォームの尺度は、両フォームに共通
する項目に基づいて等化される。
②
①で推定した両フォームの項目パラメタ推
定値を、アンカー項目に基づいて基準集団の尺
度に等化する。
52
尺度得点の算出
③
②で基準集団に尺度等化された項目パラメ
タ推定値と項目反応データを用いて、フォーム
ごとに能力推定値(θ)を推定する。
④
③で推定された能力推定値(θ)を、
得点換算表θzに換算する。
⑤
④で換算されたθzを、次式により尺度得点
に換算する。
尺度得点=400+100θz
53
パラメタの推定
54
基本仮定 1
55
基本仮定 2
56
ICC or IRF
57
基本仮定 3
58
基本仮定 4
59
能力値パラメタ θ の推定
特定の項目反応パタンの同時確率(局所独立)
最尤解(最大尤度法、Maximum Likelihood Method)
尤度関数を最大とする θ を求める。
60
能力値パラメタ θ の推定 (ICC)

項目パラメタ
61
能力値パラメタ θ の推定(尤度)
尤度関数
対数尤度関数
62
能力値パラメタ θ の推定(最尤解)
対数尤度関数の最大値(関数の最適化)
対数尤度の一次微分が 0 の点
63
能力値パラメタ θ の推定(最尤解)
ICC の微分
対数尤度関数の一次微分が 0 の点
対数尤度 の微分
64
能力値パラメタ θ の推定(Bayes 解)
Bayes 推定法
事後分布 は 尤度関数 と 事前分布 の積に比例する。
事前分布
65
能力値パラメタ θ の推定(Bayes 解)
事前分布 N(0,1)
尤度関数
事後分布
積
66
能力値パラメタ θ の推定(Bayes 解)
67
能力値パラメタ θ の推定(別の例)
68
能力値パラメタ θ の推定(尤度)
尤度関数
対数尤度関数
69
能力値パラメタ θ の推定(最尤解)
対数尤度関数の最大値(関数の最適化)
対数尤度の一次微分が 0 の点
70
能力値パラメタ θ の推定(最尤解)
対数尤度関数の一次微分が 0 の点
ICC の微分
対数尤度 の微分
71
能力値パラメタ θ の推定(Bayes 解)
事前分布 N(0,1)
尤度関数
事後分布
積
72
能力値パラメタ θ の推定(Bayes 解)
73
項目パラメタの推定(同時)
74
項目パラメタの推定(周辺)
75
項目パラメタの推定(周辺)
76
EM
アルゴリズム
77
項目1のパラメタに関する
期待対数完全データ尤度関数
E ln m 1
b
a
78
項目1のパラメタに関する
期待対数完全データ尤度関数の等高線
a
b 79
項目2のパラメタに関する
期待対数完全データ尤度関数
E ln m 2
b
a
80
項目2のパラメタに関する
期待対数完全データ尤度関数の等高線
a
b
81
82
おわり
83