言語テストにおける段階評価の実際:入試とプレイスメ

言語テストにおける段階評価の実際:
入試とプレイスメントテストのデータ処理
日本言語テスト学会第13回全国研究大会
2009年9月7日
新潟青陵大学
木村哲夫
2
発表の概要
段階評価とは?
なぜ段階評価なのか?
入試における段階評価
プレイスメントテストにおける段階評価
3
段階評価とは?
能力を順序尺度上(潜在ランク)で評価する評価
ニューラルテスト理論(neural test theory:NTT):自己組織
化マップ(self-organizing map, SOM)や生成トポグラフィッ
クマッピング(generative topographic mapping, GTM)のメ
カニズムを利用したノンパラメトリック・テスト理論
(Shojima, 2008)
古典的テスト理論(CTT)
間隔尺度
連続的
項目応答理論(IRT)
間隔尺度
連続的
ニューラルテスト理論(NTT)
順序尺度
段階的
4
なぜ段階評価か?:NTTの利点
テストはそもそも連続的に学力
①測定方法論的側 を評価できるほど信頼性が高い
測定道具ではなく、5~10段階
面
(解像度の問題) くらいにランク付けることがせ
いぜいである。
荘島(2008)
5
体重と体重計
• 現象(連続)
• 測定(高解像度)
3
荘島(2008)より引用
4
1
2
Weight
6
能力とテスト
• 現象(連続?)
• 測定(低信頼性・低解像度)
4
3
荘島(2008)より引用
2
1
Ability
7
なぜ段階評価か?:NTTの利点
連続尺度の負の側面
②教育社会学的側
面
•生徒たちは、日々、一点でも高
い得点をとるよう動機付けられ
ている。
•不安定な連続尺度の乱高下に一
喜一憂させるべきではない 。
順序尺度の正の側面
•段階評価は、連続尺度上での評
価よりも頑健
•継続して努力しないと上位ラン
クに進めない。
荘島(2008)
8
なぜ段階評価か?:NTTの利点
指導要録、通知票、調査書、
③教育現場の評価体 作品・レポート・実技テスト、
学力の文章表現など、教育現場
制の側面
で行われている評価体制は、順
序尺度に帰着する。
松宮・荘島(2008)
9
なぜ段階評価か?:NTTの利点
段階評価を導入すれことにより、
段階評価により区別される各能
力段階(潜在ランク)の特徴を、
Can-Do Chartとの関連で示すこ
④品質管理・アカウ
とが、連続尺度のもとで検討す
ンタビリティの側面 るよりも容易に行える。
テストから作成されたCan-Do
Chartはテストの説明資料・学力
達成への道標になる。
松宮・荘島(2009)
Shoujima(2009)
10
Continuous academic
ability evaluation scale
based on IRT or CTT
It is difficult to explain the
relationship between scores and
abilities because individual
abilities also change continuously
Graded evaluation
↓
Accountability
↓
Qualification test
For Qualifying Tests
Ordinal academic ability
evaluation scale based on
Neural Test Theory
Because the individual abilities also
change in stages, it is easy to explain
the relationship between scores and
abilities. This increases the test’s
accountability.
Shoujima(2009)より引用
11
項目分析手法とソフトウエア
項目分析手法
ソフトウエア
CTT
古典的テスト理論
TDAP (大友・中村・秋山)
IRT
1PLM(Rasch Model)
EasyEstimation,Easy
EstTheta (熊谷)
NTT
ニューラルテスト理論
neutet(橋本)
exametrica(荘島)
GNT
exametrica(荘島)
段階ニューラルテスト理論
※段階ニューラルテスト(graded neural test, GNT)モデル:多値の
順序データに対応するためのNTTの拡張モデル
12
入試データを段階評価にしたら
設問の種類
解答方法 項目数
配点
小計
会話応答
多肢選択
5
2
10
文法語彙
多肢選択
12
2
24
語句並び替え作文
多肢選択
4
4
16
長文内語句穴埋
多肢選択
10
2
20
長文読解
多肢選択
8
2
16
長文読解
正誤判断
14
1
14
合
53
計
100
•会話応答はリスニングではなくテキストを読む形式。
•多肢選択は作文を除き4択、作文は選択肢の語句を並び替え、2番目
と5番目を回答(片方正解は0点)。
•長文内語句穴埋と長文読解は、それぞれ2種類の文章からなる。
13
入試データを段階評価にしたら
ヒストグラム
60
50
40
頻 30
度
20
人 10
)
0
0
10
20
30
40
50
60
70
80
90
100
48.5
0.68
49
42
10.69
-0.075
0.014
19
79
249
(
基本統計量
平均
標準誤差
中央値
最頻値
標準偏差
尖度
歪度
最小
最大
標本数
データ区間(得点)
14
入試データを段階評価にしたら
通常の評価方法
素点をもとに、平均値と標準偏差
を調整、または中央値補正により、
他の試験科目とのバランスを取り
処理。
①すべての項目を2値データNTT
により処理。
②下位テスト(設問のタイプ)ごと
段階評価にした場合 に2値データNTTにより処理し、
その潜在ランクを段階NTT(GNT)
により、順序尺度として処理。
→今回は①により処理
15
入試データを段階評価にしたら
潜在ランク数(Q)を
いくつに分析すべき
か?
多い方が合否ボーダーを切りや
すいが、項目数と受験者数から、
分析の限界(弱順序配列を満たす
こと)がある。
素点合計と潜在ランクの相関(スピアマンの順位相関係数)
Q=10 Q=11 Q=12 Q=13 Q=14 Q=15 Q=16 Q=17 Q=18 Q=19
0.82 0.82 0.83 0.82 0.83 0.82 0.83 0.82 0.83 0.82
テスト適合度はランク数を増やしても大きく変わらないが、 RMPに基
づくテスト適合度はランク数を増やすにつれて下がる。今回はQ=10と
した場合の段階評価について、素点合計との差を見ることにする。
16
入試データを段階評価にしたら
順位相関0.82という 約67%の順位は一致しているが、
33%は順位が異なり、合否の判
ことは?
定が変わる。
ある学科で40人程度を入学させようとする場合
通常の評価方法
換算点順位37位まで44人合格
段階評価にした場合 潜在ランク10~8まで47人合格
17
入試データを段階評価にしたら
通常
NTT
通常
NTT
通常
NTT
通常
NTT
通常
NTT
1
2
2
2
5
6
7
7
10
10
12
12
14
14
17
17
22
22
22
22
22
29
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
29
32
32
37
37
45
45
55
17
37
45
14
17
28
32
37
37
37
37
45
51
55
10
10
10
10
10
10
10
10
9
9
9
8
8
8
8
8
8
8
8
8
8
8
88
93
96
22
51
51
55
62
67
67
73
73
73
73
73
82
88
93
112
29
32
55
8
8
8
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
6
6
6
62
62
73
73
88
101
101
101
101
7
32
45
62
67
67
73
82
82
82
88
101
112
6
6
6
6
6
6
6
6
6
5
5
5
5
5
5
5
5
5
5
5
5
5
112
117
118
135
55
55
55
62
73
93
101
112
118
118
124
130
136
17
37
51
67
82
5
5
5
5
4
4
4
4
4
4
4
4
4
4
4
4
4
3
3
3
3
3
18
入試データを段階評価にしたら
通常
NTT
通常
NTT
通常
NTT
45
10
55
8
32
6
45
10
88
8
7
5
55
10
93
8
32
5
45
9
96
8
17
3
45
8
22
7
37
3
51
8
29
6
19
入試データを段階評価にしたら
各項目の配点は恣意的に決められる。
通常の評価方法 識別力が高低にかかわらず、あらかじ
め 決められた配点によって重みづけら
れてしまう。
各項目がIRPによって重みづけられる。
段階評価(NTT)
の場合
識別力が高い項目に正答すればするほ
ど潜在ランクが高く 、誤答すればする
ほど潜在ランクが 低く推定される。
識別力が小さい項目に、いくら正答し
ようとも誤答しようとも、潜在ランク
の推定に影響を与えない。
20
入試データを段階評価にしたら
原因①:IRPが平坦な(識別
力が低い)項目がいくつか
あるため
文法語彙第10問のIRP
1.0
0.8
0.6
確
率 0.4
能力の低い受験生がたまた
ま正解しても、能力の高い
受験生がうっかり不正解し
ても潜在ランクの推定には
影響を与えない。
0.2
0.0
1 2 3 4 5 6 7 8 9 10
潜在ランク
21
入試データを段階評価にしたら
(10) Compared to Christmas in Western counties, in Japan it is very
much ( 15 ) oriented.
(A) commerce
(C) commercially
(B) commercial
(D) commercialized
段階評価の処理(NTT)
通常の処理(正解数)
26%
Top(55-79)
62%
39%
Middle(42-54)
38%
Bottom(19-41)
0%
A
44%
B
C(正解)
D
43%
32%
Bottom(1-3)
100%
57%
43%
Middle(4-6)
44%
50%
30%
Top (8-10)
0%
A
47%
50%
B
C(正解)
100%
D
22
入試データを段階評価にしたら
原因②:IRPが単調増加し
ない(識別力に問題がる)項
目がいくつかあるため
長文穴埋め第7問のIRP
1.0
0.8
0.6
確
率 0.4
中程度の能力の受験者には
魅力的に見える選択肢だ
が、低い能力の受験者は文
脈に関係なく自分の知って
いる語句の選択肢を選ん
で、偶然正解したのではな
いか?
0.2
0.0
1 2 3 4 5 6 7 8 9 10
潜在ランク
23
入試データを段階評価にしたら
What Vermont lacks in size, it makes up for in beauty. It is known as
the Green Mountain State. The name comes from the Green Mountains,
( which ) divide the state up and down the center. ( 32 ), the name
Vermont comes from the French "verd mont," meaning green mountain.
32
(A) As a result
(B) Finally
26%
63%
Middle(42-54)
25%
57%
Bottom(19-41)
25%
A
50%
B
Top (8-10)
C
D(正解)
24%
Bottom(1-3)
100%
63%
36%
Middle(4-6)
49%
0%
(D) In fact
段階評価の処理(NTT)
通常の処理(正解数)
Top(55-79)
(C) However
43%
15%
66%
0%
A
50%
B
C
D(正解)
100%
24
入試データを段階評価にしたら
恣意的な配点による素点に基づく通常の処理よりも、項
目のIRPによる重みづけによる段階評価による入試は
① 合否ボーダーラインを検討しやすいのではないか?
② テスト得点のみに頼った入試からの脱却につながるの
ではないか?
③ より優秀な学生を獲得できる可能性が高いのでは?
④ IRPやTRPを出題者にフィードバックすることで、次
年度問題作成において質の向上につながるのでは?
25
英語プレイスメントテスト作成の流れ
項目選択のための予備テスト
項
目
分
析
CTT:点双列相関係数(P.BIS)
IRT: 1PLMによる項目分析(ZL値)
NTT:項目参照プロファイル(IRP)
misfit の除去
Misfit除去の基準
Misfit Person:ZL <-1.96
Misfit Item:P.BIS<0.25
プレイスメントテスト完成
26
予備テストの項目数と受験者数
受験者数 項目数 準1級
文法語彙問題(vg)
会話問題(dlg)
説明文問題(mlg)
222
157
119
80
47
35
25
12
---
2級
準2級
3級
20
15
15
20
10
10
15
10
10
2級
準2級
3級
10
7
7
13
2
5
7
4
7
misfit
の除去
受験者数 項目数 準1級
文法語彙問題(vg)
会話問題(dlg)
説明文問題(mlg)
193
142
112
32
13
19
2
0
---
27
2段階モデルによる英語プレイスメント
テストの分析
① 2008 疑似クラス分け(N=75)
② 2009 N短大のクラス分け(N=125)
NTT(Q=10)により下位
テストの潜在ランク
(Rvg, Rdlg, Rmlg)を求め
S 潜在ランク(Rvg, Rdlg, Rmlg)
U の単純和(SUM)をもとに
M 5クラス分け
G
T
N
潜在ランク(Rvg, Rdlg, Rmlg)
を項目としてGNT(Q=5)
により5クラス分け
• NTT分析は予備テストで得られたIRPを固定し、①はneutet、②はexametrikaを使
LRT-SOMモデルにより、潜在ランクの目標分布を指定せずに行った。
• GNTの分析はexametrikaを使いLRT-SOMモデルにより、 潜在ランクの目標分布を
一様分布として行った。
28
SUMによるクラス分けと
GNTによるクラス分けの相関
受験者数
① 2008
② 2009
75
125
第1段
NTT
ランク数
10
第2段
GNT
ランク数
5
10
5
0.95
10
10
0.92
順位
相関係数
0.93
•①のGNTをQ=10とした場合は、弱順序配列を満たさなかった
•順位相関係数はスピアマンの順位相関係数
29
下位テストのテスト参照プロファイル(TRP)
① 2008 (N=75)
20
得点
得点
25
15
10
5
0
Vg
1 2 3 4 5 6 7 8 9 10
潜在ランク
12
10
8
6
4
2
0
Dlg
15
得点
30
10
5
0
1 2 3 4 5 6 7 8 9 10
潜在ランク
Mlg
1 2 3 4 5 6 7 8 9 10
潜在ランク
Vg
1 2 3 4 5 6 7 8 9 10
潜在ランク
12
10
8
6
4
2
0
Dlg
15
得点
30
25
20
15
10
5
0
得点
得点
② 2009(N=125)
10
5
0
1 2 3 4 5 6 7 8 9 10
潜在ランク
Mlg
1 2 3 4 5 6 7 8 9 10
潜在ランク
30
GNTのテスト参照プロファイル(TRP)
② 2008(N=125)
14
14
12
12
10
10
8
8
得点
得点
① 2008 (N=75)
6
4
6
4
2
2
0
1
2
3
4
潜在ランク
5
0
1
2
3
4
潜在ランク
5
31
下位テストの相対潜在ランク分布(LRD)と
相対ランク・メンバーシップ分布(RMD)
① 2008 (N=75)
0.4
0.3
0.2
0.1
0.5
相対LRD
0.4
相対RMD
相対度数
相対度数
0.5
相対LRD
0.3
0.2
0.1
0.0
Vg
2 3 4 5 6 7 8 9 10
0.3
0.2
0.0
1
Dlg
潜在ランク
相対RMD
0.1
0.0
1
相対LRD
0.4
相対RMD
相対度数
0.5
2 3 4 5 6 7 8 9 10
1
Mlg
潜在ランク
2 3 4 5 6 7 8 9 10
潜在ランク
② 2009(N=125)
0.3
0.2
0.1
0.3
0.2
1
2 3 4 5 6 7 8 9 10
潜在ランク
相対RMD
0.3
0.2
0.1
0.0
0.0
1
Dlg
相対LRD
0.4
相対RMD
0.1
0.0
0.5
相対LRD
0.4
相対RMD
相対度数
相対度数
0.4
Vg
0.5
相対LRD
相対度数
0.5
2 3 4 5 6 7 8 9 10
潜在ランク
1
Mlg
2 3 4 5 6 7 8 9 10
潜在ランク
32
GNTの相対潜在ランク分布(LRD)と
相対ランク・メンバーシップ分布(RMD)
② 2009(N=125)
0.30
0.30
0.24
0.24
0.18
相対LRD
相対RMD
0.12
相対度数
相対度数
① 2008 (N=75)
0.18
0.06
0.06
0.00
0.00
1
2
3
4
潜在ランク
5
相対LRD
相対RMD
0.12
1
2
3
4
潜在ランク
5
33
GNTの項目参照プロファイル(IRP)
① 2008 (N=75)
② 2009(N=125)
5.0
5.0
4.0
4.0
3.0
RVg
RDlg
RMlg
2.0
1.0
0.0
1
2
3
4
LATENT RANK
5
3.0
RVg
RDlg
RMlg
2.0
1.0
0.0
1
2
3
4
LATENT RANK
5
34
GNTの境界カテゴリ参照プロファイル(BCRP)
① 2008 (N=75)
1.0
1.0
RVg
0.8
1
1.0
RDlg
0.8
1
0.8
RMlg
1
0.6
2
0.6
2
0.6
2
0.4
3
0.4
3
0.4
3
4
0.2
5
0.0
4
0.2
5
0.0
1
2
3
4
5
4
0.2
5
0.0
1
2
3
4
5
1
2
3
4
5
② 2008(N=125)
1.0
1.0
RVg
0.8
1
0.8
1.0
RDlg
1
0.6
2
0.6
2
0.4
3
0.4
3
4
0.2
5
0.0
4
0.2
5
0.0
1
2
3
4
5
1
2
3
4
5
0.8
RMlg
1
0.6
2
0.4
3
4
0.2
5
0.0
1
2
3
4
5
35
GNTの項目カテゴリ参照プロファイル(ICRP)
① 2008 (N=75)
1.0
1.0
RVg
0.8
1
1.0
RDlg
0.8
1
RMlg
0.8
1
0.6
2
0.6
2
0.6
2
0.4
3
0.4
3
0.4
3
4
0.2
5
0.0
4
0.2
5
0.0
1
2
3
4
5
4
0.2
5
0.0
1
2
3
4
5
1
2
3
4
5
① 2008 (N=125)
1.0
1.0
RVg
0.8
1
1.0
RDlg
0.8
1
RMlg
0.8
1
0.6
2
0.6
2
0.6
2
0.4
3
0.4
3
0.4
3
4
0.2
5
0.0
4
0.2
5
0.0
1
2
3
4
5
4
0.2
5
0.0
1
2
3
4
5
1
2
3
4
5
36
2段階モデルによる英語プレイスメント
テストの分析(まとめ)
NTTとGNTの2段階で分析することで、クラス(能
力)の境界を解釈・設定しやすくなる。
予備テストで識別力の高い項目を用意した場合
SUMでもGNTでもほぼ同様のクラス分けができる。
SUMとGNTによるクラス分けで異なる結果が出るの
は、GNTは下位テストの識別力の差を考慮するため
であろう。
GNTで一様分布を指定することで、より均等なクラ
ス分けが実現する。
37
2段階モデルによる英語プレイスメント
テストの分析(今後に向けて)
下位テストに読解問題を加える(GNTによる分析)
英語基礎力の構成概念の妥当性の検討
各下位テストに項目数を増やし(等化)アイテムバ
ンクを構築・公開:学校(教員)間での共有
各下位テストをMoodle-based CATにする
潜在ランクを何らかのCan-D0-Chartへ対応づける
38
ご静聴ありがとうございました。
本英語プレイスメントテスト実施ご希望の方、
本研究についてご質問のある方は、
[email protected]
あてにご連絡ください。