大学1年生の 英語授業におけるMoodleの小テスト・モジ

Moodleによる英語プレイスメン
トテストの作成と評価
―IRTとNTTの視点から
木 村 哲 夫(新潟青陵大学)
日本言語テスト学会
第29回研究例会 in 沖縄
2
発表の流れ
1. 先行事例
2. Neural Test Theory
3. 英語プレイスメントテスト作成の流れ
4. 疑似クラス分けによるデータ分析
5. 1PLM と NTT の比較
6. 他のテストスコアとの相関分析
7. まとめと今後の課題
3
Moodleによる英語プレイスメントテスト
先行事例
• PLATON-m:英語運用能力評価協会(ELPA) のACE
Placement を moodle 上で受験できるようにしたもの
http://www.e-learning-service.co.jp/platon-m.html
• SGU:Hinkelman & Grose (2004):
Placement testing and audio quiz-making with open source
software. Proceedings of CLaSIC 2004, 972-981.
http://moodle.org/file.php/31/PlacementTestHinkelman.pdf
For 5 years at SGU, with up to 250 simultaneous users
4
Hinkelman & Grose, 2004, 974.
By improving item quality year by year, the authors
conclude that a self-created placement test using
open source software could, over several years of
development, prove equal or superior to generic
commercial products in reliability for closed
population placement testing.
5
Neural Test Theory (NTT)
能力を順序尺度上で測定・評価しようとする
新しいテスト標準化理論
• 順序尺度を想定したテスト理論が必要である理由
▫ 方法論的理由
 テストはそもそも連続的に学力を評価できるほど信頼
性が高い測定道具ではなく、10段階くらいにランク付
けることがせいぜいである
▫ 教育社会学的理由
6
• テストは、社会の公具(public tool)であるために、存在
するだけで社会によい影響を与えなくてはいけない。
• 連続尺度は,受験生や学生に1点でも多く得点をとろう
という受験者心理を助長し、「テストテクニック」のよ
うな本来学生たちに求める学力とは異なるような技術が
塾や時には学校で教えられている。
• また、学力は一昼夜で劇的に変化しないにもかかわらず、
連続尺度の不安定な乱高下で受験者の不安をあおってい
る。そこで、順序尺度で生徒を評価するようになれば、
少し腰をすえて努力をしないと学力が上の段階に評価さ
れないので、小手先の技術を抑制することに貢献するこ
とができる。
荘島(2008)
7
英語プレイスメントテスト作成の流れ
項目選択のための予備テスト
項
目
分
析
CTT:点双列相関係数(P.BIS)
IRT: 1PLMによる項目分析(ZL値)
NTT:項目参照プロファイル(IRP)
misfit の除去
Misfit除去の基準
Misfit Person:ZL <-1.96
Misfit Item:P.BIS<0.25
プレイスメントテスト完成
8
使用したテスト項目の種類
• 文法語彙問題(Vg)
• リスニング問題
▫ 会話問題(Dlg)
▫ 説明文問題(Mlg)
※いずれも英検(3級~準1級)の過去問を協会の
許可を得て使用
9
使用したプログラム
• Multiple Choice Maker: GIFTファイル作成マクロ
MoodleResources(株)eラーニングサービス
https://e-learning.ac/moodle-resources/
• Easy Estimation (Ver.0.4.2):項目パラメタ推定プログラム
周辺最尤推定法・EMアルゴリズムによる1~3PLMに対応
• Easy EstTheta (Ver0.1.1):特性値推定プログラム
PersonFitの指標は、Drasgow, Levine, & Williamas(1985)
およびDrasgow, Levine , & McLaughlin(1987)のZL統計量
新潟大学 熊谷 龍一
http://itranalysis.main.jp
• neutet (Ver.20080822): NTT計算プログラム
「ニューラルテスト理論」荘島(2007)によるItem
Reference Profileおよび各受験者の潜在ランク等を計算
大学入試センター 橋本 貴充
http://www.rd.dnc.ac.jp/~hashimot/neutet/
10
misfit除去前後の基本統計量
文法語彙問題Vg
会話問題Dlg
説明文問題Mlg
除去前
除去後
除去前
除去後
除去前
除去後
受験者数
222
193
157
142
119
112
項目数
80
32
47
13
35
19
準1級
25
2
12
0
--
--
2級
20
10
15
7
15
7
準2級
20
13
10
2
10
5
3級
15
7
10
4
10
7
39.9
19.2
24.7
8.2
19.7
11.3
素点平均(%)
49.9%
60.0%
素点標準偏差
10.12
6.32
5.59
2.63
5.27
3.91
KR-20
0.858
0.863
0.722
0.706
0.752
0.780
素点平均
52.5% 62.8% 56.4%
59.4%
11
プレイスメントテストの問題構成
リスニング問題
文法語彙問題Vg
会話問題Dlg 説明文問題Mlg
32
13
19
2
0
--
2級
10
7
7
準2級
13
2
5
3級
7
32
4
7
項目数
準1級
小 計
合 計
32
64
12
プレイスメントテストの項目困難度
文法語彙問題
項目
番号
Vg01
Vg02
Vg03
Vg04
Vg05
Vg06
Vg07
Vg08
Vg09
Vg10
Vg11
Vg12
Vg13
Vg14
Vg15
Vg16
英検級
2級
2級
準1級
2級
2級
準2級
2級
準2級
2級
準2級
3級
準2級
3級
2級
準2級
2級
NTT Difficulty(β)
Q=10
Q=5
5
4
8
7
4
1
8
5
8
1
1
1
1
3
4
10
3
3
5
3
2
1
5
3
4
1
1
1
1
2
2
5
1PLM
Dificulty(θ)
-0.17
-0.53
0.36
-0.19
-0.72
-1.34
0.55
-0.24
0.14
-1.92
-0.87
-0.92
-1.37
-0.63
-0.95
1.61
項目
番号
Vg17
Vg18
Vg19
Vg20
Vg21
Vg22
Vg23
Vg24
Vg25
Vg26
Vg27
Vg28
Vg29
Vg30
Vg31
Vg32
英検級
2級
準2級
準2級
2級
準2級
3級
3級
準1級
準2級
3級
準2級
3級
準2級
準2級
3級
準2級
NTT Difficulty(β)
Q=10
Q=5
8
10
8
4
3
5
5
10
2
1
7
1
6
6
1
1
4
5
5
2
2
2
3
5
1
1
4
1
3
3
1
1
1PLM
Dificulty(θ)
0.23
0.94
0.39
-0.58
-0.90
-0.92
-0.08
1.54
-1.17
-2.15
0.01
-1.47
-0.35
-0.08
-1.75
-1.87
13
プレイスメントテストの項目困難度
リスニング問題
項目
番号
Dlg01
Dlg02
Dlg03
Dlg04
Dlg05
Dlg06
Dlg07
Dlg08
Dlg09
Dlg10
Dlg11
Dlg12
Dlg13
Mlg01
Mlg02
Mlg03
英検級
2級
準2級
2級
2級
2級
3級
3級
3級
2級
2級
3級
準2級
2級
3級
準2級
2級
NTT Difficulty(β)
Q=10
Q=5
8
1
4
8
10
2
1
1
5
10
1
3
6
3
2
5
4
1
2
5
5
1
1
1
3
5
1
2
4
2
1
3
1PLM
Dificulty(θ)
0.32
-2.19
-0.62
0.74
0.56
-0.78
-1.58
-1.97
-0.43
0.74
-2.78
-0.92
0.53
0.32
-2.19
-0.62
項目
番号
Mlg04
Mlg05
Mlg06
Mlg07
Mlg08
Mlg09
Mlg10
Mlg11
Mlg12
Mlg13
Mlg14
Mlg15
Mlg16
Mlg17
Mlg18
Mlg19
英検級
2級
2級
3級
準2級
2級
3級
3級
準2級
2級
2級
2級
3級
3級
3級
準2級
準2級
NTT Difficulty(β)
Q=10
Q=5
4
5
1
4
5
7
1
10
8
9
3
1
4
1
6
7
2
3
1
3
3
4
1
5
5
5
2
1
3
1
4
4
1PLM
Dificulty(θ)
-0.94
-1.03
-0.31
-0.57
0.18
-1.66
-0.34
-0.16
0.03
-1.93
1.22
0.18
0.98
-0.50
-1.54
-0.34
14
Vg
0
1
2
3
4
NTT (β)
rs = .97
5
3.00
2.00
1.00
0.00
-1.00
-2.00
-3.00
1PLM (θ)
3.00
2.00
1.00
0.00
-1.00
-2.00
-3.00
Dlg
1PLM (θ)
1PLM (θ)
NTTの項目困難度(β)と1PLMの項目困難度(θ)
の比較
0
1
2
3
4
NTT (β)
rs = .91
5
Mlg
3.00
2.00
1.00
0.00
-1.00
-2.00
-3.00
0
1
2
3
4
NTT (β)
rs = .89
5
15
NTT:項目参照プロファイル(IRP)
1.0
0.8
0.8
Probability
Probability
1.0
0.6
0.4
0.2
0.0
2
3
4
Latent Rank
5
1.0
0.6
0.4
0.2
0.0
1
Vg30
Vg03
Probability
Vg01
1
2
3
4
Latent Rank
5
0.8
0.6
0.4
0.2
0.0
1
2
3
4
5
Latent Rank
Q=5
16
NTT:テスト参照プロファイル(TRP)
1 2 3 4 5 6 7 8 9 10
Latent Rank
12
10
8
6
4
2
0
20
15
Score
35
30
25
20
15
10
5
0
Mlg
Dlg
Score
Score
Vg
10
5
0
1 2 3 4 5 6 7 8 9 10
Latent Rank
1 2 3 4 5 6 7 8 9 10
Latent Rank
Q=10
17
NTT:ランク・メンバーシップ・
プロファイル(RMP)
受験者61
受験者43
1.0
1.0
0.8
0.8
0.8
0.6
0.4
0.2
0.0
1
2
3
4
Latent Rank
5
Probability
1.0
Probability
Probability
受験者37
0.6
0.4
0.2
0.0
0.6
0.4
0.2
0.0
1
2
3
4
Latent Rank
5
1
2
3
4
5
Latent Rank
Q=5
18
疑似クラス分け
予備テストで、プレイスメントテストに選ばれた64問すべてを回
答した75人のデータをもとに、擬似的クラス分けを行った。
Rvg :Vgの潜在ランク
θvg :Vgの推定能力
Tvg :Vgの正当数
Rdlg : Dlgの潜在ランク
θdlg : Dlgの推定能力
Tdlg : Dlgの正当数
Rvg :Vgの潜在ランク
θvg :Vgの推定能力
Tvg :Vgの正当数
RT :NTT総合評価
θT :1PLM総合評価
TT :正当数総合評価
19
クラス分けの状況
6
5
4
人3
数
2
1
0
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 29 30
Class01
Class02
n= 15
n= 15
Class03
n= 16
潜在ランク(RT)とクラス
Class04
Class05
n= 14
n= 15
20
各クラスの英語基礎力総合評価(RT、θT、ST)の
代表値と散布度の比較
θT
RT
Class
n
Mdn Range
M
ST
SD
M
SD
Class 01 15
6
5
-3.06 0.604
26.9
3.88
Class 02 15
11
5
-1.39 0.584
35.5
3.76
Class 03 16
17
4
0.11 0.652
42.6
3.66
Class 04 14
21
3
0.97 0.698
46.9
3.09
Class 05 15
26
6
2.89 1.204
54.3
4.84
21
R、θ、S 間の相関係数
文法語彙
Rvg
θvg
Svg
会話
Rdlg
θdlg
Sdlg
Rvg
θvg
Svg
―
.96
―
.96
.99
―
Rdlg
θdlg
Sdlg
―
.90
―
.90
.98
―
説明文
Rmlg
θmlg
Smlg
総合評価
RT
θT
ST
Rmlg
θmlg
Smlg
―
.93
―
.92
.92
―
RT
θT
ST
―
.96
―
.94
.96
―
注:RT:θTとRT:STはスピアマンの順位相関係数(rs)を、
θT:STはピアソンの積率相関係数(r)を用いた。
22
1000
1000
900
900
800
800
700
700
600
600
CASEC
CASEC
他の英語能力試験結果との比較(CASEC)
500
400
300
n =55
200
100
500
400
300
n =55
200
100
0
0
5
10
15 20
RT
rs=.80
25
30
0
-4.00
-2.00
0.00
θT
r =.76
2.00
4.00
23
180
180
160
160
140
140
TOEIC Bridge
TOEIC Bridge
他の英語能力試験結果との比較(TOEIC Bridge)
120
100
80
60
n =13
40
120
100
80
60
40
20
n =13
20
0
0
5
10
15 20
RT
rs=.89
25
30
0
-4.00
-2.00
0.00
θT
r =.90
2.00
4.00
24
まとめと今後の課題
Moodleを利用して、IRT/NTTの枠組みで十分な
信頼性と妥当性のあるプレイスメントテスト
を、個人レベルで作成することが可能
プレイスメントという目的には、能力を順序尺
度上で推定するNTTの方が解釈が容易であり、
NTTで示されるRMPは教育的示唆に富んでいる
25
まとめと今後の課題
1素材に複数項目を設定する読解問題などを
testletとして処理して追加できないか?
subtestから総合力を求める最適な方法は?
項目バンクを充実させCATに発展できないか?
content balanceをどのように調整するか?
開発時のmisfit の最適な扱いは?
予期しない解答パタンへの適切な対応は?
26
ご静聴ありがとうございました。
http://www.e-learning-service.net/kimura/
問い合わせ先:[email protected]