大学1年生の英語授業におけるMoodleの小テスト・モジ

習熟度別クラス編成のための
英語基礎力判定標準化テスト
作成の試み
木 村 哲 夫(新潟青陵大学)
日本言語テスト学会
第12回 全国研究大会
2
発表の流れ
1.
2.
3.
4.
5.
研究経過と背景
習熟度別クラス分けテストの理想像
Research Questions
研究方法・分析手順
分析結果
1. 項目温存
2. Fit重視
6. 考察
1. 疑似クラス分けテスト
2. 他のテストスコアとの相関分析
7. まとめと今後の課題
3
研究経過概略
• LMSの中からMoodleを選択(木村, 2006)
• Moodleによるテスト実施とデータ収集・分析の
実際(木村, 2008a)
▫ TOEIC模擬問題による2PLM項目分析
▫ 通過率と識別力が低いものが多い
• Moodleを利用したテスト項目分析とアダプティ
ブ・テスト開発の可能性(木村, 2008b)
▫ 英検の過去問40問による1PLMと2PLM項目分析
4
習熟度別クラス分けのためのテスト
英検の過去問題
TOEIC 模擬問題
正当数に基づくスコア
オリジナル問題
オリジナル問題
TOEIC IP
CASEC
標準化されたスコア
5
熟度別クラス分けのためのテストの理想像
問題数
少
テスト時間
短
実施形態
多数一斉・少数個別
採点時間
短
信頼性
高
妥当性
高
標準化されたCATが理想
6
Research Questions
1. 条件を満たすテストを個人レベルで作成可能か?
Yes
2. どのようなモデルで分析するのがよいか?
3. 作成したテストでうまくクラス分けできるか?
1PLM
2PLM
NTT
確信度
テスト
Yes
7
方法
• 項 目:文法語彙問題 ・・・・・・80問(英検3~準1級)
リスニング会話問題 ・・・47問(英検3~準1級)
リスニング説明文問題 ・・35問(英検3~2級)
• 被験者:N大学およびS大学1年生268名
• 電子化:PDF→OCR→TXT→Excel→
Multiple Choice Maker→ GIFT→Moodle
• 実 施: Moodleでチャレンジ・クイズ4回分として設定
毎回3パート各10分で実施(6~7月)
▫ 1回目は授業内に全員で実施
▫ 2回目~4回目は隔週で任意の課題として実施
• その他:4月 CASEC :S大学全員
7月 TOEIC/TOEIC Bridge:希望者
8月 CASEC: S大学ほぼ全員
8
データ数一覧
受験者数 項目数 準1級
文法語彙問題(vg)
会話問題(dlg)
説明文問題(mlg)
222
157
119
80
47
35
25
12
---
2級
準2級
3級
20
15
15
20
10
10
15
10
10
受験者数
TOEIC
CASEC 4月
5
70
212
CASEC 8月
182
TOEIC Bridge
予想よりデータ
数が少ないため
2PLMによる分
析は断念
●受験者数は各区分で全項目に解答した人数
9
分析手順(その1:項目温存)
Moodle
小テスト
詳細結果
Misfit除去の基準
Misfit Person:ZL <-1.96
Misfit Item:P.BIS<0.25
基準を超えるMisfit
がなくなった段階で
分析終了
1PLM
(周辺最尤法)
Excelで
01データ
除去
除去
Misfit
Person ?
Misfit
Item?
10
分析手順(その2:Fit重視)
Moodle
小テスト
詳細結果
Misfit除去の基準
Misfit Person:ZL <-1.96
Misfit Item:P.BIS<0.25
基準を超えるMisfit
がなくなった段階で
分析終了
1PLM
(周辺最尤法)
Excelで
01データ
除去
Misfit
Person or
Item ?
11
分析手順(その3: NTTによる分析)
テスト区分ごとに、以下のデータについて、
Neural Test Theory (Shojima, 2008 ) により、
ノード数10とノード数5に設定し2回分析。
1. Misfit除去前のデータ
本来NTTの枠組み内で考えられてい
るmisfitの指標を使うべきだが、そ
のための計算プログラムがまだない
ので、今回はこの手順とした。
2. 分析手順(その1)でMisfit除去後のデータ
3. 分析手順(その2)でMisfit除去後のデータ
12
使用したプログラム
• Multiple Choice Maker: GIFTファイル作成マクロ
MoodleResources(株)eラーニングサービス
https://e-learning.ac/moodle-resources/
• Easy Estimation (Ver.0.4.2):項目パラメタ推定プログラム
周辺最尤推定法・EMアルゴリズムによる1~3PLMに対応
• Easy EstTheta (Ver0.1.1):特性値推定プログラム
PersonFitの指標は、Drasgow, Levine, & Williamas(1985)
およびDrasgow, Levine , & McLaughlin(1987)のZL統計量
• EasyNTT (Ver.0.2.3): NTT計算プログラム
「ニューラルテスト理論」荘島(2007)によるItem
Reference Profileおよび各受験者の潜在ランクを計算
新潟大学 熊谷 龍一
http://itranalysis.main.jp
13
項目数・受験者数(その1:項目温存)
受験者数 項目数 準1級
文法語彙問題(vg)
会話問題(dlg)
説明文問題(mlg)
222
157
119
80
47
35
25
12
---
受験者数 項目数 準1級
文法語彙問題(vg)
会話問題(dlg)
説明文問題(mlg)
170
142
108
31
13
16
3
0
---
2級
準2級
3級
20
15
15
20
10
10
15
10
10
2級
準2級
3級
11
7
5
10
2
5
7
4
6
14
項目数・受験者数(その2:FIT重視)
受験者数 項目数 準1級
文法語彙問題(vg)
会話問題(dlg)
説明文問題(mlg)
222
157
119
80
47
35
25
12
---
受験者数 項目数 準1級
文法語彙問題(vg)
会話問題(dlg)
説明文問題(mlg)
193
--112
36
--19
2
-----
2級
準2級
3級
20
15
15
20
10
10
15
10
10
2級
準2級
3級
10
--7
14
--5
10
--7
15
文法語彙問題(vg)の項目分析推移
1.0
220
Number of Examinees
200
0.9
1.0
220
Number of Examinees
200
0.9
180
180
160
0.8
KR-20
KR-20
160
0.8
140
140
0.7
120
Test Mean (%)
100
0.6
Number of Items
Test Mean (%)
120
100
0.7
0.6
Number of Items
80
80
0.5
60
Misfit Item
40
0.4
Misfit Person
20
0.3
2
3
4
40
Misfit Item
0.4
20
0
1
0.5
60
5
6
7
8
9
10
Misfit Person
0
0.3
1
2
3
4
5
16
リスニング会話問題(dlg)の項目分析推移
160
0.9
Number of Examinees
140
160
1.0
140
0.9
0.8
KR-20
120
120
Number of Examinees
0.8
0.7
100
100
0.7
Test Mean (%)
80
0.6
80
Test Mean (%)
60
0.6
60
Number of Items
KR-20
0.5
Number of Items
40
0.5
40
Misfit Item
Misfit Item
0.4
20
0
0.3
1
2
3
0.4
20
Misfit Person
Misfit Person
4
5
6
7
8
9
0
0.3
1
2
3
17
リスニング説明文問題(mlg)の項目分析推移
120
0.9
Number of Examinees
120
0.9
Number of Examinees
100
0.8
100
0.8
KR-20
KR-20
80
0.7
80
Test Mean (%)
Test Mean (%)
60
Number of Items
40
0.6
60
0.5
40
0.4
20
Misfit Item
20
Misfit Person
0.3
2
0.6
Number of Items
0.5
Misfit Item
0.4
Misfit Person
0
1
0.7
3
4
5
6
7
0
0.3
1
2
3
18
Misfit除去前後の通過率
I
準1級
25
SD Max Min
1.00
0.27 0.11 0.57 0.12
0.75
Ave
2級
20 0.43 0.13 0.62 0.18
準2級
20 0.63 0.16 0.83 0.29
3級
15
0.79 0.12 0.95 0.48
文法語彙問題(vg)
0.50
初期
0.25
項目温存
Fit重視
0.00
(n=222)
I
Ave
SD Max Min
準1級
3
0.30 0.13 0.45 0.21
準1級
2 0.30 0.16 0.42 0.19
2級
11
0.53 0.16 0.70 0.18
2級
10 0.51 0.15 0.66 0.18
準2級
10
0.66 0.20 0.91 0.31
準2級
14 0.65 0.18 0.88 0.29
3級
7
0.78 0.14 0.94 0.53
3級
10 0.80 0.14 0.94 0.52
(n=170)
I
Ave
SD
Max Min
(n=193)
19
Misfit除去前後の通過率
I
Ave
SD Max Min
1.00
準1級
12
0.27 0.08 0.39 0.16
0.75
2級
12
0.42 0.12 0.64 0.25
0.50
準2級
12
0.68 0.12 0.88 0.45
0.25
3級
12
0.83 0.10 0.92 0.65
Ave
SD Max Min
準1級
0
---
---
2級
7
準2級
3級
初期
項目温存
Fit重視
0.00
(n=157)
I
会話問題(dlg)
準1級 2級 準2級 3級
I
Ave
SD
準1級
0
---
---
0.45 0.13 0.66 0.34
2級
3
0.49 0.137Misfit
0.58 0.34
2
0.82 0.09 0.91 0.73
準2級
3
0.79 0.101 0.88 0.68
4
0.84 0.11 0.95 0.70
3級
3
0.75 0.103 0.84 0.64
---
---
(n=139)
Max Min
---
---
Item=5
(n=125)
20
Misfit除去前後の通過率
1.00
I
Ave
SD Max Min
準1級
---
---
---
2級
15
0.46 0.13 0.64 0.29
0.50
準2級
10
0.53 0.14 0.70 0.24
0.25
3級
10
0.75 0.14 0.97 0.50
---
---
0.75
Ave
SD Max Min
準1級
---
---
---
2級
5
準2級
3級
初期
項目温存
Fit重視
0.00
(n=119)
I
説明文問題(mlg)
準1級 2級 準2級 3級
I
Ave
SD
準1級
---
---
---
0.51 0.15 0.64 0.27
2級
7
0.51 0.12 0.64 0.28
5
0.51 0.18 0.72 0.23
準2級
5
0.52 0.18 0.73 0.24
6
0.73 0.16 0.88 0.50
3級
7
0.74 0.15 0.88 0.50
---
---
(n=108)
Max Min
---
---
(n=112)
21
Misfit除去前後の基本統計量と信頼性
文法語彙問題Vg
会話問題Dlg
Misfit Misfit Misfit
除去前 除去後 除去前
受験者数
項目数
素点平均
素点平均(%)
素点標準偏差
KR-20
説明文問題Mlg
Misfit
除去後
Misfit
除去前
Misfit
除去後
222
193
157
142
119
112
80
36
47
13
35
19
39.9
22.9
24.7
8.2
19.7
11.3
49.9% 63.5%
52.5%
62.8%
56.4%
59.4%
5.59
2.63
5.27
3.91
10.12
6.64
0.858< 0.868
0.722 > 0.706
0.752 < 0.780
22
疑似クラス分けテスト
除去されなかった68問すべてを回答していた学生75人のデータにより、
擬似的に習熟度別クラス編成を行い結果を分析した。
受験者数
N
項目数
I
準1級
2級
準2級
3級
75
36
13
19
2
0
---
10
7
7
14
2
5
10
4
7
文法語彙問題(vg)
会話問題(dlg)
説明文問題(mlg)
困難度(1PLM)
文法語彙問題(vg)
会話問題(dlg)
説明文問題(mlg)
中央値
最大値
最小値
-0.68
-0.64
-0.34
1.61
0.66
1.22
-2.79
-2.72
-1.93
困難度(NTT)
中央値 最大値 最小値
4
4
10
10
1
1
4
10
1
23
各テスト区分のテスト情報曲線
0.9
1PLM
0.8
Information
0.7
0.6
0.5
Vg (I=36)
Dlg (I=13)
Mlg (I=19)
0.4
0.3
0.2
0.1
-3.0
-2.7
-2.4
-2.1
-1.8
-1.5
-1.2
-0.9
-0.6
-0.3
0.0
0.3
0.6
0.9
1.2
1.5
1.8
2.1
2.4
2.7
3.0
0.0
Ability (θ)
24
各テスト区分のテスト参照プロファイル
35
NTT
30
Score
25
20
Vg (I=36)
Dlg (I=13)
Mlg (I=19)
15
10
5
0
R01 R02 R03 R04 R05 R06 R07 R08 R09 R10
LATENT RANK
25
語彙文法問題(vg)とCASECとの相関
θ1vg
θ2vg
θ1vg
1.00
θ2vg
0.97
1.00
C-S1
0.70
0.74
C-S2
0.60
0.56
C-S3
0.46
0.47
C-S4
0.51
0.51
C-T
0.72
0.74
Vg (I=36 N=105)
θ1vg : 1PLMによる能力推定値
θ2vg:NTTによる能力推定値(Rank)
C-S1 :CASECセクション1(語彙)
C-S2 :CASECセクション2(表現)
C-S3 :CASECセクション3(リスニング)
C-S4 :CASECセクション4 (ディクテーション)
C-T :CASEC合計点
θ1vg との相関:ピアソンの積率相関係数
θ2vg との相関:スピアマンの順位相関係数
26
会話問題(dlg)とCASECとの相関
θ1dlg
θ2dlg
θ1dlg
1.00
θ2dlg
0.91
1.00
C-S1
0.50
0.37
C-S2
0.55
0.48
C-S3
0.60
0.51
C-S4
0.44
0.31
C-T
0.65
0.52
Dlg (I=13 N=82)
θ1dlg : 1PLMによる能力推定値
θ2dlg:NTTによる能力推定値(Rank)
C-S1 :CASECセクション1(語彙)
C-S2 :CASECセクション2(表現)
C-S3 :CASECセクション3(リスニング)
C-S4 :CASECセクション4 (ディクテーション)
C-T :CASEC合計点
θ1dlg との相関:ピアソンの積率相関係数
θ2dlg との相関:スピアマンの順位相関係数
27
説明文問題(mlg)とCASECとの相関
θ1mlg θ2mlg
θ1mlg 1.00
0.89
θ2mlg
1.00
C-S1
0.54
0.59
C-S2
0.57
0.52
C-S3
0.64
0.60
C-S4
0.45
0.50
C-T
0.70
0.70
Mlg (I=19 N=81)
θ1mlg : 1PLMによる能力推定値
θ2mlg:NTTによる能力推定値(Rank)
C-S1 :CASECセクション1(語彙)
C-S2 :CASECセクション2(表現)
C-S3 :CASECセクション3(リスニング)
C-S4 :CASECセクション4 (ディクテーション)
C-T :CASEC合計点
θ1mlg との相関:ピアソンの積率相関係数
θ2mlg との相関:スピアマンの順位相関係数
28
語彙文法問題(vg)とTOEIC Bridgeとの相関
θ1vg
θ2vg
θ1vg
θ2vg
TB-L
TB-R
TB-T
1.00
0.94
0.58
0.68
0.68
1.00
0.54
0.60
0.60
Vg (I=36 N=22)
θ1vg : 1PLMによる能力推定値
θ2vg:NTTによる能力推定値(Rank)
TB-L :TOEIC Bridge Listening Score
TB-R : TOEIC Bridge Reading Score
TB-T : TOEIC Bridge Total Score
θ1vg との相関:ピアソンの積率相関係数
θ2vg との相関:スピアマンの順位相関係数
29
会話問題(dlg)とTOEIC Bridgeとの相関
θ1dlg
θ2dlg
θ1dlg
θ2dlg
TB-L
TB-R
TB-T
1.00
0.84
0.66
0.61
0.67
1.00
0.64
0.80
0.80
Dlg (I=13 N=21)
θ1dlg : 1PLMによる能力推定値
θ2dlg:NTTによる能力推定値
TB-L :TOEIC Bridge Listening Score
TB-R : TOEIC Bridge Reading Score
TB-T : TOEIC Bridge Total Score
θ1dlg との相関:ピアソンの積率相関係数
θ2dlg との相関:スピアマンの順位相関係数
30
説明文問題(mlg)とTOEIC Bridgeとの相関
θ1mlg
θ2mlg
θ1mlg
θ2mlg
TB-L
TB-R
TB-T
1.00
0.85
0.58
0.79
0.77
1.00
0.70
0.65
0.74
Mlg (I=19 N=16)
θ1mlg : 1PLMによる能力推定値
θ2mlg:NTTによる能力推定値
TB-L :TOEIC Bridge Listening Score
TB-R : TOEIC Bridge Reading Score
TB-T : TOEIC Bridge Total Score
θ1mlg との相関:ピアソンの積率相関係数
θ2mlg との相関:スピアマンの順位相関係数
31
疑似クラス分けテストとCASECとの相関
θ1vg
θ1dlg
θ1mlg
θ1-T
θ2vg
θ2dlg
θ2mlg
θ2-T
C-S1
C-S2
C-S3
C-S4
0.577
0.489
0.448
0.387
0.443
0.574
0.535
0.296
0.585
0.472
0.655
0.413
0.625
0.605
0.647
0.427
NTTが想定しているのは順序尺度であ
り、この足し算にはやや無理がある。
0.607
0.407
0.406
0.422
本来はGraded
Test Model
で合
0.397
0.472 Neural
0.491
0.317
成を行うべきだが、まだ計算プログラ
0.625
0.396
0.653
0.494
ムが未完成。今回はこれで一般的な傾
0.660
0.534
0.640
0.524
向をつかむこととしたい。
C-T
0.619
0.611
0.711
0.761
0.633
0.560
0.729
0.796
(I=75 N=55)
θ1-T= θ1vg+θ1dlg+θ1mlg : 1PLMによる能力推定値
θ2-T= θ2vg+θ2dlg+θ2mlg :NTTによる能力推定値
θ1 との相関:ピアソンの積率相関係数
θ2 との相関:スピアマンの順位相関係数
32
疑似クラス分けテストとTOEIC Bridgeとの
相関
θ1vg
θ1dlg
θ1mlg
θ1-T
θ2vg
θ2dlg
θ2mlg
θ2-T
TB-L
0.594
0.764
0.627
0.779
0.671
0.664
0.705
0.804
TB-R
0.670
0.695
0.807
0.840
0.544
0.863
0.713
0.801
TB-T
0.701
0.799
0.801
0.896
0.604
0.861
0.795
0.887
(I=75 N=13)
θ1-T= θ1vg+θ1dlg+θ1mlg : 1PLMによる能力推定値
θ2-T= θ2vg+θ2dlg+θ2mlg :NTTによる能力推定値
θ1 との相関:ピアソンの積率相関係数
θ2 との相関:スピアマンの順位相関係数
33
NTTによるクラス分けのシミュレーション1
6
5
4
3
2
1
0
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 29 30
Class 01 Class 02 Class 03 Class04 Class 05 Class Class Class Class Class 10
06
07
08
09
34
NTTによるクラス分けのシミュレーションと
1PLMによる能力推定値の比較1
Class 01
Class 02
Class 03
Class 04
Class 05
Class 06
Class 07
Class 08
Class 09
Class 10
θ2-T
N
3~5
6~8
9~11
12~14
15~17
18~19
20~21
22~23
24~25
26~30
7
8
8
7
9
7
8
6
7
8
θ1-T
Mean
-3.34
-2.82
-1.55
-1.20
-0.09
0.37
0.59
1.48
2.09
3.59
SD
0.677
0.491
0.674
0.494
0.493
0.822
0.535
0.647
0.922
1.083
正答数
Mean
25.9
27.8
35.1
36.0
41.8
43.7
45.5
48.7
50.3
57.8
SD
4.81
3.24
4.58
3.21
3.38
4.23
2.56
3.27
3.35
3.28
35
NTTによるクラス分けのシミュレーション2
6
5
4
3
2
1
0
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 29 30
Class01
Class02
Class03
Class04
Class05
36
NTTによるクラス分けのシミュレーションと
1PLMによる能力推定値の比較2
θ2-T
Class 01 3~8
Class 02 9~14
Class 03 15~19
Class 04 20~23
Class 05 24~30
n
15
15
16
14
15
θ1-T
Mean
-3.06
-1.39
0.11
0.97
2.89
SD
0.604
0.584
0.652
0.698
1.204
正答数
Mean
SD
26.9
3.88
35.5
3.76
42.6
3.66
46.9
3.09
54.3
4.84
37
クラス分けテストの
テスト参照プロファイル1
70
60
Score
50
40
30
20
10
0
R01 R02 R03 R04 R05 R06 R07 R08 R09 R10
LATENT RANK
38
クラス分けテストの
テスト参照プロファイル2
60
50
Score
40
30
20
10
0
R01
R02
R03
LATENT RANK
R04
R05
39
クラス分けテストの
テスト参照プロファイルと1PLM のθ
60
4.0
3.0
50
2.0
1.0
30
0.0
-1.0
20
-2.0
10
-3.0
0
-4.0
R01 R02 R03 R04 R05 R06 R07 R08 R09 R10
LATENT RANK
θ1
Score
40
40
クラス分けテストの
テスト参照プロファイル2
60
4.0
3.0
50
2.0
Score
40
1.0
30
0.0
-1.0
20
-2.0
10
0
-3.0
R01
R02
R03
LATENT RANK
R04
R05
-4.0
41
まとめ
1. 条件を満たすテストを個人レベルで作成可能か?
⇒ 可能
2. どのようなモデルで分析するのがよいか?
⇒ 1PLM または NTT
⇒ 事前にmisfitを適切に取り除く
3. 作成したテストでうまくクラス分けできるか?
⇒ NTTを利用した方が解釈・判断が容易
42
今後の課題
1. どのような項目がよい項目か?
2. Misfitsをどのように取り除くのがよいか?
3. 項目バンクを構築できないか?
4. CATにできないか?
43
ご静聴ありがとうございました。
問い合わせ先:[email protected]
引用文献・参考文献
44
秋山實.(2006).「オーブンソースソフトウェアmoodleのオンラインテスト機能を基盤としたアイテム開発ス
キーム」教育システム情報学会研究報告, vol.20, no.6, 79-82.
張一平.(2007).『確信度テスト法と項目反応理論』東京大学出版会.
Drasgow, F., Levine, M. V., & McLaughlin, M. E. (1987). Detecting inappropriate test scores with optimal and
practical appropriateness indices. Applied Psychological Measurement, II, 59-79.
Drasgow, F., Levine, M. V., & Williams, E. A. (1985). Appropriateness measurement with polychotomous item
response models and standardized indices. British Journal of Mathematical and Statistical Psychology, 38, 66-86.
木村哲夫.(2006).「大学におけるe-learningを活用した英語教育のあり方についての研究」新潟青陵大学平成17
年度共同研究費報告書.
木村哲夫.(2008a).「Moodleを使ったテスティングとそのデータ分析」『金谷憲教授還暦記念論文集』pp.247258. 桐原書店.
木村哲夫.(2008b).「 Moodleを利用したテスト項目分析とアダプティブ・テスト開発の可能性」『第34回全国
英語教育学会 東京研究大会予稿集』pp.340-341.
大友賢二.(1996).『項目応答理論入門』大修館書店.
大友賢二・中村洋一(2002). 『テストで言語能力ははかれるか~言語テストデータ分析入門~』河源社.
Reise, S. P. & Due, A. M. (1991). The influence of test characteristics on the detection of aberrant Response
patterns. Applied Psychological Measurement, Vol. 15, No. 3, 217-226
Shojima, K. (2008) .Neural test theory: A latent rank theory for analyzing test data. DNC Research Note, 08-01.
荘島宏二郎.(2008a).ニューラルテスト理論-資格試験のためのテスト理論- 平成20年度全国大学入学者選抜研
究連絡協議会,研究発表予稿集,163-168.
荘島宏二郎.(2008b). The structural neurofield mapping: A latent rank model for multivariate data. 日本行動計
量学会第36回大会.
芝祐順.(1991).『項目反応理論:基礎と応用』東京大学出版.
靜哲人.(2007).『基礎から深く理解するラッシュモデリング』関西大学出版.
豊田秀樹.(2002).『項目反応理論[入門編]』朝倉書店.