習熟度別クラス編成のための 英語基礎力判定標準化テスト 作成の試み 木 村 哲 夫(新潟青陵大学) 日本言語テスト学会 第12回 全国研究大会 2 発表の流れ 1. 2. 3. 4. 5. 研究経過と背景 習熟度別クラス分けテストの理想像 Research Questions 研究方法・分析手順 分析結果 1. 項目温存 2. Fit重視 6. 考察 1. 疑似クラス分けテスト 2. 他のテストスコアとの相関分析 7. まとめと今後の課題 3 研究経過概略 • LMSの中からMoodleを選択(木村, 2006) • Moodleによるテスト実施とデータ収集・分析の 実際(木村, 2008a) ▫ TOEIC模擬問題による2PLM項目分析 ▫ 通過率と識別力が低いものが多い • Moodleを利用したテスト項目分析とアダプティ ブ・テスト開発の可能性(木村, 2008b) ▫ 英検の過去問40問による1PLMと2PLM項目分析 4 習熟度別クラス分けのためのテスト 英検の過去問題 TOEIC 模擬問題 正当数に基づくスコア オリジナル問題 オリジナル問題 TOEIC IP CASEC 標準化されたスコア 5 熟度別クラス分けのためのテストの理想像 問題数 少 テスト時間 短 実施形態 多数一斉・少数個別 採点時間 短 信頼性 高 妥当性 高 標準化されたCATが理想 6 Research Questions 1. 条件を満たすテストを個人レベルで作成可能か? Yes 2. どのようなモデルで分析するのがよいか? 3. 作成したテストでうまくクラス分けできるか? 1PLM 2PLM NTT 確信度 テスト Yes 7 方法 • 項 目:文法語彙問題 ・・・・・・80問(英検3~準1級) リスニング会話問題 ・・・47問(英検3~準1級) リスニング説明文問題 ・・35問(英検3~2級) • 被験者:N大学およびS大学1年生268名 • 電子化:PDF→OCR→TXT→Excel→ Multiple Choice Maker→ GIFT→Moodle • 実 施: Moodleでチャレンジ・クイズ4回分として設定 毎回3パート各10分で実施(6~7月) ▫ 1回目は授業内に全員で実施 ▫ 2回目~4回目は隔週で任意の課題として実施 • その他:4月 CASEC :S大学全員 7月 TOEIC/TOEIC Bridge:希望者 8月 CASEC: S大学ほぼ全員 8 データ数一覧 受験者数 項目数 準1級 文法語彙問題(vg) 会話問題(dlg) 説明文問題(mlg) 222 157 119 80 47 35 25 12 --- 2級 準2級 3級 20 15 15 20 10 10 15 10 10 受験者数 TOEIC CASEC 4月 5 70 212 CASEC 8月 182 TOEIC Bridge 予想よりデータ 数が少ないため 2PLMによる分 析は断念 ●受験者数は各区分で全項目に解答した人数 9 分析手順(その1:項目温存) Moodle 小テスト 詳細結果 Misfit除去の基準 Misfit Person:ZL <-1.96 Misfit Item:P.BIS<0.25 基準を超えるMisfit がなくなった段階で 分析終了 1PLM (周辺最尤法) Excelで 01データ 除去 除去 Misfit Person ? Misfit Item? 10 分析手順(その2:Fit重視) Moodle 小テスト 詳細結果 Misfit除去の基準 Misfit Person:ZL <-1.96 Misfit Item:P.BIS<0.25 基準を超えるMisfit がなくなった段階で 分析終了 1PLM (周辺最尤法) Excelで 01データ 除去 Misfit Person or Item ? 11 分析手順(その3: NTTによる分析) テスト区分ごとに、以下のデータについて、 Neural Test Theory (Shojima, 2008 ) により、 ノード数10とノード数5に設定し2回分析。 1. Misfit除去前のデータ 本来NTTの枠組み内で考えられてい るmisfitの指標を使うべきだが、そ のための計算プログラムがまだない ので、今回はこの手順とした。 2. 分析手順(その1)でMisfit除去後のデータ 3. 分析手順(その2)でMisfit除去後のデータ 12 使用したプログラム • Multiple Choice Maker: GIFTファイル作成マクロ MoodleResources(株)eラーニングサービス https://e-learning.ac/moodle-resources/ • Easy Estimation (Ver.0.4.2):項目パラメタ推定プログラム 周辺最尤推定法・EMアルゴリズムによる1~3PLMに対応 • Easy EstTheta (Ver0.1.1):特性値推定プログラム PersonFitの指標は、Drasgow, Levine, & Williamas(1985) およびDrasgow, Levine , & McLaughlin(1987)のZL統計量 • EasyNTT (Ver.0.2.3): NTT計算プログラム 「ニューラルテスト理論」荘島(2007)によるItem Reference Profileおよび各受験者の潜在ランクを計算 新潟大学 熊谷 龍一 http://itranalysis.main.jp 13 項目数・受験者数(その1:項目温存) 受験者数 項目数 準1級 文法語彙問題(vg) 会話問題(dlg) 説明文問題(mlg) 222 157 119 80 47 35 25 12 --- 受験者数 項目数 準1級 文法語彙問題(vg) 会話問題(dlg) 説明文問題(mlg) 170 142 108 31 13 16 3 0 --- 2級 準2級 3級 20 15 15 20 10 10 15 10 10 2級 準2級 3級 11 7 5 10 2 5 7 4 6 14 項目数・受験者数(その2:FIT重視) 受験者数 項目数 準1級 文法語彙問題(vg) 会話問題(dlg) 説明文問題(mlg) 222 157 119 80 47 35 25 12 --- 受験者数 項目数 準1級 文法語彙問題(vg) 会話問題(dlg) 説明文問題(mlg) 193 --112 36 --19 2 ----- 2級 準2級 3級 20 15 15 20 10 10 15 10 10 2級 準2級 3級 10 --7 14 --5 10 --7 15 文法語彙問題(vg)の項目分析推移 1.0 220 Number of Examinees 200 0.9 1.0 220 Number of Examinees 200 0.9 180 180 160 0.8 KR-20 KR-20 160 0.8 140 140 0.7 120 Test Mean (%) 100 0.6 Number of Items Test Mean (%) 120 100 0.7 0.6 Number of Items 80 80 0.5 60 Misfit Item 40 0.4 Misfit Person 20 0.3 2 3 4 40 Misfit Item 0.4 20 0 1 0.5 60 5 6 7 8 9 10 Misfit Person 0 0.3 1 2 3 4 5 16 リスニング会話問題(dlg)の項目分析推移 160 0.9 Number of Examinees 140 160 1.0 140 0.9 0.8 KR-20 120 120 Number of Examinees 0.8 0.7 100 100 0.7 Test Mean (%) 80 0.6 80 Test Mean (%) 60 0.6 60 Number of Items KR-20 0.5 Number of Items 40 0.5 40 Misfit Item Misfit Item 0.4 20 0 0.3 1 2 3 0.4 20 Misfit Person Misfit Person 4 5 6 7 8 9 0 0.3 1 2 3 17 リスニング説明文問題(mlg)の項目分析推移 120 0.9 Number of Examinees 120 0.9 Number of Examinees 100 0.8 100 0.8 KR-20 KR-20 80 0.7 80 Test Mean (%) Test Mean (%) 60 Number of Items 40 0.6 60 0.5 40 0.4 20 Misfit Item 20 Misfit Person 0.3 2 0.6 Number of Items 0.5 Misfit Item 0.4 Misfit Person 0 1 0.7 3 4 5 6 7 0 0.3 1 2 3 18 Misfit除去前後の通過率 I 準1級 25 SD Max Min 1.00 0.27 0.11 0.57 0.12 0.75 Ave 2級 20 0.43 0.13 0.62 0.18 準2級 20 0.63 0.16 0.83 0.29 3級 15 0.79 0.12 0.95 0.48 文法語彙問題(vg) 0.50 初期 0.25 項目温存 Fit重視 0.00 (n=222) I Ave SD Max Min 準1級 3 0.30 0.13 0.45 0.21 準1級 2 0.30 0.16 0.42 0.19 2級 11 0.53 0.16 0.70 0.18 2級 10 0.51 0.15 0.66 0.18 準2級 10 0.66 0.20 0.91 0.31 準2級 14 0.65 0.18 0.88 0.29 3級 7 0.78 0.14 0.94 0.53 3級 10 0.80 0.14 0.94 0.52 (n=170) I Ave SD Max Min (n=193) 19 Misfit除去前後の通過率 I Ave SD Max Min 1.00 準1級 12 0.27 0.08 0.39 0.16 0.75 2級 12 0.42 0.12 0.64 0.25 0.50 準2級 12 0.68 0.12 0.88 0.45 0.25 3級 12 0.83 0.10 0.92 0.65 Ave SD Max Min 準1級 0 --- --- 2級 7 準2級 3級 初期 項目温存 Fit重視 0.00 (n=157) I 会話問題(dlg) 準1級 2級 準2級 3級 I Ave SD 準1級 0 --- --- 0.45 0.13 0.66 0.34 2級 3 0.49 0.137Misfit 0.58 0.34 2 0.82 0.09 0.91 0.73 準2級 3 0.79 0.101 0.88 0.68 4 0.84 0.11 0.95 0.70 3級 3 0.75 0.103 0.84 0.64 --- --- (n=139) Max Min --- --- Item=5 (n=125) 20 Misfit除去前後の通過率 1.00 I Ave SD Max Min 準1級 --- --- --- 2級 15 0.46 0.13 0.64 0.29 0.50 準2級 10 0.53 0.14 0.70 0.24 0.25 3級 10 0.75 0.14 0.97 0.50 --- --- 0.75 Ave SD Max Min 準1級 --- --- --- 2級 5 準2級 3級 初期 項目温存 Fit重視 0.00 (n=119) I 説明文問題(mlg) 準1級 2級 準2級 3級 I Ave SD 準1級 --- --- --- 0.51 0.15 0.64 0.27 2級 7 0.51 0.12 0.64 0.28 5 0.51 0.18 0.72 0.23 準2級 5 0.52 0.18 0.73 0.24 6 0.73 0.16 0.88 0.50 3級 7 0.74 0.15 0.88 0.50 --- --- (n=108) Max Min --- --- (n=112) 21 Misfit除去前後の基本統計量と信頼性 文法語彙問題Vg 会話問題Dlg Misfit Misfit Misfit 除去前 除去後 除去前 受験者数 項目数 素点平均 素点平均(%) 素点標準偏差 KR-20 説明文問題Mlg Misfit 除去後 Misfit 除去前 Misfit 除去後 222 193 157 142 119 112 80 36 47 13 35 19 39.9 22.9 24.7 8.2 19.7 11.3 49.9% 63.5% 52.5% 62.8% 56.4% 59.4% 5.59 2.63 5.27 3.91 10.12 6.64 0.858< 0.868 0.722 > 0.706 0.752 < 0.780 22 疑似クラス分けテスト 除去されなかった68問すべてを回答していた学生75人のデータにより、 擬似的に習熟度別クラス編成を行い結果を分析した。 受験者数 N 項目数 I 準1級 2級 準2級 3級 75 36 13 19 2 0 --- 10 7 7 14 2 5 10 4 7 文法語彙問題(vg) 会話問題(dlg) 説明文問題(mlg) 困難度(1PLM) 文法語彙問題(vg) 会話問題(dlg) 説明文問題(mlg) 中央値 最大値 最小値 -0.68 -0.64 -0.34 1.61 0.66 1.22 -2.79 -2.72 -1.93 困難度(NTT) 中央値 最大値 最小値 4 4 10 10 1 1 4 10 1 23 各テスト区分のテスト情報曲線 0.9 1PLM 0.8 Information 0.7 0.6 0.5 Vg (I=36) Dlg (I=13) Mlg (I=19) 0.4 0.3 0.2 0.1 -3.0 -2.7 -2.4 -2.1 -1.8 -1.5 -1.2 -0.9 -0.6 -0.3 0.0 0.3 0.6 0.9 1.2 1.5 1.8 2.1 2.4 2.7 3.0 0.0 Ability (θ) 24 各テスト区分のテスト参照プロファイル 35 NTT 30 Score 25 20 Vg (I=36) Dlg (I=13) Mlg (I=19) 15 10 5 0 R01 R02 R03 R04 R05 R06 R07 R08 R09 R10 LATENT RANK 25 語彙文法問題(vg)とCASECとの相関 θ1vg θ2vg θ1vg 1.00 θ2vg 0.97 1.00 C-S1 0.70 0.74 C-S2 0.60 0.56 C-S3 0.46 0.47 C-S4 0.51 0.51 C-T 0.72 0.74 Vg (I=36 N=105) θ1vg : 1PLMによる能力推定値 θ2vg:NTTによる能力推定値(Rank) C-S1 :CASECセクション1(語彙) C-S2 :CASECセクション2(表現) C-S3 :CASECセクション3(リスニング) C-S4 :CASECセクション4 (ディクテーション) C-T :CASEC合計点 θ1vg との相関:ピアソンの積率相関係数 θ2vg との相関:スピアマンの順位相関係数 26 会話問題(dlg)とCASECとの相関 θ1dlg θ2dlg θ1dlg 1.00 θ2dlg 0.91 1.00 C-S1 0.50 0.37 C-S2 0.55 0.48 C-S3 0.60 0.51 C-S4 0.44 0.31 C-T 0.65 0.52 Dlg (I=13 N=82) θ1dlg : 1PLMによる能力推定値 θ2dlg:NTTによる能力推定値(Rank) C-S1 :CASECセクション1(語彙) C-S2 :CASECセクション2(表現) C-S3 :CASECセクション3(リスニング) C-S4 :CASECセクション4 (ディクテーション) C-T :CASEC合計点 θ1dlg との相関:ピアソンの積率相関係数 θ2dlg との相関:スピアマンの順位相関係数 27 説明文問題(mlg)とCASECとの相関 θ1mlg θ2mlg θ1mlg 1.00 0.89 θ2mlg 1.00 C-S1 0.54 0.59 C-S2 0.57 0.52 C-S3 0.64 0.60 C-S4 0.45 0.50 C-T 0.70 0.70 Mlg (I=19 N=81) θ1mlg : 1PLMによる能力推定値 θ2mlg:NTTによる能力推定値(Rank) C-S1 :CASECセクション1(語彙) C-S2 :CASECセクション2(表現) C-S3 :CASECセクション3(リスニング) C-S4 :CASECセクション4 (ディクテーション) C-T :CASEC合計点 θ1mlg との相関:ピアソンの積率相関係数 θ2mlg との相関:スピアマンの順位相関係数 28 語彙文法問題(vg)とTOEIC Bridgeとの相関 θ1vg θ2vg θ1vg θ2vg TB-L TB-R TB-T 1.00 0.94 0.58 0.68 0.68 1.00 0.54 0.60 0.60 Vg (I=36 N=22) θ1vg : 1PLMによる能力推定値 θ2vg:NTTによる能力推定値(Rank) TB-L :TOEIC Bridge Listening Score TB-R : TOEIC Bridge Reading Score TB-T : TOEIC Bridge Total Score θ1vg との相関:ピアソンの積率相関係数 θ2vg との相関:スピアマンの順位相関係数 29 会話問題(dlg)とTOEIC Bridgeとの相関 θ1dlg θ2dlg θ1dlg θ2dlg TB-L TB-R TB-T 1.00 0.84 0.66 0.61 0.67 1.00 0.64 0.80 0.80 Dlg (I=13 N=21) θ1dlg : 1PLMによる能力推定値 θ2dlg:NTTによる能力推定値 TB-L :TOEIC Bridge Listening Score TB-R : TOEIC Bridge Reading Score TB-T : TOEIC Bridge Total Score θ1dlg との相関:ピアソンの積率相関係数 θ2dlg との相関:スピアマンの順位相関係数 30 説明文問題(mlg)とTOEIC Bridgeとの相関 θ1mlg θ2mlg θ1mlg θ2mlg TB-L TB-R TB-T 1.00 0.85 0.58 0.79 0.77 1.00 0.70 0.65 0.74 Mlg (I=19 N=16) θ1mlg : 1PLMによる能力推定値 θ2mlg:NTTによる能力推定値 TB-L :TOEIC Bridge Listening Score TB-R : TOEIC Bridge Reading Score TB-T : TOEIC Bridge Total Score θ1mlg との相関:ピアソンの積率相関係数 θ2mlg との相関:スピアマンの順位相関係数 31 疑似クラス分けテストとCASECとの相関 θ1vg θ1dlg θ1mlg θ1-T θ2vg θ2dlg θ2mlg θ2-T C-S1 C-S2 C-S3 C-S4 0.577 0.489 0.448 0.387 0.443 0.574 0.535 0.296 0.585 0.472 0.655 0.413 0.625 0.605 0.647 0.427 NTTが想定しているのは順序尺度であ り、この足し算にはやや無理がある。 0.607 0.407 0.406 0.422 本来はGraded Test Model で合 0.397 0.472 Neural 0.491 0.317 成を行うべきだが、まだ計算プログラ 0.625 0.396 0.653 0.494 ムが未完成。今回はこれで一般的な傾 0.660 0.534 0.640 0.524 向をつかむこととしたい。 C-T 0.619 0.611 0.711 0.761 0.633 0.560 0.729 0.796 (I=75 N=55) θ1-T= θ1vg+θ1dlg+θ1mlg : 1PLMによる能力推定値 θ2-T= θ2vg+θ2dlg+θ2mlg :NTTによる能力推定値 θ1 との相関:ピアソンの積率相関係数 θ2 との相関:スピアマンの順位相関係数 32 疑似クラス分けテストとTOEIC Bridgeとの 相関 θ1vg θ1dlg θ1mlg θ1-T θ2vg θ2dlg θ2mlg θ2-T TB-L 0.594 0.764 0.627 0.779 0.671 0.664 0.705 0.804 TB-R 0.670 0.695 0.807 0.840 0.544 0.863 0.713 0.801 TB-T 0.701 0.799 0.801 0.896 0.604 0.861 0.795 0.887 (I=75 N=13) θ1-T= θ1vg+θ1dlg+θ1mlg : 1PLMによる能力推定値 θ2-T= θ2vg+θ2dlg+θ2mlg :NTTによる能力推定値 θ1 との相関:ピアソンの積率相関係数 θ2 との相関:スピアマンの順位相関係数 33 NTTによるクラス分けのシミュレーション1 6 5 4 3 2 1 0 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 29 30 Class 01 Class 02 Class 03 Class04 Class 05 Class Class Class Class Class 10 06 07 08 09 34 NTTによるクラス分けのシミュレーションと 1PLMによる能力推定値の比較1 Class 01 Class 02 Class 03 Class 04 Class 05 Class 06 Class 07 Class 08 Class 09 Class 10 θ2-T N 3~5 6~8 9~11 12~14 15~17 18~19 20~21 22~23 24~25 26~30 7 8 8 7 9 7 8 6 7 8 θ1-T Mean -3.34 -2.82 -1.55 -1.20 -0.09 0.37 0.59 1.48 2.09 3.59 SD 0.677 0.491 0.674 0.494 0.493 0.822 0.535 0.647 0.922 1.083 正答数 Mean 25.9 27.8 35.1 36.0 41.8 43.7 45.5 48.7 50.3 57.8 SD 4.81 3.24 4.58 3.21 3.38 4.23 2.56 3.27 3.35 3.28 35 NTTによるクラス分けのシミュレーション2 6 5 4 3 2 1 0 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 29 30 Class01 Class02 Class03 Class04 Class05 36 NTTによるクラス分けのシミュレーションと 1PLMによる能力推定値の比較2 θ2-T Class 01 3~8 Class 02 9~14 Class 03 15~19 Class 04 20~23 Class 05 24~30 n 15 15 16 14 15 θ1-T Mean -3.06 -1.39 0.11 0.97 2.89 SD 0.604 0.584 0.652 0.698 1.204 正答数 Mean SD 26.9 3.88 35.5 3.76 42.6 3.66 46.9 3.09 54.3 4.84 37 クラス分けテストの テスト参照プロファイル1 70 60 Score 50 40 30 20 10 0 R01 R02 R03 R04 R05 R06 R07 R08 R09 R10 LATENT RANK 38 クラス分けテストの テスト参照プロファイル2 60 50 Score 40 30 20 10 0 R01 R02 R03 LATENT RANK R04 R05 39 クラス分けテストの テスト参照プロファイルと1PLM のθ 60 4.0 3.0 50 2.0 1.0 30 0.0 -1.0 20 -2.0 10 -3.0 0 -4.0 R01 R02 R03 R04 R05 R06 R07 R08 R09 R10 LATENT RANK θ1 Score 40 40 クラス分けテストの テスト参照プロファイル2 60 4.0 3.0 50 2.0 Score 40 1.0 30 0.0 -1.0 20 -2.0 10 0 -3.0 R01 R02 R03 LATENT RANK R04 R05 -4.0 41 まとめ 1. 条件を満たすテストを個人レベルで作成可能か? ⇒ 可能 2. どのようなモデルで分析するのがよいか? ⇒ 1PLM または NTT ⇒ 事前にmisfitを適切に取り除く 3. 作成したテストでうまくクラス分けできるか? ⇒ NTTを利用した方が解釈・判断が容易 42 今後の課題 1. どのような項目がよい項目か? 2. Misfitsをどのように取り除くのがよいか? 3. 項目バンクを構築できないか? 4. CATにできないか? 43 ご静聴ありがとうございました。 問い合わせ先:[email protected] 引用文献・参考文献 44 秋山實.(2006).「オーブンソースソフトウェアmoodleのオンラインテスト機能を基盤としたアイテム開発ス キーム」教育システム情報学会研究報告, vol.20, no.6, 79-82. 張一平.(2007).『確信度テスト法と項目反応理論』東京大学出版会. Drasgow, F., Levine, M. V., & McLaughlin, M. E. (1987). Detecting inappropriate test scores with optimal and practical appropriateness indices. Applied Psychological Measurement, II, 59-79. Drasgow, F., Levine, M. V., & Williams, E. A. (1985). Appropriateness measurement with polychotomous item response models and standardized indices. British Journal of Mathematical and Statistical Psychology, 38, 66-86. 木村哲夫.(2006).「大学におけるe-learningを活用した英語教育のあり方についての研究」新潟青陵大学平成17 年度共同研究費報告書. 木村哲夫.(2008a).「Moodleを使ったテスティングとそのデータ分析」『金谷憲教授還暦記念論文集』pp.247258. 桐原書店. 木村哲夫.(2008b).「 Moodleを利用したテスト項目分析とアダプティブ・テスト開発の可能性」『第34回全国 英語教育学会 東京研究大会予稿集』pp.340-341. 大友賢二.(1996).『項目応答理論入門』大修館書店. 大友賢二・中村洋一(2002). 『テストで言語能力ははかれるか~言語テストデータ分析入門~』河源社. Reise, S. P. & Due, A. M. (1991). The influence of test characteristics on the detection of aberrant Response patterns. Applied Psychological Measurement, Vol. 15, No. 3, 217-226 Shojima, K. (2008) .Neural test theory: A latent rank theory for analyzing test data. DNC Research Note, 08-01. 荘島宏二郎.(2008a).ニューラルテスト理論-資格試験のためのテスト理論- 平成20年度全国大学入学者選抜研 究連絡協議会,研究発表予稿集,163-168. 荘島宏二郎.(2008b). The structural neurofield mapping: A latent rank model for multivariate data. 日本行動計 量学会第36回大会. 芝祐順.(1991).『項目反応理論:基礎と応用』東京大学出版. 靜哲人.(2007).『基礎から深く理解するラッシュモデリング』関西大学出版. 豊田秀樹.(2002).『項目反応理論[入門編]』朝倉書店.
© Copyright 2024 ExpyDoc