Moodleによる英語プレイスメン トテストの作成と評価 ―IRTとNTTの視点から 木 村 哲 夫(新潟青陵大学) 日本言語テスト学会 第29回研究例会 in 沖縄 2 発表の流れ 1. 先行事例 2. Neural Test Theory 3. 英語プレイスメントテスト作成の流れ 4. 疑似クラス分けによるデータ分析 5. 1PLM と NTT の比較 6. 他のテストスコアとの相関分析 7. まとめと今後の課題 3 Moodleによる英語プレイスメントテスト 先行事例 • PLATON-m:英語運用能力評価協会(ELPA) のACE Placement を moodle 上で受験できるようにしたもの http://www.e-learning-service.co.jp/platon-m.html • SGU:Hinkelman & Grose (2004): Placement testing and audio quiz-making with open source software. Proceedings of CLaSIC 2004, 972-981. http://moodle.org/file.php/31/PlacementTestHinkelman.pdf For 5 years at SGU, with up to 250 simultaneous users 4 Hinkelman & Grose, 2004, 974. By improving item quality year by year, the authors conclude that a self-created placement test using open source software could, over several years of development, prove equal or superior to generic commercial products in reliability for closed population placement testing. 5 Neural Test Theory (NTT) 能力を順序尺度上で測定・評価しようとする 新しいテスト標準化理論 • 順序尺度を想定したテスト理論が必要である理由 ▫ 方法論的理由 テストはそもそも連続的に学力を評価できるほど信頼 性が高い測定道具ではなく、10段階くらいにランク付 けることがせいぜいである ▫ 教育社会学的理由 6 • テストは、社会の公具(public tool)であるために、存在 するだけで社会によい影響を与えなくてはいけない。 • 連続尺度は,受験生や学生に1点でも多く得点をとろう という受験者心理を助長し、「テストテクニック」のよ うな本来学生たちに求める学力とは異なるような技術が 塾や時には学校で教えられている。 • また、学力は一昼夜で劇的に変化しないにもかかわらず、 連続尺度の不安定な乱高下で受験者の不安をあおってい る。そこで、順序尺度で生徒を評価するようになれば、 少し腰をすえて努力をしないと学力が上の段階に評価さ れないので、小手先の技術を抑制することに貢献するこ とができる。 荘島(2008) 7 英語プレイスメントテスト作成の流れ 項目選択のための予備テスト 項 目 分 析 CTT:点双列相関係数(P.BIS) IRT: 1PLMによる項目分析(ZL値) NTT:項目参照プロファイル(IRP) misfit の除去 Misfit除去の基準 Misfit Person:ZL <-1.96 Misfit Item:P.BIS<0.25 プレイスメントテスト完成 8 使用したテスト項目の種類 • 文法語彙問題(Vg) • リスニング問題 ▫ 会話問題(Dlg) ▫ 説明文問題(Mlg) ※いずれも英検(3級~準1級)の過去問を協会の 許可を得て使用 9 使用したプログラム • Multiple Choice Maker: GIFTファイル作成マクロ MoodleResources(株)eラーニングサービス https://e-learning.ac/moodle-resources/ • Easy Estimation (Ver.0.4.2):項目パラメタ推定プログラム 周辺最尤推定法・EMアルゴリズムによる1~3PLMに対応 • Easy EstTheta (Ver0.1.1):特性値推定プログラム PersonFitの指標は、Drasgow, Levine, & Williamas(1985) およびDrasgow, Levine , & McLaughlin(1987)のZL統計量 新潟大学 熊谷 龍一 http://itranalysis.main.jp • neutet (Ver.20080822): NTT計算プログラム 「ニューラルテスト理論」荘島(2007)によるItem Reference Profileおよび各受験者の潜在ランク等を計算 大学入試センター 橋本 貴充 http://www.rd.dnc.ac.jp/~hashimot/neutet/ 10 misfit除去前後の基本統計量 文法語彙問題Vg 会話問題Dlg 説明文問題Mlg 除去前 除去後 除去前 除去後 除去前 除去後 受験者数 222 193 157 142 119 112 項目数 80 32 47 13 35 19 準1級 25 2 12 0 -- -- 2級 20 10 15 7 15 7 準2級 20 13 10 2 10 5 3級 15 7 10 4 10 7 39.9 19.2 24.7 8.2 19.7 11.3 素点平均(%) 49.9% 60.0% 素点標準偏差 10.12 6.32 5.59 2.63 5.27 3.91 KR-20 0.858 0.863 0.722 0.706 0.752 0.780 素点平均 52.5% 62.8% 56.4% 59.4% 11 プレイスメントテストの問題構成 リスニング問題 文法語彙問題Vg 会話問題Dlg 説明文問題Mlg 32 13 19 2 0 -- 2級 10 7 7 準2級 13 2 5 3級 7 32 4 7 項目数 準1級 小 計 合 計 32 64 12 プレイスメントテストの項目困難度 文法語彙問題 項目 番号 Vg01 Vg02 Vg03 Vg04 Vg05 Vg06 Vg07 Vg08 Vg09 Vg10 Vg11 Vg12 Vg13 Vg14 Vg15 Vg16 英検級 2級 2級 準1級 2級 2級 準2級 2級 準2級 2級 準2級 3級 準2級 3級 2級 準2級 2級 NTT Difficulty(β) Q=10 Q=5 5 4 8 7 4 1 8 5 8 1 1 1 1 3 4 10 3 3 5 3 2 1 5 3 4 1 1 1 1 2 2 5 1PLM Dificulty(θ) -0.17 -0.53 0.36 -0.19 -0.72 -1.34 0.55 -0.24 0.14 -1.92 -0.87 -0.92 -1.37 -0.63 -0.95 1.61 項目 番号 Vg17 Vg18 Vg19 Vg20 Vg21 Vg22 Vg23 Vg24 Vg25 Vg26 Vg27 Vg28 Vg29 Vg30 Vg31 Vg32 英検級 2級 準2級 準2級 2級 準2級 3級 3級 準1級 準2級 3級 準2級 3級 準2級 準2級 3級 準2級 NTT Difficulty(β) Q=10 Q=5 8 10 8 4 3 5 5 10 2 1 7 1 6 6 1 1 4 5 5 2 2 2 3 5 1 1 4 1 3 3 1 1 1PLM Dificulty(θ) 0.23 0.94 0.39 -0.58 -0.90 -0.92 -0.08 1.54 -1.17 -2.15 0.01 -1.47 -0.35 -0.08 -1.75 -1.87 13 プレイスメントテストの項目困難度 リスニング問題 項目 番号 Dlg01 Dlg02 Dlg03 Dlg04 Dlg05 Dlg06 Dlg07 Dlg08 Dlg09 Dlg10 Dlg11 Dlg12 Dlg13 Mlg01 Mlg02 Mlg03 英検級 2級 準2級 2級 2級 2級 3級 3級 3級 2級 2級 3級 準2級 2級 3級 準2級 2級 NTT Difficulty(β) Q=10 Q=5 8 1 4 8 10 2 1 1 5 10 1 3 6 3 2 5 4 1 2 5 5 1 1 1 3 5 1 2 4 2 1 3 1PLM Dificulty(θ) 0.32 -2.19 -0.62 0.74 0.56 -0.78 -1.58 -1.97 -0.43 0.74 -2.78 -0.92 0.53 0.32 -2.19 -0.62 項目 番号 Mlg04 Mlg05 Mlg06 Mlg07 Mlg08 Mlg09 Mlg10 Mlg11 Mlg12 Mlg13 Mlg14 Mlg15 Mlg16 Mlg17 Mlg18 Mlg19 英検級 2級 2級 3級 準2級 2級 3級 3級 準2級 2級 2級 2級 3級 3級 3級 準2級 準2級 NTT Difficulty(β) Q=10 Q=5 4 5 1 4 5 7 1 10 8 9 3 1 4 1 6 7 2 3 1 3 3 4 1 5 5 5 2 1 3 1 4 4 1PLM Dificulty(θ) -0.94 -1.03 -0.31 -0.57 0.18 -1.66 -0.34 -0.16 0.03 -1.93 1.22 0.18 0.98 -0.50 -1.54 -0.34 14 Vg 0 1 2 3 4 NTT (β) rs = .97 5 3.00 2.00 1.00 0.00 -1.00 -2.00 -3.00 1PLM (θ) 3.00 2.00 1.00 0.00 -1.00 -2.00 -3.00 Dlg 1PLM (θ) 1PLM (θ) NTTの項目困難度(β)と1PLMの項目困難度(θ) の比較 0 1 2 3 4 NTT (β) rs = .91 5 Mlg 3.00 2.00 1.00 0.00 -1.00 -2.00 -3.00 0 1 2 3 4 NTT (β) rs = .89 5 15 NTT:項目参照プロファイル(IRP) 1.0 0.8 0.8 Probability Probability 1.0 0.6 0.4 0.2 0.0 2 3 4 Latent Rank 5 1.0 0.6 0.4 0.2 0.0 1 Vg30 Vg03 Probability Vg01 1 2 3 4 Latent Rank 5 0.8 0.6 0.4 0.2 0.0 1 2 3 4 5 Latent Rank Q=5 16 NTT:テスト参照プロファイル(TRP) 1 2 3 4 5 6 7 8 9 10 Latent Rank 12 10 8 6 4 2 0 20 15 Score 35 30 25 20 15 10 5 0 Mlg Dlg Score Score Vg 10 5 0 1 2 3 4 5 6 7 8 9 10 Latent Rank 1 2 3 4 5 6 7 8 9 10 Latent Rank Q=10 17 NTT:ランク・メンバーシップ・ プロファイル(RMP) 受験者61 受験者43 1.0 1.0 0.8 0.8 0.8 0.6 0.4 0.2 0.0 1 2 3 4 Latent Rank 5 Probability 1.0 Probability Probability 受験者37 0.6 0.4 0.2 0.0 0.6 0.4 0.2 0.0 1 2 3 4 Latent Rank 5 1 2 3 4 5 Latent Rank Q=5 18 疑似クラス分け 予備テストで、プレイスメントテストに選ばれた64問すべてを回 答した75人のデータをもとに、擬似的クラス分けを行った。 Rvg :Vgの潜在ランク θvg :Vgの推定能力 Tvg :Vgの正当数 Rdlg : Dlgの潜在ランク θdlg : Dlgの推定能力 Tdlg : Dlgの正当数 Rvg :Vgの潜在ランク θvg :Vgの推定能力 Tvg :Vgの正当数 RT :NTT総合評価 θT :1PLM総合評価 TT :正当数総合評価 19 クラス分けの状況 6 5 4 人3 数 2 1 0 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 29 30 Class01 Class02 n= 15 n= 15 Class03 n= 16 潜在ランク(RT)とクラス Class04 Class05 n= 14 n= 15 20 各クラスの英語基礎力総合評価(RT、θT、ST)の 代表値と散布度の比較 θT RT Class n Mdn Range M ST SD M SD Class 01 15 6 5 -3.06 0.604 26.9 3.88 Class 02 15 11 5 -1.39 0.584 35.5 3.76 Class 03 16 17 4 0.11 0.652 42.6 3.66 Class 04 14 21 3 0.97 0.698 46.9 3.09 Class 05 15 26 6 2.89 1.204 54.3 4.84 21 R、θ、S 間の相関係数 文法語彙 Rvg θvg Svg 会話 Rdlg θdlg Sdlg Rvg θvg Svg ― .96 ― .96 .99 ― Rdlg θdlg Sdlg ― .90 ― .90 .98 ― 説明文 Rmlg θmlg Smlg 総合評価 RT θT ST Rmlg θmlg Smlg ― .93 ― .92 .92 ― RT θT ST ― .96 ― .94 .96 ― 注:RT:θTとRT:STはスピアマンの順位相関係数(rs)を、 θT:STはピアソンの積率相関係数(r)を用いた。 22 1000 1000 900 900 800 800 700 700 600 600 CASEC CASEC 他の英語能力試験結果との比較(CASEC) 500 400 300 n =55 200 100 500 400 300 n =55 200 100 0 0 5 10 15 20 RT rs=.80 25 30 0 -4.00 -2.00 0.00 θT r =.76 2.00 4.00 23 180 180 160 160 140 140 TOEIC Bridge TOEIC Bridge 他の英語能力試験結果との比較(TOEIC Bridge) 120 100 80 60 n =13 40 120 100 80 60 40 20 n =13 20 0 0 5 10 15 20 RT rs=.89 25 30 0 -4.00 -2.00 0.00 θT r =.90 2.00 4.00 24 まとめと今後の課題 Moodleを利用して、IRT/NTTの枠組みで十分な 信頼性と妥当性のあるプレイスメントテスト を、個人レベルで作成することが可能 プレイスメントという目的には、能力を順序尺 度上で推定するNTTの方が解釈が容易であり、 NTTで示されるRMPは教育的示唆に富んでいる 25 まとめと今後の課題 1素材に複数項目を設定する読解問題などを testletとして処理して追加できないか? subtestから総合力を求める最適な方法は? 項目バンクを充実させCATに発展できないか? content balanceをどのように調整するか? 開発時のmisfit の最適な扱いは? 予期しない解答パタンへの適切な対応は? 26 ご静聴ありがとうございました。 http://www.e-learning-service.net/kimura/ 問い合わせ先:[email protected]
© Copyright 2024 ExpyDoc