言語テストにおける段階評価の実際: 入試とプレイスメントテストのデータ処理 日本言語テスト学会第13回全国研究大会 2009年9月7日 新潟青陵大学 木村哲夫 2 発表の概要 段階評価とは? なぜ段階評価なのか? 入試における段階評価 プレイスメントテストにおける段階評価 3 段階評価とは? 能力を順序尺度上(潜在ランク)で評価する評価 ニューラルテスト理論(neural test theory:NTT):自己組織 化マップ(self-organizing map, SOM)や生成トポグラフィッ クマッピング(generative topographic mapping, GTM)のメ カニズムを利用したノンパラメトリック・テスト理論 (Shojima, 2008) 古典的テスト理論(CTT) 間隔尺度 連続的 項目応答理論(IRT) 間隔尺度 連続的 ニューラルテスト理論(NTT) 順序尺度 段階的 4 なぜ段階評価か?:NTTの利点 テストはそもそも連続的に学力 ①測定方法論的側 を評価できるほど信頼性が高い 測定道具ではなく、5~10段階 面 (解像度の問題) くらいにランク付けることがせ いぜいである。 荘島(2008) 5 体重と体重計 • 現象(連続) • 測定(高解像度) 3 荘島(2008)より引用 4 1 2 Weight 6 能力とテスト • 現象(連続?) • 測定(低信頼性・低解像度) 4 3 荘島(2008)より引用 2 1 Ability 7 なぜ段階評価か?:NTTの利点 連続尺度の負の側面 ②教育社会学的側 面 •生徒たちは、日々、一点でも高 い得点をとるよう動機付けられ ている。 •不安定な連続尺度の乱高下に一 喜一憂させるべきではない 。 順序尺度の正の側面 •段階評価は、連続尺度上での評 価よりも頑健 •継続して努力しないと上位ラン クに進めない。 荘島(2008) 8 なぜ段階評価か?:NTTの利点 指導要録、通知票、調査書、 ③教育現場の評価体 作品・レポート・実技テスト、 学力の文章表現など、教育現場 制の側面 で行われている評価体制は、順 序尺度に帰着する。 松宮・荘島(2008) 9 なぜ段階評価か?:NTTの利点 段階評価を導入すれことにより、 段階評価により区別される各能 力段階(潜在ランク)の特徴を、 Can-Do Chartとの関連で示すこ ④品質管理・アカウ とが、連続尺度のもとで検討す ンタビリティの側面 るよりも容易に行える。 テストから作成されたCan-Do Chartはテストの説明資料・学力 達成への道標になる。 松宮・荘島(2009) Shoujima(2009) 10 Continuous academic ability evaluation scale based on IRT or CTT It is difficult to explain the relationship between scores and abilities because individual abilities also change continuously Graded evaluation ↓ Accountability ↓ Qualification test For Qualifying Tests Ordinal academic ability evaluation scale based on Neural Test Theory Because the individual abilities also change in stages, it is easy to explain the relationship between scores and abilities. This increases the test’s accountability. Shoujima(2009)より引用 11 項目分析手法とソフトウエア 項目分析手法 ソフトウエア CTT 古典的テスト理論 TDAP (大友・中村・秋山) IRT 1PLM(Rasch Model) EasyEstimation,Easy EstTheta (熊谷) NTT ニューラルテスト理論 neutet(橋本) exametrica(荘島) GNT exametrica(荘島) 段階ニューラルテスト理論 ※段階ニューラルテスト(graded neural test, GNT)モデル:多値の 順序データに対応するためのNTTの拡張モデル 12 入試データを段階評価にしたら 設問の種類 解答方法 項目数 配点 小計 会話応答 多肢選択 5 2 10 文法語彙 多肢選択 12 2 24 語句並び替え作文 多肢選択 4 4 16 長文内語句穴埋 多肢選択 10 2 20 長文読解 多肢選択 8 2 16 長文読解 正誤判断 14 1 14 合 53 計 100 •会話応答はリスニングではなくテキストを読む形式。 •多肢選択は作文を除き4択、作文は選択肢の語句を並び替え、2番目 と5番目を回答(片方正解は0点)。 •長文内語句穴埋と長文読解は、それぞれ2種類の文章からなる。 13 入試データを段階評価にしたら ヒストグラム 60 50 40 頻 30 度 20 人 10 ) 0 0 10 20 30 40 50 60 70 80 90 100 48.5 0.68 49 42 10.69 -0.075 0.014 19 79 249 ( 基本統計量 平均 標準誤差 中央値 最頻値 標準偏差 尖度 歪度 最小 最大 標本数 データ区間(得点) 14 入試データを段階評価にしたら 通常の評価方法 素点をもとに、平均値と標準偏差 を調整、または中央値補正により、 他の試験科目とのバランスを取り 処理。 ①すべての項目を2値データNTT により処理。 ②下位テスト(設問のタイプ)ごと 段階評価にした場合 に2値データNTTにより処理し、 その潜在ランクを段階NTT(GNT) により、順序尺度として処理。 →今回は①により処理 15 入試データを段階評価にしたら 潜在ランク数(Q)を いくつに分析すべき か? 多い方が合否ボーダーを切りや すいが、項目数と受験者数から、 分析の限界(弱順序配列を満たす こと)がある。 素点合計と潜在ランクの相関(スピアマンの順位相関係数) Q=10 Q=11 Q=12 Q=13 Q=14 Q=15 Q=16 Q=17 Q=18 Q=19 0.82 0.82 0.83 0.82 0.83 0.82 0.83 0.82 0.83 0.82 テスト適合度はランク数を増やしても大きく変わらないが、 RMPに基 づくテスト適合度はランク数を増やすにつれて下がる。今回はQ=10と した場合の段階評価について、素点合計との差を見ることにする。 16 入試データを段階評価にしたら 順位相関0.82という 約67%の順位は一致しているが、 33%は順位が異なり、合否の判 ことは? 定が変わる。 ある学科で40人程度を入学させようとする場合 通常の評価方法 換算点順位37位まで44人合格 段階評価にした場合 潜在ランク10~8まで47人合格 17 入試データを段階評価にしたら 通常 NTT 通常 NTT 通常 NTT 通常 NTT 通常 NTT 1 2 2 2 5 6 7 7 10 10 12 12 14 14 17 17 22 22 22 22 22 29 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 29 32 32 37 37 45 45 55 17 37 45 14 17 28 32 37 37 37 37 45 51 55 10 10 10 10 10 10 10 10 9 9 9 8 8 8 8 8 8 8 8 8 8 8 88 93 96 22 51 51 55 62 67 67 73 73 73 73 73 82 88 93 112 29 32 55 8 8 8 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 6 6 6 62 62 73 73 88 101 101 101 101 7 32 45 62 67 67 73 82 82 82 88 101 112 6 6 6 6 6 6 6 6 6 5 5 5 5 5 5 5 5 5 5 5 5 5 112 117 118 135 55 55 55 62 73 93 101 112 118 118 124 130 136 17 37 51 67 82 5 5 5 5 4 4 4 4 4 4 4 4 4 4 4 4 4 3 3 3 3 3 18 入試データを段階評価にしたら 通常 NTT 通常 NTT 通常 NTT 45 10 55 8 32 6 45 10 88 8 7 5 55 10 93 8 32 5 45 9 96 8 17 3 45 8 22 7 37 3 51 8 29 6 19 入試データを段階評価にしたら 各項目の配点は恣意的に決められる。 通常の評価方法 識別力が高低にかかわらず、あらかじ め 決められた配点によって重みづけら れてしまう。 各項目がIRPによって重みづけられる。 段階評価(NTT) の場合 識別力が高い項目に正答すればするほ ど潜在ランクが高く 、誤答すればする ほど潜在ランクが 低く推定される。 識別力が小さい項目に、いくら正答し ようとも誤答しようとも、潜在ランク の推定に影響を与えない。 20 入試データを段階評価にしたら 原因①:IRPが平坦な(識別 力が低い)項目がいくつか あるため 文法語彙第10問のIRP 1.0 0.8 0.6 確 率 0.4 能力の低い受験生がたまた ま正解しても、能力の高い 受験生がうっかり不正解し ても潜在ランクの推定には 影響を与えない。 0.2 0.0 1 2 3 4 5 6 7 8 9 10 潜在ランク 21 入試データを段階評価にしたら (10) Compared to Christmas in Western counties, in Japan it is very much ( 15 ) oriented. (A) commerce (C) commercially (B) commercial (D) commercialized 段階評価の処理(NTT) 通常の処理(正解数) 26% Top(55-79) 62% 39% Middle(42-54) 38% Bottom(19-41) 0% A 44% B C(正解) D 43% 32% Bottom(1-3) 100% 57% 43% Middle(4-6) 44% 50% 30% Top (8-10) 0% A 47% 50% B C(正解) 100% D 22 入試データを段階評価にしたら 原因②:IRPが単調増加し ない(識別力に問題がる)項 目がいくつかあるため 長文穴埋め第7問のIRP 1.0 0.8 0.6 確 率 0.4 中程度の能力の受験者には 魅力的に見える選択肢だ が、低い能力の受験者は文 脈に関係なく自分の知って いる語句の選択肢を選ん で、偶然正解したのではな いか? 0.2 0.0 1 2 3 4 5 6 7 8 9 10 潜在ランク 23 入試データを段階評価にしたら What Vermont lacks in size, it makes up for in beauty. It is known as the Green Mountain State. The name comes from the Green Mountains, ( which ) divide the state up and down the center. ( 32 ), the name Vermont comes from the French "verd mont," meaning green mountain. 32 (A) As a result (B) Finally 26% 63% Middle(42-54) 25% 57% Bottom(19-41) 25% A 50% B Top (8-10) C D(正解) 24% Bottom(1-3) 100% 63% 36% Middle(4-6) 49% 0% (D) In fact 段階評価の処理(NTT) 通常の処理(正解数) Top(55-79) (C) However 43% 15% 66% 0% A 50% B C D(正解) 100% 24 入試データを段階評価にしたら 恣意的な配点による素点に基づく通常の処理よりも、項 目のIRPによる重みづけによる段階評価による入試は ① 合否ボーダーラインを検討しやすいのではないか? ② テスト得点のみに頼った入試からの脱却につながるの ではないか? ③ より優秀な学生を獲得できる可能性が高いのでは? ④ IRPやTRPを出題者にフィードバックすることで、次 年度問題作成において質の向上につながるのでは? 25 英語プレイスメントテスト作成の流れ 項目選択のための予備テスト 項 目 分 析 CTT:点双列相関係数(P.BIS) IRT: 1PLMによる項目分析(ZL値) NTT:項目参照プロファイル(IRP) misfit の除去 Misfit除去の基準 Misfit Person:ZL <-1.96 Misfit Item:P.BIS<0.25 プレイスメントテスト完成 26 予備テストの項目数と受験者数 受験者数 項目数 準1級 文法語彙問題(vg) 会話問題(dlg) 説明文問題(mlg) 222 157 119 80 47 35 25 12 --- 2級 準2級 3級 20 15 15 20 10 10 15 10 10 2級 準2級 3級 10 7 7 13 2 5 7 4 7 misfit の除去 受験者数 項目数 準1級 文法語彙問題(vg) 会話問題(dlg) 説明文問題(mlg) 193 142 112 32 13 19 2 0 --- 27 2段階モデルによる英語プレイスメント テストの分析 ① 2008 疑似クラス分け(N=75) ② 2009 N短大のクラス分け(N=125) NTT(Q=10)により下位 テストの潜在ランク (Rvg, Rdlg, Rmlg)を求め S 潜在ランク(Rvg, Rdlg, Rmlg) U の単純和(SUM)をもとに M 5クラス分け G T N 潜在ランク(Rvg, Rdlg, Rmlg) を項目としてGNT(Q=5) により5クラス分け • NTT分析は予備テストで得られたIRPを固定し、①はneutet、②はexametrikaを使 LRT-SOMモデルにより、潜在ランクの目標分布を指定せずに行った。 • GNTの分析はexametrikaを使いLRT-SOMモデルにより、 潜在ランクの目標分布を 一様分布として行った。 28 SUMによるクラス分けと GNTによるクラス分けの相関 受験者数 ① 2008 ② 2009 75 125 第1段 NTT ランク数 10 第2段 GNT ランク数 5 10 5 0.95 10 10 0.92 順位 相関係数 0.93 •①のGNTをQ=10とした場合は、弱順序配列を満たさなかった •順位相関係数はスピアマンの順位相関係数 29 下位テストのテスト参照プロファイル(TRP) ① 2008 (N=75) 20 得点 得点 25 15 10 5 0 Vg 1 2 3 4 5 6 7 8 9 10 潜在ランク 12 10 8 6 4 2 0 Dlg 15 得点 30 10 5 0 1 2 3 4 5 6 7 8 9 10 潜在ランク Mlg 1 2 3 4 5 6 7 8 9 10 潜在ランク Vg 1 2 3 4 5 6 7 8 9 10 潜在ランク 12 10 8 6 4 2 0 Dlg 15 得点 30 25 20 15 10 5 0 得点 得点 ② 2009(N=125) 10 5 0 1 2 3 4 5 6 7 8 9 10 潜在ランク Mlg 1 2 3 4 5 6 7 8 9 10 潜在ランク 30 GNTのテスト参照プロファイル(TRP) ② 2008(N=125) 14 14 12 12 10 10 8 8 得点 得点 ① 2008 (N=75) 6 4 6 4 2 2 0 1 2 3 4 潜在ランク 5 0 1 2 3 4 潜在ランク 5 31 下位テストの相対潜在ランク分布(LRD)と 相対ランク・メンバーシップ分布(RMD) ① 2008 (N=75) 0.4 0.3 0.2 0.1 0.5 相対LRD 0.4 相対RMD 相対度数 相対度数 0.5 相対LRD 0.3 0.2 0.1 0.0 Vg 2 3 4 5 6 7 8 9 10 0.3 0.2 0.0 1 Dlg 潜在ランク 相対RMD 0.1 0.0 1 相対LRD 0.4 相対RMD 相対度数 0.5 2 3 4 5 6 7 8 9 10 1 Mlg 潜在ランク 2 3 4 5 6 7 8 9 10 潜在ランク ② 2009(N=125) 0.3 0.2 0.1 0.3 0.2 1 2 3 4 5 6 7 8 9 10 潜在ランク 相対RMD 0.3 0.2 0.1 0.0 0.0 1 Dlg 相対LRD 0.4 相対RMD 0.1 0.0 0.5 相対LRD 0.4 相対RMD 相対度数 相対度数 0.4 Vg 0.5 相対LRD 相対度数 0.5 2 3 4 5 6 7 8 9 10 潜在ランク 1 Mlg 2 3 4 5 6 7 8 9 10 潜在ランク 32 GNTの相対潜在ランク分布(LRD)と 相対ランク・メンバーシップ分布(RMD) ② 2009(N=125) 0.30 0.30 0.24 0.24 0.18 相対LRD 相対RMD 0.12 相対度数 相対度数 ① 2008 (N=75) 0.18 0.06 0.06 0.00 0.00 1 2 3 4 潜在ランク 5 相対LRD 相対RMD 0.12 1 2 3 4 潜在ランク 5 33 GNTの項目参照プロファイル(IRP) ① 2008 (N=75) ② 2009(N=125) 5.0 5.0 4.0 4.0 3.0 RVg RDlg RMlg 2.0 1.0 0.0 1 2 3 4 LATENT RANK 5 3.0 RVg RDlg RMlg 2.0 1.0 0.0 1 2 3 4 LATENT RANK 5 34 GNTの境界カテゴリ参照プロファイル(BCRP) ① 2008 (N=75) 1.0 1.0 RVg 0.8 1 1.0 RDlg 0.8 1 0.8 RMlg 1 0.6 2 0.6 2 0.6 2 0.4 3 0.4 3 0.4 3 4 0.2 5 0.0 4 0.2 5 0.0 1 2 3 4 5 4 0.2 5 0.0 1 2 3 4 5 1 2 3 4 5 ② 2008(N=125) 1.0 1.0 RVg 0.8 1 0.8 1.0 RDlg 1 0.6 2 0.6 2 0.4 3 0.4 3 4 0.2 5 0.0 4 0.2 5 0.0 1 2 3 4 5 1 2 3 4 5 0.8 RMlg 1 0.6 2 0.4 3 4 0.2 5 0.0 1 2 3 4 5 35 GNTの項目カテゴリ参照プロファイル(ICRP) ① 2008 (N=75) 1.0 1.0 RVg 0.8 1 1.0 RDlg 0.8 1 RMlg 0.8 1 0.6 2 0.6 2 0.6 2 0.4 3 0.4 3 0.4 3 4 0.2 5 0.0 4 0.2 5 0.0 1 2 3 4 5 4 0.2 5 0.0 1 2 3 4 5 1 2 3 4 5 ① 2008 (N=125) 1.0 1.0 RVg 0.8 1 1.0 RDlg 0.8 1 RMlg 0.8 1 0.6 2 0.6 2 0.6 2 0.4 3 0.4 3 0.4 3 4 0.2 5 0.0 4 0.2 5 0.0 1 2 3 4 5 4 0.2 5 0.0 1 2 3 4 5 1 2 3 4 5 36 2段階モデルによる英語プレイスメント テストの分析(まとめ) NTTとGNTの2段階で分析することで、クラス(能 力)の境界を解釈・設定しやすくなる。 予備テストで識別力の高い項目を用意した場合 SUMでもGNTでもほぼ同様のクラス分けができる。 SUMとGNTによるクラス分けで異なる結果が出るの は、GNTは下位テストの識別力の差を考慮するため であろう。 GNTで一様分布を指定することで、より均等なクラ ス分けが実現する。 37 2段階モデルによる英語プレイスメント テストの分析(今後に向けて) 下位テストに読解問題を加える(GNTによる分析) 英語基礎力の構成概念の妥当性の検討 各下位テストに項目数を増やし(等化)アイテムバ ンクを構築・公開:学校(教員)間での共有 各下位テストをMoodle-based CATにする 潜在ランクを何らかのCan-D0-Chartへ対応づける 38 ご静聴ありがとうございました。 本英語プレイスメントテスト実施ご希望の方、 本研究についてご質問のある方は、 [email protected] あてにご連絡ください。
© Copyright 2024 ExpyDoc