VELC Test® フォーム A の選択肢特性分析 靜 哲人 語 学 教 育 研 究 所 創 設 30 周 年 記 念 フ ォ ー ラ ム pp. 97-115 大東文化大学語学教育研究所 2015 年 3 月 31 日 VELC Test® フ ォ ー ム A の 選 択 肢 特 性 分 析 1 靜 哲人 Analyzing Option Performances of VELC Test® Form A Tetsuhito Shizuka Abstract The VELC Test® is an English proficiency test specifically developed for Japanese EFL university students . The test consists of 60 listening questions and 60 reading questions, with four multiple-choice answers for each question. The score is scaled to an assumed population mean of 500 and a standard deviation of 100. The test has multiple forms that have been equated through Rasch modeling such that the scores obtained on any one form are comparable along one common dimension. A total of 12,857 university students sat for one of the multiple forms of the VELC Test® in the academic year 2013, 1,940 of whom took Form A. 1,797 answered all 120 test items. Of those who took Form A, The purpose of this study was to investigate the performance of each answer-option of every item in Form A, based on the responses of those 1,797 examinees. First, as a quick and crude check of the validity of each option, the option -total correlation, i.e., the point-biserial correlation between the 1/0 matrix representing choice/non-choice of each option and the overall score matrix, was computed . Second, the choice ratio of each option as a function of total -score band was plotted and the trace lines were examined. The results indicated that all 120 correct options were performing effectively and 359 out of the 360 distractors were behaving satisfactorily. In addition, it was found that the test consists of items that differ in the ability bands where they best discriminate. Hence, overall, the study has provided additional evide nce in support of the VELC Test’s validity. キーワード:熟達度テスト、多肢選択項目、項目分析、トレースライン 1 VELC Test と は 1.1 テ ス ト の 概 要 VELC Test®と は 、筆 者 の 所 属 す る 英 語 能 力 測 定・評 価 研 究 会( VELC 研 究 会 ) で 2010 年 か ら 2011 年 に か け て 開 発 し た 、リ ス ニ ン グ セ ク シ ョ ン と リ ー デ ィ ン グ セクションからなる日本人大学生向けの英語熟達度テストである。2 2012 年 度 に 希 望 大 学 を 対 象 に 試 行 実 施 し た 後 、2013 年 度 よ り 公 式 実 施 を 開 始 し て い る も の で、現在主としてプレイスメントや授業効果の測定などの用途で利用されている ( 長 2013; 眞 砂 2014)。 項 目 の 元 と な る 英 文 素 材 は VELC 研 究 会 所 属 の 母 語 話 者 が 書 き お ろ し 、そ れ を 筆 者 ら が 問 題 項 目 化 し た 。 そ の 予 備 問 題 項 目 を 合 計 5,000 名 を 超 え る 日 本 人 大 学 生 集 団 に 試 行 し 、そ の 結 果 に ラ ッ シ ュ モ デ ル( Rasch 1960; Bond & Fox 2007; 靜 2007)を 当 て は め 、モ デ ル 適 合 度 が 基 準 を 満 た し た 項 目 の み を 選 別 し た 。3 ラ ウ ンドに渡る試行を経て、難易度が等化された複数フォームが完成しており、どの フォームを受験しても結果の直接比較が可能である。 他の熟達度テストと比べた時の特長のひとつに結果通知の迅速性が挙げられ、 事 務 局 に 解 答 デ ー タ が 到 着 し た 翌 日 に は 「 e-ポ ー ト フ ォ リ オ 」 上 で 結 果 が 閲 覧 可 能 と な る 。 e-ポ ー ト フ ォ リ オ と は 個 人 別 の 結 果 と そ の 分 析 を ウ ェ ブ 上 に 表 示 す る もので、複数回受験すればその経時変化もグラフで視覚的に確認できるものであ る。 1.2 問 題 形 式 テ ス ト は リ ス ニ ン グ 60 項 目 と リ ー デ ィ ン グ 60 項 目 の 計 120 項 目 で 構 成 さ れ て おり、リスニング、リーディングそれぞれがさらに3パートに別れるので、合計 6タイプの問題からなる。その詳細を表1に示す。 L1( リ ス ニ ン グ セ ク シ ョ ン パ ー ト 1 、以 下 同 様 )は 、日 本 語 の 訳 語 に 続 い て 音声提示される4つの英単語の中から、日本語に対応するものを選ぶ形式で、聴 い て 語 彙 が 理 解 で き る か を 測 定 す る 。L2 は 、短 い 文 を 聴 き 、ア ス テ リ ス ク で 指 定 された部分の語を答えるもので、連続した音声を正しく単語単位で聴き取れるか を測定する。アステリスクの単語は空欄が始まって4つ目の語が指定される。な お順番の数え間違いによる誤答を防ぐため、誤答選択肢には刺激文音声には使用 さ れ て い な い 語 の み を 使 用 し て い る 。L3 は 音 声 提 示 さ れ る 刺 激 文 の 最 後 の 語 が 電 子音に置換されており、その電子音の箇所に入るはずの語句を印刷提示された選 択肢から選ぶ形式である。文脈を追って正しく聴解できる力を測定する。 表1 パート VELC Test の パ ー ト 別 問 題 形 式 問題例(正体は印刷されて、斜体は音声で提示) 項目数 L1 歩 く a) write, b) happen, c) walk, d) love 20 L2 If fact, ( ) ( ) ( ) (*) ( ) ( ) ( ) ( ) . 20 a) all, b) though, c) must, d) almost In fact, my sister is almost as tall as me. L3 In Japan today, more than 50% of high school students go 20 on to [BEEP]. a) school, b) university, c) books, d) jobs R1 経 験 a) society, b) experience, c) notice, d) language 20 R2 Today, people a) can use the Internet b) find it easy to c) 20 communicate with d) each other. [who]は a)〜 d)の う ち ど こ に 入 る か 。 R3 In Japan, high school students often ______, but university 20 students usually do not. a) eat lunch, b) wear uniforms, c) work part -time, d) study English R1( リ ー デ ィ ン グ セ ク シ ョ ン パ ー ト 1 、 以 下 同 様 ) は L1 と 同 様 の 形 式 を 印 刷 ベ ー ス で 提 示 す る も の で 、見 て 語 彙 が 理 解 で き る か を 測 定 す る 。R2 は 、文 か ら 抜 き出された1語がどこから抜き出されたかを問うもので、構文理解力および読解 力 を 測 定 す る 。 筆 者 が 以 前 か ら Invisible-gap filling と 呼 ん で 到 達 度 テ ス ト で 使 用 し て い た 形 式 ( Shizuka, 2004) を 多 肢 選 択 の 熟 達 度 テ ス ト に 応 用 し た も の で あ る 。R3 は あ る 程 度 の 長 さ の 文 章 の 空 所 に 入 る フ レ ー ズ 、文 を 問 う も の で 、行 間 を読む力を含む読解力を測定するものである。 他 の 商 用 熟 達 度 テ ス ト で よ く 見 ら れ る 、 い わ ゆ る 統 合 的 項 目 (integrative items)を 意 図 的 に 避 け 、 各 項 目 で 測 定 す る 能 力 を 比 較 的 細 か く 設 定 す る こ と に よ り、診断的情報を得ることを狙っている。 1.3 こ れ ま で の 妥 当 性 検 証 VELC Test®の 信 頼 性 、 妥 当 性 に つ い て は 研 究 会 の メ ン バ ー が す で に い く つ か の 観 点 か ら 検 証 を 試 み た( 靜 2012b; 2012c; 2013; 望 月 2013; 靜・望 月 2014; 水 本 ・ 熊 澤 2014)。靜 ・ 望 月 (2014)で は 、ま ず 同 テ ス ト を 日 本 人 大 学 生 が 受 験 し た 時 に .94 を 超 え る 信 頼 性 指 数 が 得 ら れ 、 か つ 受 験 者 層 の 最 も 厚 い 能 力 レ ベ ル に お いて最も正確な測定がなされることを確認した。また項目難度の幅が広く、難度 は 安 定 し て い る と い う 結 果 も 得 た 。 ま た 試 行 段 階 に お け る デ ー タ で は 、 TOEIC® の 総 合 ス コ ア と の 相 関 係 数 が .82 を 超 え た の で 、 TOEIC®を 基 準 と し た 場 合 に も 実用上も十分な基準関連妥当性があると思われた。さらに構造方程式モデリング により本テストの構成概念妥当性に関する複合的な証拠を確認した。 水 本 ・ 熊 澤 ( 2014) は 、( 1 ) 通 年 の 英 語 授 業 で 前 期 に は Form A、 後 期 に は Form B と 、 と も に 期 末 テ ス ト と し て VELC Test®を 用 い た ケ ー ス ( N = 190)と 、 ( 2 )1 年 以 上 に わ た り 3 回 以 上 受 験 し た ケ ー ス ( N = 353)を 分 析 し 、熟 達 度 の 変 化 を VELC Test®が ど の よ う に 検 知 し た か を 調 査 し た 。 調 査 ( 1 ) の 結 果 と し て は、受験者能力推定値は前期よりも後期のほうが有意に高くなっていたが、効果 量 の 点 で は ほ と ん ど 実 質 的 な 意 味 は な か っ た 。 わ ず か な 能 力 の 伸 び を VELC Test®は 検 知 す る こ と が 確 認 さ れ た と 同 時 に 、 ど の よ う な 授 業 で あ っ て も 半 年 間 で得られる能力の伸び幅はわずかであろうという教師の抱く一般的な直観を裏付 け る 結 果 が 得 ら れ た と 言 え る 。調 査( 2 )で は 、14 ヶ 月 間 の 個 人 個 人 の ス コ ア の 変 化 に 対 し て マ ル チ レ ベ ル モ デ ル を 当 て は め て み た と こ ろ 初 期 状 態 で は VELC ス コ ア が 504 点 だ っ た の が 、 14 ヶ 月 目 に は 520 点 に な っ た と い う モ デ ル ケ ー ス が 浮かび上がった。やはり少しずつではあるが授業を通じて熟達度が向上してゆく 様 子 を VELC Test®が と ら え た と い う 結 果 が 得 ら れ た と 言 え る 。 2 本研究の目的 本 研 究 の 目 的 は 、 VELC Test®の 項 目 の 特 性 を 、 誤 答 選 択 肢 ( 錯 乱 肢 ) を 含 め た 選 択 肢 の 振 る 舞 い と い う 観 点 か ら 検 証 す る こ と に よ り 、 VELC Test®の 妥 当 性 に関するさらなるデータを得ることである。 「 正 答 選 択 肢 は 、能 力 が 上 が る に 従 っ て 選 択 さ れ る 率 が 上 が っ て い る か 」 「誤答 選択肢のひとつひとつは能力が上がるに従って選択される率が下がっているか 」 「誤答選択肢のなかに機能していないもの、ほとんど選択されていなものなどは ないか」 「 項 目 ご と に 弁 別 力 が 高 い 能 力 層 が 変 わ っ て い る か 」な ど の 疑 問 に 答 え る ことを試みた。 3 手順 3.1 分 析 対 象 デ ー タ 2013 年 度 に VELC Test®を 受 験 し た 大 学 生 お よ び 高 等 専 門 学 校 生 12,857 名 の な か で Form A を 受 験 し た の は 1,940 名 で あ っ た 。そ の 中 で 120 問 の す べ て に 解 答 し て い た 1,797 名 が 選 ん だ 選 択 肢 の 記 号 デ ー タ ( A, B, C, D) を 分 析 の 対 象 と し た 。 デ ー タ は 大 学 名 お よ び 受 験 者 個 人 名 を 削 除 し た 形 で VELC Test®運 営 事 務 局より提供を受けた。 3.2 分 析 方 法 3.2.1 各 選 択 肢 の 選 択 ・ 非 選 択 ( 1/0) と 総 合 ス コ ア の 相 関 ま ず お お ま か な 状 況 を 把 握 す る た め に 、 各 選 択 肢 が 選 択 さ れ た 場 合 を 1、 選 択 さ れ な か っ た 場 合 を 0 と 置 き 換 え て 生 成 さ れ る 1/0 行 列 と 総 合 ス コ ア 行 列 の 相 関 係数を確認した。その選択肢が正答である場合は、相関係数は正でかつ有意であ ることが期待される。総合スコアが高いほど、解答としてその選択肢を選ぶ確率 が高くなるはずであるからである。一方選択肢が誤答である場合はその逆で、総 合スコアが高いほどその選択肢を避ける傾向が強くなるはずであるので、負で有 意な相関があることが期待される。ただし誤答選択肢は3つあるため、誤答であ る 場 合 の 選 択 率 を 分 け 合 う 傾 向 が あ る ( い わ ば 「 票 が 割 れ る 」)。 そ の た め 選 択 肢 に よ っ て は 全 体 の 選 択 率 が 低 く な り 、相 関 が 0.00 に 近 く 有 意 で な く な る 場 合 も 考 えられるが、その場合も少なくとも正の値であるべきである。 こ の よ う な 相 関 係 数 は 、 選 択 さ れ た 記 号 デ ー タ (A, B, C, D)を Excel®等 で 1/0 データに変換して手作業で求めることも可能だが、今回はラッシュモデリングの ソ フ ト ウ ェ ア で あ る Winsteps® の Output files メ ニ ュ ー の 中 の Category/Option/Distractor Files DISFILES= コ マ ン ド を 利 用 し て 一 気 に ア ウ ト プ ッ ト さ れ る Distractor File を 利 用 し た 。 Distractor File ア ウ ト プ ッ ト の 一 部 を 表 2 に 示 す 。 こ れ は L1_005( リ ス ニ ン グ セ ク シ ョ ン パ ー ト 1 の 項 目 の 中 の 通 番 05)の 選 択 肢 の 振 る 舞 い を 示 す デ ー タ で あ る 。CODE コ ラ ム が ABCD の 選 択 肢 記 号 で あ る 。VALUE コ ラ ム の 値 は 、そ の 行 の 記 号 が 正 答 (1)で あ る か 誤 答 (0)で あ る か を 示 す 。 こ の 項 目 は B の 行 が 1 な の で B が 正 答 で あ る 。 USED が 各 選 択 肢 を 選 ん だ 受 験 者 の 数 を 、 USED%が そ の 率 を 示 す 。 90%以 上 の 受 験 者 が 正 解 の B を 選 ん だ こ と が 分 か る 。 AVGE MEAS は average measure の 略 で 、 各 選 択 肢 を 選 ん だ 学 生 の 、 平 均 能 力 値 ( 単 位 は ロ ジ ッ ツ ) を 示 す 。 B の 値 が 最 も 高 く ( こ の 場 合 は た ま た ま 正 の 値 )、 A、 C、 D の 値 は より低い。この項目の正解である B を選んだ受験者の平均能力が、誤答である A, C, D を の い ず れ を 選 ん だ 受 験 者 の 平 均 能 力 よ り も 高 い こ と が 分 か る 。 そ の 右 の S.E.MEAS は 能 力 値 の 標 準 誤 差 で あ る 。 OUTFIT MNSQ コ ラ ム の 数 値 は ラ ッ シ ュ モ デ ル へ の 適 合 度 Outfit Mean Square を 示 す 。 概 ね 値 が 0.50 か ら 1.50 の 範 囲 な ら ば 測 定 の た め に 有 用 で あ る 。 0.50 よ り 小 さ い 、 あ る い は 1.50 か ら 2.00 の 間 な ら 有 用 で は な い が 害 は な い 。 2.00 を 超 え る と 有 害 で あ る (Linacre, 2014: 596)。PTMEA は point-measure correlation の 略 で あ り 、今 回 の 分 析 の 焦 点 で あ る 相 関 係 数 を 表 し て い る 。 こ の 項 目 の 場 合 、 正 解 で あ る B の み が .27 と 正 の 値 で あ り 、ほ か の 3 つ は 負 の 値 で あ る 。こ の PTMEA の 値 を 中 心 に す べ て の 項 目 を 点 検した。 Winsteps の Distractor File の 出 力 の 一 部 表2 CODE VALUE USED USED % A B C D 0 1 0 0 81 1620 66 30 4.5 90.2 3.7 1.7 3.2.2 AVGE MEAS -1.01 0.09 -0.78 -0.93 S.E. MEAS 0.09 0.03 0.11 0.15 OUTFIT MNSQ 0.94 0.97 1.14 0.95 PTMEA LABEL -0.19 0.27 -0.13 -0.11 L1_005 L1_005 L1_005 L1_005 トレースライン分析 上の相関分析は分析対象のすべての被験者のデータを元にひとつの相関係数を 算出するものだが、当該の選択肢が被験者のレベルによってどのように振舞って いるのか、すなわち弁別しているのかの情報は得られない。そのような被験者レ ベ ル 別 の 弁 別 の 様 子 に 光 を 当 て る の が ト レ ー ス ラ イ ン 分 析( Haladyna, 1999: 177) である。トレースライン分析とは、各選択肢の選択率が受験者能力レベルの変化 に応じてどのように変化するかを、横軸に受験者の能力レベルを、縦軸に選択率 をとってプロットして視覚的に確かめることを言う。 図1 ト レ ー ス ラ イ ン の 例 。 横 軸 は 受 験 者 の 総 合 レ ベ ル ( 1 が 最 も 低 く 10 が 最 も 高 い )、 縦 軸 は そ の レ ベ ル の 受 験 者 が そ の 選 択 肢 を 選 ん だ 率 。 サンプルとして図1を示す。4つの折れ線が4つの選択肢の選択率の変化を表 している。右肩上がりの折れ線がひとつあり、これが正答選択肢の トレースライ ンである。受験者の全体的能力レベルが上がるに従ってこの選択肢を選ぶ率が 上 がっている。すなわちこの選択肢を選ぶかどうかがその受験者の全体的能力を示 唆するということであり、正答選択肢として妥当なパターンである。残りの3つ の折れ線はいずれも右肩下がりである。これらは誤答選択肢すなわち錯乱肢であ り、受験者の全体的能力レベルが下がるに従って、いずれも選択される率が上が っている。すなわち能力の低い受験者ほどこれらの錯乱肢に「錯乱」されるわけ で 、こ れ ら は 誤 答 選 択 肢 と し て 妥 当 な 働 き を し て い る と 言 え る 。た だ 選 択 肢 A は 、 C と D に 比 べ る と 選 択 率 が 非 常 に 低 く 、ほ と ん ど「 魅 力 」が な い の で 、よ り「 魅 力的」になるように改善の余地がある。例えばこのような解釈を行うのがトレー スライン分析である。 今 回 の 分 析 で 横 軸 の 受 験 者 の グ ル ー プ 分 け に は 、VELC ス コ ア レ ポ ー ト と し て も フ ィ ー ド バ ッ ク さ れ る 10 の レ ベ ル 分 け を 利 用 し た 。こ の 10 レ ベ ル は 、想 定 母 集 団 の ス コ ア が 、平 均 が 500、標 準 偏 差 100 の 完 全 な 正 規 分 布 を す る と 仮 定 し た と き に 、 人 数 が 10 等 分 さ れ る よ う に VELC ス コ ア を 切 り 分 け た も の で あ る 。 Form A を 構 成 す る 全 120 項 目 に つ い て Excel®に よ り ト レ ー ス ラ イ ン を 作 成 し 、 視 認 に よ り 選 択 肢 の 振 る 舞 い を 観 察 し 、Distractor File の 数 値 と も 照 合 し な が ら 、 項目の特性を吟味した。 4 結果 VELC Test®の 項 目 は 非 公 開 で あ り 、 本 論 文 で も 項 目 内 容 を 具 体 的 に 示 し て 論 ずることはできない。よって以下はその制約の中での記述となる。 4.1 選 択 肢 毎 の 相 関 係 数 分 析 表3に、各項目の正答選択肢に関する選択状況と総合スコアの点双列相関係数 の 記 述 統 計 を パ ー ト 別 に 示 す 。 リ ス ニ ン グ パ ー ト の 平 均 値 は .32~ .38、 リ ー デ ィ ン グ パ ー ト の 平 均 値 は .44~ .50 で あ る 。い ず れ も か な り 高 い が リ ス ニ ン グ 項 目 よ りもリーディング項目の値のほうがコンスタントに高い傾向がある。最小値を比 較 す る と リ ス ニ ン グ パ ー ト は .14~ .18 と 、 .20 を 下 回 る が 、 リ ー デ ィ ン グ パ ー ト は .25~ .31 と 、 .25 以 上 で あ る 。 い ず れ に し て も 、 す べ て 正 で か つ 有 意 な 相 関 で あり、正答選択肢として想定通りの効果的な振る舞いをしていると言える。 表3 L1 L2 L3 正答選択肢と総合スコアの相関係数のパート別記述統計 平均 .38 .32 .37 標準偏差 0.14 0.10 0.09 最高 .66 .48 .56 最低 .14 .18 .18 R1 R2 R3 平均 .44 .45 .50 標準偏差 0.08 0.09 0.09 最高 .56 .57 .63 最低 .29 .25 .31 注 : 選 択 肢 数 は 各 パ ー ト と も 、 k = 20( 20 項 目 に そ れ ぞ れ 1 つ の 正 答 選 択 肢 ) 表4に誤答選択肢に関する同様の記述統計を示す。上述のように、誤答選択肢 に関してはそれを選択することと総合スコアとの間には負の相関があることが正 常な状態であり、正の相関があってはならない。平均値をリスニングパートとリ ー デ ィ ン グ パ ー ト で 比 較 す る と 、 正 答 選 択 肢 の 場 合 と 同 様 、 リ ス ニ ン グ (-.17 ~ -.13)よ り も リ ー デ ィ ン グ( -.22~ -23)に お い て や や 関 係 が 強 い こ と が 分 か る 。最 高 値 を 見 る と 、 L1, L2, L3 の い ず れ に お い て も 小 さ い な が ら も 正 の 値 で あ り 、 何 らかの理由により想定外の振る舞いが起こっていることがわかる。そこでひとつ ひとつの選択肢を点検してみると、6つのリスニング項目において、それぞれひ とつの選択肢で小さいながらも正の値があることが判明した。 表4 L1 L2 L3 誤答選択肢と総合スコアの相関係数のパート別記述統計 平均 -.17 -.13 -.16. 標準偏差 0.10 0.10 0.09 最高 .06 .10 .05 最低 -.18 -.14 -.16 R1 R2 R3 平均 -.22 -.22 -.23 標準偏差 0.08 0.08 0.08 最高 -.05 -.03 -.04 最低 -.38 -.39 -.23 注 : 選 択 肢 数 は 各 パ ー ト と も 、 k = 60( 20 項 目 に そ れ ぞ れ 3 つ の 誤 答 選 択 肢 ) 4.2 トレースライン分析:誤答に正の相関があった項目 ト レ ー ス ラ イ ン は 全 120 項 目 に 関 し て 作 成 し た が 、そ の す べ て を 提 示 す る の は 紙幅の関係上無理である。そこでまず前項で判明した、相関分析で負の値である べき誤答選択肢に小さいながらも正の値が見出された項目のトレースラインを提 示し、状況を解釈することとする。 相 関 係 数 が 正 で あ っ た 誤 答 選 択 肢 と は 、L1_044 の B (.067), L2_012 の A (.1027), L2_018 の C (.065), L2_026 の D (.0059), L3_054 の D (.0196), L3_095 の B (.0525)の 6 つ で あ る 。( そ れ ぞ れ L の 後 の 数 字 が パ ー ト を 、 ア ン ダ ー バ ー の 後 の 3桁の数字は識別番号を、その後の記号が当該の選択肢を、括弧内の数値が相関 係 数 を 示 す 。) < L1_044 の 選 択 肢 B> L1_044 は 、 リ ス ニ ン グ の セ ク シ ョ ン 1 な の で 選 択 肢 は す べ て 語 彙 で あ る 。 A、 B、 C、 D と い ず れ も JACET 8000 で は レ ベ ル 5 の 名 詞 で あ っ た 。 正 解 で あ る A のトレースラインは右肩上がり、つまり能力が上がるに従って選択率も上がって い る の で 想 定 通 り で あ る 。し か し 誤 答 で あ る B も ま た わ ず か で は あ る が 右 肩 上 が りで能力が上がるに従って選択率も漸増している。ラッシュモデルとの適合度を 示 す Outfit も 2.0 を わ ず か に 上 回 り 、 測 定 に と っ て や や 「 有 害 」、 と い う レ ベ ル である。 CODE VALUE USED A B C D 1 0 0 0 843 625 129 200 図2 USED % AVGE MEAS S.E. MEAS OUTFIT MNSQ PTMEA LABEL 46.9 34.8 7.2 11.1 0.16 0.09 -0.17 -0.91 0.04 0.04 0.10 0.05 1.43 2.05 1.91 0.53 0.14 0.06 -0.04 -0.28 L1_044 L1_044 L1_044 L1_044 L1_044 の ト レ ー ス ラ イ ン お よ び 選 択 状 況 デ ー タ 。 た だ し 、訳 語 と の 対 応 と い う 点 に お い て B が 正 解 に い く ら か で も 近 い と い う こ と は ま っ た く な い 。よ っ て 内 容 的 な 観 点 か ら の 出 題 ミ ス と は 言 う こ と は で き な い 。 ではなぜこのようなトレースラインなのだろうか。 ま ず 誤 答 の C を 見 る と 、ど の レ ベ ル に お い て も 選 択 率 が 10%以 下 で 、ほ と ん ど 「錯乱」力がなかったことがわかる。音節数は、A が3音節、B が4音節、C が 1 音 節 、D が 4 音 節 で あ り 、目 立 っ て C だ け が 短 い 。C の 除 外 に は 、ひ と つ だ け 目立って異なる選択肢はおそらく正解ではない、という判断が働いた可能性があ る 。も う ひ と つ の 誤 答 D は 、お そ ら く 4 つ の 中 で 親 密 度 が 最 も 高 く 、提 示 さ れ た 訳語に対応する語彙ではないことがすくなくともレベル5以上の受験者には分か っ た 可 能 性 が あ る 。( な お 、 4 つ の 語 は い ず れ も 横 川 ・ 他 ( 2009) の 「 日 本 人 英 語学習者の英単語親密度リスト:音声編」には含まれておらず、直観を超えた親 密 度 の 査 定 は で き な い 。) もしそうだとすると、レベル5以上の受験者のほとんどにとっては、4選択 肢 中 の 2 選 択 肢 は 消 去 さ れ 、事 実 上 の 2 選 択 問 題 に 近 く な っ た こ と が 考 え ら れ る 。 しかし A と B の間でまったく無作為の2択でなかったのは、正解の A の選択率 が B のそれよりもコンスタントに高かったことから分かる。そして A と B の AVRG MEAS を 比 較 す る と 、A を 選 ん だ 受 験 者 の ほ う が B を 選 ん だ 受 験 者 よ り も 平均能力が高かった。 A と B の ト レ ー ス ラ イ ン が ど ち ら も 右 肩 上 が り な の は 、能 力 が 高 く な る ほ ど 「 正 解 は A と B の ど ち ら か で あ る 」こ と が 分 か っ た 、と い う こ と を 示 す 。つ ま り A は 正 解 選 択 肢 と し て 妥 当 な 振 る 舞 い を し て い た の だ が 、な ぜ か B も( 内 容 的 に は正解ではないにもかかわらず)準正解選択肢のような振る舞いをしてしまった ということである。このようなパターンになった原因は、最終的には解釈しきれ ない部分が残ると言わざるを得ない。 < L2_012 の 選 択 肢 A> これはリスニングのセクション2の項目なので空欄にあたる語を聞き取って選 ぶ も の で あ る 。図 3 を 見 る と 、誤 答 選 択 肢 A の ト レ ー ス ラ イ ン が が や や 右 肩 上 が り に な っ て い る 。し か し 正 答 の D の ラ イ ン と は か な り 離 れ て お り 、選 択 率 は わ ず か 12.5%で あ る 。 Outfit 値 を 見 て も 1.99 と 2.00 は 超 え て い な い た め 実 質 的 に は 問題ないと考えて良いと思われる。 CODE VALUE USED USED % AVGE MEAS S.E. MEAS OUTFIT MNSQ PTMEA LABEL A B C D 0 0 0 1 225 585 489 498 12.5 32.6 27.2 27.7 0.30 -0.30 -0.41 0.60 0.07 0.04 0.04 0.05 1.99 1.05 0.91 1.17 0.10 -0.18 -0.22 0.33 L2_012 L2_012 L2_012 L2_012 図3 L2_012 の ト レ ー ス ラ イ ン お よ び 選 択 状 況 デ ー タ < L2_018 の 選 択 肢 C> L2_018 の ト レ ー ス ラ イ ン お よ び 選 択 状 況 デ ー タ を 図 4 に 示 す 。 正 答 の B と 誤 答 の C は 受 験 生 レ ベ ル 1 ~ 8 ま で は ほ と ん ど ト レ ー ス ラ イ ン が 重 な っ て い る 。し か し レ ベ ル 9 と 1 0 で は 大 き く 離 れ る 。つ ま り 誤 答 選 択 肢 C は 熟 達 度 が 高 い レ ベ ル で 弁 別 す る と い う 機 能 を 果 た し て い る と 言 え る 。Outfit も 1.81 で あ り 、Linacre (2014)の 基 準 に よ る な ら ば 、 積 極 的 に 問 題 が あ る と ま で は 言 え な い 。 < L2_026 の 選 択 肢 D> L2_026 の ト レ ー ス ラ イ ン お よ び 選 択 状 況 デ ー タ を 図 5 に 示 す 。 相 関 係 数 と し て 問 題 に な っ た の は 選 択 肢 D で あ る が 、ト レ ー ス ラ イ ン を 一 見 し て 問 題 が な い こ と が 分 か る 。 相 関 係 数 も 正 の 値 と は 言 え 、 .01 で あ り 事 実 上 .00 で あ る 。 Outfit も 1.62 で 問 題 は な い 。 CODE VALUE USED A B C D 0 1 0 0 809 496 335 157 図4 USED % AVGE MEAS S.E. MEAS OUTFIT MNSQ PTMEA LABEL 45.0 27.6 18.6 8.7 -0.31 0.49 0.14 -0.37 0.03 0.06 0.06 0.07 1.02 1.47 1.81 0.93 -0.24 0.27 0.07 -0.10 L2_018 L2_018 L2_018 L2_018 L2_018 の ト レ ー ス ラ イ ン お よ び 選 択 状 況 デ ー タ CODE VALUE USED USED % AVGE MEAS S.E. MEAS OUTFIT MNSQ PTMEA LABEL A B C D 0 1 0 0 180 797 619 201 10.0 44.4 34.4 11.2 -0.55 0.52 -0.54 0.01 0.07 0.04 0.03 0.07 0.89 1.10 0.83 1.62 -0.16 0.42 -0.34 0.01 L2_026 L2_026 L2_026 L2_026 図5 L2_026 の ト レ ー ス ラ イ ン お よ び 選 択 状 況 デ ー タ < L3_054 の 選 択 肢 D> リ ス ニ ン グ の パ ー ト 3 は 、ト ー ク の 最 後 の 語 が ビ ー プ で 置 換 し て あ り 、そ こ に 当 て は ま る も の を 選 ぶ 、 と い う 形 式 で あ る 。 L3_054 の ト レ ー ス ラ イ ン お よ び 選 択 状 況 デ ー タ を 図 6 に 示 す 。正 解 の C だ け が 明 ら か な 右 肩 上 が り ラ イ ン で あ る 。総 関 係 数 が .02 だ っ た D は 明 ら か に 事 実 上 平 坦 な ラ イ ン で 、 正 解 の 勾 配 と は か け 離 れ て い る 。 全 体 の 選 択 率 も 14.2%と 低 い こ と か ら も 、 積 極 的 に 問 題 が あ る と い う よ り も 、単 に 魅 力 の な い 、弁 別 力 の な い 選 択 肢 だ っ た こ と が わ か る 。Outfit の 値 の 1.73 も こ の 解 釈 を 裏 付 け る も の で あ る 。 CODE VALUE USED USED % AVGE MEAS S.E. MEAS OUTFIT MNSQ PTMEA LABEL A B C D 0 0 1 0 427 231 884 255 23.8 12.9 49.2 14.2 -0.78 -0.43 0.46 0.05 0.03 0.06 0.04 0.06 0.59 1.00 1.11 1.73 -0.38 -0.15 0.41 0.02 L3_054 L3_054 L3_054 L3_054 図6 L3_054 の ト レ ー ス ラ イ ン お よ び 選 択 状 況 デ ー タ < L3_095 の 選 択 肢 B> この項目のトークと選択肢を改めて確認してみても、相関係数がごく小さいな が ら も 正 の 値 ( .05) を 示 し た 選 択 肢 B が 正 解 で あ る 要 素 は ま っ た く な い 。 し た がって内容的な出題ミスではない。しかし選択肢が入るべき直前の語とのコロケ ー シ ョ ン だ け を 見 る と 、他 の 誤 答 選 択 肢 で あ る A と C よ り も い く ぶ ん も っ と も ら し い か も し れ な い 。 図 7 を 確 認 す る と 、 レ ベ ル 6 ~8 の 受 験 者 は 正 解 の D よ り も こ の B を 多 く 選 ん で い る 。し か し 注 目 す べ き は 、正 解 D の レ ベ ル 9 か ら 1 0 に か け て の 勾 配 が 急 激 に 大 き く な っ て い る 結 果 、レ ベ ル 1 0 で は 正 解 の D と 誤 答 の B の 選 択 率 が 20 ポ イ ン ト 近 く 離 れ て い る と い う 点 で あ る 。 す な わ ち 、 相 関 係 数 だ け を 見 る と 問 題 が あ る よ う に 見 え る 選 択 肢 B は 、受 験 者 の ト ッ プ レ ベ ル に お け る 弁別に寄与していることが分かる。 CODE VALUE USED USED % AVGE MEAS S.E. MEAS OUTFIT MNSQ PTMEA LABEL A B C D 0 0 0 1 265 533 553 446 14.7 29.7 30.8 24.8 -0.36 0.08 -0.21 0.34 0.06 0.05 0.04 0.06 0.97 1.58 1.03 1.74 -0.13 0.05 -0.12 0.18 L3_095 L3_095 L3_095 L3_095 図7 L3_095 の ト レ ー ス ラ イ ン お よ び 選 択 状 況 デ ー タ 4.3 ト レ ー ス ラ イ ン 分 析 : 弁 別 す る レ ベ ル の 違 い に よ る 分 類 120 項 目 の 正 答 選 択 肢 の ト レ ー ス ラ イ ン は 、 同 じ 右 肩 上 が り で も 、 そ の 勾 配 の 様 子 か ら 、大 き く 分 け て 3 つ の パ タ ー ン に 分 類 で き た 。 ( 1 )勾 配 が 下 位 、中 位 レ ベルでは緩やかであるが上位のレベル8~10で特に急になる項目、 ( 2 )勾 配 が すべてのレベル概ね等しい項目、 ( 3 )勾 配 が レ ベ ル 1 ~ 3 な ど で 急 だ が 他 の レ ベ ルでは緩やかである項目、である。トレースラインの傾斜はすなわち弁別力の高 さ を 表 す の で 、( 1 ) ~( 3 ) は そ れ ぞ れ 、( 1 ) 主 と し て 上 位 群 を 弁 別 す る 項 目 、 ( 2 )下 位 か ら 上 位 ま で を ほ ぼ ま ん べ ん な く 弁 別 す る 項 目 、 ( 3 )主 と し て 下 位 群 を 弁 別 す る 項 目 、で あ る と 言 え る 。図 8 、 図 9 、図 1 0 に 3 タ イ プ の 代 表 的 な ト レースラインを示す。 図8 主として上位群を弁別している項目のトレースライン 図9 下位群から上位群までまんべんなく弁別している項目のトレースライン 図10 主として下位群を弁別しているトレースラインの例 それぞれのタイプの割合を6つのパート別にまとめてみると表5のようになる。 タイプの分類は視覚的なおおまかな印象によるので厳密なものではない。しかし ある程度の傾向を同定するには十分だと考える。 表5 主として上位を弁別、下位から上位までをまんべんなく弁別、主として下 位を弁別する項目の、パート別の割合(パーセンテージ) 主に上位 まんべん なく 主に下位 L1 20 L2 25 L3 30 R1 15 R2 15 R3 35 合計 23 55 60 65 40 60 50 55 25 15 5 45 25 15 22 すべてのパートを合計すると、主として上位を弁別する項目と主として下位を 弁 別 す る 項 目 の 割 合 は ほ ぼ 等 し く 、 い ず れ も 22~23%で あ る 。 半 数 以 上 の 項 目 が すべてのレベルの受験者をまんべんなく弁別するタイプに分類される。パート別 に 見 る と 、 視 認 に よ る 語 彙 問 題 で あ る R1 に 下 位 を 弁 別 す る 項 目 の 割 合 が 突 出 し て 高 い( 45%)。シ ン プ ル な 語 彙 問 題 が 下 位 層 の 弁 別 に 役 立 っ て い る と い う こ と で あ る 。逆 に 主 と し て 上 位 を 弁 別 す る 項 目 の 割 合 が 高 い の は L3 と R3 で あ る( 30% と 35%)。 文 脈 を 理 解 し な い と 正 解 で き な い タ イ プ の 問 題 形 式 が 、 上 位 層 の 弁 別 には適していたと解釈できる。 5 考察および結論 VELC Test®は 、 あ ら か じ め 5,000 名 を 超 え る 大 学 生 に 試 行 し た デ ー タ を も と に、特性(項目難度およびラッシュモデル適合度)が基準に適合した項目のみに よ っ て 構 成 さ れ て い る 。よ っ て 使 用 さ れ て い る 項 目 は す べ て 優 れ て い る と「 想 定 」 さ れ て い る 。 こ の 想 定 が 実 際 に 事 実 で あ る か 否 か を 2013 年 度 Form A の 本 実 施 データによって検証すること、が本論文の目的であった。 各選択肢の選択と総合スコアの間の点双列相関係数の結果から見ると、想定通 り 、調 べ た 120 項 目 の 正 答 選 択 肢 は す べ て 妥 当 で あ る と 言 え る 。つ ま り ど の 正 答 選択肢も、総合的な能力が上がるほど選択される率が上がる、弁別力のある選択 肢だと再確認された。 で は 誤 答 選 択 肢 は ど う で あ ろ う か 。正 答 選 択 肢 を 選 択 し な い 場 合 は 、 (無解答の 場合を除き)3 つの誤答選択肢のいずれかを選択する。すると、総合的な能力が 上がるほど正答選択肢を選択する率が上がるということは、裏を返せば総合的な ... 能力が下がるほど誤答選択肢のいずれかを選択する率が上がっていることになる。 こ の 意 味 で 、各 項 目 の 誤 答 選 択 肢 は 3 つ 合 わ せ て ひ と つ の セ ッ ト と し て 考 え た 時 には、すべて弁別力のある選択肢セットだと言ってもよい。 し か し そ れ で は 120 項 目 に 360 あ る 誤 答 選 択 肢 の ひ と つ ひ と つ が 、す べ て 効 果 的に機能していたのか、といえば今回のデータからは「そうとまでは言えない」 と い う 結 果 が 判 明 し た 。360 件 の う ち 1.7%に あ た る 6 件 の 誤 答 選 択 肢 に つ い て 事 実上ゼロに近いながらも正の値の相関係数を持つものがあったからである。しか しトレースラインを吟味してみたところ、誤答選択肢として場合によっては修正 も し く は 差 し 替 え が 必 要 か と 思 わ れ た の は 1 件 の み( L1_044)で 、あ と の 5 件 は ラインの形状からも全体選択率からもモデル適合度からも事実上問題はないこと が 確 認 さ れ た 。つ ま り 360 件 の 誤 答 選 択 肢 の う ち 想 定 外 の 動 き を し て い る の が わ ず か 1 件 、 0.3%で あ る こ と が 確 認 さ れ た わ け で 、 VELC Test® フ ォ ー ム A の 項 目の質が揃っていることが改めて検証されたと考えて良いと思われる。 ま た 120 項 目 の( 正 答 選 択 肢 の )ト レ ー ス ラ イ ン の 形 状 を 吟 味 す る な か で 、項 目による弁別「守備」範囲の違いが明らかになった。すなわち主として上位の受 験者の弁別に効果的な項目、下位から上位までまんべんなく弁別する項目、主と し て 下 位 の 受 験 者 を 弁 別 す る 項 目 の 3 種 類 が 観 察 さ れ た 。過 半 数 は ま ん べ ん な く 弁別する項目群に属するが、それらを上位を弁別する項目群と下位を弁別する項 目群が補っている形と言える。全体の正答率が高い項目であっても下位の受験者 の弁別に役立っている場合があり、逆に正答率が低い項目であっても上位の受験 者の弁別に欠かせない場合がある。弁別の「守備範囲」が異なるさまざまな項目 か ら 構 成 さ れ る こ と で 、 VELC Test®は 比 較 的 幅 広 い 能 力 層 の 受 験 者 の 弁 別 を 行 っていると考えられよう。 注 1 本 稿 は 2014 年 8 月 28 日 に 広 島 大 学 に て 行 わ れ た 大 学 英 語 教 育 学 会 (JACET)第 53 回 国 際 大 会 で の 口 頭 発 表「 VELC Test フ ォ ー ム A の 選 択 肢 分 析 か ら 見 え る 各 ア イ テムの特性」に加筆修正を加えたものである。 2 VELC Test® に つ い て の よ り 詳 細 な 情 報 は 、 ベ ル ク 研 究 会 の ウ ェ ブ サ イ ト に あ る 。 http://www.velctest.org/ 引用文献 長 加 奈 子 (2013) 「 VELC Test の 導 入 と 活 用 法:北 九 州 市 立 大 学 国 際 環 境 工 学 部 」 英 語 能 力 測 定・評 価 研 究 会 VELC Test 公 開 記 念 第 2 回 研 究 会[ 基 調 講 演 ] ( 於: 研 究 社 英 語 セ ン タ ー ) 7 月 28 日 . 靜 哲 人 (2007).『 基 礎 か ら 深 く 理 解 す る ラ ッ シ ュ モ デ リ ン グ:項 目 応 答 理 論 と は 似 て非なる測定のパラダイム』関西大学出版部. 靜 哲 人 (2012a).「 大 学 生 の た め の 新 し い 英 語 テ ス ト の 開 発 」 英 語 能 力 測 定 ・ 評 価 研 究 会 VELC Test 公 開 記 念 第 1 回 研 究 会 [ 基 調 講 演 ]( 於 : 研 究 社 英 語 セ ン タ ー ) 7 月 29 日 . 靜 哲 人 (2012b). 「 VELC テ ス ト に よ る TOEIC ス コ ア の 予 測 : リ ス ニ ン グ と リ ー デ ィ ン グ に つ い て 示 唆 さ れ る も の 」日 本 言 語 テ ス ト 学 会 第 16 回 全 国 研 究 大 会 ( 於 : 専 修 大 学 生 田 キ ャ ン パ ス ) 10 月 27 日 . 靜 哲 人 (2012c)「 ベ ル ク テ ス ト の 妥 当 性 を 検 証 す る : 2012 年 度 デ ー タ に も と づ い て 」 JACET 関 西 支 部 2012 年 度 秋 季 大 会 ( 於 : 京 都 産 業 大 学 ) 11 月 24 日 . 靜 哲 人 (2013). 「 実 施 デ ー タ に 基 づ く VELC Test の 信 頼 性・妥 当 性 の 検 証 」英 語 能 力 測 定 ・ 評 価 研 究 会 VELC Test 公 開 記 念 第 2 回 研 究 会 [ 基 調 講 演 ]( 於 : 研 究 社 英 語 セ ン タ ー ) 7 月 28 日 . 靜 哲 人 ・吉 成 雄 一 郎 (2012). 「 大 学 生 の 英 語 力『 可 視 化 』の 試 み: 熟 達 度 診 断 の た め の VELC Test の 開 発 」 JACET 第 51 回 国 際 大 会 ( 於 : 愛 知 県 立 大 学 ) 9 月 1 日. 靜 哲 人・望 月 正 道 (2014). 「 日 本 人 大 学 生 の た め の 標 準 プ レ イ ス メ ン ト・テ ス ト 開 発 と 妥 当 性 の 検 証 」 JACET Journal, 58, 121–141. 眞 砂 薫 (2014) 「 VELC Test の 導 入 と そ の 活 用 法 : 近 畿 大 学 薬 学 部 ・ 医 学 部 」 英 語 能 力 測 定 ・ 評 価 研 究 会 第 3 回 研 究 会 [ 基 調 講 演 ]( 於 : 日 本 教 育 会 館 ) 7 月 27 日 . 水 本 篤 ・ 熊 澤 孝 昭 ( 2014).「 VELC Test に よ る 英 語 能 力 変 化 の 測 定 」 英 語 能 力 測 定 ・ 評 価 研 究 会 第 3 回 研 究 会 [ 基 調 講 演 ]( 於 : 日 本 教 育 会 館 ) 7 月 27 日 . 望 月 正 道 (2013).「 VELC 語 彙 問 題 の 分 析 」英 語 能 力 測 定・評 価 研 究 会 VELC Test 公 開 記 念 第 2 回 研 究 会 [ 基 調 講 演 ]( 於 : 研 究 社 英 語 セ ン タ ー ) 7 月 28 日 . 横 川 博 一・他 (2009). 『 日 本 人 英 語 学 習 者 の 英 単 語 親 密 度 音 声 編 』く ろ し お 出 版 . Bond, G. T. & Fox, M. C. (2007). Applying the Rasch model: Fundamental measurement in the human sciences (2nd ed.). Mahwah NJ: Lawrence Erlbaum Associates. Haladyna, T. M. (1999). Developing and validating multiple -choice test items (2nd ed.). Mahwah, NJ: Lawrence Erlbaum Associates. Linacre, J. M. (2014). A user ’s guide to Winsteps® Ministep Rash-model computer programs. Program manual 3.81.0 . Available from: http://www.winsteps.com/index.htm Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen: Denmark Institute for Educational Research (Expanded edition, 1980). Chicago, IL: University of Chicago. Shizuka, T. (2004). Reliability and validity of “invisible gap filling” items. JLTA Journal, 6, 108-127. 謝辞 データを整理して提供してくださったベルク研究会の事務局スタッフに感謝し ま す 。 ま た 本 論 文 の 骨 子 を 大 学 英 語 教 育 学 会 第 53 回 国 際 大 会 に て 発 表 し た 際 、 結果の解釈に関して獨協大学の安間一雄氏より貴重なコメントをいただきました。 ここに記して謝意を表します。
© Copyright 2025 ExpyDoc