測定の標準誤差: 1点の差には意味があるか Rie Koizumi 小泉 利恵 テストには誤差がつきもの • テストは1点の差が意味を持つほど精密 なものではない。 • テストには誤差がある。 • 誤差の理由 –テストに含まれる問題項目の内容や形 式 –テスト全体の内容や形式 –採点方法 2 誤差が起きる例 (1) • テスト項目の内容 – アニメの内容の読解の問題項目 – アニメ好きの生徒:アニメの問題項目だけは 正解できるかも。 – 英語に関係ない知識のために、本来の英語 力よりは高い点数を取る。 – 英語力を測るテストの得点の中に、誤差が含 まれる。 – 対策:一部の生徒だけが知っているトピックは 避けて出題する。 3 誤差が起きる例 (2) • テスト項目の形式 – 多肢選択式で正解を選ぶのが得意な生徒 – 教師の出題パターンを見抜くのが得意な生徒 – 英語力以外を使ってより高い得点を取得 – 対策:テスト内の形式をすべて同じにしない。多 くの形式を取り入れる。 – 出題パターンが同じにならないように注意。何回 か分のテストを比較してパターンがないことを確 認する。 4 誤差が起きる例 (3) • テスト項目の形式 – 英文の並び替え問題の形式に慣れていない生徒 – 正解となる英文が分かっても、指示が分からず、不正解 – 対策:新しいテスト形式や指示は、テスト前に授業で扱う。 解答例を付けておく。 • テスト全体の形式 – 英語テスト問題を両面に刷った紙で提示 – 表だけ解答して止めてしまう生徒 – 本来の英語力よりは低い点数をその生徒は取る。 – テストの誤差 – 対策:表面の最後に「続きは裏面へ」と書く。口頭での指 示に「両面ありますので、気を付けてください」と言う。 5 誤差が起きる例 (4) • 採点時に入る誤差 – 乱暴な字でのライティング – 評価基準に、「字の美しさ」は入れていなかっ たが、採点者が点数を下げた。 – 対策:評価基準を明確にして、「字の美しさ」 では点を上下させないことを注意事項に挙げ ておく。 – 採点して疲労し、採点がぶれてくる。 – 対策:ある一定数の採点を行ったら休憩を取 る。 6 誤差と信頼性 • 誤差と信頼性は、表と裏の関係 • テストで誤差が大きければ信頼性が低くな る。 • 信頼性が高いテストは誤差が小さくなる。 • 誤差が起きる状況とその解決法などについ てさらに勉強してみたい人へ • Hughes, A. (2003). 『英語のテストはこう作 る』 (靜哲人訳) 東京:研究社 7 テストには誤差がある • 誤差は減らせるが、なくすことはできない。 • 誤差が入らないように注意をして、丁寧 にテストを作成、実施、採点しても、どの テストにも少しは入ってくる。 • テスト得点の少しの差は誤差の範囲とい う視点を持とう。 8 測定の標準誤差 (Harvill, 1991) • standard error of measurement: SEM – 1人のテスト得点が誤差でどの程度変動する か • SEM = 標準偏差×√(1-信頼性) 式1 • 68%の確率での誤差の大きさ、68%の確率でのス コアのばらつき • 95%の確率での誤差の大きさ • 1.96×SEM 式2 9 TOEICの測定の標準誤差 • リスニング・リーディングスコアの範囲:5~495 点 • 測定の標準誤差は、約25点 (ETS, 2007b, 2008) – リスニングスコアが200点の場合:175~225 点の変動はありえる • 95%の確率でのスコアのばらつき ±49 (= ±1.96×25) – 95%の確率で、リスニングスコアは49点上下 – リスニングスコアが200点の場合:151~249 点の変動はあり 10 測定の標準誤差の簡単な計算方法 • 普通は、測定の標準誤差を計算するには、テストの「信 頼性」と「標準偏差」を知る必要がある。 • 大雑把な値でよい場合の式 (Harvill, 1991) – テストの難易度が普通の場合:0.45×√(項目数) 式3 – テストが易しい場合: 0.30*√(項目数) 式4 • 例:難易度が普通の50問のテストでは、約3点 (= 0.45×√50) • 難易度が普通の100問のテストでは、4.5点 (= 0.45×√100) TOEFLの測定の標準誤差 (1) • TOEFL PBT (paper-based test; もしくはITP) • スコアの範囲:310~677点 • 測定の標準誤差: 13点 (ETS, 2004) –68%の確率で13点は上下 –95%の確率で25点は上下 –480点のとき、実際のスコアは455~ 505点(95%の確率) 12 TOEFLの測定の標準誤差 (2) • TOEFL iBT (internet-based test; ETS, 2007a) • 測定の標準誤差(スコアの範囲) – リーディング 2.78 (0~20点) – リスニング 2.40 (0~20点) – スピーキング 1.70 (0~20点) – ライティング 2.65 (0~20点) – トータル 4.88 (0~120点) 13 2つの得点を比べる場合 • 同じテストでの異なる人の得点を比較 –例: TOEICテストを4月の同じ回に受けた 2人の生徒の得点を比較する場合 • 同じ人の異なるテストでの得点を比較 –例:TOEICテストを4月と12月に受けた生 徒の2つの得点を比べ、伸びたかを考 える場合 • 2つの方法あり。 14 2得点比較:第1の方法 • • • • • • • • • 測定の標準誤差の範囲を2つ出す。 2つの範囲に重なりがあるかを見る。 例:Aさん200点、Bさん100点 TOEICの測定の標準誤差は25点。95%の確率の誤差 範囲は±49点 Aさんのスコア範囲:151~249点 Bさんのスコア範囲:51~149点 重なりなし。2人のスコアは違っていると自信を持って 言える。 Cさん150点:スコア範囲は101~199点 15 Aさんのスコア > Cさんのスコア とは言えない。 2得点比較:第2の方法 (1) • 差の標準誤差(standard error of difference) を計算 • ある得点の誤差の範囲を出す。 • その範囲外に別の得点があれば、2つの得点は異 なると判断。誤差の範囲内に別の得点が入れば、2 つの得点は異なるとは言えないと判断する。 • SEdiff = √2×標準偏差×√(1-信頼性) 式5 • = √2×SEM • 68%の確率で2得点を比較するときの誤差の範囲 • 95%の確率での範囲 1.96×SEdiff 式6 16 2得点比較:第2の方法 (2) • TOEICリスニングスコアのSEM:25点 • 差の標準誤差は、約35点 (= ±√2×25) • 95%の確率で2得点を比較する際の誤差の大きさ ±69 (= ±1.96×35) • Aさん200点、Bさん100点 • Aさんのスコアの誤差の範囲は131~269点 • Bさんの100点 < Aさんの下限の131点 • かなりの自信を持ってAさんとBさんのスコアは異なる と言える。 • Cさん150点:Aさんの131~269点の範囲に150点あり • Aさんのスコア > Cさんのスコア とは言えない。 17 まとめ • テストには誤差がある。 • その誤差のために点数はかなり変動す る。 • 数点の違いで一喜一憂しない。 18 Further study • 竹内理・水本篤(編) (2012). 『外国語教 育研究ハンドブックー研究手法のより良 い理解のために』 東京:松柏社 • 平井明代 (編) (2012). 『教育・心理系研 究のためのデータ分析入門―理論と実 践から学ぶSPSS活用法』 東京:東京図 書 19 引用文献 • Educational Testing Service (ETS). (2004). Mapping TOEFL, TSE, TWE, and TOEIC on the Common European Framework: Executive summary. Princeton, NJ: Author. Retrieved from http://www.besig.org/events/iateflpce2005/ets/CEFsu mmaryMarch04.pdf • Educational Testing Service (ETS). (2007a). TOEFL® iBT score reliability and generalizability. Princeton, NJ: Author. Retrieved from http://www.ets.org/Media/Tests/TOEFL/pdf/TOEFL_iBT _Score_Reliability_Generalizability.pdf 20 引用文献 (2) • Educational Testing Service (ETS). (2007b). TOEIC User Guide-Listening and Reading. Princeton, NJ: Author. Retrieved from http://www.ets.org/Media/Tests/Test_of_English_for_Internatio nal_Communication/TOEIC_User_Gd.pdf • Educational Testing Service (ETS). (2008). TOEIC Examinee handbook--Listening and Reading. Ewing, NJ: Author. Retrieved from http://www.ets.org/Media/Tests/TOEIC/pdf/TOEIC_LR_examine e_handbook.pdf • Harvill, L. M. (1991). An NCME instructional module on standard error of measurement [Instructional topics in educational measurement]. Educational Measurement: Issues and Practice, 10(2), 181-189. Retrieved from http://www.ncme.org/pubs/items/16.pdf 21 2)テストの作成、採点、結果の報告の 実践的な情報: Practical considerations in developing language tests ©日本言語テスト学会 小泉利恵
© Copyright 2024 ExpyDoc