Testing Writing ライティングのテスト

測定の標準誤差:
1点の差には意味があるか
Rie Koizumi
小泉 利恵
テストには誤差がつきもの
• テストは1点の差が意味を持つほど精密
なものではない。
• テストには誤差がある。
• 誤差の理由
–テストに含まれる問題項目の内容や形
式
–テスト全体の内容や形式
–採点方法
2
誤差が起きる例 (1)
• テスト項目の内容
– アニメの内容の読解の問題項目
– アニメ好きの生徒:アニメの問題項目だけは
正解できるかも。
– 英語に関係ない知識のために、本来の英語
力よりは高い点数を取る。
– 英語力を測るテストの得点の中に、誤差が含
まれる。
– 対策:一部の生徒だけが知っているトピックは
避けて出題する。
3
誤差が起きる例 (2)
• テスト項目の形式
– 多肢選択式で正解を選ぶのが得意な生徒
– 教師の出題パターンを見抜くのが得意な生徒
– 英語力以外を使ってより高い得点を取得
– 対策:テスト内の形式をすべて同じにしない。多
くの形式を取り入れる。
– 出題パターンが同じにならないように注意。何回
か分のテストを比較してパターンがないことを確
認する。
4
誤差が起きる例 (3)
• テスト項目の形式
– 英文の並び替え問題の形式に慣れていない生徒
– 正解となる英文が分かっても、指示が分からず、不正解
– 対策:新しいテスト形式や指示は、テスト前に授業で扱う。
解答例を付けておく。
• テスト全体の形式
– 英語テスト問題を両面に刷った紙で提示
– 表だけ解答して止めてしまう生徒
– 本来の英語力よりは低い点数をその生徒は取る。
– テストの誤差
– 対策:表面の最後に「続きは裏面へ」と書く。口頭での指
示に「両面ありますので、気を付けてください」と言う。
5
誤差が起きる例 (4)
• 採点時に入る誤差
– 乱暴な字でのライティング
– 評価基準に、「字の美しさ」は入れていなかっ
たが、採点者が点数を下げた。
– 対策:評価基準を明確にして、「字の美しさ」
では点を上下させないことを注意事項に挙げ
ておく。
– 採点して疲労し、採点がぶれてくる。
– 対策:ある一定数の採点を行ったら休憩を取
る。
6
誤差と信頼性
• 誤差と信頼性は、表と裏の関係
• テストで誤差が大きければ信頼性が低くな
る。
• 信頼性が高いテストは誤差が小さくなる。
• 誤差が起きる状況とその解決法などについ
てさらに勉強してみたい人へ
• Hughes, A. (2003). 『英語のテストはこう作
る』 (靜哲人訳) 東京:研究社
7
テストには誤差がある
• 誤差は減らせるが、なくすことはできない。
• 誤差が入らないように注意をして、丁寧
にテストを作成、実施、採点しても、どの
テストにも少しは入ってくる。
• テスト得点の少しの差は誤差の範囲とい
う視点を持とう。
8
測定の標準誤差 (Harvill, 1991)
• standard error of measurement: SEM
– 1人のテスト得点が誤差でどの程度変動する
か
• SEM = 標準偏差×√(1-信頼性)
式1
• 68%の確率での誤差の大きさ、68%の確率でのス
コアのばらつき
• 95%の確率での誤差の大きさ
• 1.96×SEM
式2
9
TOEICの測定の標準誤差
• リスニング・リーディングスコアの範囲:5~495
点
• 測定の標準誤差は、約25点 (ETS, 2007b, 2008)
– リスニングスコアが200点の場合:175~225
点の変動はありえる
• 95%の確率でのスコアのばらつき ±49 (=
±1.96×25)
– 95%の確率で、リスニングスコアは49点上下
– リスニングスコアが200点の場合:151~249
点の変動はあり
10
測定の標準誤差の簡単な計算方法
• 普通は、測定の標準誤差を計算するには、テストの「信
頼性」と「標準偏差」を知る必要がある。
• 大雑把な値でよい場合の式 (Harvill, 1991)
– テストの難易度が普通の場合:0.45×√(項目数) 式3
– テストが易しい場合:
0.30*√(項目数) 式4
• 例:難易度が普通の50問のテストでは、約3点
(= 0.45×√50)
•
難易度が普通の100問のテストでは、4.5点
(= 0.45×√100)
TOEFLの測定の標準誤差 (1)
• TOEFL PBT (paper-based test; もしくはITP)
• スコアの範囲:310~677点
• 測定の標準誤差: 13点 (ETS, 2004)
–68%の確率で13点は上下
–95%の確率で25点は上下
–480点のとき、実際のスコアは455~
505点(95%の確率)
12
TOEFLの測定の標準誤差 (2)
• TOEFL iBT (internet-based test; ETS, 2007a)
• 測定の標準誤差(スコアの範囲)
– リーディング 2.78 (0~20点)
– リスニング
2.40 (0~20点)
– スピーキング 1.70 (0~20点)
– ライティング 2.65 (0~20点)
– トータル
4.88 (0~120点)
13
2つの得点を比べる場合
• 同じテストでの異なる人の得点を比較
–例: TOEICテストを4月の同じ回に受けた
2人の生徒の得点を比較する場合
• 同じ人の異なるテストでの得点を比較
–例:TOEICテストを4月と12月に受けた生
徒の2つの得点を比べ、伸びたかを考
える場合
• 2つの方法あり。
14
2得点比較:第1の方法
•
•
•
•
•
•
•
•
•
測定の標準誤差の範囲を2つ出す。
2つの範囲に重なりがあるかを見る。
例:Aさん200点、Bさん100点
TOEICの測定の標準誤差は25点。95%の確率の誤差
範囲は±49点
Aさんのスコア範囲:151~249点
Bさんのスコア範囲:51~149点
重なりなし。2人のスコアは違っていると自信を持って
言える。
Cさん150点:スコア範囲は101~199点
15
Aさんのスコア > Cさんのスコア とは言えない。
2得点比較:第2の方法 (1)
• 差の標準誤差(standard error of difference) を計算
• ある得点の誤差の範囲を出す。
• その範囲外に別の得点があれば、2つの得点は異
なると判断。誤差の範囲内に別の得点が入れば、2
つの得点は異なるとは言えないと判断する。
• SEdiff = √2×標準偏差×√(1-信頼性)
式5
•
= √2×SEM
• 68%の確率で2得点を比較するときの誤差の範囲
• 95%の確率での範囲 1.96×SEdiff
式6
16
2得点比較:第2の方法 (2)
• TOEICリスニングスコアのSEM:25点
• 差の標準誤差は、約35点 (= ±√2×25)
• 95%の確率で2得点を比較する際の誤差の大きさ
±69 (= ±1.96×35)
• Aさん200点、Bさん100点
• Aさんのスコアの誤差の範囲は131~269点
• Bさんの100点 < Aさんの下限の131点
• かなりの自信を持ってAさんとBさんのスコアは異なる
と言える。
• Cさん150点:Aさんの131~269点の範囲に150点あり
• Aさんのスコア > Cさんのスコア とは言えない。
17
まとめ
• テストには誤差がある。
• その誤差のために点数はかなり変動す
る。
• 数点の違いで一喜一憂しない。
18
Further study
• 竹内理・水本篤(編) (2012). 『外国語教
育研究ハンドブックー研究手法のより良
い理解のために』 東京:松柏社
• 平井明代 (編) (2012). 『教育・心理系研
究のためのデータ分析入門―理論と実
践から学ぶSPSS活用法』 東京:東京図
書
19
引用文献
• Educational Testing Service (ETS). (2004). Mapping
TOEFL, TSE, TWE, and TOEIC on the Common European
Framework: Executive summary. Princeton, NJ: Author.
Retrieved from
http://www.besig.org/events/iateflpce2005/ets/CEFsu
mmaryMarch04.pdf
• Educational Testing Service (ETS). (2007a). TOEFL® iBT
score reliability and generalizability. Princeton, NJ:
Author. Retrieved from
http://www.ets.org/Media/Tests/TOEFL/pdf/TOEFL_iBT
_Score_Reliability_Generalizability.pdf
20
引用文献 (2)
• Educational Testing Service (ETS). (2007b). TOEIC User Guide-Listening and Reading. Princeton, NJ: Author. Retrieved from
http://www.ets.org/Media/Tests/Test_of_English_for_Internatio
nal_Communication/TOEIC_User_Gd.pdf
• Educational Testing Service (ETS). (2008). TOEIC Examinee
handbook--Listening and Reading. Ewing, NJ: Author. Retrieved
from
http://www.ets.org/Media/Tests/TOEIC/pdf/TOEIC_LR_examine
e_handbook.pdf
• Harvill, L. M. (1991). An NCME instructional module on standard
error of measurement [Instructional topics in educational
measurement]. Educational Measurement: Issues and Practice,
10(2), 181-189. Retrieved from
http://www.ncme.org/pubs/items/16.pdf
21
2)テストの作成、採点、結果の報告の
実践的な情報:
Practical considerations in developing
language tests
©日本言語テスト学会
小泉利恵