Chapter 8 (担当：M.S.)

2015/01/21
異文化言語教育評価論
担当：M.S.
Chapter 8 Advanced Many-Facet Rasch Measurement（続き②）
8.4.2 Confirmatory interaction analysis
p.102
Confirmatory interaction analysis とは p.96
遠位的な変数を評価に影響を及ぼす要因とし検証する。
●Confirmatory interaction analysis の実行方法
・the basic model specification に少なくとも２つのパラメーターを追加する。
(ア) 新しいファセットパラメーター：仮説の中心となるファセット
・受験者の性別に関係する DRF(differential rater functioning) → 性別ファセット
・Rater drift（DRF と評価時間）→ 時間ファセット
(イ) 相互作用パラメーター：
（ア）と既にモデルに組み込まれているファセット間の相互作用
＜時間ファセットを追加した場合＞
時間によって評価の期待値は変化するが、各評価者の厳しさは固定されている。時間と共に厳
しさが変わる評価者を特定するために、時間と評価者の相互作用パラメーターもモデルに加え
なければならない。→評価者の厳しさ、正確さの変動、尺度基準の扱い方の変化
●Analysis of DRF related to examine gender
１．Question
評価者は女性（男性）受験者のエッセイを予想より厳しく評価するか、男女とも厳しさについて評価者
の順序は一定であるか。
・受験者の男女別グループと各評価者の組み合わせ全てを調査し性別偏向（gender bias）を分析する。
・式
・2.11 に（ア）受験者の性別ファセットを表す項
（イ）評価者‐性別グループ（Rater-by Gender Group）相互作用パラメーター項
・Pnijk : 評価者 j より基準 i に評価 k を受ける性別グループ g の受験者 n の確率
・θn
:
受験者 n の能力
・βi : 評価基準 i の難易度
・αj : 評価者 j の厳しさ
・τk : 評価 k を受ける確率
・γg : 性別
・φjg
（ア）
: 評価者‐性別グループ相互作用パラメーター
1
（イ）
を追加
２．評価者‐性別グループ相互作用パラメーターの算出方法
FACET specification file
概要
Step1
φjg 以外の全てのパラメータ
“Model=?,?,?,?,R5”
ーを推測
Anchor output file を作るために specification file にコマ
ンド”Output=W002G.out,W002G.anc”を加える。
Step2
φjg 以外の全てのパラメータ
コマンド”Model=?,?B,?,RS1,1”を入力。
ーを推測した値に固定
(RS1 は FACETS-generated name of the TDN 尺度に１を
追加したもの。全てのファセットが等しく重みづけされて
いる。)
φjg の推定値と標準誤差
３．帰無仮説
・T 検定により検証される性別偏向（gender bias）はない（φjg＝０）
式
・SEjg : 性別偏向パラメーター推定値の標準誤差
４．結果の見方
・相互作用項が有意な場合は DRF の根拠となり、特定の評価者‐性別グループの組み合わせが予測さ
れたものより高い・低い評価になる。
・これまで言語能力の男女差は広く研究されており、先行知識を得ることは可能である。165 の研究を
対象としたメタ分析では、女性が男性より少し有意であり（効果量 0.11）
、エッセイライティング効
果量 0.09、スピーチプロダクション効果量 0.33 という結果である。
・今回も女性の方が少しではあるが良い結果であることが予想される。性別ファセットが男性が小さく、
女性には大きい場合は性別偏向を示す。
・グループレベル分析女性の能力は 0.33 ロジット（SE=0.007）で男性は-0.33 ロジット（SE=0.007）
であり、有意差がある。同一性指標（Homogeneity statistic）は 47.8(p≺0.1)で
あった。
５．結果
・女性は男性よりもより優れており、言語能力の男女差の先行研究に基づく予想と一致した。
・グループレベルの異なる厳しさ・易しさ効果の証拠はなかった。
●個人レベルの性別偏向(gender bias)分析
・２種類の evidence（ア）各評価者と各性別グループが予想していなかった値で交わる
（イ）ある評価者の厳しさを男女間で比較 → t 値
2
・examinee gender column が追加
（イ） t 値（bias statistic）について →有意差ない
crossed perspective(混合？) -0.81 から 0.91
pairwise perspective( ペア？) -1.21 から 1.17
（ア）について
・Exp.Score と Obs.Score を比較して、評価者の性別偏向評価を確認する。
例）Rater 05 女性には予想値より高く、男性には低く採点している
Rater 07 女性には予想値より低く、男性には高く採点している
→t 値は問題ないので、許容範囲内と判断できる。
・決定的な有意水準の評価者の複合的比較は、帰無仮説を誤って棄却することを防止するために調整さ
れるべきである。ボンフェローニの不等式（Bonferroni inequality）やベンジャミン-ホッホバーグ法（the
Benjamini-Hockberg procedure）などが使用される。
3
8.5
Summary of Model Variants p.106
●MFRM…多目的測定方法であり、特定の評価状況の要求を満たすたすモデルの集合により構成されて
いる。
●Table 8.6
Model A : 基準モデル、２つのファセット（受験者の能力・評価者の厳しさ）
、単一評価尺度、
→ 2.7
簡略化しすぎて、評価に影響を与える要因を捕うには不十分
Model B : 3 相の評価尺度（受験者の能力・評価者の厳しさ・評価の基準の難易度）
MFRM の実験検証で広く扱われているモデル
→ 2.11
Model C : single holistic 評価尺度を用いて多数の異なるタスクで受験者の能力を評価する場合
（受験者の能力・評価者の厳しさ・タスクの難易度）
Model D : Model B の評価尺度が一定であったのに対し、評価基準によって評価尺度が変動する。
→8.1
Model E : Model C＋D（評価基準とタスクが入る）
、評価基準と評価者を示す partial credit component
が組み込まれている。
Model F : スピーキング能力調査の典型的な例、インタビュアーが複数のスピーキングタスクを提示、
評価者が受験者の能力を分析基準にそって採点する。（インタビュアー）
Model G : exploratory interaction analysis、受験者と評価者間相互作用の例
→8.4
Model H : confirmatory interaction analysis、受験者のバックグラウンド変数を含み、
それと評価者の相互作用を調査
→8.6
（授業振り返り：t 値について）
Crossed-perspective と pairwise-perspective という２つの t 値は共に有意差はなかった。Table8.5
で Obs score と Exp score を比較すると、Rater05 は女性に、Rater07 は男性を甘く採点し予想よりも
少し高い得点を与えている。しかし、授業では t 値を確認すると問題ないので、この性別偏向は許容範
囲内であると説明があった。
今学期ラッシュ測定が 1 章と８章を担当した。４章まではとても辛かったが、少しずつ分かってきた
ような気がする。今回はラッシュ測定の実践も解説中心だったので、少し残念だった。せっかく学んだ
のでいつか自分でも使う機会があればなと思う。
4

Download Report