【異文化言語評価論】 2014/01/29 MH TEASY 第 9 章後半 p.91~ 手順

【異文化言語評価論】
2014/01/29 MH
TEASY
第 9 章後半 p.91~
手順 3. 項目の尺度化
作成した 4 つの係留項目を用いてフォームを等化する。
(1) 係留項目 4+新規 22=26 項目からなる Form1 を作成・実施→解答データファイル (Form1.dat)、コントロールフ
ァイル (Form1.cfl) を作成 (p.91 図 9.7)
(2) 係留ファイル (Anchor4.anc) を作成→コントロールファイルに記入 (図 9.7)
→4 つの係留項目を基に、他の項目の困難度が同じ尺度で等化される。
手順 4. 出力ファイルの解釈と等化
(1) 受験者 (Form1.PF) と項目 (Form1.IF) の拡張子を.csv に変えてから展開する。
→能力統計表 (p.92 表 9.4) が出てくる。MEASURE が受験者の能力値で、同じ尺度上で測定されているため前回
のテストと比較が可能。
(2) 次に項目をみる。手順 2 と同じく、項目統計表の指標 (e.g., 正答者数, 標準誤差) から良問を選定する。Form0
には無かった欄が 2 つ加わっている:
①Anchor; 係留項目であることの記し
②Displace;係留項目の困難度と今回のデータから推定される係留項目の困難度期待値とのずれ
・Bissteps の等化には平均シグマ法が利用されている。
→線形等化 (Y = αX + β) の定数αとβを決定して等化 (α=項目識別力 (?), β = 係留項目の項目困難度の
平均の差)
→1PL モデルでは項目識別力は一律 1 と推定されており、これにβを加えることで等化される。
→表 9.5 の網掛け部分が示す平均をみると 0.618 になっている。
→係留項目がなければ平均 0, 標準偏差 1 になるが、今回は係留項目の困難度パラメータが考慮されているため
にその他の項目に.618 が加えられ、等化されているのである。
(3) (1), (2) の手順を繰り返して Form2, Form3 を作成する。登録する際は、テキストや解答に加え、再利用する時に
便利だと思われる付属情報も同時に入力する。
9.5.2 項目バンクからのテスト作成
■ この節では、項目バンクに蓄えられた問題からテストを作成する手順を紹介する。
(1) 項目バンクから付属情報等を考慮しながら問題を選ぶ。その際、難易度に偏りがないよう注意すること。今回は
22 項目取り出し FormA とする。
(2) FormA のテストを実施、ラッシュモデルで分析する。22 項目すべての推定値を係留 (.anc) ファイルに書き込み、
固定項目として分析する。
(3) output ファイルの信頼度係数や適合度指数を見て正しく分析されているか確認する。問題がある場合は、解答が
間違っているか、良問ではなかったと判断し項目バンクから除去する。特に問題がなければ、FormA は以後、非
公開を条件に再利用できる。
(4) FormA の素点と尺度得点の換算表を作成しておけば、素点から尺度得点を求められるので便利である。
9.6 一次元性
■ (※発表者注) 一次元性 (unidimentionality) とは、同一の特性・構成概念を測定しているかどうかの基準。IRT で
は多次元モデルを除いてテストの一次元性が仮定されている。
■ 一次元性の確認には以下の基準が利用できる
(1) 因子分析のスクリープロットを見て、第一因子の固有値 (eigenvalue) が第二因子以下の固有値を大きく引き離し
ている (渡辺・野口, 1999)
(2) 第一因子の寄与率 (各変数の因子負荷量の二乗和を、変数の数で割った値) が 20%以上 (豊田, 2002b)
(3) 因子分析で、3・5 件法データ (e.g., アンケート) の場合は順序尺度変数間の多分相関行列で、2 値 (0, 1) データ
の場合は四分相関行列で分析し、第一因子の寄与率が 20%を超えている (芝, 1991)
■ 一次元性が保たれていない場合は、因子パターンを見て低い項目や識別力の値が低い項目を外し再度分析する必
要がある。
■ ラッシュモデルでは、まずそのデータがモデルに適合するかを見てから適合しないものを外す方法が良いとされ
る場合がある。
→分析後に項目の標準残差 (standardized residual variance) を主成分分析にかけるほうが、一次元のモデルで説
明された分散の割合を見ることができ、かつモデルで説明された後の残差から別の因子が検出されなければ
問題は無いと言えるから (Linacre, 1998; 靜, 2007)。
■ しかし、この場合でもデータが同一の特性を測定しているかを分析前に吟味することが必要。さらに、分析後に
は適合度指標や残差分析からはずれた項目を除外、再分析し、一次元性を確認することが大切。
■ Winsteps による残差分析表出力がテキスト p.96 表 9.6 に記載されている。解釈の方法に関してオンランマニュア
ルの [Dimensionality: contrasts & variances] が利用可能だが、例外も多く判断は容易ではない。
9.7 垂直等化例
■ 項目困難度と項目識別力の推定が可能な 2PL モデルを使用し、
垂直等化 (9.4 節を参照) を行った例を紹介する。
■ BILOG-MG3 (Zimowski, Muraki, Mislevy, & Bock, 2003) を用い、項目を尺度化し、各項目困難度と識別力の推定値
を求めた。
手順 1. コマンドファイルを作成
■ 熟達度の異なる 3 グループがレベルの異なる 2 種類の聴解テストを受ける。
→難易度初級〜中級: 16 問の四択問題 (M1–M16)
→難易度中級以上: 16 問の短文応答問題 (S1–S16)
■ グループ 1 (四択のみ) : M1–M14、グループ 2 (四択+短文): M10–M16, S1–S7、グループ 3 (短文のみ): S3–S16 と
割り振り、テキスト p.98 図 9.8 のようにコマンドファイルを作成する。
■ 記号の意味を以下に示す。
NPArm = 2PL モデル
NITems = (32): 全部で 32 項目を分析する
NGroup = 3: 3 グループ
Group1: Test1 (項目 1 から 14 番を受験)
Group2: Test2 (項目 10 から 23 番を受験)
Group3: Test3 (項目 19 から 32 番を受験)
手順 2. データファイルを作成
■ コマンドファイルで指定した名前にする (3gs.dat) にする。
■ p.98 の図 9.9 にグループ×項目のデザインがわかるよう取り出されたデータが示されている。
・左から 7 列目の数字がグループ番号
・色がついた項目が共通項目である
手順 3. Bilog-MG を立ち上げる
■ Bilog-MG を立ち上げ、コマンドファイルを読み込ませ、分析を開始する。
■ 出てくる 3 つの output (Phase 1, Phase 2, Phase 3) のうち Phase 2 で項目困難度、識別力の推定がされている (p.99,
表 9.7)。
・SLOPE: 識別力 (弁別力) 推定値
・THRESHOLD: 項目困難度推定値
・ASYMPTOTE: 当て推量推定値 (今回は 0 に固定)
・S.E.: 標準誤差
・CHISQ: カイニ乗→観測値と期待値の適合度を示す。有意差がなければ観測値と期待値が適合していると言える
が、サンプル数が多いと有意になりやすくなる。
■ 結果 (表 9.7 を参照しながら): ※質問文が同じ項目は、番号が共通している。
・項目困難度推定値 (THRESHOLD) の比較:M1 = -1.063 < S1 = 0.5033
→四択問題 (M1) の方が易しい項目
・識別力 (SLOPE) の比較:
→(M1 = 1.207) ≒ (S1 = 1.201) →四択と短文の識別力はほぼ同じ
→M2 = 0. 958 < S2 = 1.119 →短文の方が識別力が高い
→M3 = 0.854 < S3 = 1.606 →短文の方が識別力が高い
■ このように同じ尺度上に項目困難度が推定されるので、異なる受験者グループによる異なるレベルの項目の比較
が可能になる。
■ 今回の場合、項目バンクに四択、短文両方の問題を登録しておくことで、受験者のレベルに合った形式と困難度
を持つ項目が再利用できるようになる。
9.8 項目応答理論を応用したその他のモデル
■ 段階反応モデル: アンケート等の段階的データ (e.g., 悪い、ふつう、良い) を扱う。MULTILOG という分析ソフ
トで利用できる。段階曲線から各段階への反応の情報が得られる。
■ 部分得点モデル: 部分的な正解を考慮に入れたモデル。1 点をとる能力推定値θの確率を表す。
■ 評定尺度モデル: 単純化した分析結果を得られるモデル。全ての項目に同じ段階尺度 (e.g., 5 段階) を仮定する。
■ 多相ラッシュモデル: 評価者の厳しさ、項目タイプ、実施時期等様々な要因を考慮したモデル。
9.9 尺度得点への換算
■ 分析ソフトから出力された数値はマイナス符号がついたり、変動の幅が小さすぎるため、そのままフィードバッ
クに使うには不適。
→尺度得点への換算が必要
■ p.101 の表 9.8 に尺度得点への換算方法がまとめられている。例えば能力値θが-1 の場合、マイナスの記号が消
えて、491, 455, 91 に換算される。
9.10 項目バンクからテストフォーム作成まで
9.10.1 項目バンクの非公開性
■ テストフォームを公開すると練習効果のために正確な能力を測定できなくなったり、異なるフォーム間での比較
も難しくなる。
■ 特に high stakes なテストではセキュリティに厳重な注意を払う必要がある。再利用するならば、項目バンクの問
題は公開すべきではない。
■ 逆に、項目バンクを公開させるべきなのは、項目に向けて勉強させることで学習効果をあげることを目的とする
場合である。例えば、項目バンクの内容に関する到達度テスト等では、ネット上などで項目バンクを公開すると
便利かもしれない。
9.10.2 項目バンク構築過程の例
■ 係留項目を決定し、毎回の予備テストにそれを含めて実施、分析すれば共通尺度に等化される。
→受験者を共通尺度上で比較可能
→予備テストで作成した項目は困難度が推定されるので項目バンクに登録可能
→項目バンクから作成されたテストフォームを異なる受験者集団が受験しても受験者間の比較が可能
■ p.103 図 9.10 に全学年のプレイスメントテストと実力テストを利用し、5 年間で項目バンクを増やした例があげ
られている。
→a がついた段階が、テスト実施→良問の決定
→b がついた段階が、項目バンクからテストフォームを作成・実施→項目バンクを更新
■ フォームを公開しなければ、異なる年度間の比較や、プレイスメントテストからの伸びを確認できる。
9.10.3 項目バンクの活用とテスト項目の再利用の可能性
■ 比較的テストの影響力が小さい学内テストや指導用教材なら、それほど項目公開による影響もないため、項目バ
ンクによる再利用を上手く活用できる。
■ しかし、high stakes テスト (e.g., 入試、資格試験) に関して、現状の日本では項目の再利用は難しく様々な問題
がある。
→大学入試を中心に、一度出題した項目は二度と出題できない風潮がある。
■ だが、良問の使い捨てを続けると、重箱の隅をつつくような問題しか作れなくなってしまうおそれがある。
■ さらに、項目は実施してみて初めて、良質か弁別的があるか等の性質が判明する。一度しか使えないのでは、統
計的分析を行ってテストの質を保つのが難しくなる。
■ 項目公開を妨げる他の背景として、日本ではテストの著作権や使用権が軽んじられていることがある。例えば、
入試で出題された項目は、解説付き受験対策本としてふつうに販売されている。
■ このような状況では、共通項目デザインによる等化は難しいため、野口・安藤 (2003) は「共通受験者デザイン」
を提案している。
→モニター受験者に等化用 (非公開、時期によらず同一) と実際のテスト両方を受験させる。
→各時期のモニター受験者の結果を得れば、各時期の本テストと等化テストとを等化し、比較ができる。
■ このように、日本では公開テストほど項目の再利用や等化が難しい現状であるが、少しずつ努力がなされている
のも事実である。