項目反応理論によるテストの作成 2009 07 30 東京工業大学 大学院社会理工学研究科 前川 眞一 1 なぜ IRT か コアカリの進展具合は大学により異なる。 終了判定の時期が異なる。 同じ問題を使うことが出来ない。 異なる問題の間の比較を可能にする。 テスト理論の利用 2 複数のフォーム(版、問題冊子) 大規模試験 には複数のテストフォーム (form) が 存在する。 セキュリティのため。 問題漏洩、緊急事態への対応 それぞれの form は異なる問題 で構成されている。 異なる form の得点は比較可能なのか? 3 異なるフォームの比較 一般的に、テストフォームに含まれる 問題が 異なる場合、テスト得点の比較は出来ない。 易しいテストの 50 点をとった人と、 難しいテストの 40 点をとった人は どちらが良くできる人なのか? テスト問題の難易度と、受験生の能力を分離し て考える必要がある。 4 異なるフォームの比較 比較可能にするためには フォーム間に共通な問題(項目)を入れる。 統計的性質の分かっている問題を入れる。 能力の等しいと考えられる集団に実施する。 大規模試験 ではフォームの間に共通の問題と 統計的性質の分かっている問題が入っている。 5 複数のフォーム 大規模試験 のフォームは、以下の2種類の問題か ら構成されている。 統計的性質の分かっている問題 新作問題 これらの項目に含まれる情報を利用して異なる フォーム間の得点を比較可能に なるようにしている。 6 日本の伝統的なテスト文化 年に一度、同一問題での試験の一斉実施 新作問題のみでの試験の実施 (プリテスト無し) 試験問題の公開 大問形式の利用 (小さな項目の寄せ集めではない) 問題作成とテスト編集の融合 (権威主義) 素点・配点の利用(0点と満点) 科挙の影響が大きい? 7 日本的テスト文化(理由) 年に一度、同一問題での試験の斉一実施 (同一問題でないと不公平) 新作問題のみでの試験の実施(プリテスト無し) (たまたまプリテストを覚えていると得) 試験問題の公開 (情報公開?規制緩和?) 大問形式の利用 (多肢選択式で思考力を測る努力、細かいスペックの欠如?) 問題作成とテスト編集の融合 (権威主義、測定学への無関心) 素点・配点の利用(0点と満点) (権威主義、測定学への無関心、尺度得点への不信感) 危機管理体制の不備 (資金的問題?) 8 世界標準? 独立項目 + 大問 比較可能な尺度得点を受験生へ 年に複数回、異なる問題での分散実施 コンピュータ化 何時でも何処でも 自由記述 9 テストの等化と尺度化 異なるテストフォームの得点を比較可能とする 作業を等化(equating)と呼ぶ。 テスト理論(test theory)と呼ばれる 統計的方法を用いる。 特に大規模試験 では、項目反応理論 (Item Response Theory, IRT) と呼ばれるテスト理論が用いられている。 10 テスト理論 テスト理論は 20 世紀初頭から発達 古典的テスト理論(classical test theory) X = T + E 観測される得点 = 真の得点 + 誤差 この部分だけほしい 11 項目反応理論(項目応答理論) 項目反応理論は 1950 年代から発達 テストを構成する項目の統計的性質に着目 主にアメリカ、オランダ、イスラエル アジア諸国ではあまり利用されていない。 12 項目反応理論 項目の難易度と、受験生の能力の分離 全ての項目が共通にはかっている 1 次元の 能力値を θ で表す。 項目の特性を項目パラメタ a, b で表す。 能力値が θ の人が、項目パラメタ を持つ項目 j に正答する確率を と表し項目特性曲線と呼ぶ ICC or IRF。 Item Characteristic Curve, Item Response Function 13 原点と単位の不定性 θ の原点と単位は決まっていない。 どのように1次変換をしても良い。 ふつうは全受験生の θ の平均を 0、 標準偏差を 1 とする。 14 15 16 項目特性曲線 17 古典的項目統計量との関係 b a 項目合計点相関 項目通過率 18 正答数得点とθの関係の例 θ 正答数 19 多値項目 20 21 22 項目パラメタが既知の場合 23 テスト特性曲線 項目パラメタが分かっている項目でテストを作ると 何が出来るか。 能力値が θ の人が p 個の項目からなるテストで取れると 考えられる得点(期待値)をテスト特性曲線 TCC と呼ぶ。 項目特性曲線を足し合わせたもの。 24 3項目からなるテストのテスト特性曲線 25 プール問題の項目特性曲線(例) 26 テスト(フォーム)特性曲線(例) 各フォームに 含まれる 項目特性曲線 の平均 27 フォーム間の比較(等化) True Score 10 9 TCCA TCCB 8 7 テスト A の 8 点は テスト B の 5 点。 8 点でも 5 点でも θ は 1.0 。 6 5 4 テスト A の 3 点は テスト B の 2 点。 3 点でも 2 点でも θ は -2.0 。 3 2 1 0 -4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0 θ 28 29 複数のテスト 30 フォーム間の比較(等化) True Score 10 9 TCCA TCCB 8 7 テスト A の 8 点は テスト B の 5 点。 8 点でも 5 点でも θ は 1.0 。 6 5 4 テスト A の 3 点は テスト B の 2 点。 3 点でも 2 点でも θ は -2.0 。 3 2 1 0 -4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0 θ 31 難易度の異なる複数のテスト 32 原点と単位の不定性 θ の原点と単位は決まっていない。 どのように1次変換をしても良い。 ふつうは全受験生の θ の平均を 0、 標準偏差を 1 とする。 異なるフォームごとに項目パラメタを推定する と比較が出来ない。 33 項目バンク(項目プール) item bank, item pool 統計的性質の分かっている項目の集合 良い問題を作るのは非常にむつかしい。 したがって、それらは公開せずに 蓄積し、再利用すべき。 34 項目バンクの作成 一度に全ての項目を同じ受験生に受けさせるこ とは困難。 共通項目を含む小テストを複数作り、 共通項目の情報を利用して各フォームを繋いで いく。 しかし、先ほどの不定性の問題が残る。 適切なデザインが必要。 35 テストのデザイン 36 アンカー項目の線形性 3.0 y = 0.8453x - 0.3501 R2 = 0.8671 2.0 0.50 y = 0.9234x 0.50 y = 0.9234x 1.0 0.25 0.25 0.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 -1.0 -2.0 0.00 0.00 0.25 0.50 -3.0 0.00 0.00 0.25 0.50 37 テストのデザイン 1 38 テストのデザイン 2 39 テストのデザイン 3 40 項目バンクの作成 1 2 3 4 5 テストA テストB テストC テストD テストE テストF 41 項目バンクの作成 42 項目バンクの作成 43 項目バンクの作成 44 項目バンクの作成 45 尺度化の手順 46 尺度化の手順 項目パラメタの推定と等化 共通項目を用いて全ての項目パラメタを 比較可能とすること。 尺度得点の算出 計算される個人の得点に意味を持たせること。 この尺度得点なら、規準集団でどのくらいの位 置か? 47 尺度化:得点の意味 基準集団内の位置(順位)に基づく方法 点数を見れば、その人が基準集団の中で どの位置にいるかが分かる。 偏差値の考え方。 特定の問題セットの正答率に基づく方法 点数を見れば、その人が、ある問題セットで 何点を取れるかが分かる。 48 正規偏差値 基準集団においてθが正規分布するように変換する。 θz=t(θ) これを線形に変換して平均と標準偏差を決める。 x = s θz+ m = u(θ) この変換を常に施す。 49 IRTに基づく段階評価 50 正規化変換の例 thetaZ_new 5 4 3 2 1 0 -5 -4 -3 -2 -1 thetaZ_new 0 1 2 3 4 -1 -2 -3 -4 -5 51 項目パラメタの推定と等化 ◎ 一次元性の確認をする。 ① 両テストフォームの受験者の 項目反応データ(正解=1、不正解=0)から、 一括して項目パラメタ値を推定する。この際、 両テストフォームの尺度は、両フォームに共通 する項目に基づいて等化される。 ② ①で推定した両フォームの項目パラメタ推 定値を、アンカー項目に基づいて基準集団の尺 度に等化する。 52 尺度得点の算出 ③ ②で基準集団に尺度等化された項目パラメ タ推定値と項目反応データを用いて、フォーム ごとに能力推定値(θ)を推定する。 ④ ③で推定された能力推定値(θ)を、 得点換算表θzに換算する。 ⑤ ④で換算されたθzを、次式により尺度得点 に換算する。 尺度得点=400+100θz 53 パラメタの推定 54 基本仮定 1 55 基本仮定 2 56 ICC or IRF 57 基本仮定 3 58 基本仮定 4 59 能力値パラメタ θ の推定 特定の項目反応パタンの同時確率(局所独立) 最尤解(最大尤度法、Maximum Likelihood Method) 尤度関数を最大とする θ を求める。 60 能力値パラメタ θ の推定 (ICC) 項目パラメタ 61 能力値パラメタ θ の推定(尤度) 尤度関数 対数尤度関数 62 能力値パラメタ θ の推定(最尤解) 対数尤度関数の最大値(関数の最適化) 対数尤度の一次微分が 0 の点 63 能力値パラメタ θ の推定(最尤解) ICC の微分 対数尤度関数の一次微分が 0 の点 対数尤度 の微分 64 能力値パラメタ θ の推定(Bayes 解) Bayes 推定法 事後分布 は 尤度関数 と 事前分布 の積に比例する。 事前分布 65 能力値パラメタ θ の推定(Bayes 解) 事前分布 N(0,1) 尤度関数 事後分布 積 66 能力値パラメタ θ の推定(Bayes 解) 67 能力値パラメタ θ の推定(別の例) 68 能力値パラメタ θ の推定(尤度) 尤度関数 対数尤度関数 69 能力値パラメタ θ の推定(最尤解) 対数尤度関数の最大値(関数の最適化) 対数尤度の一次微分が 0 の点 70 能力値パラメタ θ の推定(最尤解) 対数尤度関数の一次微分が 0 の点 ICC の微分 対数尤度 の微分 71 能力値パラメタ θ の推定(Bayes 解) 事前分布 N(0,1) 尤度関数 事後分布 積 72 能力値パラメタ θ の推定(Bayes 解) 73 項目パラメタの推定(同時) 74 項目パラメタの推定(周辺) 75 項目パラメタの推定(周辺) 76 EM アルゴリズム 77 項目1のパラメタに関する 期待対数完全データ尤度関数 E ln m 1 b a 78 項目1のパラメタに関する 期待対数完全データ尤度関数の等高線 a b 79 項目2のパラメタに関する 期待対数完全データ尤度関数 E ln m 2 b a 80 項目2のパラメタに関する 期待対数完全データ尤度関数の等高線 a b 81 82 おわり 83
© Copyright 2024 ExpyDoc