Statistical Inference with Hierarchical Missing-data Mechanisms 大阪大学大学院基礎工学研究科 森川 耕輔 大阪大学大学院基礎工学研究科 狩野 裕 1. はじめに 欠測値データを解析する際,欠測原因(メカニズム)を正しく特定することが重要である.欠 測メカニズムの誤特定は,推定結果に重大なバイアスをもたらす.現在まで,欠測原因が単一で ある場合,即ち欠測メカニズムが MCAR,MAR,更には NMAR である場合に対する多くの解析 法が提案されている (Kim, 2012).ここでは簡単のため,対象者は固定し単一の対象者について考 える.欠測値データ解析では,結果変数ベクトル Y = (Y1 , . . . , YT )′ だけでなく,Yt が欠測 (観測) のとき Mt = 1(0) となる二値の欠測指標ベクトル M = (M1 , . . . , MT )′ を用いて,(Y (ℓ) , M ) の 同時分布をモデリングする.ここで,M は L + 1 個の値 M = m(ℓ) (ℓ = 0, 1, . . . , L) を取ると し,特に m(0) を完全データを表す欠測指標とする.また,Y (ℓ) (Y (−ℓ) ) は変数 Y のうち観測パ ターン m(ℓ) で観測 (欠測) した変数,f (y|θ) は Y の確率密度関数,θ (∈ Θ ⊂ Rp ) はモデルを規定 するパラメータとする.このとき観測データに基づいた Full Likelihood(FL) を次式で定義する: L(θ|y (ℓ) , m) := L ∑ ∫ 1{m=m(ℓ) } P (M = m |y (ℓ) (ℓ) ; θ) f (y|θ)dy (−ℓ) . ℓ=0 FL に基づいた最尤推定量は,適当な正則条件の下,一致推定量となることが知られている. 臨床試験等の応用の場面では,データはしばしば複数の原因により欠測し,このようなデータ はパラデータとして実際に記録されている場合も多い.欠測原因という情報をモデルに組み込む ことで,より有効な推定量が構成可能となることは容易に想像される.しかし,現在までにこの ようなデータを解析する手法は無い.そこで,本報告では複数の原因により欠測するデータに対 する解析手法の理論的枠組みを構築し,その欠測メカニズムの無視可能性について報告する. 2. 提案モデル 二値の欠測指示変数 M = (M1 , . . . , MT )′ を多値の離散値を取り得る変数に拡張する.Mt は欠 測原因が C 個ある場合, { 0 (観測) Mt = (t = 1, . . . , T ) c (欠測原因 c で欠測), c = 1, . . . , C なる値を取る確率変数とする.この M を用い,通常の欠測値データ解析同様,欠測メカニズム を定義し,FL を構築する.このとき,被験者が無視可能な複数の原因 (e.g., MAR & MAR) で欠 測するとき,全ての欠測原因は無視可能となることが分かる.しかし,被験者の中に無視できな い原因で欠測する者が含まれている場合 (e.g., MAR & NMAR),一般には,NMAR の原因だけ でなく MAR の原因も無視できなくなる.ただし,欠測原因に階層構造がある場合,欠測原因が “MAR & NMAR”の組み合わせ,更には,“NMAR & NMAR” の組み合わせであっても,Harel and Schafer(2009) の Partially MAR に対する結果を応用することで,欠測原因を無視できる場合 があることが分かる.詳細は当日報告する. 3. 参考文献 [1] Harel, O. and Schafer, J. L. (2009). Partial and latent ignorability in missing-data problems. Biometrika, 96, 37-50. [2] Kim, J. K. (2012). Statistical Methods for Handling Incomplete Data. Chapman & Hall.
© Copyright 2025 ExpyDoc