Statistical Inference with Hierarchical Missing

Statistical Inference with Hierarchical Missing-data Mechanisms
大阪大学大学院基礎工学研究科 森川 耕輔
大阪大学大学院基礎工学研究科 狩野 裕 1. はじめに
欠測値データを解析する際,欠測原因(メカニズム)を正しく特定することが重要である.欠
測メカニズムの誤特定は,推定結果に重大なバイアスをもたらす.現在まで,欠測原因が単一で
ある場合,即ち欠測メカニズムが MCAR,MAR,更には NMAR である場合に対する多くの解析
法が提案されている (Kim, 2012).ここでは簡単のため,対象者は固定し単一の対象者について考
える.欠測値データ解析では,結果変数ベクトル Y = (Y1 , . . . , YT )′ だけでなく,Yt が欠測 (観測)
のとき Mt = 1(0) となる二値の欠測指標ベクトル M = (M1 , . . . , MT )′ を用いて,(Y (ℓ) , M ) の
同時分布をモデリングする.ここで,M は L + 1 個の値 M = m(ℓ) (ℓ = 0, 1, . . . , L) を取ると
し,特に m(0) を完全データを表す欠測指標とする.また,Y (ℓ) (Y (−ℓ) ) は変数 Y のうち観測パ
ターン m(ℓ) で観測 (欠測) した変数,f (y|θ) は Y の確率密度関数,θ (∈ Θ ⊂ Rp ) はモデルを規定
するパラメータとする.このとき観測データに基づいた Full Likelihood(FL) を次式で定義する:
L(θ|y
(ℓ)
, m) :=
L
∑
∫
1{m=m(ℓ) } P (M = m |y
(ℓ)
(ℓ)
; θ)
f (y|θ)dy (−ℓ) .
ℓ=0
FL に基づいた最尤推定量は,適当な正則条件の下,一致推定量となることが知られている.
臨床試験等の応用の場面では,データはしばしば複数の原因により欠測し,このようなデータ
はパラデータとして実際に記録されている場合も多い.欠測原因という情報をモデルに組み込む
ことで,より有効な推定量が構成可能となることは容易に想像される.しかし,現在までにこの
ようなデータを解析する手法は無い.そこで,本報告では複数の原因により欠測するデータに対
する解析手法の理論的枠組みを構築し,その欠測メカニズムの無視可能性について報告する.
2. 提案モデル
二値の欠測指示変数 M = (M1 , . . . , MT )′ を多値の離散値を取り得る変数に拡張する.Mt は欠
測原因が C 個ある場合,
{
0 (観測)
Mt =
(t = 1, . . . , T )
c (欠測原因 c で欠測), c = 1, . . . , C
なる値を取る確率変数とする.この M を用い,通常の欠測値データ解析同様,欠測メカニズム
を定義し,FL を構築する.このとき,被験者が無視可能な複数の原因 (e.g., MAR & MAR) で欠
測するとき,全ての欠測原因は無視可能となることが分かる.しかし,被験者の中に無視できな
い原因で欠測する者が含まれている場合 (e.g., MAR & NMAR),一般には,NMAR の原因だけ
でなく MAR の原因も無視できなくなる.ただし,欠測原因に階層構造がある場合,欠測原因が
“MAR & NMAR”の組み合わせ,更には,“NMAR & NMAR” の組み合わせであっても,Harel
and Schafer(2009) の Partially MAR に対する結果を応用することで,欠測原因を無視できる場合
があることが分かる.詳細は当日報告する.
3. 参考文献
[1] Harel, O. and Schafer, J. L. (2009). Partial and latent ignorability in missing-data problems.
Biometrika, 96, 37-50.
[2] Kim, J. K. (2012). Statistical Methods for Handling Incomplete Data. Chapman & Hall.