Statistical Inference with Hierarchical Missing

Statistical Inference with Hierarchical Missing-data Mechanisms
大阪大学大学院基礎工学研究科森川耕輔
大阪大学大学院基礎工学研究科狩野裕 1. はじめに
欠測値データを解析する際，欠測原因（メカニズム）を正しく特定することが重要である．欠
測メカニズムの誤特定は，推定結果に重大なバイアスをもたらす．現在まで，欠測原因が単一で
ある場合，即ち欠測メカニズムが MCAR，MAR，更には NMAR である場合に対する多くの解析
法が提案されている (Kim, 2012)．ここでは簡単のため，対象者は固定し単一の対象者について考
える．欠測値データ解析では，結果変数ベクトル Y = (Y1 , . . . , YT )′ だけでなく，Yt が欠測 (観測)
のとき Mt = 1(0) となる二値の欠測指標ベクトル M = (M1 , . . . , MT )′ を用いて，(Y (ℓ) , M ) の
同時分布をモデリングする．ここで，M は L + 1 個の値 M = m(ℓ) (ℓ = 0, 1, . . . , L) を取ると
し，特に m(0) を完全データを表す欠測指標とする．また，Y (ℓ) (Y (−ℓ) ) は変数 Y のうち観測パ
ターン m(ℓ) で観測 (欠測) した変数，f (y|θ) は Y の確率密度関数，θ (∈ Θ ⊂ Rp ) はモデルを規定
するパラメータとする．このとき観測データに基づいた Full Likelihood(FL) を次式で定義する：
L(θ|y
(ℓ)
, m) :=
L
∑
∫
1{m=m(ℓ) } P (M = m |y
(ℓ)
(ℓ)
; θ)
f (y|θ)dy (−ℓ) .
ℓ=0
FL に基づいた最尤推定量は，適当な正則条件の下，一致推定量となることが知られている．
臨床試験等の応用の場面では，データはしばしば複数の原因により欠測し，このようなデータ
はパラデータとして実際に記録されている場合も多い．欠測原因という情報をモデルに組み込む
ことで，より有効な推定量が構成可能となることは容易に想像される．しかし，現在までにこの
ようなデータを解析する手法は無い．そこで，本報告では複数の原因により欠測するデータに対
する解析手法の理論的枠組みを構築し，その欠測メカニズムの無視可能性について報告する．
2. 提案モデル
二値の欠測指示変数 M = (M1 , . . . , MT )′ を多値の離散値を取り得る変数に拡張する．Mt は欠
測原因が C 個ある場合，
{
0 (観測)
Mt =
(t = 1, . . . , T )
c (欠測原因 c で欠測), c = 1, . . . , C
なる値を取る確率変数とする．この M を用い，通常の欠測値データ解析同様，欠測メカニズム
を定義し，FL を構築する．このとき，被験者が無視可能な複数の原因 (e.g., MAR & MAR) で欠
測するとき，全ての欠測原因は無視可能となることが分かる．しかし，被験者の中に無視できな
い原因で欠測する者が含まれている場合 (e.g., MAR & NMAR)，一般には，NMAR の原因だけ
でなく MAR の原因も無視できなくなる．ただし，欠測原因に階層構造がある場合，欠測原因が
“MAR & NMAR”の組み合わせ，更には，“NMAR & NMAR” の組み合わせであっても，Harel
and Schafer(2009) の Partially MAR に対する結果を応用することで，欠測原因を無視できる場合
があることが分かる．詳細は当日報告する．
3. 参考文献
[1] Harel, O. and Schafer, J. L. (2009). Partial and latent ignorability in missing-data problems.
Biometrika, 96, 37-50.
[2] Kim, J. K. (2012). Statistical Methods for Handling Incomplete Data. Chapman & Hall.

Download Report