欠測値データ解析における補助変数導入の効果について

欠測値データ解析における補助変数導入の効果について
大阪大・基礎工
サノフィ(株),大阪大・基礎工
狩野 裕
高木義治
NMAR の下,欠測メカニズムを用いない直接尤度による MLE に生じるバイアスを評価
し,補助変数の導入がバイアスを減少させるかどうかを理論的に検討する.
p 次元観測変数ベクトルを Y ,その pdf を f (y|θ) (y ∈ Y) と書く.R を欠測指標の p
次元ベクトル,取りえる値(欠測パターン)を R = r (`) (` = 1, . . . , L) とし,その条件付
き分布を P (R|Y ; τ , θ) と書き,これを欠測メカニズムという.ここで,θ ∈ Θ (⊂ Rq ) は
興味ある未知母数,τ ∈ T (⊂ Rr ) は欠測メカニズムのみに登場する母数とし,真値をそ
れぞれ θ 0 , τ 0 と書く.Y (`) (or y (`) ) を ` 番目の欠測パターン r (`) において実際に観測され
る観測変数ベクトル (or その実現値) とする.また,Y (−`) (or y (−`) ) を対応する欠測変数
ベクトルとする.当然ながら(集合の意味で)Y = {Y (`) ∪ Y (−`) } である.欠測メカニ
ズムを含めた full の尤度と欠測メカニズムを省いた直接尤度 (direct likelihood, observed
likelihood) はそれぞれ以下のように定義される:
F L(θ, τ |R, Y ) =
DL(θ|Y ) =
L
X
`=1
L
X
`=1
1{R=r(`) } P (R = r (`) |Y (`) ; τ , θ)f (Y (`) |θ)
(1)
1{R=r(`) } f (Y (`) |θ)
(2)
欠測メカニズム P (R|Y ; τ , θ) は一般にモデル化が難しく,たとえモデル化できたとして
も識別性や最適化に困難が生じることが多い.それゆえ,欠測メカニズムを用いない直
接尤度 (2) の適用が好まれるが,直接尤度が一致推定量を構成するためには MAR という
強い条件が必要であり,直接尤度はいつでも適用してよいとは限らない.そこで,直接
尤度による MLE が NMAR の下で生じるバイアスを低減させ得る方法として補助変数法
(auxiliary variables) が提案されており (e.g., Ibrahim, et.al. 2001),たとえば,心理統計
(Graham 2003; Schafer & Graham 2002) や生物統計 (O’Neill & Temple 2012) において有
効な方法であると紹介されている.しかし,そのような主張を支えるのはシミュレーショ
ン研究のみであり,理論的な検討はなされていない.
そこで,本稿では補助変数法の効果を理論的に検討する.直接尤度による MLE が NMAR
の下で生じるバイアス (APB, Approximate Population Bias) を定義し,それを用いて,い
くつかの具体的なモデルにおいて補助変数導入の効果を検討する.
Graham(2003). Adding missing-data-relevant variables to FIML-based structural equation
models. SEM, 10, 80-100.
Ibrahim, Lipsitz and Horton(2001). Using auxiliary data for parameter estimation with nonignorably missing outcomes. Appl. Statist., 50, 361-373.
O’Neill and Temple (2012). The prevention and treatment of missing data in clinical trials:
an fda perspective on the importance of dealing with it. Clinical Pharmacology and
Therapeutics, 91(3), 550-554.
Schafer & Graham (2002) Missing data: Our view of the state of the art. Psychol. Meth., 7,
147-177.
狩野 裕 (2014). NMAR の下での尤度法.日本統計学会誌.Vol.43(2), 359-377.