多重補完法による測データの 統計解析

多重補完法による⽋測データの
統計解析
野間 久史
統計数理研究所
2014年12⽉20⽇
⽇本福祉⼤学JAGES研究会
e-mail: [email protected]
URL: http://www.ism.ac.jp/~noma/
1
Missing Data
⼀般的な統計学の教科書で解説される統計⼿法は、原則とし
てすべて「⽋測はひとつもなく、完全なデータが観測されて
いる」ことを前提としている
▶ しかし、ほとんどすべての調査・実験において、⽋測は⽣じ
る
▶ 経時的追跡研究における脱落(Drop-out)
▶ 質問紙調査における無回答,無記⼊
▶ 計測機器の測定限界を超えるデータ
▶
など
2
1
ACTG 175試験
Hammer et al. (1996)
⽶国のAIDS Clinical Trials Group (ACTG) による臨床試験
(N=2139)
▶ 抗レトロウイルス治療の有効性を評価する4群⽐較のランダム
化⽐較試験(Zidovudine(ZDV)単剤,didanosine(ddI)単剤,
ZDV+ddI,ZDV+zalcitabine)
▶ 主要評価項⽬の「AIDSの進⾏もしくは死亡」では、ZDV単剤の
みが他の3群よりも劣るという結果になり、残り3群の間に有
意な差は認められなかった
▶ 副次的な評価として、96±5週時点でのCD4 countをZDV単剤群
とそれ以外の3群で⽐較しようとすると…
▶
3
96±5週時点でのCD4の⽋測状況
⽋測値
観測値
合計
ZDV単剤群
211 (39.7%)
321
532
その他3群
586 (36.5%)
1021
1607
4
2
20週時点でのCD4と96週時点の⽋測状況
その他 3群
0
0
200
200
400
400
600
600
800
800
1000
1000
1200
1200
ZDV単剤群
0
96週⽬までに脱落
(N=221)
1
脱落せず
(N=321)
Mean Difference: 38.16, P<0.001
0
96週⽬までに脱落
(N=586)
1
脱落せず
(N=1021)
Mean Difference: 21.47, P=0.005
5
⽋測による問題①:バイアス
⽋測が何の理由もなく「完全にランダムに」起こってくれる
のであれば (MCAR) 、⽋測を無視して解析を⾏っても、治療
効果の妥当な推定・検定を⾏うことができる
▶ しかしながら、⼀般的な医学研究で⽋測を起こす対象者は
「⽋測を起こすなんらかの理由」がある
▶ 例えば、「試験治療を受けていたが、症状が悪化したため」
「有害事象が起こったため」に脱落を起こすのであれば、こ
れはランダムな脱落ではない
▶ ⾮ランダムな⽋測は、⽋測メカニズムを適切に調整した解析
を⾏わなくては、統計的な評価にバイアスを⽣じさせる
▶
6
3
⽋測による問題②:推定精度・検出⼒の低下
⽋測が起きると、統計的な推定・検定を⾏う上での情報量の
損失が⽣じる
▶ せっかく多⼤な費⽤・労⼒をかけて⾏った研究でも、最終的
な評価においては、⽋測した分のデータの情報量の損失の分
だけ、推定精度・検出⼒が低下してしまう
▶
7
⽋測による問題③:統計理論の想定外??
▶
共分散分析(線形回帰分析)
trt
CD8
wt
CD8
HIV
prior
Karn
CD4
CD4
: 96±5週時点のCD4 count, trt: treatment, wt: weight,
HIV: HIV symptom, prior: prior antiretroviral therapy
Karn: Karnofsky score, CD8 , CD4 : Baseline時点でのCD8, CD4 count
▶
結果変数,説明変数の組のうち、1つでも⽋測があれば、そも
そも通常の最⼩⼆乗法(最尤法)による解析は⾏えない!!
8
4
Complete-Case Analysis
標準的な統計解析ソフトウェアのデフォルトでの対応
▶ 結果変数,説明変数の組のうち、1つでも⽋測がある対象
者は除外して線形回帰解析を⾏う
▶ 当然ながら、完全にランダムな⽋測(MCAR)でない限り、
バイアスが⼊った解析結果に
▶ 医学研究では推奨されておらず、① ⾮ランダムな⽋測メカニ
ズムによるバイアスを補正し、② 推定精度・検出⼒を
Recoveryする⽅法が望ましい
▶ 多重補完法(Multiple Imputation)は、その最も代表的な⽅
法
Little et al. (2012)
▶
9
⽋測値の補完(Imputation)とは?
X1
X2
X3
X4
X5
0
-0.125
1.129
0.049
1.084
1
0.694
0.602
1.018
NA
0
-0.761
1.229
0.922
-0.343
0
-0.809
-1.464
1.089
0.870
1
0.327
-1.527
-1.459
NA
1
-0.243
-1.488
-1.449
-1.132
…
…
…
…
…
-1.240
字義通り、⽋測値を
なんらかの値で埋める
操作のこと
1.084
10
5
単⼀補完法(Single Imputation)
⽋測値を補完することで、⾒かけ上は「⽋測のない完全デー
タ」ができるので、通常の線形回帰分析を⾏うことができる
▶ 観測されている変数についての情報をフルに活⽤すること
ができ、推定精度・検出⼒もRecoveryできる
▶ 直観的には、「⽋測してしまったデータ」を正確に予測して、
それに近い値を補完することができれば、バイアスをなくす
(正しく調整する)ことができそうである
▶ 実際に、⼀定の条件下でバイアスをなくすことはできる
▶ しかしながら、単⼀の補完値に基づく統計解析の⽅法が、
推奨されている⽂献はない
▶
11
単⼀補完法の難点
▶
▶
▶
▶
▶
補完後のデータセットに、通常の線形回帰分析を⾏って得ら
れるP値と信頼区間は「すべてのデータが観測されたという前
提のもの」となる
実際には、⽋測した値は未知であり、それに近いと思われる
値を予測して、置き換えているだけ
⽋測値を100%正しく予測できるのであれば、妥当な結果に
しかし、原理的に、未知の値を100%正しく予測することはで
きないため、⽋測値の予測には必ず不確実性が⽣じる
最終的なP値,信頼区間が、その不確実性を無視していること
になるため、統計的な誤差を過⼩評価することに
12
6
多重補完法(Multiple Imputation)
X2
X3
X4
X5
-1.240
0
-0.125
1.129
0.049
1.084
-0.898
1
0.694
0.602
1.018
NA
0
-0.761
1.229
0.922
-0.343
0
-0.809
-1.464
1.089
0.870
1.890
1
0.327
-1.527
-1.459
NA
0.911
1
-0.243
-1.488
-1.449
-1.132
1.084
…
…
…
…
…
…
X1
-1.338
1つではなく、
複数の補完値を
⽤いる!!
…
13
なぜ、複数の補完値??
補完値の予測の不確実性は、最終的なP値,信頼区間(=回帰
パラメータの推定量の分散)に反映される
▶ 補完値の予測の不確実性による、最終的な回帰パラメータの
分散の増分は、複数の補完値ごとの解析結果のばらつきに
よって評価することができる
▶ 多重補完法は、この分散の評価におけるバイアスを適切に補
正することによって、妥当なP値と信頼区間を与える⽅法とな
る
▶
14
7
多重補完法のアルゴリズム①
⽋測値に対して複数の補完値(M組)を⽣成
▶ 補完値の⽣成⽅法はいろいろ(後ほど)
▶ 補完値を埋め込むことによってできる、M組の擬似的な完全
データに対して解析を⾏い、推定値とその分散を求める
▶
,
,
1,2, … ,
▶
15
多重補完法のアルゴリズム②
M組の解析結果をRubinの併合公式によって統合
▶
の推定量
▶
ˆ
▶
分散の推定量
ˆ ( ˆ )  1
V
IM
M
IM
1

M
M
 ˆ
h 1
h

 Vˆ(ˆh )  (1  M 1 ) h1
M
h 1
完全データの
推定量の分散
M
( ˆh  ˆI M )( ˆh  ˆI M )T
M 1
⽋測値の予測の不確実性によって⽣じる
付加的なばらつきを表す項
16
8
検定
▶
検定タイプの検定統計量
▶
▶
H0:
0のもとで、
に従う
▶
1 1
▶
1
▶
は以下の⾃由度を持つ 分布に近似的
∑
1
Rubin (1987), Little and Rubin (2001) 17
信頼区間
▶
近似的な95%信頼区間(5%⽔準の検定の裏返し)
▶
0.975
▶
0.975 は、⾃由度
の 分布の97.5パーセント点
Rubin (1987), Little and Rubin (2001)
18
9
補完回数
の設定
初期の教科書では、補完回数 は3~5回で⼗分であるとされ
てきた(例えば、Rubin (1987))
▶ もともと多重補完法が提案された1970~80年代では、⼗分な性
能を持つ計算機がなく、 を⼤きくしたもとでの計算は、現
実問題として困難だという背景もあった
▶
を⼤きくとるほど、信頼区間・P値の近似精度は⾼くなる
▶ ⼩さすぎると、近似精度が不⼗分である可能性も
▶ 最近の⽂献では、正確な推定・検定を⾏うために、
100〜1000回のオーダーにとることを勧めているものも多い
▶
Carpenter and Kenward (2013), Royston and White (2011) 19
多重補完法の理論的妥当性
妥当な補完値が⽤いられていさえすれば、ここまでの推定・
検定の⽅法で、妥当な結果が得られる
▶ 妥当な補完値とは?
▶ ⽋測したデータの背景にある確率分布(真の構造)から
⽣成されるデータ(いわゆる乱数)
▶ 1点としての「正確な値」は予測できないが、観測されたデー
タから、⽋測したデータが「どのような分布に従って得られ
るはずのものであったか」を推定することはできる
▶ その分布からの値を、複数シミュレーションして、その「分
布の情報」を補完値として組み込む(というイメージ)
▶
20
10
代表的な補完値の⽣成⽅法
回帰モデルによる⽅法(連続変数,2値変数,計数変数)
▶ 予測平均マッチング(連続変数)
▶ マルコフ連鎖モンテカルロ法(MCMC; SASなどでは連続変数
のみ)
▶ 連鎖⽅程式による⽅法(連続変数,2値変数,計数変数)
▶ より⼀般的な解説は、Carpenter and Kenward (2013) など
をご参照ください
▶
21
回帰モデルによる⽅法
▶
⽋測した変数を結果変数として、観測されているデータで、
その分布を説明する回帰モデルを作る
wt
CD8
HIV
CD8
prior
CD4
Karn
CD4
推定された回帰式に、推定された誤差分散を上乗せした乱数
を⽣成させ、これを補完値に⽤いるという⽅法
▶ 2値変数にはロジスティック回帰,計数変数にはポアソン回帰
で、同様の補完値の⽣成が可能
▶
22
11
予測平均マッチング
回帰モデルによる⽅法で推定された回帰式と誤差分散には誤
差が伴う(誤差の分布が正規分布から外れることも)
▶ Plausibleでない値が⽣成されることも当然ある
▶ よりPlausibleな値に近づけるために、推定された回帰式から
予測される「予測平均」に近い観測値が得られている他の対
象者(例えば、近い順に5⼈)のデータから、補完値をランダ
ムに選びとる(マッチングさせる)という⽅法
▶ Hot-dec Imputationといわれる補完⽅法
▶ シミュレーションなどによる経験的な評価では、相対的に良
い性能を持つ⽅法であることが知られている
▶
23
マルコフ連鎖モンテカルロ法(MCMC)
多重補完法は、実はベイズ統計学の枠組みで、理論的に正当
化される⽅法である
▶ 補完値が「観測データが得られたもとでの事後予測分布」か
ら⽣成されるとき、Rubinの併合公式で妥当な推定・検定を構
成することができることが⽰されている
▶ Proper Imputationといわれる補完⽅法
▶ MCMCで「観測データが得られたもとでの事後予測分布」から
の補完値を直接的に⽣成することができる
▶ ただし、アルゴリズムはかなり複雑なので、SASなどでは多変
量正規分布が仮定できるデータのみにしか対応していない
▶
24
12
連鎖⽅程式による⽅法(MICE) ①
回帰モデルによる⽅法などでは、⽋測を起こす変数が1種類の
みであれば、他の観測されている変数を説明変数にして、⽋
測変数の分布を推定することができる
▶ しかし、⼀般的に、⽋測を起こす変数が1種類のみという性質
のよい状況は、疫学の調査系の研究ではほとんどなく、複数
の変数に散在的に⽋測が起こることが多い
▶ この場合、「⽋測変数の予測のための回帰モデル」の説明変
数が⽋測することになり、⽋測値の予測のためのモデルでも、
また⽋測に悩まされることになってしまう??
▶
25
複数の変数に⽋測がある設定 (Example)
X1
X2
X3
X4
X5
0
NA
1.129
0.049
1.084
1
0.694
NA
1.018
-1.240
NA
-0.761
1.229
0.922
-0.343
0
-0.809
-1.464
1.089
NA
NA
NA
-1.527
-1.459
1.084
1
-0.243
-1.488
NA
-1.132
…
…
…
…
…
26
13
連鎖⽅程式による⽅法(MICE) ②
Fully Conditionally Specified (FCS) の仮定
▶
, , … , という変数の組は、すべての変数が、
他の
1 個の変数によって、お互いの分布を完全に
説明することができるという仮定
▶
の分布は、 , , … , で完全に説明できる
▶
の分布は、 , , … , で完全に説明できる
▶ …
▶
27
連鎖⽅程式による⽅法(MICE) ③
FCSの仮定のもとで、 , , … , のそれぞれの変数について
の補完値を順繰りに(連鎖的に)⽣成していく
▶
についての補完値を⽣成する場合
▶
, ,…,
の⽋測値には、1時点前の補完値を⼊れておき、
その擬似的な完全データに対して、 の予測モデルを構築
する
▶
についての補完値を1組⽣成し、これをCurrentの値とし
て更新する
▶
28
14
Cycle for
X1
X2
X3
X4
X5
0
0.694
1.129
0.049
1.084
1
0.694
-1.527
1.018
-1.240
NA
-0.761
1.229
0.922
-0.343
0
-0.809
-1.464
1.089
-1.240
NA
-0.809
-1.527
-1.459
1.084
1
-0.243
-1.488
0.049
-1.132
…
…
…
…
…
の予測モデルの
構築
29
(同様の⼿順で)
Cycle for
X1
X2
X3
X4
X5
0
NA
1.129
0.049
1.084
1
0.694
-1.527
1.018
-1.240
1
-0.761
1.229
0.922
-0.343
0
-0.809
-1.464
1.089
-1.240
0
NA
-1.527
-1.459
1.084
1
-0.243
-1.488
0.049
-1.132
…
…
…
…
…
の予測モデルの構築
30
15
連鎖⽅程式による⽅法(MICE) ④
以上の連鎖的なアルゴリズムを , , … ,
に順繰りに繰り
返していき、M組の補完値の組を作成
▶ Multiple Imputation by Chained Equation (MICE)
▶ 経験的に良好な性能を持つ⽅法であることも知られてきてお
り、標準的なソフトウェアにも実装されてきている
▶ SAS PROC MI: fcs statement
▶ R, S-PLUS library: mice
▶ STATA module: MICE
▶
van Buuren and Groothuis-Oudshoorn (2011)
31
Illustration: ACTG 175試験
▶
共分散分析(線形回帰分析)
trt
CD8
wt
CD8
HIV
prior
Karn
CD4
CD4
: 96±5週時点のCD4 count, trt: treatment, wt: weight,
HIV: HIV symptom, prior: prior antiretroviral therapy
Karn: Karnofsky score, CD8 , CD4 : Baseline時点でのCD8, CD4 count
96±5週時点のCD4 countが4割弱の対象者に⽋測している
▶ 多重補完法による解析を⾏う
▶
32
16
Example: SAS PROC MI
proc mi data=actg175 seed=95231 nimpute= 200 out=actg175_im1;
class symptom str2;
monotone regpmm(cd496=wtkg symptom str2 karnof offtrt cd80 cd40 cd820 cd420
cd80Q cd40Q cd820Q cd420Q/details);
var wtkg symptom str2 karnof offtrt cd80 cd40 cd820 cd420 cd80Q cd40Q
cd820Q cd420Q cd496;
run;
/* 補完値の⽣成(予測平均マッチング法) */
proc reg data=actg175_im1 outest=outreg covout noprint;
model cd496=treat wtkg symptom str2 karnof cd80 cd40 cd80Q cd40Q;
by _imputation_;
run;
/* 補完後のデータセット(M組)の解析;共分散分析 */
proc mianalyze data=outreg;
modeleffects Intercept treat wtkg symptom str2 karnof cd80 cd40 cd80Q cd40Q;
run;
/* M組の解析結果の統合 */
33
Example: SAS Output ①
34
17
Example: SAS Output ②
(つづき)
35
Example: R library mice
library(mice)
predmx1 <- diag(0, ncol(actg175))
predmx1[21, c(3, 7, 14, 16, 18, 19, 20, 23, 24, 28, 29, 30, 31)] <- 1
# 補完モデルの説明変数の指定(⾏列形式)
imp1 <- rep(“”, ncol(actg175)); imp1[21] <- “pmm”
# 補完⽅法の指定(予測平均マッチング)
mice1 <- mice(actg175, m=200, method=imp1, predictorMatrix=predmx1, seed=34871)
# 補完値の⽣成(予測平均マッチング)
complete(mice1, 25)
# 25番⽬の補完後のデータセット(完全データ)を表⽰
fit1 <- with(mice1, lm(cd496~treat+wtkg+symptom+str2+karnof+cd80+cd80Q+cd40+cd40Q))
# 補完後のデータセット(M組)の解析;共分散分析
pool1 <- pool(fit1)
round(summary(pool1),3)
# M組の解析結果の統合と結果の表⽰
36
18
Example: R Output
> round(summary(pool1),3)
est
se
(Intercept) -219.834 69.586
treat
55.951 8.122
wtkg
0.436 0.299
symptom
-20.569 9.772
str2
-30.050 7.605
karnof
1.731 0.648
cd80
-0.057 0.021
cd80Q
0.000 0.000
cd40
1.240 0.147
cd40Q
-0.001 0.000
t
-3.159
6.889
1.459
-2.105
-3.951
2.673
-2.707
1.011
8.436
-2.932
df Pr(>|t|)
lo 95
hi 95 nmis
fmi lambda
848.394
0.002 -356.415 -83.253
NA 0.315 0.313
1261.439
0.000
40.017 71.886
0 0.203 0.201
714.959
0.145
-0.151
1.023
0 0.364 0.363
1037.365
0.036 -39.744 -1.394
0 0.258 0.257
956.156
0.000 -44.974 -15.126
0 0.281 0.280
858.123
0.008
0.460
3.002
0 0.312 0.310
1112.018
0.007
-0.098 -0.016
0 0.239 0.237
1138.374
0.312
0.000
0.000
0 0.232 0.231
448.928
0.000
0.951
1.529
0 0.507 0.504
388.514
0.004
-0.001
0.000
0 0.553 0.551
37
ACTG 175の解析結果①
CD4の平均値の差の推定結果
推定値
SE
95%信頼区間
ANCOVA†
64.54
9.33
46.25, 82.83
Paird t-test†
67.14
9.23
49.05, 85.23
†
Complete-Case Analysis
Davidian et al. (2005)
38
19
ACTG 175の解析結果②
多重補完法による平均値の差の推定結果(
200)
推定値
SE
95%信頼区間
回帰モデル
56.81
8.18
40.78, 72.83
予測平均マッチング
55.95
8.22
39.84, 72.07
MCMC
55.01
8.21
38.92, 71.10
39
補完値の⽣成⽅法の妥当性
多重補完法の妥当性は、補完値の⽣成⽅法の妥当性に依存す
る
▶ 補完値の⽣成⽅法の違いは、理論的な仮定の違い
▶ 補完値の⽣成⽅法は、ここで紹介した以外にも多く存在する
が、理論的な仮定が同等のものであれば、得られる補完値も
類似したものとなる
▶ 最終的な推定・検定の結果は、補完値のモデルの仮定の妥当
性に依存するため、⼗分な吟味と感度解析を⾏うことが重要
▶
40
20
参考⽂献
▶
▶
▶
▶
▶
Carpenter, J., and Kenward, M. G. (2013). Multiple Imputation and Its Application.
Chichester: Wiley.
Davidian, M., Tsiatis, A. A., and Leon, S. (2005). Semiparametric estimation of
treatment effect in a pretest-posttest study with missing data. Statistical Science 20:
261-301.
Hammer, S. M., Katzenstein, D. A., Hughes, M. D., et al. (1996). A trial comparing
nucleoside monotherapy with combination therapy in HIV-infected adults with CD4
cell counts from 200 to 500 per cubic millimeter. AIDS Clinical Trials Group Study 175
Study Team. New England Journal of Medicine 335, 1081-1090.
Little, R. J., D'Agostino, R., Cohen, M. L., et al. (2012). The prevention and treatment
of missing data in clinical trials. New England Journal of Medicine 367, 1355-1360.
Little, R. J. A., and Rubin, D. B. (2001). Statistical Analysis with Missing Data. New
York: John Wiley and Sons.
41
▶
▶
▶
Royston, P., and White, I. R. (2011). Multiple Imputation by Chained Equations (MICE):
Implementation in Stata. Journal of Statistical Software 45, Issue 4.
Rubin, D. B. (1987). Multiple Imputation for Nonresponse in Surveys. New York: John
Wiley.
van Buuren, S., and Groothuis-Oudshoorn, K. (2011). mice: Multivariate Imputation by
Chained Equations in R. Journal of Statistical Software 45, Issue 3.
42
21