不完全データの処理 - ホーム

不完全データの処理
立教大学経営学部
山口和範
今日の話
不完全データの処理
– 不完全情報に基づく推定
– EMアルゴリズムの利用と最適化
– 潜在変数モデル
潜在クラスモデル、混合モデル、…
多重代入法とEMアルゴリズム
傾向スコアとその拡張
欠測データへの考えられる対処法
1.
欠測を含むケースの削除: Complete Case
(CC) 法
分析結果の偏りを招く可能性, 一般的には×
2.
ペアワイズ法: Pairwise Deletion
変数毎あるいは変数対毎に利用できるデータを
使って,平均や相関・共分散を推定
3.
欠測データの推定: Imputation Method
擬似的な完全データの作成(平均値推定,回帰推定,・・・)
4.
統計モデルに基づく方法
最尤法(EMによる)
手にしているデータとは? ;
 x11 x12  x1 p 


 x21 x22  x2 p 






 xn1 xn 2  xnp 

 x11 x12  x1 p 


x
x

x
2p
 21 22






 xn1 xn 2  xnp 

 X
研究対象変数
( xobs , r )
and
11 1 
1 0  1 







0 1 0 
 r11 r12  r1 p 


r
r

r
2p 
 21 22






 rn1 rn 2  rnp 

 R
欠測指標変数
( x , r ) ; data
x  ( xobs , xmis ) ;
r  (r1 ,  , rp ) ;
f ( x, r )
;
response variable
missing indicator variable
the joint distribution of x and
r
the marginal distribution of the observed data
f ( xobs , r )   f ( x, r )dxmis
欠測のモデル
f (x,r)に関する2つのモデル
Selection models
f ( x , r ) = f ( x )P ( r | x )
どの値が 欠測するかは,対象変数 x の実現値から
確率的に決まるとするモデル
Pattern mixture models
f ( x , r ) = f ( x | r )P ( r )
欠測パターン毎に,別々の異なる x の確率モデルが
想定され, 観測データ行列は,欠測パターン毎の
生起確率を重みとする混合分布の実現値と考えるモデル
Selection Model v.s. Pattern Mixture Model
Selection Model
–
–
–
–
MARの仮定の下では,使いやすいモデル
母集団を一つの分布法則でモデル化できる
現状でよく使われている
NMARの下では,欠測発生のモデル化の適否が
結果を左右する
Pattern Mixture Model
– NMARの下では,扱いやすいモデル
– 欠測パターン毎の分布法則が知りたいのであれば適当な
モデルといえる
– NMARの下で,欠測発生のモデル化をしないで済む。
欠測パターンと目的パラメータの間で,何らかの制約式
など設定する必要がでてくる。
欠測発生メカニズムへの仮定(1)
Missing Completely at Randam (MCAR)
P( r | x ) = P ( r )
x r
どの変数の値が欠測するかはもとの観測ベクトル x とは無関係
観測データと欠測指標の同時分布は,
f ( xobs , r )  f ( xobs ; ) P(r )
Ex. P(r=(1,1,・・・,1))=75%, P(r=(1,1,・・・,0))=10%, ・・・
MCARの下では,発生メカニズムは無視できる
 x11 x12  x1 p 


x
x

x
21
22
2p 






 xn1 xn 2  xnp 
No systematic difference
between complete cases
and incomplete cases
CC 法,
平均値の代入
unbiased estimates of underlying
marginal means/profiles
欠測発生メカニズムへの仮定(2)
Missing at Random (MAR)
P( r | x ) = P ( r | xobs )
xmis  r xobs
ある変数が欠測する確率 は xobsが与えられた下で,
xmisとは無関係
the joint distribution of the observed data
f ( xobs , r )  f ( xobs ; ) P(r | xobs )
局所的に,MCARが成立
Growth Curve Data
(Potthoff & Roy,1964)
AGE
CASE
1
2
3
4
5
6
7
8
9
10
11
8
10
12
14
21.0
21.0
20.5
23.5
21.5
20.0
21.5
23.0
20.0
16.5
24.5
20.0
21.5
24.0
24.5
23.0
21.0
22.5
23.0
21.0
19.0
25.0
21.5
24.0
24.5
25.0
22.5
21.0
23.0
23.5
22.0
19.0
28.0
23.0
25.5
26.0
26.5
23.5
22.5
25.0
24.0
21.5
19.5
28.0
means the missing produced through a
MAR mechanism by Little(1987)
x10
r10
x8
x12 , x14
Missing at Random (MAR)
xmis  r xobs
観測変数xobsで,欠測変数xmisと欠測指標変数rとの関係を
説明できれば,欠測変数と欠測指標変数との関係はなくな
る。
欠測変数xmisと欠測指標変数rとの関係を説明する観測変
数xobs が存在しそれらを適切に解析に組み込めば, 欠測
データによって生じる偏りはなくなる。
予め共変量など欠測変数xmisと関連のある観測変数を含め
ておくことで, MAR の仮定の成立は不自然ではなくなる。
MAR が成立すれば, non-response
bias は補正できる
CC(Complete-case)法
不完全ケースをすべて削除
層別と重み付け
Stratification & Weighting
補正のための各層で,完全に観測されたケースを観測率の
逆数で重み付ける
局所的にMCARが成立するような補正セル
をどうやって見つけるか?
• Observed variables
xmis  r A
xobs
• Response Propensity スコアによる層別
pˆ ( xobs )  Pˆ r .(r  1 | xobs )
• Predicted Mean による層別
xˆmis ( xobs )
Response Propensity スコア
Probability of missing based on covariate.
p( xobs )  Pr( r  1 | xobs )
Rosenbaum & Rubin (1983)
Missing at Random
xmis  r xobs
xobs  r p( xobs ) and xmis  r p( xobs )
approximately
Propensity スコアによる層別手順
欠測指標変数を観測変数でロジスティック回帰や
プロビット回帰( Propensityスコア)する
2. 前ステップでのPropensityスコアの推定値を各
ケースで求める
3. Propensityスコアの推定値の大きさでカテゴリー
化し,層別を行う
1.
* Propensityスコアの推定値は,各ケースのその大き
さによるグループ分けには適しているが,そのま
ま各ケースの重みとして利用することは不適切
欠測データへの考えられる対処法
1.
欠測を含むケースの削除: Complete Case
(CC) 法
MCARのみ可, MARで層別による補正
2.
ペアワイズ法: Pairwise Deletion
変数毎あるいは変数対毎に利用できるデータを
使って,平均や相関・共分散を推定
3.
欠測データの推定: Imputation Method
擬似的な完全データの作成(平均値推定,回帰推定,・・・)
4.
統計モデルに基づく方法
最尤法
ベイズ法
ペアワイズ法: Pairwise Deletion
変数毎に利用できるデータを使って,平均・分
散を推定
変数対毎に利用できるデータを使って,相関・
共分散を推定
x1
 x11 x12  x1 p 


x
x

x
21
22
2p 






 xn1 xn 2  xnp 
xp
ペアワイズ法
r12
–
標本相関行列の統計的分布が不明
–
標本相関行列が正定値行列でないことがある
 x11 x12  x1 p 


x
x

x
21
22
2p 






 xn1 xn 2  xnp 
 相関の高いデータ行列
の場合は,とくに不適
 単なるCC法(削除
法)より悪い結果となる
ことも
Imputation(代入法)
欠測データに何らかの値を代入
擬似的な完全データの作成
 Marginal or Conditional imputation
 Explicit or Implicit model imputation
 Deterministic or Stochastic imputation
(using random numbers)
 Univariate or Multivariate imputation
 Single or Multiple imputation
2種類の尤度
1.
( xobs , r )
Full loglikelihood
– 欠測発生メカニズムをモデル化
L( ,  | xobs , r )  log  f ( x, r ; ,  )dxmis
2.
Partial loglikelihood
–欠測発生メカニズムを無視
L( | xobs )  log  f ( x ; )dxmis
* より単純な partial likelihood を使っても良い条件とは ?
Ignorability
Rubin(1977)
モデルの推測に際して,欠測発生メカニズムを無視して
よい条件とは ?
1.
Sufficient conditions for ignorability
–
MAR
–
欠測発生メカニズムを規定する母数 () とデータの分
布の母数 () は無関係
上記の MAR のみが成立していれば,ML法 Lpartial でも適
切ではあるが,完全に efficient とはならない
3. MAR は key condition

Richer the observed data xobs , the more plausible the
MAR assumption
4. NMAR は more plausible, しかし,特定の欠測発生メカニ
2.
ズムモデルを正当化することは難しい
Missing at Random
Partial loglikelihood
– 欠測発生メカニズムを無視
L partial( | xobs )  log  f ( x ; )dxmis
f ( x ; )
 x11

 x21



 xn1
has much simpler
form than
x12  x1 p 

x22  x2 p 



xn 2  xnp 

 f ( x ; )dx
mis
 x11

 x21



 xn1
x12  x1 p 

x22  x2 p 



xn 2  xnp 

Excelで実習
中途打ち切りデータの推定
–

f ( x ; )dxmis の最大化
– EMアルゴリズムによる方法
EM algorithm
A general algorithm for incomplete data problems
that provides an interesting link with imputation
methods

( k 1)
 max   E[ Lc ( | xobs ;
where Lc ( | x;
(k )
(k )
)]
)  log f ( x |  )
L partial( | xobs )  log  f ( x ; )dxmis

(k)
converges to a maximum likelihood estimate of 
based on Lpartial , if a unique finite MLE of  exists.
DLR(1977)
E-step :To calculate the conditional
expectation of Lc()
Q( ;
(k )
)  E[ Lc ( | xobs ;
(k )
)]
M-step :To find  which maximize the
conditional expectation calculated
in the previous E-step
Q(
( k 1)
;
(k )
)  Q( ;
(k )
)
EM の適用(Ignorable case)
1. 欠測を含む多変量正規モデル
2. 欠測を含む多変量回帰モデル
3. 尺度混合正規モデルの下でのロバスト
推定
4. Logistic 回帰( missing covariates)
5. Unbalanced repeated-measures
models with structured covariance and
with missing data
6. 潜在構造モデル
欠測値を含む多変量正規モデル
 x11

 x21



 xn1
x12  x1 p 

x22  x2 p 



xn 2  xnp 

x T1  x11 x12  x1 p 


 x21 x22  x2 p 
.. 


.


 xn1 xn 2  xnp 

x Tn 
x T2
Lc (  , ) 
p
2
n
1 n
T 1
2
 n log( 2 )  log    ( xi   )  ( xi   )
2
2 i 1
 xi ( mis)   xi( 0) 



x
  x (1) 
 i ( obs)   i 
 0 
 
 1 
  00  01 


 10 11 
E-step :Sufficient statistics ( xi , xi xiT )
E[ x
(0)
| x ;  , )  
(0)
 xˆ
(0)
(1)
1 (1)
01 11
  x
(imputed data)
 xi ( mis)   xi( 0) 



x
  x (1) 
 i ( obs)   i 
 0 
 
 1 
  00  01 


 10 11 
E-step :Sufficient statistics ( xi , xi xiT )
( 0 ) (1) T
| x ;  , )  xˆ x
( 0) ( 0)T
| x ;  , )  xˆ xˆ
E[ x x
E[ x x
(1)
(1)
( 0 ) (1) T
( 0) ( 0)T
1
01 11
  00    10
 xˆ 
T


xˆi  (1) , xi xi 
x 
 i 
(0)
i
M-step :


( k 1)
( k 1)
x x
xˆ x

 x (1) xˆ (0)T x (1) x (1)T
i i
 i i
( 0) (0) T
i
i
xi
1 n
  xi
n i 1
1 n
T
( k 1) ( k 1)T
  xi xi   
n i 1
( 0 ) (1) T
i
i




MARでない場合の影響
数値実験
 0 1 r 
 x1 
  ~ N   , 
 
 x2 
 0  r 1
Pr( M 2  1 | x2 )  1 /(1  exp( 3  2 x2 ))
1.00
0.75
0.50
0.25
0.00
-3.0
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
欠測モデル(MARでない場合)
 0 1 r 
 x1 
  ~ N   , 
 
 x2 
 0  r 1
Pr( M 2  1 | x2 )  1 /(1  exp( 3  2 x2 ))
x1
x2
m2
欠測モデル(MARの場合)
 0 1 r 
 x1 
  ~ N   , 
 
 x2 
 0  r 1
Pr( M 1  1 | x2 )  1 /(1  exp( 3  2 x2 ))
x1
x2
m1
MARの場合
0.6
0.4
0.2
0.0
-0.2
-0.4
-0.6
-0.8
r=0.5
欠測なし
r=0.8
結果(平均)
0.8
0.6
0.4
0.2
0.0
-0.2
-0.4
-0.6
r=0.2
r=0.5
r=0.8
平均(r=0.8)
-0.40
-0.30
-0.20
-0.10
0.00
M2_8
0.10
0.20
0.30
0.40
平均
r=0.2
平均
SD
r=0.5
平均
SD
r=0.8
平均
SD
平均 0.174 0.098 0.141 0.099 0.070 0.106
分散 0.848 0.135 0.841 0.135 0.879 0.142
相関 0.178 0.105 0.464 0.086 0.790 0.043
分散
1.8
1.6
1.4
1.2
1.0
0.8
0.6
0.4
0.2
r=0.2
r=0.5
r=0.8
相関係数
1.2
1.0
0.8
0.6
0.4
0.2
0.0
-0.2
-0.4
-0.6
r=0.2
r=0.4
r=0.8
ペアワイズ削除で推定した場合
1.6
1.2
0.8
0.4
0.0
-0.4
平均(0.0)
分散(1.0)
相関(0.8)
比較
-0.40
-0.30
-0.20
-0.10
0.00
0.10
0.20
0.30
0.40
0.50
-0.40
-0.30
-0.20
-0.10
0.00
0.10
0.20
0.30
0.40
まとめ
• 欠測データを解決する unique solution はない
• いくつかの方法を試して,sensitivity check する
• ML 法は,MARであればOK
• MARでなくても、場合によっては十分な補正を行なう
Imputation(代入法)
欠測データに何らかの値を代入
擬似的な完全データの作成
 Marginal or Conditional imputation
 Explicit or Implicit model imputation
 Deterministic or Stochastic imputation
(using random numbers)
 Univariate or Multivariate imputation
 Single or Multiple imputation
Mean Imputation (Unconditional)
単純な平均値の代入
Available cases for each mean
MCARの下でも分散を過小評価
x1
 x11 x12  x1 p 


x
x

x
21
22
2p 






 xn1 xn 2  xnp 
xp
s 
2
p
2
p
検定や信頼区間の結果
が信用できない
Mean Imputation (Conditional)
回帰による推定値の代入
Conditional on observed values in case
Regress Xp on (X1 ,X2,・・・,Xp-1)
Impute predictions
 x11 x12  x1 p 


x
x

x
21
22
2p 






 xn1 xn 2  xnp 
xˆnp  E ( xnp | xn1  xnp1 )
s 2p1 p 1   2p1 p 1
パーセント点,相関係数,分散,
共分散などデータの線形関数以外
の統計量の推定は偏る
Mean Imputation
分布(ばらつき)を再現しない
Marginal distributions and associations
distorted ( no residual variance)
Conditional better than unconditional
Standard errors from filled-in data too
small
– no residual variance
– n actually smaller
– uncertainty of prediction
Stochastic Imputation
Cold deck法と Hot deck法
(パネルデータ)
Cold deck 法
代入値を同一人物の他の時点のデータから探す
Hot deck 法
代入値を同一時点の他の人物(ドナー)のデータから探
す
代入値を提供するドナーケースは,補正セル内あるいは
共変量とのマッチングで決める
Exact matching v.s. Random matching
ランダムホットデック法
Deterministic imputation
(非確率的代入)
Hot deck and Cold deck methods
Overall (unconditional) mean
Group (adjusted cell) mean
Predictive mean by regression model
More accuracy, but distort the distribution
The distribution becomes too peaked and the variance is underestimated
Stochastic imputation
確率的代入
非確率的代入法+確率的要素
ばらつきを保持する(代入値の分散・共分散を意識)
EX.
1. Add a random residual from N (  , 2 )
Stochastic Predictive mean imputation
回帰による推定値+乱数による誤差
2. Impute the value of a randomly selected case
Random hot deck method
Stochastic Predictive Mean Imputation
(Imputation from a Distribution)
Add a random residual from
the predictive mean
N (  , 2 ) to
Impute
 x11 x12  x1 p 


 x21 x22  x2 p 





 xn1 xn 2  xnp 
xˆnp  E ( xnp | xn1  xnp1 )  rn ,
rn ~ N (0, s 2p12 p 1 )
c.f. Predictive Mean Matching
(more robust to misspecification)
Predictive Mean Stratification &
Random Hot Deck
確率的代入法の特徴
平均(1次モーメント)の推定にのみ限れば
効率は非確率的代入法より劣る
分布や相関構造の推定に関しては勝る
Imputationによる推定結果のばらつきが大
きな場合,
single value stochastic imputationよりも
multiple imputation
Imputation(代入法)
欠測データに何らかの値を代入
擬似的な完全データの作成
 Marginal or Conditional imputation
 Explicit or Implicit model imputation
 Deterministic or Stochastic imputation
(using random numbers)
 Univariate or Multivariate imputation
 Single or Multiple imputation
Multiple Imputation
複数個(M)の代入値を用意
各代入値について、 M 個の  の推定値
ˆ1 ,ˆ2 ,,ˆM
これら(M個の推定値とその共分散行列)を使って、
1つの推定値と標本誤差のための共分散行列を
算出
Multiple Imputation
ˆ1 ,ˆ2 ,,ˆM
SE (ˆ1 ), SE (ˆ1 ), , SE (ˆM )
Combined Estimator
1
ˆ

M
M
ˆ

i
i 1
Total variability
M 1
ˆ
SE ( )  W 
B
M
1 M
W
SE (ˆi )

M i 1
1 M ˆ ˆ2
B
( i   )

M  1 i 1
MIに基づく信頼区間の構成
θがスカラーの場合:
1/ 2
ˆ
ˆ
(   ) SE ( )
~ t
1 W

  ( M  1)1 

 M 1 B 
Rubin & Schenker (1986) JASA
欠測による情報損出の評価
1
B
(1  )
M SE (ˆ)
MIについてのコメント
インピュテーションの方法にモデルは不可欠
– 何らかの意味でのモデルがないと、インピュート
ができない
– MIでは、ベイズ流の事前分布を使用している
MIの方法は比較的ロバスト
– 推定値だけでなく、SEの評価も
– パラメトリックモデルに比べ、前提とする条件がゆ
るいため