不完全データの処理 立教大学経営学部 山口和範 今日の話 不完全データの処理 – 不完全情報に基づく推定 – EMアルゴリズムの利用と最適化 – 潜在変数モデル 潜在クラスモデル、混合モデル、… 多重代入法とEMアルゴリズム 傾向スコアとその拡張 欠測データへの考えられる対処法 1. 欠測を含むケースの削除: Complete Case (CC) 法 分析結果の偏りを招く可能性, 一般的には× 2. ペアワイズ法: Pairwise Deletion 変数毎あるいは変数対毎に利用できるデータを 使って,平均や相関・共分散を推定 3. 欠測データの推定: Imputation Method 擬似的な完全データの作成(平均値推定,回帰推定,・・・) 4. 統計モデルに基づく方法 最尤法(EMによる) 手にしているデータとは? ; x11 x12 x1 p x21 x22 x2 p xn1 xn 2 xnp x11 x12 x1 p x x x 2p 21 22 xn1 xn 2 xnp X 研究対象変数 ( xobs , r ) and 11 1 1 0 1 0 1 0 r11 r12 r1 p r r r 2p 21 22 rn1 rn 2 rnp R 欠測指標変数 ( x , r ) ; data x ( xobs , xmis ) ; r (r1 , , rp ) ; f ( x, r ) ; response variable missing indicator variable the joint distribution of x and r the marginal distribution of the observed data f ( xobs , r ) f ( x, r )dxmis 欠測のモデル f (x,r)に関する2つのモデル Selection models f ( x , r ) = f ( x )P ( r | x ) どの値が 欠測するかは,対象変数 x の実現値から 確率的に決まるとするモデル Pattern mixture models f ( x , r ) = f ( x | r )P ( r ) 欠測パターン毎に,別々の異なる x の確率モデルが 想定され, 観測データ行列は,欠測パターン毎の 生起確率を重みとする混合分布の実現値と考えるモデル Selection Model v.s. Pattern Mixture Model Selection Model – – – – MARの仮定の下では,使いやすいモデル 母集団を一つの分布法則でモデル化できる 現状でよく使われている NMARの下では,欠測発生のモデル化の適否が 結果を左右する Pattern Mixture Model – NMARの下では,扱いやすいモデル – 欠測パターン毎の分布法則が知りたいのであれば適当な モデルといえる – NMARの下で,欠測発生のモデル化をしないで済む。 欠測パターンと目的パラメータの間で,何らかの制約式 など設定する必要がでてくる。 欠測発生メカニズムへの仮定(1) Missing Completely at Randam (MCAR) P( r | x ) = P ( r ) x r どの変数の値が欠測するかはもとの観測ベクトル x とは無関係 観測データと欠測指標の同時分布は, f ( xobs , r ) f ( xobs ; ) P(r ) Ex. P(r=(1,1,・・・,1))=75%, P(r=(1,1,・・・,0))=10%, ・・・ MCARの下では,発生メカニズムは無視できる x11 x12 x1 p x x x 21 22 2p xn1 xn 2 xnp No systematic difference between complete cases and incomplete cases CC 法, 平均値の代入 unbiased estimates of underlying marginal means/profiles 欠測発生メカニズムへの仮定(2) Missing at Random (MAR) P( r | x ) = P ( r | xobs ) xmis r xobs ある変数が欠測する確率 は xobsが与えられた下で, xmisとは無関係 the joint distribution of the observed data f ( xobs , r ) f ( xobs ; ) P(r | xobs ) 局所的に,MCARが成立 Growth Curve Data (Potthoff & Roy,1964) AGE CASE 1 2 3 4 5 6 7 8 9 10 11 8 10 12 14 21.0 21.0 20.5 23.5 21.5 20.0 21.5 23.0 20.0 16.5 24.5 20.0 21.5 24.0 24.5 23.0 21.0 22.5 23.0 21.0 19.0 25.0 21.5 24.0 24.5 25.0 22.5 21.0 23.0 23.5 22.0 19.0 28.0 23.0 25.5 26.0 26.5 23.5 22.5 25.0 24.0 21.5 19.5 28.0 means the missing produced through a MAR mechanism by Little(1987) x10 r10 x8 x12 , x14 Missing at Random (MAR) xmis r xobs 観測変数xobsで,欠測変数xmisと欠測指標変数rとの関係を 説明できれば,欠測変数と欠測指標変数との関係はなくな る。 欠測変数xmisと欠測指標変数rとの関係を説明する観測変 数xobs が存在しそれらを適切に解析に組み込めば, 欠測 データによって生じる偏りはなくなる。 予め共変量など欠測変数xmisと関連のある観測変数を含め ておくことで, MAR の仮定の成立は不自然ではなくなる。 MAR が成立すれば, non-response bias は補正できる CC(Complete-case)法 不完全ケースをすべて削除 層別と重み付け Stratification & Weighting 補正のための各層で,完全に観測されたケースを観測率の 逆数で重み付ける 局所的にMCARが成立するような補正セル をどうやって見つけるか? • Observed variables xmis r A xobs • Response Propensity スコアによる層別 pˆ ( xobs ) Pˆ r .(r 1 | xobs ) • Predicted Mean による層別 xˆmis ( xobs ) Response Propensity スコア Probability of missing based on covariate. p( xobs ) Pr( r 1 | xobs ) Rosenbaum & Rubin (1983) Missing at Random xmis r xobs xobs r p( xobs ) and xmis r p( xobs ) approximately Propensity スコアによる層別手順 欠測指標変数を観測変数でロジスティック回帰や プロビット回帰( Propensityスコア)する 2. 前ステップでのPropensityスコアの推定値を各 ケースで求める 3. Propensityスコアの推定値の大きさでカテゴリー 化し,層別を行う 1. * Propensityスコアの推定値は,各ケースのその大き さによるグループ分けには適しているが,そのま ま各ケースの重みとして利用することは不適切 欠測データへの考えられる対処法 1. 欠測を含むケースの削除: Complete Case (CC) 法 MCARのみ可, MARで層別による補正 2. ペアワイズ法: Pairwise Deletion 変数毎あるいは変数対毎に利用できるデータを 使って,平均や相関・共分散を推定 3. 欠測データの推定: Imputation Method 擬似的な完全データの作成(平均値推定,回帰推定,・・・) 4. 統計モデルに基づく方法 最尤法 ベイズ法 ペアワイズ法: Pairwise Deletion 変数毎に利用できるデータを使って,平均・分 散を推定 変数対毎に利用できるデータを使って,相関・ 共分散を推定 x1 x11 x12 x1 p x x x 21 22 2p xn1 xn 2 xnp xp ペアワイズ法 r12 – 標本相関行列の統計的分布が不明 – 標本相関行列が正定値行列でないことがある x11 x12 x1 p x x x 21 22 2p xn1 xn 2 xnp 相関の高いデータ行列 の場合は,とくに不適 単なるCC法(削除 法)より悪い結果となる ことも Imputation(代入法) 欠測データに何らかの値を代入 擬似的な完全データの作成 Marginal or Conditional imputation Explicit or Implicit model imputation Deterministic or Stochastic imputation (using random numbers) Univariate or Multivariate imputation Single or Multiple imputation 2種類の尤度 1. ( xobs , r ) Full loglikelihood – 欠測発生メカニズムをモデル化 L( , | xobs , r ) log f ( x, r ; , )dxmis 2. Partial loglikelihood –欠測発生メカニズムを無視 L( | xobs ) log f ( x ; )dxmis * より単純な partial likelihood を使っても良い条件とは ? Ignorability Rubin(1977) モデルの推測に際して,欠測発生メカニズムを無視して よい条件とは ? 1. Sufficient conditions for ignorability – MAR – 欠測発生メカニズムを規定する母数 () とデータの分 布の母数 () は無関係 上記の MAR のみが成立していれば,ML法 Lpartial でも適 切ではあるが,完全に efficient とはならない 3. MAR は key condition Richer the observed data xobs , the more plausible the MAR assumption 4. NMAR は more plausible, しかし,特定の欠測発生メカニ 2. ズムモデルを正当化することは難しい Missing at Random Partial loglikelihood – 欠測発生メカニズムを無視 L partial( | xobs ) log f ( x ; )dxmis f ( x ; ) x11 x21 xn1 has much simpler form than x12 x1 p x22 x2 p xn 2 xnp f ( x ; )dx mis x11 x21 xn1 x12 x1 p x22 x2 p xn 2 xnp Excelで実習 中途打ち切りデータの推定 – f ( x ; )dxmis の最大化 – EMアルゴリズムによる方法 EM algorithm A general algorithm for incomplete data problems that provides an interesting link with imputation methods ( k 1) max E[ Lc ( | xobs ; where Lc ( | x; (k ) (k ) )] ) log f ( x | ) L partial( | xobs ) log f ( x ; )dxmis (k) converges to a maximum likelihood estimate of based on Lpartial , if a unique finite MLE of exists. DLR(1977) E-step :To calculate the conditional expectation of Lc() Q( ; (k ) ) E[ Lc ( | xobs ; (k ) )] M-step :To find which maximize the conditional expectation calculated in the previous E-step Q( ( k 1) ; (k ) ) Q( ; (k ) ) EM の適用(Ignorable case) 1. 欠測を含む多変量正規モデル 2. 欠測を含む多変量回帰モデル 3. 尺度混合正規モデルの下でのロバスト 推定 4. Logistic 回帰( missing covariates) 5. Unbalanced repeated-measures models with structured covariance and with missing data 6. 潜在構造モデル 欠測値を含む多変量正規モデル x11 x21 xn1 x12 x1 p x22 x2 p xn 2 xnp x T1 x11 x12 x1 p x21 x22 x2 p .. . xn1 xn 2 xnp x Tn x T2 Lc ( , ) p 2 n 1 n T 1 2 n log( 2 ) log ( xi ) ( xi ) 2 2 i 1 xi ( mis) xi( 0) x x (1) i ( obs) i 0 1 00 01 10 11 E-step :Sufficient statistics ( xi , xi xiT ) E[ x (0) | x ; , ) (0) xˆ (0) (1) 1 (1) 01 11 x (imputed data) xi ( mis) xi( 0) x x (1) i ( obs) i 0 1 00 01 10 11 E-step :Sufficient statistics ( xi , xi xiT ) ( 0 ) (1) T | x ; , ) xˆ x ( 0) ( 0)T | x ; , ) xˆ xˆ E[ x x E[ x x (1) (1) ( 0 ) (1) T ( 0) ( 0)T 1 01 11 00 10 xˆ T xˆi (1) , xi xi x i (0) i M-step : ( k 1) ( k 1) x x xˆ x x (1) xˆ (0)T x (1) x (1)T i i i i ( 0) (0) T i i xi 1 n xi n i 1 1 n T ( k 1) ( k 1)T xi xi n i 1 ( 0 ) (1) T i i MARでない場合の影響 数値実験 0 1 r x1 ~ N , x2 0 r 1 Pr( M 2 1 | x2 ) 1 /(1 exp( 3 2 x2 )) 1.00 0.75 0.50 0.25 0.00 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 欠測モデル(MARでない場合) 0 1 r x1 ~ N , x2 0 r 1 Pr( M 2 1 | x2 ) 1 /(1 exp( 3 2 x2 )) x1 x2 m2 欠測モデル(MARの場合) 0 1 r x1 ~ N , x2 0 r 1 Pr( M 1 1 | x2 ) 1 /(1 exp( 3 2 x2 )) x1 x2 m1 MARの場合 0.6 0.4 0.2 0.0 -0.2 -0.4 -0.6 -0.8 r=0.5 欠測なし r=0.8 結果(平均) 0.8 0.6 0.4 0.2 0.0 -0.2 -0.4 -0.6 r=0.2 r=0.5 r=0.8 平均(r=0.8) -0.40 -0.30 -0.20 -0.10 0.00 M2_8 0.10 0.20 0.30 0.40 平均 r=0.2 平均 SD r=0.5 平均 SD r=0.8 平均 SD 平均 0.174 0.098 0.141 0.099 0.070 0.106 分散 0.848 0.135 0.841 0.135 0.879 0.142 相関 0.178 0.105 0.464 0.086 0.790 0.043 分散 1.8 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 r=0.2 r=0.5 r=0.8 相関係数 1.2 1.0 0.8 0.6 0.4 0.2 0.0 -0.2 -0.4 -0.6 r=0.2 r=0.4 r=0.8 ペアワイズ削除で推定した場合 1.6 1.2 0.8 0.4 0.0 -0.4 平均(0.0) 分散(1.0) 相関(0.8) 比較 -0.40 -0.30 -0.20 -0.10 0.00 0.10 0.20 0.30 0.40 0.50 -0.40 -0.30 -0.20 -0.10 0.00 0.10 0.20 0.30 0.40 まとめ • 欠測データを解決する unique solution はない • いくつかの方法を試して,sensitivity check する • ML 法は,MARであればOK • MARでなくても、場合によっては十分な補正を行なう Imputation(代入法) 欠測データに何らかの値を代入 擬似的な完全データの作成 Marginal or Conditional imputation Explicit or Implicit model imputation Deterministic or Stochastic imputation (using random numbers) Univariate or Multivariate imputation Single or Multiple imputation Mean Imputation (Unconditional) 単純な平均値の代入 Available cases for each mean MCARの下でも分散を過小評価 x1 x11 x12 x1 p x x x 21 22 2p xn1 xn 2 xnp xp s 2 p 2 p 検定や信頼区間の結果 が信用できない Mean Imputation (Conditional) 回帰による推定値の代入 Conditional on observed values in case Regress Xp on (X1 ,X2,・・・,Xp-1) Impute predictions x11 x12 x1 p x x x 21 22 2p xn1 xn 2 xnp xˆnp E ( xnp | xn1 xnp1 ) s 2p1 p 1 2p1 p 1 パーセント点,相関係数,分散, 共分散などデータの線形関数以外 の統計量の推定は偏る Mean Imputation 分布(ばらつき)を再現しない Marginal distributions and associations distorted ( no residual variance) Conditional better than unconditional Standard errors from filled-in data too small – no residual variance – n actually smaller – uncertainty of prediction Stochastic Imputation Cold deck法と Hot deck法 (パネルデータ) Cold deck 法 代入値を同一人物の他の時点のデータから探す Hot deck 法 代入値を同一時点の他の人物(ドナー)のデータから探 す 代入値を提供するドナーケースは,補正セル内あるいは 共変量とのマッチングで決める Exact matching v.s. Random matching ランダムホットデック法 Deterministic imputation (非確率的代入) Hot deck and Cold deck methods Overall (unconditional) mean Group (adjusted cell) mean Predictive mean by regression model More accuracy, but distort the distribution The distribution becomes too peaked and the variance is underestimated Stochastic imputation 確率的代入 非確率的代入法+確率的要素 ばらつきを保持する(代入値の分散・共分散を意識) EX. 1. Add a random residual from N ( , 2 ) Stochastic Predictive mean imputation 回帰による推定値+乱数による誤差 2. Impute the value of a randomly selected case Random hot deck method Stochastic Predictive Mean Imputation (Imputation from a Distribution) Add a random residual from the predictive mean N ( , 2 ) to Impute x11 x12 x1 p x21 x22 x2 p xn1 xn 2 xnp xˆnp E ( xnp | xn1 xnp1 ) rn , rn ~ N (0, s 2p12 p 1 ) c.f. Predictive Mean Matching (more robust to misspecification) Predictive Mean Stratification & Random Hot Deck 確率的代入法の特徴 平均(1次モーメント)の推定にのみ限れば 効率は非確率的代入法より劣る 分布や相関構造の推定に関しては勝る Imputationによる推定結果のばらつきが大 きな場合, single value stochastic imputationよりも multiple imputation Imputation(代入法) 欠測データに何らかの値を代入 擬似的な完全データの作成 Marginal or Conditional imputation Explicit or Implicit model imputation Deterministic or Stochastic imputation (using random numbers) Univariate or Multivariate imputation Single or Multiple imputation Multiple Imputation 複数個(M)の代入値を用意 各代入値について、 M 個の の推定値 ˆ1 ,ˆ2 ,,ˆM これら(M個の推定値とその共分散行列)を使って、 1つの推定値と標本誤差のための共分散行列を 算出 Multiple Imputation ˆ1 ,ˆ2 ,,ˆM SE (ˆ1 ), SE (ˆ1 ), , SE (ˆM ) Combined Estimator 1 ˆ M M ˆ i i 1 Total variability M 1 ˆ SE ( ) W B M 1 M W SE (ˆi ) M i 1 1 M ˆ ˆ2 B ( i ) M 1 i 1 MIに基づく信頼区間の構成 θがスカラーの場合: 1/ 2 ˆ ˆ ( ) SE ( ) ~ t 1 W ( M 1)1 M 1 B Rubin & Schenker (1986) JASA 欠測による情報損出の評価 1 B (1 ) M SE (ˆ) MIについてのコメント インピュテーションの方法にモデルは不可欠 – 何らかの意味でのモデルがないと、インピュート ができない – MIでは、ベイズ流の事前分布を使用している MIの方法は比較的ロバスト – 推定値だけでなく、SEの評価も – パラメトリックモデルに比べ、前提とする条件がゆ るいため
© Copyright 2024 ExpyDoc