因果推論のための統計モデルとその推測法 &KBS京都 合同研究会 日時:2003年3月4日(火)13:30-17:30 於:京都大学医学部 構造方程式モデルと因果推論 狩野 裕 大阪大学 大学院人間学研究科 行動データ科学研究分野 1 2 Agenda • • • • • 同値モデルと因果の方向 傾向スコア 因果と欠測:Rubinの枠組み まとめ (Lordのパラドックスへの応用) 3 同値モデルと因果の方向 相関係数から因果の方向は決まらない ---同値モデルの問題--相関構造 X Y X 1 r Y r 1 • データから区別できないモデルを同値モデルという • 「区別できない」とは適合度が同一であることをいう 4 5 同値モデル例 6 因果の方向を決める: 操作変数法(Instrumental variable method) 相関構造 X Y Z X 1 Y b12 1 相関構造 Z b13 0 1 X Y Z X 1 Y b21 1 Z b13 b21b13 1 因果の方向を決める:適合度との関係 適合度が低い 適合度が高い X→Y の因果関係が示唆される 7 8 操作変数法とは • X,Yのいずれかに影響を及ぼし,他方へ の直接効果をもたない変数Z(操作変数) を観測する • X,Y,Zの相関構造から,X→Y or X←Y を判断する 双方向因果モデル(非逐次モデル) 9 10 例1:政治的社会化モデル 出典:Asher(1976). Causal Modeling. Sage 11 例2:Attractiveness implies perceived academic ability? 出展: AMOSマニュアル 12 双方向因果モデルの基礎仮定 X 0 b12 X b13 Z1 e1 Y b 0 Y b24 Z 2 e2 21 y y e B z y By z e y t 1 By t z e t y By z e y ( I B ) 1 z e (t 0,1,2, , ) 双方向因果モデルの解釈 y t 1 By t z et 13 (t 0,1,2, , ) y t 1 BBy t 1 z et 1 z e t B 2 y t 1 Bz Bet 1 z e t B 2 y t 1 B I z Bet 1 et y ( I B)1 z e t t t 1 k k B y 0 B z B e t k k 0 k 0 t t t 1 k k B y 0 B z B e k 0 k 0 d I B z e 1 y 0 0 et~Normal 双方向因果モデルの基礎仮定 y t 1 By t z et (t 0,1,2,, ) lim y t I B z e 1 t y ( I B)1 z e • X,Yは,ある初期値(0)からスタートして, 相互に無限回,影響し合った結果である • 影響の大きさは変化せずBである – XとYの相互の影響関係が安定しているべき 14 15 構造方程式モデリングによる 因果の決定 • 因果の方向に興味があるとき – 当該モデルが適合する – 対立モデルが適合しない • 対立モデルが同値モデルにならないような モデリングが必要 – そのための方法が操作変数(道具的変数)の 導入 16 有効性 • 因果を決定したのか – 三択である • X→Y,X←Y,X←→Yのいずれか – 本来は四択である • X→Y,X←Y,X←→Y, 「因果関係にない」 – 観察データ,横断的データの分析の限界 • 交絡変数 • 縦断的データでは時間軸が利用できる • 因果の大きさ – R2が小さいことがある • R2=0.1でもモデルは適合する • XはYの「主要な」原因でとは言えない 17 例1:交絡変数はこわい 盛山(1986,行動計量 学) 18 例2:因果方向決定にも影響 X Y Z X 1 * * Y Z 1 0 1 誤ってY→Xと結論 してしまう 19 縦断的データの利用 • 2時点でデータをとり,時間差を利用する – 民主主義⇒経済発展 or 経済発展⇒民主主義 Lord の パラドックス 20 まとめ • 横断的データに基づいて,因果の方向について 言及するモデリングがある – X→Y or Y→ Xのモデルの適合度を比較する • 同値モデルにならないようなモデリング • 操作変数法 – 欠点 • 交絡変数の影響を無視し得ない • 操作変数となるための条件が満足されているか • 縦断的データに基づくモデリングの方が説得性 が高いと考えられている 21 傾向スコア 22 傾向スコア • 調査(or 実験)研究において – X:二値の原因変数 – Y:結果変数(連続) – Z1,Z2,… :交絡変数 • 傾向スコア(propensity score) – by Rosenbaum-Rubin (Biometrika, 1983) – e(z)=E[X=1|Z1,Z2,…] – X || Z | e(z) 23 傾向スコアの性質 重症度 治癒日数 重症度 年齢 年齢 … … 患者の 希望 投薬の 有無 患者の 希望 治癒日数 投薬の 有無 Given e(Z1,Z2,…) • 「Z→Y」の関係は線型に限らない • 「X→Y」の関係は傾向スコアに依存してもよい 24 傾向スコアと因果 治 療 日 数 e(z)=0.8 e(z)=0.5 e(z)=0.2 X=0 非服用 X=1 服用 25 傾向スコアの利用 • 交絡変数zが多い場合はe(z)の利用が有効 – サブグループ化 • e(z)の値の近い被験者をグループ化してX=0,1を比較 – マッチング • e(z)の値の近い被験者でX=0とX=1を割付けられたものを 組にし,対応のあるデータの分析を行う • e(z)の推定 – ロジスティック回帰分析の利用 • strongly ignorableの仮定 – zを与えた下で,バランスがとれた割付けがなされている • zがすべての交絡要因を含んでいる 26 構造方程式モデリングでは • 従属二値変数をプロビット法によってモデリング – Mx, EQS, LISREL – zのYへの影響もモデリング(線型)できている Z1 Y Z2 … Zm X=1,0 27 まとめ • 傾向スコア – 高次元の交絡変数zを1次元に落とす • マッチングやサブグループ化を容易にする – zからYへのモデリングが不要 • 適切にモデリングできるなら,した方が良い • SEM – zを調整する基本モデルを提供 • 線型モデル • zとXの交互作用は検出しない Z1 Y Z2 … Zm X=1,0 28 因果と欠測:Rubinの枠組み 29 Rubinの枠組み(1) • コントロール群と処理群を比較する • 例 – P[治癒(Y=1)|投薬なし] vs P[治癒(Y=1)|投薬あり] – 体重Y|一般的な食事 vs 体重Y|特別な食事 • 記号 – 母集団:P – 母集団の構成要素(unit):u – Yx=0(u) vs Yx=1(u) • X=0: control, X=1: treatment • Unit-level Causal Effect 30 因果推論の基本的問題 • Unit-level Causal Effect – 同一患者に「投薬あり」と「投薬なし」の割付け は不可能 – 一方は必ず欠測 – 因果推論の基本的問題という(e.g., Holland 1986) (fundamental problem of causal inference) 31 Rubinの枠組み(2) • Average Causal Effect – EP[Yx=0] vs EP[Yx=1] – Pのunit全部に「X=0 と X=1」 を割付ける – 母因果効果とよんでもよいかも • 因果推論の基本的問題は依然として存在 – 上記のような割付けは不可能 • 必ず欠測がある 32 データの構造と欠測 被験者番号 X 0 1 m y01 y0 m m 1 n y0,m 1 欠 測 y0 n X 1 X y11 欠測 y1m 0 0 y1,m 1 1 y1n 1 zn z z:共変量 z1 zm z m 1 33 Average Causal Effectの推定 • 推定可能性は欠測のあり方に依存 – 欠測のメカニズム or 割付けのメカニズムが重要 • 無作為に欠測する場合は推定可能 – MCAR – X=0,1を無作為に割付けることと同等 • MARの場合の推測は,どのようにすればよいか – zの効果のモデリング – すべての観測値に基づく最尤法 34 復習:欠測のパターン • Missing Completely At Random (MCAR) – どの値が欠測するかは完全にランダムである • Missing At Random (MAR) – どの値が欠測するかはデータに依存してもよいが, 欠測した値には依存しない – 最尤法(FIML)の適用が薦められる • Non‐ignorable Missing – どの値が欠測するかが欠測した値にも依存する – 欠測のメカニズムにモデリングが必要 35 欠測(割付け)のあり様 重症度 治癒日数 年齢 治癒日数 年齢 … 患者の 希望 重症度 … 投薬の 有無 患者の 希望 投薬の 有無 MAR MCAR X=0,1をZに応じて割付ける X=0,1を無作為に割付ける 36 MARでは • 単なる治癒率の比較に疑問 – 重症患者が投薬を選択 – 軽症患者は非投薬を選択 重症度 治癒日数 年齢 … 患者の 希望 投薬の 有無 37 Average Causal Effectの推定 ---MARの場合--• strongly ignorable given z (RosenbaumRubin,1983) – zが与えられた下では • Missing Completely At Random • (無作為に)バランスよく X=0,1 が割付けられている – X=0,1が,zにのみ依存しYには直接関係しない • Missing At Random – 最尤法が有効 Y Y0 Y1 || XZ 0 Y1 X Z Xは,Zからのみ直接的な 影響を受ける ⇒MAR ⇒最尤法 1 m X 0 y01 y0 m 最尤法 X 1 y11 欠測y1m X 0 0 z z1 zm m 1 n y0,m 欠 1 測 y0 n y1,m 1 y1n 1 1 z m 1 zn y0 h0 (Z) Y0 Y0 ~ N 2 ; , Y1 X ,Z Y1 Z y1 h1 (Z) y0 h0 (Z) (Y0 , Y1 , X , Z) ~ N 2 ; , y1 h1 (Z) P ( X 1 | Z) x P ( X 0 | Z)1 x g (Z) Observedlikelihood m N(y 0i ; h0 (Z), 00 )P ( X 0 | Z i ) g (Z i ) i 1 n N ( y1i ; h1 (Z), 11 )P ( X 1 | Z i ) g (Z i ) i m 1 38 39 SEMとの関係 m N(y 0i ; h0 (Z), 00 )P( X 0 | Zi ) g (Zi ) i 1 n N ( y1i ; h1 (Z), 11 )P( X 1 | Zi ) g (Zi ) i m 1 以下の仮定のもとで解くのがSEM h0 (Z) 0 a' Z, Z1 h1 (Z) 1 a' Z, Z2 00 11 … P ( X 1 | Z) ( b' Z) g (Z) ~ Normal 多母集団の同時分析も可能 Zm Y X=1,0 40 Rubinの因果推論の要点 • コントロール群と処理(実験)群の比較 – 「コントロール」という概念が必ず必要 – 各群への曝露可能性が必要 • 属性変数は考慮外 • 個人内の比較に基礎をおく – Unit-level Causal Effect – Average Causal Effect • 母集団の全ての構成要素に,全ての水準を 割付けるという仮想的な状況 41 欠測と因果のまとめ • 割付けと欠測は同値 – MCAR…無作為割付け – MAR…割付けが第三変数zに影響される • strongly ignorable given z – zが与えられた下で無作為割付け – すべての交絡変数zが観測されている • 推測方法 – MCAR:zの影響は無視可能 – MAR: 観測データに基づく最尤法 • SEMの役割 – MARの下で,基本的なモデルを提供 Z1 Y Z2 … Zm X=1,0 42 まとめ • 因果と予測はまったくの別物 – 研究目的に合わせてどちらが必要かを検討 • 因果:同一個体において,Xを強制的に変化させる. 交絡変数の値は留まっている • 予測:Xの値の違いは別の個体を意味.交絡変数の値は 異なる • 交絡変数の統制 – 因果効果の評価は,交絡変数によって致命的な ダメージを受ける – 回帰分析が重要な武器だが,パス解析がより有用 43 • 因果の評価は経時データが基本 – 実験は二時点の経時データ – 横断的データしかとれないことがある – 横断的データによる因果分析の手法もある • 交絡変数が全てモデル化されているという強い仮定 • SEMによるモデリングは,調査研究の弱点である 交絡変数の影響を受ける – モデル構築の段階で,因果仮説を十分に吟味し, 重要な影響を与える変数を分析から落とさない • データを採る前が大事 • 調査研究は積み重ねることが重要 44 • Rubinの因果 – コントロール群と処理群の比較 – 個人内の比較に基礎 – 各群への曝露可能性が必要 • 属性変数は対象外 • 連続原因変数は対象外 – 欠測データの分析理論(MAR)を援用 参考文献 • • • • • • Bollen, K. A. (1989). Structural Equations with Latent Variables. Wiley: New York Bullock, H. E., Harlow, L. L. & Mulaik, S. A. (1994). Causal issues in structural equation modeling research. Structural Equation Modeling, 1, 253-267 Holland, P. W. (1986). Statistics and causal inference (with discussion). Journal of the American Statistical Association, 81, 945-970 Holland, P. M. & Rubin, D. B. (1983). On Lord’s Paradox. In Principles of Modern Psychological Measurement (Wainer & Messick, Eds.), pp.3-35. Erbaum. Lord, F. M. (1967). A paradox in the interpretation of group comparison. Psych. Bull. 68, 304-305. Mulaik, S. A. & James, L. R. (1995). Objectivity and reasoning in science and structural equation modeling. In Structural Equation Modeling: Concepts, Issues, and Applications, (Hoyle, H., Ed.), pp.118-137. Sage Publications: CA 45 46 • • • • • • • • • Rosenbaum, P. R. & Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70, 41-55 Wainer, H.(1991). Adjusting for differential base rate: Lord's paradox again. Psych. Bull. 109, 147-151. 岩崎 学(2002). 不完全データの統計解析.エコノミスト社 狩野裕 (2002). 「構造方程式モデリング,因果推論,そして非正規 性」 竹内啓 (編著) 多変量解析の展開 -- 隠れた構造と因果を推理 する – Part II.岩波書店 佐藤俊哉・松山裕 (2002). 「疫学・臨床研究における因果推論」 竹内 啓 (編著) 多変量解析の展開 -- 隠れた構造と因果を推理する – Part III.岩波書店 盛山和夫 (1986). 社会学における因果推論の問題 --- パスモデル におけるloopをめぐって.行動計量学,14, 71-78 竹内啓(1986). 因果関係と統計的方法.行動計量学,14, 85-90 豊田秀樹(1998). 共分散構造分析[入門編].朝倉書店 宮川雅巳 (1997). グラフィカルモデリング.朝倉書店 47 MARについての補遺 • Missing At Random (MAR) – どの値が欠測するかはデータに依存しても よいが,欠測した値には依存しない – 最尤法(FIML)の適用が薦められる R : missing indicator( R X ) f ( R | Yobs , Ymis ) f ( R | Yobs ) f ( R | Yobs , Ymis , Z ) f ( R | Z ) 48 おわり 49 Lord のパラドックスへの応用 Lord(1967) Psych. Bull. Holland & Rubin (1983) Wainer (1991) Psych. Bull. 50 状況 • 大学寮の食事が寮生の体重に及ぼす 影響の性差を検討する • データ – 入寮時の体重と1年後の体重 – 男女 51 分析 • Statistician 1: not significant 男0女1 体重(1年後)-体重(入寮) • Statistician 2: significant 男0女1 体重(入寮) 体重(1年後) 52 散布図 1 年 後 の 体 重 男 ・ ・ 女 0 Y am X E[ X ] 60kg Y a f X E[ X ] 50kg 入寮時の体重 53 記述的(予測)解釈 • Statistician 1 – 大学寮において体重の変化の平均に 性差はない • Statistician 2 – 入寮時に体重が等しい男女において 1年後は男性の方がより重い – 回帰効果 • 両者ともコントロール群が設定されていない Statistician 2の解釈 男 1 年 後 の 体 重 ・ ・ 平均への回帰 女 0 入寮時の体重 54 55 記述的解釈の考察 • 回帰効果に強く依存するStat2の解釈は 受容できるか? – 重い学生は重いまま,軽い学生も軽いまま • 大学寮の調査の目的は「寮の食事」の 効果・問題の洗い出し – 結論は寮固有のものか? – 寮生以外でも同じ結論かも • コントロール群との比較を考慮する 「因果」の検証が必要 56 Rubinの枠組み • • • • • 母集団 処理 コントロール 割付け データ 当該大学の寮生 寮の食事を摂取(x=1) 一般の食事を摂取(x=0) 全て寮の食事を摂取(x=1) – 性別…. G=1,2(male or female) – Y ……... 1年後の体重 – Z ……... 入寮時の体重 57 Rubinの枠組みとStatistician1 • Average Causal Effect – 男性の因果効果: M=EP[Yx=1 |男] - EP[Yx=0 |男] – 女性の因果効果: F=EP[Yx=1 |女] - EP[Yx=0 |女] – これらの差 M-F が評価したいもの • Statistician 1 – EP[Yx=1 -Z|男] vs EP[Yx=1 -Z|女] – 暗に仮定されていたのは • Yx=0 = Z 58 Rubinの枠組みとStatistician2 • Average Causal Effect – 男性の因果効果: M=EP[Yx=1 |男] - EP[Yx=0 |男] – 女性の因果効果: F=EP[Yx=1 |女] - EP[Yx=0 |女] – これらの差 M-F が評価したいもの • Statistician 2 – EP[Yx=1 -(a+bZ)|男] vs EP[Yx=1 -(a+bZ)|女] – 暗に仮定されていたのは • Yx=0 = a+bZ 59 因果効果 • コントロール群の仮定 – 仮定1: Yx=0 = Z – 仮定2: Yx=0 = a+bZ • 因果効果が推定できる – 仮定1のもとで,大学寮の食事の体重への効果に ついて性差はない – 仮定2のもとで,大学寮の食事の体重への効果に ついての性差は,そうでない食事と比して異なる • 同一体重の男女が入寮すれば,男性の方がより重くなるが, その程度(性差)は一般の食事よりも大きい • 両仮定とも現データからは検証不可能 60 Statistician 2の解釈 男 1 年 後 の 体 重 コントロール群 ・ y a bz ・ 女 0 平均への回帰 入寮時の体重 61 2つの仮定(1) • 両仮定とも現データからは検証不可能 – 他からの情報,または,納得・了解 実線:平均 破線:個体 青:男性 赤:女性 入寮時 1年後 Yx=0 = Z 入寮時 1年後 Yx=0 = a+bZ 62 2つの仮定(2) • Yx=0 := a+bZとすることの問題点 – 回帰効果の妥当性 – コントロールの推定が処理群Yx=1のデータを 使って行われている • aとbは,Yx=1をZの上へ回帰させて計算 入寮時 1年後 63 Lordのパラドックスのまとめ • 記述的解釈の問題は小さい – 1:体重の変化量に性差はない – 2:入寮時にzが同じ場合,男性の方がより高い • 回帰効果の妥当性 – 記述的解釈の結論で目的を達するのか? • 寮外の食事との比較が必要なときは因果 効果の検討が必要 64 • 因果効果の評価 – 両分析では,コントロール群に関する仮定が 異なる • 1: • 2: Yx=0 = Z Yx=0 = a+bZ – 両仮定ともに不適切 • 現データによる検証は不可能 • 仮定Yx=0 = a+bZについては回帰効果の 妥当性にも依存
© Copyright 2024 ExpyDoc