Sensitivity Method for Observational Comparison 逸見 昌之 (総合研究大学院大学) 江口 真透 (統計数理研究所, 総合研究大学院大学) 群比較モデル N人の対象者が2群に割りつけられているとき、 各群で観測される結果変量を比較する y:結果変量 z:観測の状態(z =1,2) 通常の統計的推測では、割りつけはランダムに 行われている(割りつけ方の影響は無視できる) ことを前提とする Copas-Liモデル y x e1 T r x e2 T r 0 r0 z 1 z2 0 1 e1 ~ N , e2 0 r 0 r0 1 y is observed y is missing 現実のモデルは、 f ( y | x, r 0) ( 1 ( y Tx Tx 1 2 ) y Tx 1 2 )/ ( T x) E( y | x, r 0) T x ( T x) T Tx y x P(r 0 | x, y) 2 2 1 1 Rosenbaum の log odd ratio (r 0 | y ) (r 0) log (r 0) (r 0 | y ) const 尤度解析 全尤度関数は L ( , , , ) n log n 1 2 log (ui ) ui T 2 ( y x ) i i 2 T log ( xi ), i n 1 1 1 2 T xi i 1 N i 1 ここで n 1 2 yi T xi ρプロファイル尤度 L* ( ) max L( , , , ) , , | を考えよう L * (0) 0 , L * (0) 0 yi ˆ T xi 3 L * (0) K1 ( ) ˆ i 1 n yi ˆ T xi 4 L * (0) K 2 ( ) 3 ˆ i 1 n Coventry職業会計検査院データ y 収入, x ( 1, 性別 , 年齢, 年齢 年齢 ) N = 1435人, n = 1323 人 2標本比較 モデル y sign (r ) e1 r e2 r 0 z 1 y1 ,...,yn1 yn1 1 ,...,yN 1 ˆ ( y1 y 2 ) 2 r0 z 1 z2 (r 0) z 2 (r 0) (ˆ ) 2 2 2 ˆ 1 ( N 2 ) var ( ) N 2 対数尤度は ( yi ) 2 n yi N log log ( ) 2 2 2 i 1 i 1 1 n N ( yi ) 2 yi log ( ) 2 2 i n 1 i n 1 1 2 N 2 ˆ ˆ () 1- 2 ˆ ( 3 ) 感度解析の例 (UK National Hearing Survey) 職場で騒音を被ることが聴力に障害を引き起こす かどうかを調べる 全対象者数 N 211 (男性) 処理群(高レベルの騒音に曝露) n1 67 対照群(年齢、職場は同じ) n2 144 各群において、 3kHz までの周波数の純音で聴き 取れるところまでの音量を測定 (そして、適当な正規化変換をする) 処理群での標本平均 対照群での標本平均 合併標本標準偏差 y1 3.893 y2 3.710 s 0.351 t-統計量 t 3.52 (自由度 ) 209 しかし、2つの群はランダム化されていない ~ 3 t ( ) 3.52 5.39 ( ) ~ t ( ) z0.05 1.96 if 0.29 結論は容易に決められなくなる。 Copas-Eguchiモデル 割りつけがランダムに行われていないときの 状況をモデル化 観測の状態 Z 結果変量 Y Y | z ~ f Y y, z ? f Z z , ランダム効果 T fT t 対象者の割りつけ方が無視できる(ランダムに行 われている) T Z or fTZ (t, z) fT (t ) f Z ( z, ) 無視できないときのモデル gTZ t , z fT t f Z z, exp i ui t vz, i 1 0 , i 1 2 i z を z 番目の群における処理の効果(treatment effect)を表すパラメータとして fY |T ,Z y | t, z fY |T y | t z と仮定すると gY |Z y | z ET |Z fY |T y | t z 但し fY y | z 1 i ui y, z vz, 1 i fY y, : fY |T y | t fT t dt ui y, : ui t fY |T y | t fT t dt fY y, 0 (ランダム化デザイン) fY |Z y | z ・・・これが fY y, z f Y y , z の意味 以後、 は既知のパラメトリックな分布族と , し、 fY yは(統計的推測には)用いない fT , fY |T (割りつけが無視できないときのモデルを導出する ために用いた) 以後、簡単のため はスカラーとする t , 選択バイアスの局所近似 各群への割りつけが無視できないときに、それを 無視して得られる最尤推定量と、 Y , Z の実際の 同時分布が f YZ のチューブ近傍に属するとして得 られる最尤推定量の差をみる Y , Z の実際の同時分布 gYZ y, z fY y, z f Z z, 1 i ui y, z vz, i ~ z の最尤推定量 z 0 としたときの z の最尤推定量を ˆz とすると ~ z ˆz Iˆ 1 z z 但し I は に関するFisher情報量 : ˆ vz, z i i z i i : ui y, fY y, dy f Z z, nz N (N :全標本数、n z :群 zでの観測標本数) f Z z, は飽和モデルとして 2 個の群にわたる標準化2乗バイアスの和 2 ~ ˆ z z z 1 2 VarA ˆz n1n2 N 2 但し 2 : EVar logg Z |T z1 | t g Z |T z2 | t | z1 z2 2 N 2 n1n2 は t と z の従属性の(ある種の)大きさを量る ことにより、各群への割りつけがどのくらい選択 的かを表す 反事実結果変数によるモデル化 Y r : r 番目の群に割りつけられたとしたときの 結果変数 ~ fY y,r r 1,2 ( Y 1 ,Y 2 はどれか1つしか観測されない) Z : 観測の状態(どの群に割りつけられるかを表す) Z r のとき、 Y Y r ( Y は結果変数) 対象者の割りつけ方が無視できる Y ,Y Z f y, z f y, f z, , r 1,2 1 Y r Z 2 Y r Z 無視できないときのモデル gY r Z y, z fY y, r f Z z, exp r irui y, r v z, i 1 fY y, r f Z z, 1 r irui y, r v z, i 1 gY |Z y | z gY z |Z y | z より gY |Z y | z fY y, z 1 z izui y, z vz, 2 i 1 ※ z , iz が z に依存していることに注意 選択バイアスの局所近似 ~ 1 ˆ z z z I z z 2個の群にわたる標準化2乗バイアスの和 2 ~ ˆ z z z 1 2 VarA ˆz n1n2 N 2 n212 n122 2標本問題 1 1 1 , 2 1 1 に関する標準化2乗バイアス モデル(1)では T ~ ˆ -1 ˆ ˆ Var A n1n2 N 2 ~ モデル(2)では ~ T ~ ˆ -1 ˆ ˆ Var A n1n2 N 2 n212 n122 仮説検定への応用 仮説 H0 : 0 検定統計量 12 ˆ ˆ ˆ ( 0 と仮定して) t Var 12 ~ ~ (実際には) t Var ˆ モデル(1)では ~ 12 ˆ t t n1n2 N bias モデル(2)では ~ t t ˆ n1n2 N n212 n122 ( bias) | t ˆ | z で統計的に有意のとき (但し、 z は標準正規分布の両側 % 点) を bias | t ˆ | z となるような とすると が小 選択バイアスがわずかであっても ~ ( t の方では)有意でなくなる 可能性あり が大 実質的な大きさの選択バイアス がないと結論は覆らない 感度解析の例 (UK National Hearing Survey) 職場で騒音を被ることが聴力に障害を引き起こす かどうかを調べる 全対象者数 N 211 (男性) 処理群(高レベルの騒音に曝露) n1 67 対照群(年齢、職場は同じ) n2 144 各群において、 3kHz までの周波数の純音で聴き 取れるところまでの音量を測定 (そして、適当な正規化変換をする) 処理群での標本平均 y1 3.893 対照群での標本平均 y2 3.710 s 0.351 合併標本標準偏差 高度に有意 t 統計量 t 3.52 (自由度 209 ) しかし、2つの群はランダム化されていない z5 1.96 (両側 5 % 点)に対し、モデル(1)では t z5 n1n2 N5 5 0.23 0.30 検出できないくらいわずかな で結論が逆転する 可能性があるので注意が必要 が各群で異なることを許容するモデル(2)では t z5 n1 n2 N 1 5 1 5 0.28 0.64 但し,2 0 (つまり対照群の方では割りつけは ランダム)と考える or の値の小ささの目安 モデル(1)の場合 仮に完全データ tk , zk k 1,, N が得られたと して、 0 の検定を行ってみる T , Z の同時分布 gTZ t , z fT t f Z z, exp i ui t vz, i 1 標準化スコア検定統計量 1 N N i ui tk vzk , k 1 i 1 (局所漸近的)検出力が1/2となるような は 2 N このとき 2 N n1n2 ( 0.30 前出の例の場合) これより小さい or は実際にも無視され やすいと考える モデル(2)の場合は、仮に完全データ ykr , zk r 0 kが得られたとして、 1,, N ; r 1,2 の検定を考える 補足 Copas-LiモデルとCopas-Eguchiモデルの関係 (2群比較の場合) Copas-Liモデル gY |Z y | z 1 y z 1 2 y z z (但し z sign r , は標準正規分布の密度関数) Copas-Eguchiモデル(モデル(1)) gY |Z y | z fY y, z 1 i1ui y, z vz, i 1 Copas-LiモデルはCopas-Eguchiモデルの特別な 場合に相当する: fY y, z 1 y z z z 2 , 11 1 , i1 0 i 2 u1 y, z y z , vz, z Prz 1 1 2 (但し、Copas-Liモデルでは Prz 1 は特定 されているのに対し、Copas-Eguchiモデルでは サンプルから推定する) Copas-Liモデル 対象者の割りつけ方が無視できないときのモデル として、 だけで決まる バイアスも or だけで決まる ~ 前出の例の場合 t t ˆ 5.39 3 Coaps-Eguchiモデル だけでは決まらず、割りつけ方が無視できない 状況を表すモデルとして、よりバラエティーがある バイアスは or で決まる量によって 不等式で評価される ~ 前出の例の場合 t t ˆ 6.76 4 Copas-LiモデルはCopas-Eguchiモデルによる バイアス評価式(4)で等号が成立する場合になっ ている (但し、Copas-Eguchiモデルでは Prz 1 を n1 N として推定するので、2群の標本数が等し いときに等号成立) 参考文献 Copas,J.B. and Li,H.G.(1997) Inference for non-random samples(with discussion). J.R.Statist.Soc.B,59,55-95 Copas,J. and S.Eguchi(2001) Local sensitivity approximations for selectivity bias. J.R.Statist.Soc.B,63,871-895
© Copyright 2024 ExpyDoc