Sensitivity Method for Observational Comparison

Sensitivity Method for
Observational Comparison
逸見 昌之 (総合研究大学院大学)
江口 真透 (統計数理研究所)
群比較モデル
N人の対象者が2群に割りつけら
れているとき、各群で観測される結果変量を比較
する
y:結果変量
z:観測の状態(z =1,2)
通常の統計的推測では、割りつけはランダムに
行われている(割りつけ方の影響は無視できる)
ことを前提とする
Copas-Liモデル
y   x   e1
T
r   x  e2
 0  1  
 e1 
  ~ N   ,
 
 e2 
 0  1 
r 0
r0
r 0
r0
T
z 1
z2
y is observed
y is missing
現実のモデルは、
f ( y | x, r  0) 
 (
1
(
y Tx

 Tx
1  2


)

y Tx
1  2

)/ ( T x)
E( y | x, r  0)   T x    ( T x)
 Tx

y  Tx

P(r  0 | x, y)   


2
2

1 
 1 

Rosenbaum の log odd ratio
 (r  0 | y ) (r  0) 
  log

 (r  0) (r  0 | y ) 
 const 
尤度解析
全尤度関数は
L (  , , , )  n log 
n
1
2
  log  (ui ) 
i 1
ここで
ui 
1
1  2
 2 xi 
n
T
2
(
y


x
)
i
i
2 
i 1
N
T
log

(

xi ) ,

i n 1

1  2
yi   T xi

εプロファイル尤度
L* ( )  max L(  , ,  ,  )
 , , |
を考えよう
L * (0)  0 ,
L * (0)  0
n
L * (0)  K1

i 1
n
L * (0)  K 2
yi  ˆ T xi 3
(
)
ˆ

s 1
 yi  ˆ T xi 4 
)  3
(
ˆ


Coventry職業会計検査院データ
y  収入,
x  ( 1, 性別 , 年齢, 年齢  年齢 )
N = 1435人, n = 1323 人
2標本比較
モデル
y    sgn (r )    e1
r  e2
r 0
z 1
y1 ,...,yn1
yn1 1 ,...,yN
1
ˆ
  ( y1  y 2 )
2
r0
z 1
z2
(r  0)
z  2 (r  0)
(ˆ)     
2 
2

2

ˆ
1 
   ( N 2 )
var ( ) 
N 
 
2

対数尤度は
( yi     ) 2 n
yi    

 N log  
  log (
)
2
2
2

i 1
i 1
1 
n
n
( yi     ) 2
yi    


  log (
)
2
2

i  n 1
i  n 1
1  2
n
2
ˆ
ˆ
 ( )   


1-  2
ˆ   (  3 )
感度解析の例
(UK National Hearing Survey)
職場で騒音を被ることが聴力に障害を引き起こす
かどうかを調べる
全対象者数 N  211 (男性)
n
処理群(高レベルの騒音に曝露) n0  67
対照群(年齢、職場は同じ) n1  144
各群において、 3kHz までの周波数の純音で聴き
取れるところまでの音量を測定
(そして、適当な正規化変換をする)
処理群での標本平均
対照群での標本平均
合併標本標準偏差
y0  3.893
y1  3.710
s  0.351
t-統計量 t  3.52
(自由度
) 209
しかし、2つの群はランダム化されていない
~
3
t ( )  3.52 5.39   (  )
~
t ( )  z0.05  1.96 if   0.29
結論は容易に決められなくなる。
割りつけがランダムに行われていないときの
状況をモデル化
観測の状態
Z
結果変量
Y
Y | z ~ f Y  y, z  ?
f Z z , 
ランダム効果
T
fT t 
対象者の割りつけ方が無視できる(ランダムに行
われている)
T
Z
or fTZ (t, z)  fT (t ) f Z ( z, )
無視できないときのモデル
 

gTZ t , z   fT t  f Z z, exp  i ui t vz,    
 i 1


  0 ,


i   1
2
i
 z を z 番目の群における処理の効果(treatment
effect)を表すパラメータとして
fY |T ,Z  y | t, z   fY |T  y | t   z  と仮定すると
gY |Z  y | z   ET |Z fY |T  y | t   z 
但し



 fY  y |  z 1    i ui  y, z vz, 
i


fY  y,  :  fY |T  y | t    fT t  dt
ui  y,  :  ui t  fY |T  y | t    fT t  dt fY  y, 
  0 (ランダム化デザイン)
fY |Z  y | z ・・・これが
 fY  y, z 
f Y  y , z 
の意味
以後、
は既知のパラメトリックな分布族と
, 
し、  fY  yは(統計的推測には)用いない
fT , fY |T
(割りつけが無視できないときのモデルを導出する
ために用いた)
以後、簡単のため
はスカラーとする
t ,
選択バイアスの局所近似
各群への割りつけが無視できないときに、それを
無視して得られる最尤推定量と、 Y , Z の実際の
同時分布が f YZ のチューブ近傍に属するとして得
られる最尤推定量の差をみる
Y , Z の実際の同時分布



gYZ  y, z   fY  y, z  f Z z, 1    i ui  y, z vz, 
i


~
 z の最尤推定量  z
  0 としたときの  z の最尤推定量を ˆz とすると
~
 z  ˆz   Iˆ 1 z
z
但し
I は  に関するFisher情報量
 :    ˆ vz, 
z
i
i
 
z
i
 i   :  ui   y,  fY  y,  dy
f Z z,   nz N
(N :全標本数、n z :群 zでの観測標本数)
f Z z,  は飽和モデルとして
2 個の群にわたる標準化2乗バイアスの和
2

~
ˆ



 z z
z 1

2
 
VarA ˆz  n1n2 N  2
但し
 2 : EVar logg Z |T z1 | t  g Z |T z2 | t  | z1  z2 
  2 N 2 n1n2
は
t と z の従属性の(ある種の)大きさを量る
ことにより、各群への割りつけがどのくらい選択的
かを表す
反事実結果変数によるモデル化
Y r  : r 番目の群に割りつけられたとしたときの
結果変数 ~ fY  y,r  r  1,2
( Y 1 ,Y 2 はどれか1つしか観測されない)
Z : 観測の状態(どの群に割りつけられるかを表す)
Z  r のとき、 Y  Y r  ( Y は結果変数)
対象者の割りつけ方が無視できる
Y   ,Y    Z
 f  y, z   f  y,  f z,  , r  1,2
1
Y  r Z
2
Y
r
Z
無視できないときのモデル
 

gY  r Z  y, z   fY  y, r  f Z z, exp r  irui  y, r v z,    
 i 1












 fY y, r f Z z, 1   r  irui y, r v z, 
i 1


gY |Z  y | z   gY  z |Z  y | z  より



gY |Z  y | z   fY  y, z 1   z  izui  y, z vz, 
i 1


※  z , iz が
z
に依存していることに注意
選択バイアスの局所近似
~
 z  ˆz   z I1 z
z
2標本問題での
 に関する標準化2乗バイアスは


 

T
-1 ˆ ~
ˆ
   Var A    ˆ  n1n2 N 2 n212  n122 
~
仮説 H0 :   0 の検定では
~
t   t ˆ  n1n2 N n212  n122
  

2標本問題
モデル
  1  1 1   
   
 
 2  1  1  
 に関する標準化2乗バイアス

 

T
~ ˆ
2
ˆ
   V     n1n2 N 
~
但し

V  Var ˆ
1
A

   
 
仮説検定への応用
仮説 H0 :   0
検定統計量

  
t ˆ  ˆ Var ˆ
実際は
~ ~
t    Var ˆ

12
(   0 と仮定して)
  
 
12
12
ˆ
| t   t  |  n1n2 N    bias
~

| t ˆ |  z で統計的に有意のとき
(但し、 z は標準正規分布の両側  % 点)
 を bias  | t ˆ |  z となるような  とすると


 が小
選択バイアスがわずかであっても
~
( t  の方では)有意でなくなる

可能性あり
 が大
実質的な大きさの選択バイアス
がないと結論は覆らない
感度解析の例
(UK National Hearing Survey)
職場で騒音を被ることが聴力に障害を引き起こす
かどうかを調べる
全対象者数 N  211 (男性)
n
処理群(高レベルの騒音に曝露) n1  67
対照群(年齢、職場は同じ) n2  144
各群において、 3kHz までの周波数の純音で聴き
取れるところまでの音量を測定
(そして、適当な正規化変換をする)
処理群での標本平均 y0  3.893
対照群での標本平均 y1  3.710
s  0.351
合併標本標準偏差
高度に有意
t  統計量 t  3.52
(自由度 209 )
しかし、2つの群はランダム化されていない
z5  1.96 (両側 5 % 点)に対し
t  z5  n1n2 N5
5  0.23  0.30
検出できないくらいわずかな  で結論が逆転する
可能性があるので注意が必要
 が各群で異なることを許容するモデルでは
t  z5 


n1 n2 N 1 5
1 5  0.28
 0.64
但し,2  0 (つまり対照群の方では割りつけは
ランダム)と考える