パターン認識と機械学習

第9章
医薬とベイズ統計学
9.1 比較の確率
9.2 確率θのベイズ統計
9.3 予測分布の活用
松本良太
新薬開発における例
開発中の新薬がプラセボと比較して有効となる
確率をθ(0<θ<1)とする。
θが小さければ新薬開発をやめるべきであり、
十分に大きければ開発をさらに進めてもよい。
↓
θがどのような値になるのか判断するのが
最も重要
比較の確率
新薬がプラセボに対して効くと判定されることを
「成功」とすると、n回の試行のうちx回の成功を
得る確率は二項分布Bi(n,θ)に従う。
f x |  n Cx 1   
x
n x
x  0,1,...,n
比較の確率
尤度については、θの事前分布としてβ分布Be(α,β)
w  
  1 1    1
  1    d
を採用すると、直ちに
1
 1
 1
0  
 1
0
w | x   
  x 1
1   
 n x 1
となる。事後分布はBe(α+x,β+(n-x))で、
α→α+x、 β→ β+(n-x) の変換をするだけでいい。
事前確率分布はBe(1,1)、つまり一様分布
とする。
w  1 0  1
 


比較の確率
例:n回の実験 成功をS、失敗をFとし、
Sの回数:x Fの回数:n-xとする。
n=1,2..と順に見た結果がS,F,S,S,S…ならば、
事後確率分布は
Be(1,1)から(2,1),(2,2),(3,2),(4,2),(5,2)と変わっていく。
これらの間にも相互に事前、事後の関係があるの
で、以下のように表現することもできる。
S
F
S
S
S
Be(1,1)  Be(2,1)  Be(2,2)  Be(3,2)  Be(4,2)  Be(5,2)  ...
比較の確率
確率分布の形より、θが次第に1の値に偏っていくこと
がわかる。
n=5 x=4のとき、事後確率分布はBe(5,2)であるが、
このとき、新薬にとって有利なθ≧1/2となる確率は、
4

1 1   d
1
1

P    
2

57

 0.891
4
64



1


d


2
1
0
となり、かなり確からしいことがわかる。
また、期待E(θ)もベータ分布の期待値から求められ
るが、これも次第に1に近づく。
θのベイズ推定
尤度が二項分布で、事前・事後分布がベータ分布のとき、
標本データzに基づくベイズ推定a(z)を ˆ とすると、
平方損失のとき、
x
ˆ

  n
単純損失のとき、Be(α,β)のモードが
 1
Mode 
  2
  x 1
ˆ

  n2
より、
θのベイズ推定
先ほどの例同様、新薬のプラセボに対する有効性が
S,F,S,S,S…のような成功・失敗の列だったとする。
事前分布を一様分布Be(1,1)とすると、ベイズ推定は
n=1,2,3…となるにしたがって以下のようになる。
平方損失
ˆ1  2 3 ,ˆ2  1 2 ,ˆ3  3 5 ,ˆ4  2 3 ,ˆ5  5 7 , ...
単純損失
ˆ1  1,ˆ2  1 2 ,ˆ3  2 3 ,ˆ4  3 4 ,ˆ5  4 5 , ...
いずれも、逐次的に更新される点が重要である。
予測分布
例:先ほどの例と同様新薬が有効なら成功、プラセボ
が有効なら失敗として、21回の実験を行い、
うち18回成功、3回失敗だったとする。
このとき、次の22回目が成功となる確率は、Be(19,4)
の期待値で表すことができる。
P ( S )  E ( )
これを予測分布という。
1

18
3



(
1


)
d

0
1
18
3

(
1


)
d

0
19

 0.826
23
予測分布
ここまでの21回に加え、さらに45回実験を続行すると、
その中でk回Sが出る確率は、
22!
45!
(18  k )!(3  45  k )!
P(count( S )  k ) 


18!3! k!(45  k )!
67!
と計算でき、将来45回分をある程度予測することが
できる。
予測分布
k回のSがあったとき、次の時点のSの予測分布は、
Be(19+k,4+(45-k))の期待値
19  k
p(k ) 
68
である。たとえば、p(k)≧0.7を保障するには45回中で
k≧29でなくてはならない。このとき、
45
 P(count( S )  k )  0.963
k 29
となる。つまり、今後Sの予測確率が7割以上であること
は、ほぼ動かない結論といえる。
まとめ
新薬開発の分野にベイズ統計学を用いるメリット
過去のデータを将来の分析に活かせる
↓
・新薬開発のための被験者を減らすことができる
・データの蓄積によって分析の有用度が高まる
↓
データ分析の有効性・安全性を高められる。