数理統計学(第六回) 最尤推定とは?

数理統計学(第六回)
最尤推定とは?
浜田知久馬
数理統計学第6回
1
数理統計学第6回
2
数理統計学第6回
3
数理統計学第6回
4
ダーウィンの例 母数推定の前提
自家受精群と他家受精群 に別々の正規分布を
あてはめ
n個(n=15)の確率変数Yiが互いに独
立に同一の正規分布にしたがう
Y1 ,Y2 ,Y3 ,・・・,Yn ~N(μ,σ2)
i.i.d.(independent identically distributed)
数理統計学第6回
5
正規分布の確率密度関数
f ( y) 
2


1
y  
exp 
2
2
2
2





σ2は既知
n個Y1 ,・・・,Yn のn個のデータの得られる確率f
f=f(y1) ・f(y2) ・・・f(yn) =Πf(yi)
n
f 
i 1
1
2 2
  y i   2
exp 
2
2

2
n




yi   
1

exp  

2
2
2
 2  数理統計学第6回
 i 1
n








6
対数尤度(log likelihood)
2



yi   
1

l  log f   log
exp 
2
2
2


i 1

 2
n
 yi   
n
2
 log(2 )  
2
2
2
i 1
n
n

 yi   
2
i 1
n

i 1
y
2

2
y
2
2
i
n

2
i 1
y

y
2
2
i


2





2
n

i 1
y   
2
2
2
2
n y

2
2数理統計学第6回

7
対数尤度(log likelihood)

n y
l
2
2

2
Lはμについての2次関数
尤度fの最大化⇒ 対数尤度Lの最大化
⇒dL/dμ=0となるμを探す.
数理統計学第6回
8
スコア統計量
Raoの有効スコア統計量
(efficiency score function)
対数尤度をパラメータで微分した統計量

d log L
n y
U ( ) 

d
2


U ( )    y
自家受精群: 17.708 ,他家受精群: 20.192
数理統計学第6回
9
尤度の計算プログラム
data mle;set mle;
do m=15 to 25 by 0.1;s=3;
f=1/(2*3.141728*s**2)**.5*exp(-(y1-m)**2/s**2/2);
l=log(f);
output;end;
proc sort;by m;
proc summary data=mle ;var l;output out=out
sum=;by m;
data out;set out;f=exp(l);
proc gplot;
plot (f l)*m/href=17.708;symbol1 i=spline;run;
数理統計学第6回
10
尤度関数(自家受精群)
数理統計学第6回
11
対数尤度関数(自家受精群)

n y
l C
2
2
数理統計学第6回

2
12
スコア統計量の性質を導くために
利用すること
^
E[U]=0,V
E[-U']=I =1/V[θ]
1) 確率密度関数の和は1 ∫f(y,θ) dy=1
2) d log f ( y, )  1 df ( y, )  df ( y, )  f ( y, ) d log f ( y, )
[U]=E[U2]=
d
3)
4)
5)
6)
f ( y,  )
d
d
d
微分と積分の交換可能性
(f・g)'= f'・g+f・g'
(f/g)'= (f'・g-f・g')/g2
V[X]=E[X2]-E[X]2
数理統計学第6回
13
スコア統計量の性質
f(y;θ):確率変数Yの確率密度関数
L(θ;y)=logf(y;θ):対数尤度関数
dL( ; y )
d log f ( y; )
U 

d
d
1
df ( y; )

: スコア関数
f ( y;  )
d
dL( ; y )
E[U ]  
f ( y; ) dy
d
df ( y; )
 
dy
d
数理統計学第6回
14
スコア統計量の性質
2
E[U]=0,V [U]=E[U ]= E[-U’]=I
 f ( y; )dy  1 : 確率の和は1
両辺を で微分
d  f ( y; ) dy
df ( y; )

dy  0
d
d
 E[U ]  0 傾きの期待値は0
数理統計学第6回
15
Uボートで尤度の
山を一周したら
数理統計学第6回
16
スコア統計量の性質
E[U ]  0なので
dL( ; y )
d
f ( y; )dy
dE[U ]
d


0
d
d
2
d L( ; y )
dL( ; y ) df ( y; )

f ( y; )dy  
dy
2
d
d
d
数理統計学第6回
17
スコア統計量の性質
d L( ; y)
 d 2 f ( y; )dy   U ' f ( y; )dy  E[U ' ]
2
dL( ; y ) df ( y; )
dL( ; y ) dL( ; y )
 d d dy  d d f ( y; )dy
  U f ( y; )dy  E[U ]
2
2
E[U’] +E[U 2 ]=0
V [U]=E[U2]‐ E[U] 2数理統計学第6回
= E[U2]= E[-U’]:情報量18
どちらの対数尤度の山の方が登りやすい
だろうか?
情報量が小さい場合
情報量が
大きい場合
数理統計学第6回
19
2項分布の場合
y
n y
L  n C y  (1   )
log L  logn C y  y log  (n  y ) log(1   )
d log L d ( y log  (n  y ) log(1   ))
U

d
d
y n y
y  n
 

 1    (1   )
 y  n  E[ y  n ]
E[U ]  E 

0

  (1   )   (1   )
数理統計学第6回
20
2項分布の場合
V [U ]  I  E[U ]
2
2


 y  n 
E[( y  n ) ]
2
   2
E[U ]  E 
2
 (1   )
  (1   )  
V [ y]
n (1   )
 2

2
2
2
 (1   )
 (1   )
n
1



 (1   ) V [ ]
2
数理統計学第6回
21
2項分布の場合
y  n
U 
 (1   )
( y  n )' (1   )  ( y  n ) (1   )'
U '
 2 (1   ) 2
 n (1   )  ( y  n )(1  2 )

2
2
 (1   )


 n  n
 n
2
 y  n  2y  2n
 2 (1   ) 2
 y  2y
2
2
 (1   ) 数理統計学第6回
2
2
22
2項分布の場合
  n 2  y  2y 
E[U ' ]  E 

2
2
  (1   )

2
2
 n  n  2n

2
2
 (1   )
 n  n
 n (1   )

 2
2
2
2
 (1   )
 (1   )
2
 V [U ]   E[U ]   I
2
数理統計学第6回
23
^
^
V[θ]≒1/I[θ]
f (a)(x  a) 2
f ( x) ≒ f (a)  f (a)(x  a) 
2

U ( )を  の周りでテーラー展開 して一次近似




U ( ) ≒ U ( )  U ' ( )(   )  I (   )


U ( )
E[U ( )]
 (   ) ≒
, E[   ] ≒
0
I
I

V [U ( )] I
1
V [ ] ≒
 2 
2
I
I
I
数理統計学第6回
中心極限定理と
大数の法則が
適用できる.
分散は
1/情報量24
平均値の法則
U [ ] 
d  log f i
d
d log f i

d
大数の法則
平均値はnを大きくすると,真の値に収束する.
平均値→E(X)=μ (n→∞)
limP(|平均値-μ|≧ε)=0
n→∞
中心極限定理
nを大きくすると,平均値の分布は正規分布になる.
数理統計学第6回
25
まとめ スコア統計量とMLEの性質
d log f
, E[U ]  0
U [ ] 
d
2
V [U ]  E[U ]  E[ U ' ]  I

U ( ) ≒ I (   )


E[ ]   , V [ ]  1 / I

Uも  も漸近的に正規分布
数理統計学第6回
26
MLEの性質
1)nが大きくなれば,MLEは真値に近づ
く(一致性) ← 大数の法則
2)最尤推定量の分布は,漸近的に正規分
布にしたがう(漸近正規性)
← 中心極限定理
3)最尤推定量の分散は,漸近的にFisher
の情報量の逆数となり,Cramer-Raoの下
限を達成する(有効性)
数理統計学第6回
27
ダイオキシン
ベトナム戦争時に使用された枯葉剤(2,4,
5-T)に、不純物として含まれていた毒性物質
として有名。ベトナムにおける流産や先天異常児
の多発、ベトナム帰還米兵のガンの多発などは、
この影響であると指摘されている。
ダイオキシンは廃棄物焼却や金属精錬の際に発
生したり、農薬等各種の化学物質を製造する際に
副生するなどの例が知られているが、中でも廃棄
物焼却が最大の原因であると言われている。とこ
ろが、最近になって、これまで知られていた発ガ
ン性を示すレベルの量よりも更に微量のダイオキ
シンが、子宮内膜症とそれに伴う不妊症の原因で
はないかと疑われるようになり、社会的な関心が
28
一層高まっている。数理統計学第6回
ベトナム戦争で散布された枯葉剤に
より枯れたマングローブの林
数理統計学第6回
29
ダイオキシン類の特徴
4塩化物以上に毒性が強い
2,3,7,8-TCDDの毒性が最も強い
水に難溶性。脂肪に溶けやすい
極めて安定 700℃でも分解しない
副産物として生成される
除草剤、殺菌剤の製造過程、焼却、
漂白、自動車の排ガス等

数理統計学第6回
30
2,3,7,8-Tetrachlorodibenzo-p-dioxin
(2,3,7,8-TCDD) の構造
塩素のつく数と位置による同族体と異性体が
多数あり、このうち毒性発現から7種、またポリ
塩化ジベンゾフラン10種、PCB12種に対して毒
性等価係数が付与されている)
数理統計学第6回
31
測定単位
• mg (ミリグラム =千分の1グラム)
μg (マイクロリグラム =百万分の1グラム)
ng (ナノグラム=十億分の1グラム)
pg (ピコグラム=一兆分の1グラム)
• 1g中に1 μg → ppm
1g中に1 ng → ppb
1g中に1 pg → ppt
(100m×100m×100mの水槽に1g)
数理統計学第6回
32
ダイオキシンの毒性
毒性
症
状
実験動
物
NOAEL*
発ガン性
肝細胞への影響
肝臓ガン発生
ラット
ラット
1 ng/1kg 体重/1日
10ng/1kg 体重/1日
免疫毒
性
感染防御機能低
下
マウス
5ng /1kg 体重/1日
催奇形
性
口蓋裂、腎盂拡
張
マウス
100ng /1kg 体重/1
日
その他の
慢性毒
性
体重増加抑制等
ラット
1 ng/1kg 体重/1日
数理統計学第6回
33
性比の経年変化 男/女
Fig1
Y early T rend of R atios in Japan
108.0
107.5
Sex Ratio
107.0
106.5
106.0
105.5
105.0
Sex Ratio
104.5
Moving Average
104.0
1945
1950
1955
1960
1965
1970
1975
Y ear
数理統計学第6回
1980
1985
1990
1995
34
問題の背景
1) ダイオキシンの人間に対する毒性用量は
判明している.
2)ダイオキシン濃度がある濃度を越えた個
体の割合を推定したい.
3)1998年については個別データがあるが,
後の年については,平均値しかわからない
4)ダイオキシン濃度の分布は対数正規分布
にしたがうことが経験的に判明している.
数理統計学第6回
35
セベソ事件
セベソ事件とは,北イタリア,ミラノの北約 20 Km
のところにある農薬工場が,2,4,5-トリクロロフェ
ノール製造中に爆発事故を起こし,セベソを中心
とする周辺地域をダイオキシンを含む大量の化
学物質が汚染した.
・1976 年 7 月 10 日爆発事故発生
・最終的に,20万人以上の住民が被害を受ける.
・性比を1%減らす濃度(129 pg/g)
5%(146)
10%(160)
数理統計学第6回
36
モーメント法による
対数正規分布の母数推定
N=467 (単位:pg/g fat)
平均値:25.5
SD:14.5
変動係数:14.5/25.5=56.9%
対数正規分布のパラメータ
μ,σ
数理統計学第6回
37
対数正規分布
対数変換すると正規分布にしたがう.
f ( y) 
2


1
y  
exp 
2
2
2
2

x=log(y) ⇒ dx=1/ydy
f(y) =dF(y) /dy=dF(y) /dx




×dx/dy
2


1
log y   
f ( y) 
exp 
2
2
2
y 2





μ,σを推定したい
数理統計学第6回
38
対数正規分布
E[y]=exp(σ2/2+μ)
V[y]=E[y]2 ( exp(σ2)-1)
SD = E[y]( exp(σ2)-1)0.5
CV=SD/E[y]= ( exp(σ2)-1)0.5
変動係数はμに関係なく一定
数理統計学第6回
39
モーメント法による推定
E[y]=exp(σ2/2+μ)=標本平均
V[y]=E[y]2 ( exp(σ2)-1)=標本分散
になるように, σとμを推定
標本平均:25.5 標本SD:14.5
exp(σ2)-1=14.52/25.52⇒σ=0.5293
exp(σ2/2+μ)=25.5 ⇒ μ=3.0986
数理統計学第6回
40
推定された対数正規分布の
確率密度関数
数理統計学第6回
41
対数正規乱数の発生
data data;
cv=0.5686;mean=25.5;
s=(log(1+cv**2))**.5;
m=log(mean)-s**2/2;
do i=1 to 10000;
x=exp(m+s*rannor(4989));y=log(x);output;
end;
proc means;var x y;
proc gchart;vbar x/space=0;
数理統計学第6回
42
正規乱数のヒストグラム
数理統計学第6回
43
対数正規分布の%点
log(y)が正規分布するのを利用して
α%点:exp(μ+Zασ)
Zα:正規分布のα%点
Z50:0
Z25:-0.6745 Z75:0.6745
数理統計学第6回
44
%点の比較
実測値
対数正規分布
25%点 15.2
15.5
50%点 21.7
22.2
75%点
31.3
31.7
%点からは対数正規分布がよくあてはまってい
ると考えられる.
変動係数が一定になるように各年度のSDを推
定
数理統計学第6回
45
カットオフ値を越える確率
(単位:pg/g)
year
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
平均
57.1
66.2
58.2
48.9
48.7
51.9
46.6
40.0
38.1
38.6
40.6
σ
0.5293
0.5293
0.5293
0.5293
0.5293
0.5293
0.5293
0.5293
0.5293
0.5293
0.5293
μ
3.90472
4.05260
3.92381
3.74970
3.74560
3.80924
3.70152
3.54880
3.50014
3.51317
3.56369
推定SD BMD1%
(129)
32.4687 0.035582
37.6433 0.063623
33.0942 0.038498
27.8060 0.017982
27.6923 0.017643
29.5119 0.023581
26.4981 0.014322
22.7452 0.006627
21.6648 0.005102
21.9491 0.005477
23.0864 0.007168
数理統計学第6回
BMD5%
(146)
0.020759
0.039294
0.022628
0.009871
0.009669
0.013253
0.007713
0.003356
0.002534
0.002734
0.003652
BMD10%
(160)
0.013507
0.026684
0.014805
0.006136
0.006003
0.008385
0.004726
0.001965
0.001462
0.001583
0.002148
46
カットオフ値を越える確率
(単位:pg/g)
year
1984
1985
1986
1988
1989
1990
1991
1992
1993
1994
1995
1996
平均
37.3
32.4
30.5
34.4
33.0
31.9
29.2
26.2
26.5
27.1
23.5
24.1
σ
0.5293
0.5293
0.5293
0.5293
0.5293
0.5293
0.5293
0.5293
0.5293
0.5293
0.5293
0.5293
μ
推定SD
3.47891
3.33808
3.27765
3.39798
3.35643
3.32253
3.23409
3.12568
3.13707
3.15945
3.01692
3.04213
21.2099
18.4236
17.3432
19.5609
18.7648
18.1393
16.6040
14.8981
15.0687
15.4099
13.3628
13.7040
BMD1%
(129)
0.004541
0.002020
0.001399
0.002874
0.002253
0.001840
0.001065
0.000526
0.000567
0.000658
0.000249
0.000297
数理統計学第6回
BMD5%
(146)
0.002236
0.000939
0.000634
0.001369
0.001055
0.000850
0.000474
0.000224
0.000243
0.000284
0.000101
0.000122
BMD10%
(160)
0.001282
0.000516
0.000342
0.000766
0.000583
0.000464
0.000252
0.000115
0.000125
0.000148
0.000050
0.000061
47
問題
ある大学で,100人の学生の血液型について,調
べた結果,A型41人,B型22人,O型27人,AB
型10人となった.血液型の人数の分布は次の
ように確率Lが示される多項分布に
したがうと考えられる.
( XA  XB  XO  XAB )! XA XB XO
XAB
L
 A  B  O  AB
XA! XB! XO! XAB !
XA,・・・,XAB:各血液型の人数である.
XA+XB+XO+XAB=N
数理統計学第6回
48
問題
Lを母数, πA , πB , πO , πABの関数を考えてL
が最大になるようにパラメータを推定したい.
ただしπA+πB +πO + πAB=1
という制約が存在する.
1)対数尤度を示すこと.
2)対数尤度をπAで微分すること.
3) πA , πB , πO , πABの最尤推定値を計算する
こと
数理統計学第6回
49
Lagrange の未定乗数法
• p 次元ベクトル x について,等式制約:g(x) = 0
の下で,ある目的関数:f(x) の最大(小)値を求
める問題の一つの解法に,ラグランジュの未定
乗数法がある.
Q  f ( x)  g ( x) とおき,連立方程式
dQ
dQ
 0, i  1,2,...p;
0
dxi
d
を解くと,この連立方程式の解の中に求める解が
50
数理統計学第6回
ある.