数理統計学(第九回) 尤度比検定とは?

数理統計学(第九回)
尤度比検定とは?
浜田知久馬
数理統計学第9回
1
胃がんのスクリーニング検査
正常 胃癌 計
検査の 陽性 1497
16 1513
判定
陰性 8483
4 8487
計
9980
20 10000
αエラー 1497/9980=0.15
βエラー
4/20=0.20
数理統計学第9回
2
問題1 2つの検査のα,βエラー
どちらを選ぶ
検査A
正常 胃癌 計
検査の 陽性 4990
20 5010
判定
陰性 4990
0 4990
計
9980
20 10000
検査B
正常 胃癌 計
検査の 陽性
50
10
60
判定
陰性 9930
10 9940
計
9980
20
10000
数理統計学第9回
3
問題2 2つの妊娠診断薬
どちらを選ぶ
検査A
非妊娠 妊娠
計
検査の 陽性 25
250 275
判定
陰性 475
250 725
計
500
500 1000
検査B
非妊娠 妊娠
計
検査の 陽性 250
475
725
判定
陰性 250
25
275
計
500
500
1000
数理統計学第9回
4
妊娠診断薬
1.アルミ包装されたテストスティックを箱から取り出し,
開封してください。
2.キャップを取り、テストスティックを下に向け、
サンプラーに少なくとも5秒間直接尿をかけ
サンプラー全体を尿で濡らします。
3.青い線が、「終了確認窓(丸い窓)」に現われたら、
テスト終了です(約1分)。「終了確認窓(丸い窓)」に
青い線が出ていなければ、正しくテストできなかったというこ
とです.
別のテストスティックで再テストしてください。
4.「判定窓(四角い窓)」に色の濃い薄いに関わらず、
青い線が出ていれば陽性、出ていなければ陰性です。
数理統計学第9回
5
妊娠診断薬
この検査薬は、妊娠の早期判定の補助として用
いるもので、確定診断は、他の所見とともに医
師により総合的になされるものです。
妊娠すると妊婦の尿中に分泌されるヒト絨毛性
性腺刺激ホルモン(hCG)を鋭敏な抗原・抗体
反応で検出する診断薬
尿が希釈され過ぎているか反対に濃縮されてい
る場合 :妊娠してても陰性
病気の場合やホルモン値に影響を及ぼすお薬を
飲んでいる場合:妊娠してなくても陽性
数理統計学第9回
6
問題
3 麻原彰晃を無罪と判定した場合についてα
エラー,βエラーの観点から論ぜよ
4 美人は必ずしも幸せな人生をおくるとは限ら
ない.この仮説について
背理法を用いて証明せよ.
数理統計学第9回
7
美人だけど不幸な人生を送った人達
数理統計学第9回
8
検定の構成法
・一様最強力検定は存在しないことが多い.
・推定問題の原理的構成法
最尤法,最小二乗法,モーメント法
最尤法では確率が最大になるように母数推定
・ネイマン・ピアソンの基本定理
確率の比(尤度比)に着目すればよい.
最尤法に基づいた検定(尤度比検定)
数理統計学第9回
9
尤度比検定の例
ダーウィンのデータ
仮説:自家受精群と他家受精群で
母平均μが等しいか?
帰無仮説:H0:μ1= μ2
対立仮説:H1:μ1≠μ2
σ2=32 (既知)
数理統計学第9回
10
仮説の母数空間における表現
H0: (μ1 ,μ2)
∈ ω0
H1: (μ1 ,μ2)
∈ ω1
ω0
μ2
ω1
数理統計学第9回
μ1
11
尤度比検定統計量
f(Y;θ)=f(θ; Y)
Yをgivenとして確率をθ の関数と考えたとき
尤度(likelihood)とよぶ.
maxH1f(θ; Y)
maxθ∈ω1f(θ; Y)
───────= ─────────>c
maxH0f(θ; Y)
maxθ∈ω0f(θ; Y)
log(maxH1f(θ; Y))- log(maxH0f(θ; Y))>logc
ならば,H0を棄却
数理統計学第9回
12
正規分布の確率密度関数
f ( y) 
2


1
y  
exp 
2
2
2
2





σ2は既知
n個Y1 ,・・・,Yn のn個のデータの得られる確率f
f=f(y1) ・f(y2) ・・・f(yn) =Πf(yi)
n
1
f ( )  
2 2
i 1
  y i   2
exp 
2
2

2
n




yi   
1

exp  

2
2
2
 2 
 i 1
数理統計学第9回
n








13
H0:μ1=μ2=μ
尤度(H0)
2


1
y  
exp 
2
2
2

2

f ( y) 




第h群(h=1:自家受精群,h=2:他家受精群)の
i番目の観測値をyhi(i=1,2,・・・15)で表すことにする.
2
fH0  
h 1
15

i 1
30
2


y hi    
1

exp 
2

2
2

2



 1 

exp  

2
 2  数理統計学第9回
 h 1 i 1
2
15
 y hi   
2
2
2




14
対数尤度(H0)
尤度最大 ⇒ 対数尤度最大
2
15
log f H 0  15log(2 )  
2
h 1 i 1
 y hi   
2 15
 y hi   
d log f H 0
 2
0
2
d
2
h 1 i 1
2 15

y hi
  
 y  18.950
h 1 i 1 30
を代入すると
logfH0=-76.458
数理統計学第9回
2
2
2
15
対数尤度(H1) μ1≠μ2
2
15
log f H 1  15log(2 )  
2
 y hi   h 
2
2
h 1 i 1
15
 15log(2 )  
2
i 1
 y1i  1 
2
2
2
d log f H 1 15  y1i  1 

0
2
d1

i 1
15

i 1
2
 y 2i   2 
2
2
2
d log f H 1 15  y 2i   2 

0
2
d 2

i 1
数理統計学第9回
16
対数尤度(H1) μ1≠μ2

15
y1i
1  
 y1 17.708
i 1 15
15

y 2i
2  
 y 2 20.192
i 1 15
logfH1に代入すると
logfH1=-33.450(自家受精)-40.438(他家受精)
=-73.888
数理統計学第9回
17
対数尤度比
尤度比: maxH1f/maxH0f
対数尤度比:log(maxH1f)- log(maxH0f)
LR  log f H 1  log f H 0 
2
15
 15log(2 )   
2
h 1 i 1
2
15
 15log(2 )   
2

h 1 i 1
 
y
y
 yh
2
2
hi
hi
y
2
2

2
15
 y hi  y  y hi  y h
 
2
2

h 1 i 1 

数理統計学第9回

2

2
2

2





18
対数尤度比
 y
2
15
h 1 i 1

y
hi
 y
2
15
h 1 i 1
hi

2
2
15

 y hi  y h  y h  y
 yh
h 1 i 1

2
2
15

  y h  y
h 1 i 1
群内平方和

2

2
群間平方和
対数尤度比=(全平方和-群内平方和)/2σ2
=群間平方和/2σ2
  y
2
LR 
15
h 1 i 1
2
h
 y

2
数理統計学第9回
2
19
対数尤度比
  y
2
LR 


15
h 1 i 1
n y1  y
2
h
y

2
2
  ny
2
2 2
2
y1  y 2
y 
2
y

2
2


y1  y 2 
y1  y 2 
  n y 2 

n
y

1




2
2





2 2
n( y1  y 2 ) 2 / 2
Z2


2
2
2
数理統計学第9回
2
20
Z検定
自由度∞,σ既知の平均値の差の検定
Z
y1  y 2
1 1
   
n n
2

17.708  20.192
1
1
3   
 15 15 
 2.268
2
H0の下でZは標準正規分布,
Z 2 は自由度1のカイ2乗分布にしたがう.
ZがZαを越えるときH0を棄却
2×対数尤度比がχ2αを越えるときH0
を棄却
数理統計学第9回
21
尤度の計算プログラム
data mle;set mle;
do m1=16 to 22 by 0.1;
do m2=16 to 22 by 0.1;s=3;
f1=1/(2*3.141728*s**2)**.5
*exp(-(y1-m1)**2/s**2/2);
f2=1/(2*3.141728*s**2)**.5
*exp(-(y2-m2)**2/s**2/2);
logl=log(f1*f2);
output;end;end;
数理統計学第9回
22
尤度曲面
数理統計学第9回
23
対数尤度曲面
数理統計学第9回
24
等高線プロット
22
-78.3879
-78.3879
-81.3869
-84.3859-87.3849
-90.3840
20
-75.3888
m
2
-90.3840
18
-93.3830
-96.3820
-99.3811
16
-102.3801
-90.3840
16
18
20
22
m1
数理統計学第9回
25
帰無仮説(μ1=μ2 )の下での尤度
数理統計学第9回
26
尤度比検定
likelihood ratio test
・ネイマン・ピアソンの基本定理の拡張
確率の比に基づいた検定
・検定統計量
2×[log(maxH1f(θ; Y))- log(maxH0f(θ; Y))]
H0の下で DF(H1) - DF(H0) のカイ2乗分布に従
う.
ダーウィンの例)
H0:DF=1(μ), H1:DF=2 (μ1, μ2)
自由度1のカイ2乗分布にしたがう.
27
数理統計学第9回
最尤推定量(MLE)の復習
U=dlogf(θ;y)/dθ:スコア関数とすると
^
^
MLEθはlogf(θ;y)=0の解となる.
E[U]=0,V [U]=E[U2]= E[-U’]=I(情報量)
^ 1/I
V [θ]=
1)nが大きくなれば,MLEは真値に一致する
2) MLEは,漸近的に正規分布にしたがう
(漸近正規性)
3)最尤推定量の分散は,漸近的にFisherの情報量の
逆数(1/I)となる.
数理統計学第9回
28
3種類の検定
尤度比検定,Wald検定,スコア検定
例 H0: μ= μ 0 の検定
^
1)尤度比検定 L(μ)- L(μ0)
山の高さの違い
^
2) Wald検定
μ-μ0
MLEからの隔たり
3)スコア検定
U(μ0)
μ0における傾きが0に近いか
数理統計学第9回
29
3種類の検定の模式図
数理統計学第9回
30
山のてっぺんを捜すには.
(1)地図で位置を
確認する
(2)
高度を
測ってみる.
数理統計学第9回
(3) 傾斜角度を
測ってみる.
31
三蔵法師が山の最高点に
誘拐された.
最尤解を探せ.
数理統計学第9回
32
孫悟空 尤度比検定
觔斗雲でひとっ飛び,如
意棒で山の高さを測る.
数理統計学第9回
33
スコア検定 沙悟浄
水を流して勾配を測り,
傾きが0になる点を探す.
数理統計学第9回
34
Wald検定 猪八戒
地図を頼りにひた
すら掘り進む
数理統計学第9回
35
正規分布の確率密度関数
f ( y) 
2


1
y  
exp 
2
2
2
2





σ2は既知
n個Y1 ,・・・,Yn のn個のデータの得られる確率f
f=f(y1) ・f(y2) ・・・f(yn) =Πf(yi)
n
f 
i 1
1
2 2
  y i   2
exp 
2
2

2
n




yi   
1

exp  

2
2
2
 2  数理統計学第9回
 i 1
n








36
対数尤度(log likelihood)
2
n



y i    
 1


L  log f 
log
exp 


2

2


i 1
n

 yi   
2
i 1
n

i 1
y
2

2
y
2 2
i
n

2
i 1
y

y
2 2
i
n y

2 2

2



n

i 1
2



2
y   
2
2 2
2
Lはμについての2次関数
尤度fの最大化⇒ 対数尤度Lの最大化
⇒dL/dμ=0となるμを探す.
数理統計学第9回
37
正規分布の場合:一標本問題
分散σ2が既知(32 =9)の場合 2
対数尤度: L(  )   ny   
2
2
スコア統計量: U (  ) 

MLE:   y
情報量:
n

n y


2
I 
2
H0: μ=μ0 の検定は?
数理統計学第9回
38
尤度比検定

2
LR

 2( L(  ) L(  0 ))
n( y  y )
L(  )  C 
C
2
2
2
n( y   0 )
L(  0 )  C 
2
2
2
2
n( y   0 )
( y  0 )
2
 LR 

2
2

2


数理統計学第9回
n
39
尤度比検定
H0:μ0=20の検定
L(17.708 )=-33.450
L(20 )=
-37.827
χ2LR=2{L(μ)-L(μ0)}
^
= 2{ -33.450- -37.827 }

n( y   0 ) 2

2
15(17.708 20)

 8.76
2
3
2
数理統計学第9回
40
Wald検定


2
Wald

(   0 )

1 / I ( )


2
Wald
2
(   0 )

2
 /n
2

I (  ) 

n

2
2
LR
H0:μ0=20の検定
(17.708-20)2
= ─────── = 8.76
(32/15)
数理統計学第9回
41
ラオのスコア検定
U ( 0 ) 


n y  0

2
U ( 0 )


I ( 0 )
2
2
Score
 I (
n
2
0
)  V [U (  0 )] 
y   
n

2
2
0
4
n


n y  0
2


2
4
2
2
  LR
  Wald
H0:μ0=20の検定
=15 (17.708-20)2/(32) = 8.76
数理統計学第9回
42
3種類の検定
1)漸近的に等価な検定
(nが大きくなると結果はほぼ等しくなる)
2)各検定の特徴
尤度比:検定・信頼区間の
計算に反復計算が必要
Wald:対称性がある
スコア:推定値が不明でも検定できる.
収束しない場合,総当たり法
3)正規分布のときは完全に一致
対数尤度が2次関数となるため.
数理統計学第9回
43
スコア検定
・Wald,尤度比検定は,MLEが求まらないと
検定できない.
・ MLEを求めるためには反復計算が必要
・スコア検定はH0の下でのUとIがわかれば
計算できる.
・多くのモデルについての計算が必要な場合,
総当り法では,スコア検定が行われる.
・スコア検定では収束しない場合でも,
H0の検定が可能
数理統計学第9回
44
信頼区間の構成
H0:μ=μ0をα水準で検定して,棄却され
ない範囲が信頼区間
尤度比検定ベースの95%信頼区間
2
n( y   0 )
2
 LR 
 3.84
2


y  1.96
n
自家受精群:17.708±1.96×3/15 0.5
=16.190,19.226
数理統計学第9回
45
信頼区間の模式図
尤度比検定で有意とならない範囲
Lが1.92までおちる範囲
数理統計学第9回
46
スコア検定とWald検定
テーラー展開
f  (a )( x  a )
f ( x) ≒ f (a )  f (a )( x  a ) 
2


2

U [ ] ≒ U [ ]  (   )U ' [ ]

 (   ) I
2
 Score


U ( 0 )
(   ) 2 I 2

≒
 (   ) 2 I
I ( 0 )
I
2


(   ) 2

V [ ]
2
  Wald
数理統計学第9回
正規分布の場合,近似は正確
47
尤度比検定とWald検定

(   ) 2
L( ) ≒ L( )  U ( )(   )  I ( )
2



(   )
 L( )  I ( )
2




2


(   ) 2
(   ) 2
L( )  L( ) ≒ I ( )


2
2V [ ]




2
Wald
2
数理統計学第9回
48
尤度比検定とWald検定
対数尤度関数L(θ)=logf(θ)をMLEθの周辺で
テーラー展開して,2次式で近似できる
対数尤度は, θの2次関数で近似される
Wald検定の結果は,尤度比検定を近似する.
対数尤度比を2倍するとカイ2乗統計量
正規分布の場合,近似は正確
数理統計学第9回
49
演習
2項分布について
f(π;y)=nCyπy(1-π)n-y
1)対数尤度を示せ.
2)スコア統計量を計算せよ
U=dlogf(π;y)/dπ
3) U=0となるπ(πの最尤推定量)を求めよ
4)情報量I=E[U2]を計算せよ.
5) 1/Iが何をあらわしているか述べよ.
6)π=π0の下でIとUを求め,スコアカイ2乗
(U2/I)を計算せよ.
数理統計学第9回
50