数理統計学(第八回) 統計的仮説検定とは?

数理統計学(第八回)
統計的仮説検定とは?
浜田知久馬
数理統計学第8回
1
統計学(statistics)は
star(*)tistics(天文学)か?
• 多くの実験者は
統計解析を望遠鏡だと思っている.
• 彼らは,星を見つけることに,まるで天
文学者のように夢中になり,星が付いた,
付かないで一喜一憂する.
数理統計学第8回
2
統計学(statistics)は
star(*)tistics(天文学)か?
数理統計学第8回
3
検定(statistical test)とは?
• 多くの研究者は
統計解析=検定 と考えている.
• 薬物の薬効の有無などの二者択一の判定
を行う方法
• e.g. t、F、U、カイ2乗、Z、H検定
Fisher、Wilcoxon、Welch、Bartlett
• 全ての検定の結果はp値で表される.
数理統計学第8回
4
知っている検定の名前を
教えてください
英語検定
簿記検定
それに車検ね
数理統計学第8回
5
統計的検定:有り難い方法
• 白黒はっきりする.
• 希なこと→有り難い→意味ある(有意)
• 有り難さ:確率p値によって評価
p値が小さい→有り難い(有意)
p値が大きい→珍しくない(意味なし)
数理統計学第8回
6
ある点からある直線に垂線は1つ
しか引けないことを証明せよ
背理法による証明
1)証明したいこととは反対の仮説を立てる.
(ある直線に2本以上の垂線が引ける)
2)1)の仮説の下で矛盾を探す.
3)矛盾が見つかれば,1)の仮説を捨てる.
(ある直線に1つしか垂線は引けない)
数理統計学第8回
7
三角形の内角の和が180度を越
える
数理統計学第8回
8
検定の手順
1)差がないという仮説(帰無仮説)を立てる
2) 検定統計量を計算し、仮説の下でデータ
の差が偶然で生じる確率(p値)を計算
3)p値があらかじめ決めた値(有意水準)以下
であれば、データの差に意味がある(有意)と
みなす
数理統計学第8回
9
帰無仮説と対立仮説
帰無仮説(null hypothesis)
差がないとする仮説,記号H0で表す.
H0:μ1= μ2
対立仮説(alternative hypothesis)
差があるとする仮説,記号H1で表す
H1:μ1≠ μ2
μ1 :対照群の母平均
μ2 :薬剤群の母平均
数理統計学第8回
10
検定の手順 イカサマコインの例
• コインの表と裏が出る確率が等しいという仮
説を立てる.
• 実験を行う(表が5回連続して出る).
• 1)の仮説の下で2)の事象が生じる確率(p
値)を計算する(0.5の5乗=0.03125)
• 5%水準でコインは表の方が出やすいと結論
を出す.
数理統計学第8回
11
数理統計学第8回
12
2種類の過誤
真実 検定結果
差なし 差なし
○
差なし 差あり
αエラー 第1種の過誤
差あり 差なし
βエラー 第2種の過誤
差あり 差あり
○
・αとβの双方が小さいのがよい判定方式
・αとβを両方一辺に小さくはできない
数理統計学第8回
13
数理統計学第8回
14
結婚は人生の墓場か天国か?
数理統計学第8回
15
p値と有意水準
• p値(probability)
偶然によって差が生じる確率
p値大:偶然でも起こりそうな差
p値小:偶然では起こりそうにない差
偶然を越えた意味ある(有意)差
• 有意水準(significant level)
p値が小さいかどうかを判断する基準
(通常は5%に設定されることが多い)
数理統計学第8回
16
p値と第1種の過誤α
• p値:本当は差がないときに,偶然で
差が生じる確率
• 検定:p値<0.05のとき有意と判定
• αエラー:誤って差があるといってしまう確率
は,検定を行なえば,0.05以下に抑えること
ができる.
• βエラー:Nと検出したい差の大きさに
依存する
数理統計学第8回
17
検定に共通の注意
1)検定結果の表記
2)統計的有意性と生物学的有意性
3)有意水準はなぜ5%か?
4)片側検定と両側検定
数理統計学第8回
18
1)検定結果の表記
習慣 *:p<0.05 **: p<0.01
1.p値の値そのものを示す方がよい.
・p=0.009とp=0.0001では解釈が異なる.
・p値が示されていれば,事後的に有意水準
を変更することが可能
2.p値の有効桁は少数第3位または第4位
3.検定の種類と仮説の方向は明記
数理統計学第8回
19
検定統計量による有意性の判定
コンピュータが発達する前はp値の計算は困
難だった.
検定統計量 大 ⇒ p値 小
検定統計量が棄却限界値を比較
検定統計量が5%棄却限界値を越える
⇒p値<0.05
現在では,Excel等の関数を利用してp値が
直接計算可能
数理統計学第8回
20
2)統計学的 vs.生物学的有意性
標準薬を対照とした降圧薬の試験
Δ
p値
N
-20
<0.05 100
適切な症例数
-5
>0.05 100
適切な症例数
-20
>0.05
30
Nが小さすぎた
-5
<0.05 10000
Nが大きすぎた
数理統計学第8回
21
3)有意水準はなぜ5%か?
・検定は農事試験から生まれた.
実験は年1回,1生のうち20回程度,
1回位(1/20)は過ちを許そう.
・人間が偶然を判断する基準にあう.
表が続けて出る確率:3.125%
・ときには5%以外のことも
背景因子の偏り,予備検定,モデル選択
数理統計学第8回
22
R.A.Fisher
数理統計学第8回
23
4)片側検定と両側検定
帰無仮説は1つだが対立仮説はたくさんある
・イカサマコインの場合
帰無仮説 H0:π表= π裏=0.5
対立仮説 H1:π表 ≠π裏
様々な対立仮説 H1: π表=0.7, π裏=0.3
H1: π表=0.8, π裏=0.2
H1: π表=0.2, π裏=0.8
数理統計学第8回
24
4)片側検定と両側検定
対立仮説の方向
表の方がでやすい: π表> π裏
裏の方がでやすい: π表< π裏
両側検定 H1:π表> π裏 or π表< π裏
上側検定 H1:π表> π裏
下側検定 H1:π表< π裏
数理統計学第8回
25
4)片側検定と両側検定
イカサマコインの例 (表が5回)
上側p値:確率(表5回)=0.03125
下側p値:1
両側p値:確率(表5回)+確率(裏5回)
=0.0625
両側検定の方が方向を欲張るので,有意にな
りにくい.
(多くの場合,p値は片側の2倍)
数理統計学第8回
26
ダーウィンの植物の丈の
データ(単位インチ)
───────────────────────────────
No.自家受精
他家受精
No.自家受精
───────────────────────────────
1
17.375
23.5
9
16.5
2
20.375
12
10
18
3
20
21
11
18.25
4
20
22
12
18
5
18.375
19.125
13
12.75
6
18.625
21.5
14
15.5
7
18.625
22.125
15
18
8
15.25
20.375
───────────────────────────────
平均
17.708
20.192
標準偏差 2.024
3.617
数理統計学第8回
───────────────────────────────
他家受精
18.25
21.625
23.25
21
22.125
23
12
27
散布図
25 +
|
|
C
|
B
|
C
|
B
20 + C
A
|
A
| G
A
y | A
| A
| A
15 + A
|
|
| A
|
B
|
10 +
---+---------------------------------------+-1
2
数理統計学第8回
28
層別箱髭図
数理統計学第8回
29
仮説
研究仮説:他家受精は自家受精と比べて,成長が
よいか?
自家受精群と他家受精群の母集団の平均を,
μA, μBとする.
帰無仮説H0 : μA=μB ⇒
対立仮説H1 : μA≠μB ⇒
μA-μB=0
μA-μB≠ 0
数理統計学第8回
30
仮説検定という方式
• 仮説H0に対し,ある統計量と限界値を予め用
意しておく.
検定統計量,棄却限界値
• 統計量が限界値より大きかったら,H0を
否定(棄却)する ⇒p値がα水準以下
そうでなければH0を受容する.
数理統計学第8回
31
仮説検定という方式
・第1種の過誤をα以下にする.(必要条件)
第1種の過誤={H0が真なのにそれを
棄却する誤り(の確率)}
・第2種の過誤がなるべく小さい手法を選ぶ.
第2種の過誤={H1が真なのにH0を
受容する誤り(の確率)}=1-検出力
数理統計学第8回
32
検定の構成法
• 帰無仮説と対立仮説が単純な場合
ネイマン・ピアソンの基本定理の利用
(応用可能な場合はかなり限定)
• 原理的な構成法
尤度比検定
推定量の方法
直感的な方法(ノンパラ法)
数理統計学第8回
33
Neyman-Pearson’s fundamental
lemma
帰無仮説と対立仮説の下での確率の比(尤
度比)に基づいて検定を構成すれば,最も
性能がよくなる.
確率密度関数f(y,θ)
・帰無仮説H0:θ=θ0
・対立仮説H1:θ=θ1
検定統計量t(Y)として,
・
f (Y ,1 )
t (Y ) 
f (Y , 0 )
数理統計学第8回
34
例えていうと
シルエットクイズ
数理統計学第8回
35
松嶋菜々子 v.s. 山田花子
シルエットを見て,デートするかしないかを判断
松嶋菜々子(H1)であればデートしたい.
山田花子(H0)であればデートしたくない.
判定(decision)
シルエットの主 デートする デートしない
松嶋菜々子
○
βエラー
山田花子
αエラー
○
数理統計学第8回
36
このとき,最もよい判定方式は?
ネイマン・ピアソンの基本定理によれば,
シルエットから
P(M)=松嶋菜々子である確率
P(Y)=山田花子である確率
を見積もり,
この比P(M)/ P(Y)がある値を越えるか,否かで
判定する.
数理統計学第8回
37
ネイマン・ピアソンの基本定理
有意水準αの最強力検定(βエラーが最小),
f (Y ,1 )
≦c : H0を保留
t (Y ) 
>c : H0を棄却
f (Y , )
0
cは
Pr(t(Y)>c|θ=θ0)=α
を満たす値
数理統計学第8回
38
y=910, θ0=925, θ1=900
数理統計学第8回
39
検定関数δ (Y)
H0を保留する場合:δ (Y) =0
H0を棄却する場合:δ (Y) =1
①をαに抑えつつ, ②を最大にするのが
最強力検定
E[δ (Y)]=0・Pr[δ (Y) =0]+1・Pr[δ (Y) =1]
①E[δ (Y)|θ0]=∫δ (Y)f(Y,θ0)dY
=αエラーの確率
②E[δ (Y)|θ1]=∫δ (Y)f(Y,θ1)dY
=検出力 (1-βエラーの確率)
数理統計学第8回
40
ネイマン・ピアソンの基本定理
検定関数δnp(Y)
f (Y ,1 )≦c: H0を保留
δnp(Y)=0:
t (Y ) 
f (Y , 0 )>c: H0を棄却
δnp(Y)=1:
δ(Y)を任意の検定関数とすると
最強力検定
必要条件:E[δnp (Y)|θ0] = E[δ (Y)|θ0]=α
十分条件:E[δnp (Y)|θ1]-E[δ (Y)|θ1] ≧0
数理統計学第8回
41
ネイマン・ピアソンの基本定理
∫(δnp(Y)-δ(Y))(f(Y,θ1)-cf(Y,θ0)dY≧0
が成り立つ.
f(Y,θ1)>cf(Y,θ0)のときδnp(Y)=1
またδ(Y)=0 or 1なので,被積分関数は非負
f(Y,θ1)≦cf(Y,θ0)のときδnp(Y)=0
またδ(Y)=0 or 1なので,被積分関数は非負
数理統計学第8回
42
ネイマン・ピアソンの基本定理
ところで∫δ (Y)f(Y,θ1)dY=検出力Pwなので
Pwnp-Pw=∫ (δnp(Y)-δ(Y))f(Y,θ1)dY
≧c∫ (δnp(Y)-δ(Y))f(Y,θ0)dY
= cE[δnp (Y)|θ0]-cE[δ (Y)|θ0]
=c(α-E[δ (Y)|θ0]) =0
任意の検定関数より, δnp(Y)の検出力が高い
ので, δnp(Y)は最強力検定
数理統計学第8回
43
ネイマン・ピアソンの基本定理の適用
ダーウィンのデータ
H0:μ=μ0 H1:μ=μ1の検定
(σ2既知, μ0< μ1)
 y   
f ( y) 
exp 
2
2
2
2

2
1
数理統計学第8回




44
正規分布の確率密度関数
f(μ)=f(Y1) ・f(Y2) ・・・f(Yn) =Πf(Yi)
  yi   
exp 
2
2
2

2

n
1
f ( )  
i 1

 1 

yi   

exp  

2
2
 2 
 i 1 2
n
n
数理統計学第8回
2
2








45
尤度比の計算
2
n




y i  1 
1
exp  


2
2
2

i 1
f ( 1 )
 2 


n
2
f ( 0 )
n




yi   0 
1
exp  


2
2
2
 2 
 i 1
2
2
n
n



y i  1 
yi   0  

 exp  


2
2

2

2

i 1
 i 1

n
数理統計学第8回








46
尤度比の計算
2
2
n


y i   0    y i  1 
f ( 1 )
 exp 
2
f ( 0 )
2
 i 1
 n  2 y i  0   0 2  2 y i 1   1 2
 exp 
2
2
 i 1








 n 0 2  n1 2

2( 1   0 ) n

 exp

y

i
2
2

2

2

i 1


数理統計学第8回
47
尤度比の計算
 f ( 1 ) 
f ( 1 )

 C  log
 log C


f ( 0 )
 f ( 0 ) 
2( 1   0 ) n
n1  n 0

yi 

2
2
2
2

i 1
2
n
y
i 1
i
2
 log C
 C'  y  C''
ネイマン・ピアソンの基本定理
⇒
平均値がある値cを超えればH0を棄却する.
Pr(y  C' '|   0 )  
C’’は
を満たす値
数理統計学第8回
48
C‘‘の計算
H 0 :    0 , y  N (  0 ,  n)
2
 C' '  0  Z / 2

n
有意水準αの最強力検定
y  C' '  0  Z / 2

のとき棄却
n
この検定方式はμ1の値によらない.
したがって,任意のμ1に関する一様最強力検定
になる.
数理統計学第8回
49
最強力検定の適用例
H0:μ0=17の検定(σ=3)
C' '  0  Z / 2
自家受精群
平均:17.7
H0を保留

3
 17  1.96
 18.52
n
15
他家受精群
平均:20.1
H0を棄却
数理統計学第8回
50
演習
Yが二項分布B(N,π)にしたがう確率変数とする.
f(π)=NCY・πY(1-π)N-Y
H0:π=π0 H1:π=π1の検定の最強力検定を考え
る. (π1>π0)
1)尤度の比(f(π1)/f(π0))を計算すること
2)Y=6,N=10として, π0=0.5,, π1 =0.9のときの尤度
の比を計算すること
3)最強力検定はどのような検定に帰着するか
述べること
数理統計学第8回
51