数理統計学(第十回) ノンパラ検定とは?1

数理統計学(第十回)
ノンパラ検定とは?1
浜田知久馬
数理統計学第10回
1
パラとノンパラ
• パラメトリック
特定の分布(狭義には正規分布)を仮定した方法
分布はパラメータ(例,μ,σ2)によって定まる.
e.g. t検定
• ノンパラメトリック
特定の分布を仮定しない方法
(狭義にはデータの順位情報のみを用いる方法)
e.g. ウイルコクソン検定
数理統計学第10回
2
パラとノンパラの仮定
パラ
ノンパラ
赤:帰無仮説
緑:対立仮説
数理統計学第10回
3
パラとノンパラ
パラ
ノンパラ
位置の指標
平均
メディアン
バラツキの指標
SD
4分位偏差
1標本検定
t検定(unpaired) ウイルコクソン
符号検定
2標本検定(対応) t検定(paired)
ウイルコクソン
2標本検定
t検定(unpaired) ウイルコクソン
サベージ,FW等
数理統計学第10回
4
パラとノンパラ
パラ
ノンパラ
多群比較
1-way ANOVA
KW
多群比較(paired) 乱塊法
Friedman
相関係数
Pearson
Spearman
Kendall
用量相関
回帰分析
Jonckheere
多重比較
Dunnett
Steel
Tukey
Steel-dwass
Willimas
Shirley-Willimas
数理統計学第10回
5
パラとノンパラ
パラ
分布形の仮定 正規分布
等分散性
仮定
第1種の過誤
≒α
正規分布のとき ◎
外れ値が存在
×
変数変換
変
N<6
△
料理に例えると 懐石
数理統計学第10回
ノンパラ
必要なし
仮定
常に<α
○
○
不変
×
電子レンジ
6
ノンパラ検定の仮説
X1, X2, ・・・, XN ~分布関数Fを持つ
Y1, Y2, ・・・, YN ~分布関数Gを持つ
帰無仮説H0:F=G
対立仮説H1:F≠G(両側検定)
対立仮説H1:F<G(上側検定)
対立仮説H1:F>G(下側検定)
数理統計学第10回
7
ビタミンEに細胞増殖効果はあるのか?
浜君と石君で実験
4枚を通常栄養 4枚をビタミンE処理(PM11:00)
数理統計学第10回
8
翌朝(AM7:30)
実験は成功したが,石君は来なかった.
121
118
110
95
90
34
22
12
数理統計学第10回
9
(PM:2:00)浜君は考えてみた.
ビタミンE処理群はどれか?
121
118
110
95
90
34
22
12
数理統計学第10回
10
8枚から4枚を選ぶ組み合わせの
数は?
8C4=(8×7×6×5)/(4×3×2×1)=70通り
ビタミンE群
121 118 110
121 118 110
121 118 110
121 118 110
121 118 110
121 118 95
:
4枚の細胞数の和
95
444
90
439
34
383
22
371
12
361
90
424
数理統計学第10回
11
図1 並べ替え分布の幹葉表示と箱ひげ図
ビタミンEに増殖効果がなければ全てのパターンは等
しい確率で生じるはず.
Stem
44
42
40
38
36
34
32
30
28
26
24
22
20
18
16
14
Leaf
#
4
1
49
2
36
2
3
1
01381
5
001356812567
12
58903578
8
7578
4
4575
4
12245792347
11
12567014679
11
149
3
9
1
69
2
38
2
8
1
----+----+----+----+
Multiply Stem.Leaf by 10**+1
数理統計学第10回
Boxplot
|
|
|
|
|
+-----+
|
|
*--+--*
|
|
|
|
+-----+
|
|
|
|
|
12
(PM:4:55)石君到着
合計細胞数=439
121
118
110
95
90
34
22
12
数理統計学第10回
13
図1 並べ替え分布の幹葉表示と箱ひげ図
和が439以上になるのは2通り:確率2/70
Stem
44
42
40
38
36
34
32
30
28
26
24
22
20
18
16
14
Leaf
4
49
#
1
2
2
1
5
12
8
4
4
11
11
3
1
2
2
1
36
3
01381
001356812567
58903578
7578
4575
12245792347
12567014679
149
9
69
38
8
----+----+----+----+
Multiply Stem.Leaf by 10**+1
数理統計学第10回
Boxplot
|
|
|
|
|
+-----+
|
|
*--+--*
|
|
|
|
+-----+
|
|
|
|
|
14
並べ替え検定の手順
1.検定統計量を選択する.
e.g. 片方の群の和、順位和、平均値の差
2.得られたデータで検定統計量を計算する.
e.g. 121+118+110+90=439
3.permutationによって検定統計量の分布を
調べる.
4.得られたデータ以上に極端な場合の頻度を
数え上げる(2/70).
数理統計学第10回
15
並べ替え検定
permutation test
• ノンパラメトリック検定:αエラーの制御
複雑な仮定を必要としない.
• 拡張が容易
• 統計量の選択によっては、漸近的には最強力な検
定と同程度の検出力を有する.
• 計算に時間がかかる→ハードウエアの進歩
ネットワークアルゴリズム
• 正確な検定、randomization検定
数理統計学第10回
16
正確な検定と並べ替え検定
exact test and permutation test
• exact test(検定の性質)
(distribution free)
• permutation test(検定の構成原理)
(randomization test)
• permutation testはノンパラメトリック検定
• ノンパラメトリック検定≠permutation test
数理統計学第10回
17
可能な組み合わせの数
(2N!)/(N!N!)
N
1
2
3
4
5
6
7
8
9
パターン数
2
6
20
70
252
924
3432
12870
48620
N
10
20
30
40
50
100
数理統計学第10回
パターン数
184756
137846528820
1.1826458×1017
1.0750721×1023
1.0089134×1029
9.0548515×1058
18
並べ替え検定が必要な場合
多
パターン数
少
よい
理論分布による近似 悪い
1)サンプルサイズが小さい場合
2)スパースなデータ
3)外れ値を含んでいる場合
4)結果が微妙な場合
数理統計学第10回
19
並べ替え検定のプログラム
data ve;
do group=0 to 1;
do i=1 to 4;
input y @@;output;end;end;
cards;
95 34 22 12
121 118 110 90
;
proc freq data=ve;tables y*group/all;exact pcorr;
output out=result pcorr;
数理統計学第10回
20
並べ替え検定の結果
・FREQプロシジャの出力
H0: 相関 = 0 に対する検定
帰無仮説が正しいもとでの漸近標準誤差
Z
片側 Pr > Z
両側 Pr > |Z|
正確検定
片側 Pr >= r
両側 Pr >= |r|
0.2040
4.0040
<.0001
<.0001
0.0286
0.0571
・PRINTプロシジャの出力
OBS PL_PCORR
1
.
0.057143
PR_PCORR
P2_PCORR
.000031141
XPL_PCOR XPR_PCOR XP2_PCOR
.000062281
数理統計学第10回
.
0.028571
21
並べ替え分布
Stem Leaf
44
42
40
38
36
34
32
30
28
26
24
22
20
18
16
14
#
1
2
2
1
5
12
8
4
4
11
11
3
1
2
2
1
4
49
36
3
01381
001356812567
58903578
7578
4575
12245792347
12567014679
149
9
69
38
8
----+----+----+----+
Multiply Stem.Leaf by 10**+1
数理統計学第10回
Boxplot
|
|
|
|
|
+-----+
|
|
*--+--*
|
|
|
|
+-----+
|
|
|
|
|
22
有限母集団からの非復元抽出
大きさNの有限母集団:a1,a2,・・・,aN
大きさnの標本を非復元抽出:X1,X2,・・・,Xn
組合せの数:NCn=
N!
n!( N  n )!
Pr(X=ai1,ai2,・・・, ain)=1/NCn
注意 Xiの周辺分布はX1の周辺分布,
(Xi , Xj)の同時分布は(X1 , X2)の同時分布
に等しい.(順番は分布に影響しない)
数理統計学第10回
赤玉と青玉の例を思い出そう.
23
非復元抽出
同時にn個取出す
a8
2
a7
2
a2
2
a9
2
a1
2
a4
2
a3
2
a5
2
数理統計学第10回
a6
2
24
平均と分散
・母集団の期待値(母平均)と分散(母分散)
a
 ai
N
,  2 
2
(
a


)
 i
N
・標本平均X・の期待値と分散
E[ X ]   , V [ X ] 
N n
N 1
 N n
2
n N 1
:有限修正項
数理統計学第10回
25
標本平均と分散
 X1  X
E[ X ]  E 

2
 X
n
n



 X i
 E  i 1

n



  n  

n


 X1  X 2    X
V[X ]  V 
n

 X i
 V  i 1

n


n




2
2
n


 

2

n
n


X1,X2,・・・,Xnは独立でないため
数理統計学第10回
26
標本平均と分散


V  X i 
i 1


V[X ] 
n2
V X 1  X 2    X n 

n2
V  X i    Cov X i , X

i 1
i j

2
n

数理統計学第10回
j

27
標本平均と分散
V[X i ]  V[X1]   ,
2

Cov X i , X
V[X ] 
j
  CovX
1
, X2
 V X    CovX
i 1
i
i j
i
,X
j

n2
nV  X 1   n( n  1)Cov X 1 , X 2 

2
n
Cov X 1 , X 2 は?
数理統計学第10回
28
標本平均と分散
Cov X 1 , X 2   E[( X 1  1 )( X 2   2 )]
 E[ X 1 X 2 ]  1  2  E[ X 1 X 2 ]  1
2
1
P r(X 1  a1 , X 2  a 2 ) 
N ( N  1)
2


2
ai a j

 a i    a i
i j
i 1
i 1


E[ X 1 X 2 ] 

N ( N  1)
N ( N  1)
数理統計学第10回
29
N=5の場合
(a1a2) (a1a3) (a1a4) (a1a5) (a2a3)
(a2a4) (a2a5) (a3a4) (a3a5) (a4a5)
(a1+a2+a3+a4+a5)2=
a12 +a1a2+a1a3+a1a4+a1a5
+a2a1+a22 +a2a3+a2a4+a2a5
+a3a1+a3a2+a32 +a3a4+a3a5
+a4a1+a4a2+a4a3+a42 +a4a5
+a5a1+a5a2+a5a3+a5a4+a52
数理統計学第10回
30
標本平均と分散
Cov X 1 , X 2   E[ X 1 X 2 ]  1
2


 a i    a i
i 1
  i 1 
N ( N  1)
2
2
  ai
  i 1
 N


2





2
a
2
i
1
1 

 
i 1
  a i  


2 
N
(
N

1
)
N  N ( N  1)
 i 1  
  (ai   ) 2
2


i 1


N ( N  1)
N 1
31
数理統計学第10回
X1がaiのときはX2はaiを取り得ないので負の相関が生じる.
標本平均と分散
nV  X 1   n(n  1)Cov X 1 , X 2 
V[X ] 
2
n
2

2
n  n(n  1)
2
2

(n  1)
N

1



2
n
n( N  1)
n
( N  1)  (n  1)

n( N  1)
2
2
数理統計学第10回
( N  n)

n( N  1)
2
32
超幾何分布の分散
袋の中にN個の玉があって,そのうち
比率p1で赤球,比率1-p1で青玉が入っている.
n個を非復元抽出したときの赤の個数の分散は?
復元抽出のときの分散: σ2=np1(1-p1)
非復元抽出のときの分散:
N n
N n

 np1 (1  p1 )
N 1
N 1
復元抽出:二項分布
2
超幾何分布:非復元抽出
数理統計学第10回
33
確認実験
袋の中にNN個の玉があって,そのうち
比率0.5(p)で赤球が入っている.10(N)個非復
元抽出したときの赤球の個数の分布(Y)は?
NN=10,20,・・・,100
それぞれ1万回のシミュレーションを行う.
復元抽出(二項分布の場合)
E[Y]=Np=5,V[Y]=Np(1-p)=1.582
数理統計学第10回
34
SASプログラム
data data;
p=0.5;n=10;
do nn=10 to 100 by 10;
do i=1 to 10000;
r=nn*p;
y=rand('hypergeometric',nn,r,n);
output;
end;end;
proc means maxdec=2;var y;class nn;
run;
数理統計学第10回
35
シミュレーションの結果
オブザーべション
nn
N
平均値 標準偏差 最小値 最大値
-------------------------------------------------10 10000
5.00
0.00
5.00
5.00
20 10000
4.99
1.15
1.00
9.00
30 10000
5.00
1.31
0.00
10.00
40 10000
5.00
1.39
0.00
10.00
50 10000
5.01
1.44
0.00
10.00
60 10000
5.00
1.44
0.00
10.00
70 10000
4.99
1.47
0.00
10.00
80 10000
4.98
1.50
0.00
10.00
90 10000
5.01
1.50
0.00
10.00
100 10000
5.00
1.50
0.00
10.00
36
数理統計学第10回
---------------------------------------------------
演習 標本平均X・の期待値と分散を計算せよ
また復元抽出の場合と結果を比較せよ
非復元抽出
同時に2個取出す
X
22
X
21
23
25
24
21
22
数理統計学第10回
37