正規性の検定

正規性の検定
● Χ2分布を用いる適合度検定
●コルモゴロフ‐スミノルフ検定
地理生態学研究室 3年 宮内 麻衣
2010.3.8
正規性の検定の意義
・パラメトリック検定
(対象がある特定の分布に従う時)
・ノンパラメトリック検定
(対象が特定の分布に従わない時、サンプル数が極端に少ない
時)
のどちらを行うか決める上で重要!
正規性の検定のいろいろ
①χ2分布を用いる適合度検定
②コルモゴロフ‐スミノルフ検定
③リリフォース 検定 (②の改良版)
④シャピロ‐ウィルク のW 検定 (標本数が少ない場合)
⑤肉眼的判断(ヒストグラム・箱ひげ図)
各々検出力が異なる
Χ2分布を用いる適合度の検定
・名義尺度の場合に使用できる。
名義尺度
血液型の場合には,A 型:1、B 型: 2、AB 型: 3、O 型:4のように
数値に対応させる場合。
これらの数値は血液型を 区別するために使われているだけであ
る。
例≪サイコロを 56 回振って目の出方を調べたところ,表 のようになった。このサイコ
ロは正しいサイコロといえるだろうか≫
表 .サイコロの目の出た回数
出た目
1
2
3
4
5
度数
10
12
9
4
13
6 合
計
8 56
1. 前提
帰無仮説 H0:「「サイコロの目の出方の確率は各々
 対立仮説 H1:「「サイコロの目の出方の確率は各々

である」
でない」
2. 56個のケースが,6個のカテゴリーに分類されている。
表 .サイコロの目の出た回数
3. Oi 第 i カテゴリーの観察値
出た目
1
2
3
4
5
度数
10
12
9
4
13
O1 = 10,O2 = 12,... ,O6 = 8
4. Ei 第 i カテゴリーの期待値
正しいサイコロならば,どの目の出る確率も等しく 1/6 であるはずである
したがって,各目の出る期待値は,E1 = E2 = ... = E6 =56×(1/6) = 9.333 である。
6 合
計
8 56
5. 以下の式で検定統計量を計算する。
χ20 = [ (10-56/6)2+(12-56/6)2+ ... + (8-56/6)2 ] / (56/6) = 5.5
6.有意確率を 求める
自由度 5 の χ2分布において,
P = 0.3579459>0.05
7. 帰無仮説を採択する。
すなわち,「サイコロの目の出方の確率は各々
一様分布に従う
である」
1標本コルモゴロフ-スミルノフ検定
・順序尺度以上の場合に用いる。
■順序尺度
治療効果の判定において,悪化を -1,不変を 0,改善を 1,著効
を 2 のように数値に対応させる場合。
■順序尺度以上
間隔尺度(数値の差のみに意味がある場合)
比例尺度(数値の比にも意味がある場合)
を含む
確率変数(Xとする)と、一般に標準正規分布では
と表される。
確率変数1.65以上が95%の場合は、
と表される。
「標準正規分布」の「累積分布関数」と呼ばれている。
正規分布でないときも、
と表せる。これを一般にF(x)と表す。
コルモゴロフ=スミノルフ検定はこのF(x)をサンプルから定めて行う検定。
1標本コルモゴロフ-スミルノフ検定
Ⅹ≦1.65が確率0.95=「n個のサンプル値の中で0.95n個が1.65以下」
つまり、F(x)に従うサンプルに対しては
であるはずで、逆に両辺が大きくくい違えば、
帰無仮説H0:母集団分布はF(x)
は棄却される。
1標本コルモゴロフ-スミルノフ検定
そこで、サンプルx1,x2, …,xnでx以下の累積度数の率
を「経験累積分布関数」と呼ぶ。
これをxごとにF(x)との差で対照し
最も大きいずれ
つまり
を統計量として判断する。
Dを最大偏差統計量という。
例えば・・・
2 個のサイコロを1000 回振って毎回の出た目の和を記録するという実験を行った結
果を,表 に示す。
和x i
2
3
4
5
6
7
8
9
10
11
12
合計
度数 相対度数 累積相対度数 確率F(x i) 分布関数Fn(x i)
23 0.023
0.023 1/36=0.028 1/36=0.028
48 0.048
0.071 2/36=0.056 3/36=0.083
90 0.09
0.161 3/36=0.083 6/36=0.167
101 0.101
0.262 4/36=0.111 10/36=0.278
158 0.158
0.42 5/36=0.139 15/36=0.417
160 0.16
0.58 6/36=0.167 21/36=0.583
135 0.135
0.715 5/36=0.139 26/36=0.722
122 0.122
0.837 4/36=0.111 30/36=0.833
87 0.087
0.924 3/36=0.083 33/36=0.917
50 0.05
0.974 2/36=0.056 35/36=0.972
26 0.026
1 1/36=0.028 36/36=1.000
1000
1
1
F(x):標準正規分布の累積分布関数
Fn(x):経験累積分布関数
例≪血糖値データの正規分布チェック≫
36人の男性被験者に対する空腹時血糖値が、平均80標準偏差6の正規分布(80,36)
に従っているか?
75,92,80,80,84,72,84,77,81,77,75,81,80,92,72,77,78,76
77,86,77,92,80,78,68,78,92,68,80,81,87,76,80,87,77,86
小さい方から並べて順序統計量に直し、順序統計量の値ごとに計算する。
F(x):標準正規分布の累積分布関数
Fn(x):経験累積分布関数
観察度数
相対度数
累積度数
F(x)
Fn(x)
68
72
…..
…..
87
92
2
2
….
….
2
2
2
4
…..
…..
32
36
0.0228
0.0918
….
….
0.879
0.9772
0.0556
0.1111
….
….
0.8889
1.0000
差の最大をDとすると、D=0.1547である。
0.0328
0.0193
….
….
0.0099
0.0228
n≧35(n<40とする数表もある)のケースDの境界値表
α
0.20 0.15
0.10
0.05 0.01
Dの棄却値 1.07/√n 1.14/√n 1.22/√n 1.36/√n 1.63/√n
n=36のケースでは、α=0.05に対して棄却値は1.36/
=0.23であり、
D=0.1547<0.23
この血糖値データが正規分布N(80,62)からのサンプルであるとの仮説は棄てられない。
正規分布に従うと言える
参考文献

松原望著(2007) 『入門 統計解析 医学・自然科学編』 東京図書 356pp.

「おしゃべりな部屋」
(群馬大学 青木繁伸)
http://aoki2.si.gunma-u.ac.jp/