正規性の検定 ● Χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定 地理生態学研究室 3年 宮内 麻衣 2010.3.8 正規性の検定の意義 ・パラメトリック検定 (対象がある特定の分布に従う時) ・ノンパラメトリック検定 (対象が特定の分布に従わない時、サンプル数が極端に少ない 時) のどちらを行うか決める上で重要! 正規性の検定のいろいろ ①χ2分布を用いる適合度検定 ②コルモゴロフ‐スミノルフ検定 ③リリフォース 検定 (②の改良版) ④シャピロ‐ウィルク のW 検定 (標本数が少ない場合) ⑤肉眼的判断(ヒストグラム・箱ひげ図) 各々検出力が異なる Χ2分布を用いる適合度の検定 ・名義尺度の場合に使用できる。 名義尺度 血液型の場合には,A 型:1、B 型: 2、AB 型: 3、O 型:4のように 数値に対応させる場合。 これらの数値は血液型を 区別するために使われているだけであ る。 例≪サイコロを 56 回振って目の出方を調べたところ,表 のようになった。このサイコ ロは正しいサイコロといえるだろうか≫ 表 .サイコロの目の出た回数 出た目 1 2 3 4 5 度数 10 12 9 4 13 6 合 計 8 56 1. 前提 帰無仮説 H0:「「サイコロの目の出方の確率は各々 対立仮説 H1:「「サイコロの目の出方の確率は各々 である」 でない」 2. 56個のケースが,6個のカテゴリーに分類されている。 表 .サイコロの目の出た回数 3. Oi 第 i カテゴリーの観察値 出た目 1 2 3 4 5 度数 10 12 9 4 13 O1 = 10,O2 = 12,... ,O6 = 8 4. Ei 第 i カテゴリーの期待値 正しいサイコロならば,どの目の出る確率も等しく 1/6 であるはずである したがって,各目の出る期待値は,E1 = E2 = ... = E6 =56×(1/6) = 9.333 である。 6 合 計 8 56 5. 以下の式で検定統計量を計算する。 χ20 = [ (10-56/6)2+(12-56/6)2+ ... + (8-56/6)2 ] / (56/6) = 5.5 6.有意確率を 求める 自由度 5 の χ2分布において, P = 0.3579459>0.05 7. 帰無仮説を採択する。 すなわち,「サイコロの目の出方の確率は各々 一様分布に従う である」 1標本コルモゴロフ-スミルノフ検定 ・順序尺度以上の場合に用いる。 ■順序尺度 治療効果の判定において,悪化を -1,不変を 0,改善を 1,著効 を 2 のように数値に対応させる場合。 ■順序尺度以上 間隔尺度(数値の差のみに意味がある場合) 比例尺度(数値の比にも意味がある場合) を含む 確率変数(Xとする)と、一般に標準正規分布では と表される。 確率変数1.65以上が95%の場合は、 と表される。 「標準正規分布」の「累積分布関数」と呼ばれている。 正規分布でないときも、 と表せる。これを一般にF(x)と表す。 コルモゴロフ=スミノルフ検定はこのF(x)をサンプルから定めて行う検定。 1標本コルモゴロフ-スミルノフ検定 Ⅹ≦1.65が確率0.95=「n個のサンプル値の中で0.95n個が1.65以下」 つまり、F(x)に従うサンプルに対しては であるはずで、逆に両辺が大きくくい違えば、 帰無仮説H0:母集団分布はF(x) は棄却される。 1標本コルモゴロフ-スミルノフ検定 そこで、サンプルx1,x2, …,xnでx以下の累積度数の率 を「経験累積分布関数」と呼ぶ。 これをxごとにF(x)との差で対照し 最も大きいずれ つまり を統計量として判断する。 Dを最大偏差統計量という。 例えば・・・ 2 個のサイコロを1000 回振って毎回の出た目の和を記録するという実験を行った結 果を,表 に示す。 和x i 2 3 4 5 6 7 8 9 10 11 12 合計 度数 相対度数 累積相対度数 確率F(x i) 分布関数Fn(x i) 23 0.023 0.023 1/36=0.028 1/36=0.028 48 0.048 0.071 2/36=0.056 3/36=0.083 90 0.09 0.161 3/36=0.083 6/36=0.167 101 0.101 0.262 4/36=0.111 10/36=0.278 158 0.158 0.42 5/36=0.139 15/36=0.417 160 0.16 0.58 6/36=0.167 21/36=0.583 135 0.135 0.715 5/36=0.139 26/36=0.722 122 0.122 0.837 4/36=0.111 30/36=0.833 87 0.087 0.924 3/36=0.083 33/36=0.917 50 0.05 0.974 2/36=0.056 35/36=0.972 26 0.026 1 1/36=0.028 36/36=1.000 1000 1 1 F(x):標準正規分布の累積分布関数 Fn(x):経験累積分布関数 例≪血糖値データの正規分布チェック≫ 36人の男性被験者に対する空腹時血糖値が、平均80標準偏差6の正規分布(80,36) に従っているか? 75,92,80,80,84,72,84,77,81,77,75,81,80,92,72,77,78,76 77,86,77,92,80,78,68,78,92,68,80,81,87,76,80,87,77,86 小さい方から並べて順序統計量に直し、順序統計量の値ごとに計算する。 F(x):標準正規分布の累積分布関数 Fn(x):経験累積分布関数 観察度数 相対度数 累積度数 F(x) Fn(x) 68 72 ….. ….. 87 92 2 2 …. …. 2 2 2 4 ….. ….. 32 36 0.0228 0.0918 …. …. 0.879 0.9772 0.0556 0.1111 …. …. 0.8889 1.0000 差の最大をDとすると、D=0.1547である。 0.0328 0.0193 …. …. 0.0099 0.0228 n≧35(n<40とする数表もある)のケースDの境界値表 α 0.20 0.15 0.10 0.05 0.01 Dの棄却値 1.07/√n 1.14/√n 1.22/√n 1.36/√n 1.63/√n n=36のケースでは、α=0.05に対して棄却値は1.36/ =0.23であり、 D=0.1547<0.23 この血糖値データが正規分布N(80,62)からのサンプルであるとの仮説は棄てられない。 正規分布に従うと言える 参考文献 松原望著(2007) 『入門 統計解析 医学・自然科学編』 東京図書 356pp. 「おしゃべりな部屋」 (群馬大学 青木繁伸) http://aoki2.si.gunma-u.ac.jp/
© Copyright 2025 ExpyDoc