数理統計学(第十回) ノンパラ検定とは?1 浜田知久馬 数理統計学第10回 1 パラとノンパラ • パラメトリック 特定の分布(狭義には正規分布)を仮定した方法 分布はパラメータ(例,μ,σ2)によって定まる. e.g. t検定 • ノンパラメトリック 特定の分布を仮定しない方法 (狭義にはデータの順位情報のみを用いる方法) e.g. ウイルコクソン検定 数理統計学第10回 2 パラとノンパラの仮定 パラ ノンパラ 赤:帰無仮説 緑:対立仮説 数理統計学第10回 3 パラとノンパラ パラ ノンパラ 位置の指標 平均 メディアン バラツキの指標 SD 4分位偏差 1標本検定 t検定(unpaired) ウイルコクソン 符号検定 2標本検定(対応) t検定(paired) ウイルコクソン 2標本検定 t検定(unpaired) ウイルコクソン サベージ,FW等 数理統計学第10回 4 パラとノンパラ パラ ノンパラ 多群比較 1-way ANOVA KW 多群比較(paired) 乱塊法 Friedman 相関係数 Pearson Spearman Kendall 用量相関 回帰分析 Jonckheere 多重比較 Dunnett Steel Tukey Steel-dwass Willimas Shirley-Willimas 数理統計学第10回 5 パラとノンパラ パラ 分布形の仮定 正規分布 等分散性 仮定 第1種の過誤 ≒α 正規分布のとき ◎ 外れ値が存在 × 変数変換 変 N<6 △ 料理に例えると 懐石 数理統計学第10回 ノンパラ 必要なし 仮定 常に<α ○ ○ 不変 × 電子レンジ 6 ノンパラ検定の仮説 X1, X2, ・・・, XN ~分布関数Fを持つ Y1, Y2, ・・・, YN ~分布関数Gを持つ 帰無仮説H0:F=G 対立仮説H1:F≠G(両側検定) 対立仮説H1:F<G(上側検定) 対立仮説H1:F>G(下側検定) 数理統計学第10回 7 ビタミンEに細胞増殖効果はあるのか? 浜君と石君で実験 4枚を通常栄養 4枚をビタミンE処理(PM11:00) 数理統計学第10回 8 翌朝(AM7:30) 実験は成功したが,石君は来なかった. 121 118 110 95 90 34 22 12 数理統計学第10回 9 (PM:2:00)浜君は考えてみた. ビタミンE処理群はどれか? 121 118 110 95 90 34 22 12 数理統計学第10回 10 8枚から4枚を選ぶ組み合わせの 数は? 8C4=(8×7×6×5)/(4×3×2×1)=70通り ビタミンE群 121 118 110 121 118 110 121 118 110 121 118 110 121 118 110 121 118 95 : 4枚の細胞数の和 95 444 90 439 34 383 22 371 12 361 90 424 数理統計学第10回 11 図1 並べ替え分布の幹葉表示と箱ひげ図 ビタミンEに増殖効果がなければ全てのパターンは等 しい確率で生じるはず. Stem 44 42 40 38 36 34 32 30 28 26 24 22 20 18 16 14 Leaf # 4 1 49 2 36 2 3 1 01381 5 001356812567 12 58903578 8 7578 4 4575 4 12245792347 11 12567014679 11 149 3 9 1 69 2 38 2 8 1 ----+----+----+----+ Multiply Stem.Leaf by 10**+1 数理統計学第10回 Boxplot | | | | | +-----+ | | *--+--* | | | | +-----+ | | | | | 12 (PM:4:55)石君到着 合計細胞数=439 121 118 110 95 90 34 22 12 数理統計学第10回 13 図1 並べ替え分布の幹葉表示と箱ひげ図 和が439以上になるのは2通り:確率2/70 Stem 44 42 40 38 36 34 32 30 28 26 24 22 20 18 16 14 Leaf 4 49 # 1 2 2 1 5 12 8 4 4 11 11 3 1 2 2 1 36 3 01381 001356812567 58903578 7578 4575 12245792347 12567014679 149 9 69 38 8 ----+----+----+----+ Multiply Stem.Leaf by 10**+1 数理統計学第10回 Boxplot | | | | | +-----+ | | *--+--* | | | | +-----+ | | | | | 14 並べ替え検定の手順 1.検定統計量を選択する. e.g. 片方の群の和、順位和、平均値の差 2.得られたデータで検定統計量を計算する. e.g. 121+118+110+90=439 3.permutationによって検定統計量の分布を 調べる. 4.得られたデータ以上に極端な場合の頻度を 数え上げる(2/70). 数理統計学第10回 15 並べ替え検定 permutation test • ノンパラメトリック検定:αエラーの制御 複雑な仮定を必要としない. • 拡張が容易 • 統計量の選択によっては、漸近的には最強力な検 定と同程度の検出力を有する. • 計算に時間がかかる→ハードウエアの進歩 ネットワークアルゴリズム • 正確な検定、randomization検定 数理統計学第10回 16 正確な検定と並べ替え検定 exact test and permutation test • exact test(検定の性質) (distribution free) • permutation test(検定の構成原理) (randomization test) • permutation testはノンパラメトリック検定 • ノンパラメトリック検定≠permutation test 数理統計学第10回 17 可能な組み合わせの数 (2N!)/(N!N!) N 1 2 3 4 5 6 7 8 9 パターン数 2 6 20 70 252 924 3432 12870 48620 N 10 20 30 40 50 100 数理統計学第10回 パターン数 184756 137846528820 1.1826458×1017 1.0750721×1023 1.0089134×1029 9.0548515×1058 18 並べ替え検定が必要な場合 多 パターン数 少 よい 理論分布による近似 悪い 1)サンプルサイズが小さい場合 2)スパースなデータ 3)外れ値を含んでいる場合 4)結果が微妙な場合 数理統計学第10回 19 並べ替え検定のプログラム data ve; do group=0 to 1; do i=1 to 4; input y @@;output;end;end; cards; 95 34 22 12 121 118 110 90 ; proc freq data=ve;tables y*group/all;exact pcorr; output out=result pcorr; 数理統計学第10回 20 並べ替え検定の結果 ・FREQプロシジャの出力 H0: 相関 = 0 に対する検定 帰無仮説が正しいもとでの漸近標準誤差 Z 片側 Pr > Z 両側 Pr > |Z| 正確検定 片側 Pr >= r 両側 Pr >= |r| 0.2040 4.0040 <.0001 <.0001 0.0286 0.0571 ・PRINTプロシジャの出力 OBS PL_PCORR 1 . 0.057143 PR_PCORR P2_PCORR .000031141 XPL_PCOR XPR_PCOR XP2_PCOR .000062281 数理統計学第10回 . 0.028571 21 並べ替え分布 Stem Leaf 44 42 40 38 36 34 32 30 28 26 24 22 20 18 16 14 # 1 2 2 1 5 12 8 4 4 11 11 3 1 2 2 1 4 49 36 3 01381 001356812567 58903578 7578 4575 12245792347 12567014679 149 9 69 38 8 ----+----+----+----+ Multiply Stem.Leaf by 10**+1 数理統計学第10回 Boxplot | | | | | +-----+ | | *--+--* | | | | +-----+ | | | | | 22 有限母集団からの非復元抽出 大きさNの有限母集団:a1,a2,・・・,aN 大きさnの標本を非復元抽出:X1,X2,・・・,Xn 組合せの数:NCn= N! n!( N n )! Pr(X=ai1,ai2,・・・, ain)=1/NCn 注意 Xiの周辺分布はX1の周辺分布, (Xi , Xj)の同時分布は(X1 , X2)の同時分布 に等しい.(順番は分布に影響しない) 数理統計学第10回 赤玉と青玉の例を思い出そう. 23 非復元抽出 同時にn個取出す a8 2 a7 2 a2 2 a9 2 a1 2 a4 2 a3 2 a5 2 数理統計学第10回 a6 2 24 平均と分散 ・母集団の期待値(母平均)と分散(母分散) a ai N , 2 2 ( a ) i N ・標本平均X・の期待値と分散 E[ X ] , V [ X ] N n N 1 N n 2 n N 1 :有限修正項 数理統計学第10回 25 標本平均と分散 X1 X E[ X ] E 2 X n n X i E i 1 n n n X1 X 2 X V[X ] V n X i V i 1 n n 2 2 n 2 n n X1,X2,・・・,Xnは独立でないため 数理統計学第10回 26 標本平均と分散 V X i i 1 V[X ] n2 V X 1 X 2 X n n2 V X i Cov X i , X i 1 i j 2 n 数理統計学第10回 j 27 標本平均と分散 V[X i ] V[X1] , 2 Cov X i , X V[X ] j CovX 1 , X2 V X CovX i 1 i i j i ,X j n2 nV X 1 n( n 1)Cov X 1 , X 2 2 n Cov X 1 , X 2 は? 数理統計学第10回 28 標本平均と分散 Cov X 1 , X 2 E[( X 1 1 )( X 2 2 )] E[ X 1 X 2 ] 1 2 E[ X 1 X 2 ] 1 2 1 P r(X 1 a1 , X 2 a 2 ) N ( N 1) 2 2 ai a j a i a i i j i 1 i 1 E[ X 1 X 2 ] N ( N 1) N ( N 1) 数理統計学第10回 29 N=5の場合 (a1a2) (a1a3) (a1a4) (a1a5) (a2a3) (a2a4) (a2a5) (a3a4) (a3a5) (a4a5) (a1+a2+a3+a4+a5)2= a12 +a1a2+a1a3+a1a4+a1a5 +a2a1+a22 +a2a3+a2a4+a2a5 +a3a1+a3a2+a32 +a3a4+a3a5 +a4a1+a4a2+a4a3+a42 +a4a5 +a5a1+a5a2+a5a3+a5a4+a52 数理統計学第10回 30 標本平均と分散 Cov X 1 , X 2 E[ X 1 X 2 ] 1 2 a i a i i 1 i 1 N ( N 1) 2 2 ai i 1 N 2 2 a 2 i 1 1 i 1 a i 2 N ( N 1 ) N N ( N 1) i 1 (ai ) 2 2 i 1 N ( N 1) N 1 31 数理統計学第10回 X1がaiのときはX2はaiを取り得ないので負の相関が生じる. 標本平均と分散 nV X 1 n(n 1)Cov X 1 , X 2 V[X ] 2 n 2 2 n n(n 1) 2 2 (n 1) N 1 2 n n( N 1) n ( N 1) (n 1) n( N 1) 2 2 数理統計学第10回 ( N n) n( N 1) 2 32 超幾何分布の分散 袋の中にN個の玉があって,そのうち 比率p1で赤球,比率1-p1で青玉が入っている. n個を非復元抽出したときの赤の個数の分散は? 復元抽出のときの分散: σ2=np1(1-p1) 非復元抽出のときの分散: N n N n np1 (1 p1 ) N 1 N 1 復元抽出:二項分布 2 超幾何分布:非復元抽出 数理統計学第10回 33 確認実験 袋の中にNN個の玉があって,そのうち 比率0.5(p)で赤球が入っている.10(N)個非復 元抽出したときの赤球の個数の分布(Y)は? NN=10,20,・・・,100 それぞれ1万回のシミュレーションを行う. 復元抽出(二項分布の場合) E[Y]=Np=5,V[Y]=Np(1-p)=1.582 数理統計学第10回 34 SASプログラム data data; p=0.5;n=10; do nn=10 to 100 by 10; do i=1 to 10000; r=nn*p; y=rand('hypergeometric',nn,r,n); output; end;end; proc means maxdec=2;var y;class nn; run; 数理統計学第10回 35 シミュレーションの結果 オブザーべション nn N 平均値 標準偏差 最小値 最大値 -------------------------------------------------10 10000 5.00 0.00 5.00 5.00 20 10000 4.99 1.15 1.00 9.00 30 10000 5.00 1.31 0.00 10.00 40 10000 5.00 1.39 0.00 10.00 50 10000 5.01 1.44 0.00 10.00 60 10000 5.00 1.44 0.00 10.00 70 10000 4.99 1.47 0.00 10.00 80 10000 4.98 1.50 0.00 10.00 90 10000 5.01 1.50 0.00 10.00 100 10000 5.00 1.50 0.00 10.00 36 数理統計学第10回 --------------------------------------------------- 演習 標本平均X・の期待値と分散を計算せよ また復元抽出の場合と結果を比較せよ 非復元抽出 同時に2個取出す X 22 X 21 23 25 24 21 22 数理統計学第10回 37
© Copyright 2024 ExpyDoc