数理統計学(第十一回) ノンパラ検定とは?2 浜田知久馬 数理統計学第11回 1 非復元抽出の期待値と分散 ・母集団の期待値(母平均)と分散(母分散) a ai N , 2 2 ( a ) i N ・標本平均X・の期待値と分散 E[ X ] , V [ X ] (N-n)/(N-1):有限修正項 N n 2 n N 1 n N : V [ X ] 0 n 1 : V [ X ] 数理統計学第11回 2 n 2 和の平均と分散 E[ n X ] n n a, 2 N n 2 n ( N n) 2 V [n X ] n n N 1 N 1 N n mのときは 2 N n 2 nm V [n X ] n 2 n N 1 n m 1 2 2 ( a ) ( a ) i i 2 N nm nm ( a i ) 2 V [n X ] (n m )(n m 1) 数理統計学第11回 3 並べ替え検定の近似 標本:x1,x2,・・・,xm , y1,y2,・・・,yn に基づいて並べ替え検定 m+n個のデータをまとめて z1,z2,・・・,zm , zm+1,・・・,zm+n 検定統計量: n U yj j 1 m n z j m 1 j と表す. ny 有限母集団からの非復元抽出の結果より, E[U ] n z V [U ] n 2 nm ( z i z ) 2 m n nm 1 ( n m)(n m 1) 数理統計学第11回 2 4 並べ替え検定の近似 検定の構成 U E[U ] V [U ] n y mx U E[U ] n y n z n y n nm n 2 y nm y n 2 y nmx nm( y x) nm nm 検定統計量U ⇒ 平均値の差の検定と等価 数理統計学第11回 5 並べ替え検定の近似 全平方和=群内平方和+群間平方和 nm m n nm ( z i z ) ( xi x ) ( y i y ) ( y x ) nm i 1 i 1 i 1 2 2 2 m n s (n m 2) ( xi x) ( yi y ) 2 2 2 i 1 2 i 1 nm nm ( z i z ) s (n m 2) ( y x) nm i 1 2 2 2 s2はプールした群内分散 数理統計学第11回 6 平方和 の分解 nm m n i 1 i 1 i 1 m m i 1 i 1 2 2 2 ( z z ) ( x z ) ( y z ) i i i 2 2 ( x z ) ( x x x z ) i i n y mx ( xi x) ( x z ) z nm i 1 i 1 m m 2 2 nx mx n y mx n y mx 2 (x ) n m n m i 1 i 1 m m 2 2 nx n y ( x y ) 2 数理統計学第11回 m n 2 n m ( n m ) i 1 m 2 7 平方和 の分解 ( x y) ( yi z ) m n 2 ( n m ) i 1 2 n 2 2 nm m n i 1 i 1 i 1 2 2 2 ( z z ) ( x x ) ( y y ) i i i ( x y) ( x y) 2 mn m n 2 ( n m) ( n m) 2 2 2 2 2 ( x y ) s 2 ( n m 2) m n ( n m) 数理統計学第11回 8 U E[U ] V [U ] nm( y x) U E[U ] nm 2 nm ( z i z ) V [U ] (n m)(n m 1) ( x y) ( z i z ) s ( n m 2) m n ( n m) i 1 nm 2 2 2 nm s2 (n m 2) n 2 m 2 ( x y) 2 V [U ] (n m)(n m 1) ( n m) 2 (n m 1) 数理統計学第11回 9 並べ替え検定の近似 Z U E[U ] V [U ] nm( y x ) nm nm s2 ( n m 2) n 2 m 2 ( x y) 2 ( n m)(n m 1) ( n m) 2 ( n m 1) ( y x) s 2 ( n m 2)(n m) ( x y) 2 nm( n m 1) ( n m 1) 数理統計学第11回 10 t検定統計量 t yx 1 1 s n m 2 yx s nm nm s 2 ( n m 2) m n i 1 i 1 2 2 ( x x ) ( y y ) i i 数理統計学第11回 11 並べ替え検定の近似 t yx nm s nm Z = 分子分母に 1 nm s nm をかける ( y x) s 2 ( n m 2)(n m) ( x y) 2 nm( n m 1) ( n m 1) t nm2 t n m 1 ( n m 1) 2 数理統計学第11回 ≒ t ( n m 0) 12 並べ替え検定の正規近似 ビタミンEデータ n=m=4 U=121+118+110+90 = 439 E[U ] n z 4 75.25 301 (z z ) nm 14273.5 4 4 V [U ] (n m)(n m 1) 8 7 2 i 4078.14 63.9 2 Uの分布はN(301, 63.92)で近似できる. 数理統計学第11回 13 並べ替え分布とその正規近似 数理統計学第11回 14 正規近似の検定 Z U E[U ] 439 301 2.16 63.9 V [U ] 正規分布で,2.16以上の値がでる確率は 0.0308 並べ替え分布のp値 0.057(4/70) t検定のp値 0.028 この例ではNが小さいので結果は,微妙に異な るがNが大きくなれば,ほぼ等しくなる. 数理統計学第11回 15 t検定の前提条件 • X1, X2, X3, X4 ~N(μx,σx2) • Y1, Y2, Y3, Y4 ~N(μy,σy2) 1) XとYが確率変数であること 2)Xは相互に独立で同一の分布にしたがう 3)Yは相互に独立で同一の分布にしたがう 4)XとYが独立 5)XとYが正規分布にしたがう (等分散) 6)σx2=σy2 (等分散) 数理統計学第11回 16 t検定の結果 t yx 1 1 s n m 2 H 0 : x y , x 40.75, y 109.75 • t値=3.47 帰無仮説の下でt値は自由度6のt分布にしたがう. • p=0.028(3.47以上に極端な値が出る確率) • 並べ替え検定 p=0.057 • t検定は漸近的には並べ替え検定を近似する. 数理統計学第11回 17 t検定の正当化 1)中心極限定理 元の分布が正規分布でなくても,nが大きくな ると,平均値の分布は正規分布に近づく. 2)並べ替え検定 並べ替え(無作為化割付け)に基づいて t検定はnが大きくなると,並べ替え検定の 結果を近似する. 数理統計学第11回 18 並べ替え検定 ・並べ替え分布の計算は困難 ・並べ替え分布はデータに依存 ・簡便にノンパラメトリック検定を行なう方法はな いのか. 生データではなく,順位を用いて検定を行なう. Nが決まれば,順位の分布は定まる. ⇒ウイルコクソン検定 数理統計学第11回 19 ウイルコクソン検定 ビタミンE群 生データ 121 118 110 90 12 順位 8 7 6 4 1 対照群 95 34 22 5 3 2 順位和=4+6+7+8=25 数理統計学第11回 20 順位和の分布 8C4=(8×7×6×5)/(4×3×2×1)=70通り ビタミンE群 121 121 121 121 121 121 118 118 118 118 118 118 110 110 110 110 110 95 95 90 34 22 12 90 順位 8 8 8 8 8 8 7 7 7 7 7 7 6 6 6 6 6 5 順位和 5 4 3 2 1 4 26 25 24 23 22 24 : 数理統計学第11回 21 図2 順位和の並べ替え分布の幹葉表示と箱ひげ図 正確なウイルコクソン検定 p=2/70(片側) Stem 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 Leaf 0 0 00 000 00000 00000 0000000 0000000 00000000 0000000 0000000 00000 00000 000 00 0 0 ----+----+----+----+ 数理統計学第11回 # 1 1 2 3 5 5 7 7 8 7 7 5 5 3 2 1 1 Boxplot | | | | | | +-----+ | | *--+--* | | +-----+ | | | | | | 22 順位の期待値と分散 nm N n a i i 1 N N ( N 1) N 1 2N 2 n 2 2 ( i a ) i 1 n i i 1 2 a 2 N N N ( N 1)(2 N 1) ( N 1) 2 6N 4 2( N 1)(2 N 1) 3( N 1) 2 12 ( N 1)(4 N 2 3 N 3) ( N 1)( N 1) 12 数理統計学第11回 12 23 標本の順位和(U)の分布 N 1 n( n m 1) E[U ] n 2 2 2 2 N n n m V [U ] n 2 n N 1 n m 1 n m( N 2 1) n m( n m 1) 1 2( n m 1) 12 2 N 2 1 12 ビタミンEの例 E[U]=4・9/2=18 数理統計学第11回 V[U]=4・4・9/12 =12=3.4642 24 SASによるプログラム data ve; do group=0 to 1; do i=1 to 4; input y @@;output;end;end; cards; 95 34 22 12 121 118 110 90 proc npar1way wilcoxon; class group;var y;exact wilcoxon;run; 数理統計学第11回 25 ウイルコクソン検定の結果 Wilcoxon Scores (Rank Sums) for Variable y Classified by Variable group Sum of Expected Std Dev Mean group N Scores Under H0 Under H0 Score ------------------------------------------------V[U]の 0 4 11.0 18.0 3.464102 2.750 平方根 1 4 25.0 18.0 3.464102 6.250 Wilcoxon Two-Sample Test Statistic (S) 11.0000 2/70 Exact Test One-Sided Pr <= S 0.0286 Two-Sided Pr >= |S - Mean| 0.0571 Kruskal-Wallis Test 4/70 Chi-Square 4.0833 DF 1 (UーE[U])2 Pr > Chi-Square 0.0433 E[U] 数理統計学第11回 V[U] 26 順位検定の利点と欠点 • 利点 1)外れ値の影響を受けにくい. 2)歪んだ分布に対しても検出力が高い. 3)打ち切りデータを扱うことができる. 4)順序カテゴリ-データも扱える. • 欠点 1)Nが小さいときは性能が悪い. 2)信頼区間の構成等が困難 数理統計学第11回 27 対応のないウイルコクソン検定 雌ラットのチロキシンの血中濃度 対照群 平均(1.89) SD(0.42) 1.89 2.03 2.43 1.52 2.55 2.22 1.86 1.69 1.26 1.49 7 9 14 4 16 11.5 6 5 2 3 薬剤群 平均(2.33) SD(0.48) 2.40 2.83 2.69 2.15 1.98 2.62 2.22 2.51 2.72 1.20 13 20 18 10 8 17 11.5 15 19 1 t検定 t=2.16 p=0.04 1.20→1.10 t検定 t=2.05 p=0.06 数理統計学第11回 28 散布図 数理統計学第11回 29 対応のないウイルコクソン検定 • 2群を一緒にして,データを1~20の順位 に変換する. 1+2+3+・・・+20=210 帰無仮説の下での順位和の期待値=105 順位和: 対照群:77.5 薬剤群:132.5 132.5-105=27.5 p値:帰無仮説の下で27.5以上の 差が生じる確率 数理統計学第11回 30 対応のないウイルコクソン検定 • p値の計算方法 1)正確な並べ替え分布の計算 (p=0.0374) (統計数値表でp値を参照) 2)正規分布で近似 (p=0.0376) 3)連続修正をして正規分布で近似(p=0.0412) 4)t分布で近似 (p=0.0553) 5)タイ(同順位)データに対する補正 結果が微妙に異なる. 数理統計学第11回 31 ウイルコクソン検定の特徴 1)外れ値に対してロバスト 1.20→1.10 or 1.20→0.12 結果は不変 2)単調変換に対して結果が不変 3)検出限界以下のデータも可(最低順位) 4)順序カテゴリカルデータも可 蛋白量 - ± ++ +++ 計 対照群 40 24 10 6 80 薬剤群 24 29 16 11 80 計 64 53 26 17 160 平均順位 32.5 91 130.5 152 数理統計学第11回 32 t検定とウイルコクソン検定 1)両手法ともvalidity robustnessは有する. αエラーは制御できる. 2)efficiency robustness 正規分布に近いとき t>w (相対効率3/π=95.5%) 歪んだ(外れ値を含む)分布 t<w 数理統計学第11回 33 演習 順位和検定 VE添加群 対照群 920 121 118 90 95 34 22 1)VE添加群の順位和Uを計算せよ. 2)7つのペトリ皿を2群に4枚と3枚に分け る組み合わせの数はいくつか? 3)得られたデータよりVE添加群の順位和が多 くなるパターンを列記せよ. 4) ウイルコクソン検定の片側p値を計算せよ. 5) E[U]とV[U]を計算せよ. 数理統計学第11回 34 数理統計学の教科書 竹内啓(1963)「数理統計学」 東洋経済新報社 吉村功(1969) 「数理統計学」 培風館(廃刊) 竹村彰通(1991)「現代数理統計学」 創文社 数理統計学第11回 35
© Copyright 2024 ExpyDoc