統計学第10回 - Minato Nakazawa / 中澤 港

統計学第10回
多群の差を調べる~
一元配置分散分析と多重比較
中澤 港
http://phi.ypu.jp/stat.html
<[email protected]>
(Q&Aから)5%水準で有意でないとは?
前回の例題:東京の集合住宅群と一戸建て群の間で水道水の遊離
残留塩素濃度に差があるか?
どちらが高いとか低いとかいった事前情報はないので,帰無仮説「集
合住宅群と一戸建て群の間で水道水の遊離残留塩素濃度に差はな
い」の両側検定。
「有意水準を5%にする」とは,「帰無仮説が偶然に成り立つ確率が5%
未満であれば,統計的に意味があるほど稀な現象なので帰無仮説は
成り立たないとみなす」ということ。
「5%水準で有意でない」とは,「帰無仮説が偶然に成り立つ確率が5%
未満であれば,統計的に意味があるほど稀な現象なので帰無仮説は
成り立たないとみなすとした(=有意水準を5%にした)のに,データか
ら計算するとその確率が5%より大きくなってしまったので,統計的に意
味があるほど稀ではなく,帰無仮説が成り立たないとはみなせない」
この例でいえば,有意水準を5%にしたのに,「集合住宅群と一戸建て
群の間で水道水の遊離残留塩素濃度に差がない」条件下で,実際に
得られているデータが偶然得られる確率は5%より大きいので,「差が
ない」という帰無仮説が棄却されなかったということ。
3群以上の差を比べるには?
単純にt検定や順位和検定を繰り返してはいけ
ない。個々の検定についての有意水準を例えば
5%にすると,何度も検定する中で1つくらい間違
って帰無仮説を棄却してしまう確率(第1種の過
誤)が5%よりずっと大きくなってしまうから。
2つの解決法
一元配置分散分析またはクラスカル=ウォリ
スの検定(群分け変数が量的変数に与える効
果という捉え方にする)
第1種の過誤を調整する多重比較
一元配置分散分析
総変動を群間変動と誤差変動に分解し,群間変動が誤差変動
の何倍かという値がF分布に従うことを利用して検定する(群間
変動が誤差変動に比して大きいことは,データのばらつきの多く
が群間のばらつきによって説明されることを意味する)。
群数a。第i群の第j番目のデータをxijと書くと,総変動STは,
群間変動SAと誤差変動SEは,
自由度は,PA=a-1,PE=N-aであり,VA=SA/PA,VE=SE/PE
より,F0=VA/VEが第1自由度PA,第2自由度PEのF分布に従うと
して検定。
Rでは,summary(aov(量的変数 ~ 群分け変数))で実行
クラスカル=ウォリスの検定
「少なくともどれか1組の群間で大小の差がある」という対
立仮説に対する「すべての群の間で大小の差がない」と
いう帰無仮説を検定。
まず2群の比較の場合の順位和検定と同じく,すべての
データを込みにして小さい方から順に順位をつける(同順
位がある場合は平均順位を与える)。
次に,各群ごとに順位を足し合わせて,順位和Ri(i =
1,2,...,k; k は群の数) を求める
各群のオブザーベーションの数をそれぞれni,全オブザ
ーベーション数をN としたとき,各群について統計量Bi を
Bi=ni{Ri/ni-(N+1)/2}2 として計算し,Biの総和Bを求め,
H=12B/{N(N+1)}とし(同順位があるときはさらに補正),
表から,または自由度k-1のカイ二乗検定で検定。
Rではkruskal.test(量的変数 ~ 群分け変数)で実行。
多重比較の概要
3つ以上の群があるときに,群間に差があるか
どうかを調べるには,単純に2群間の比較を繰
り返すのでは第1種の過誤が大きくなるのでそこ
を調整しなくてはならない。
「帰無仮説族」という考え方をする
たくさんの方法が提案されているが,現在では
使わない方が無難な方法もある。例えば,無制
約LSD法とか,ダンカンの方法は第1種の過誤
を正しく調整できないので使ってはいけない。
対照群がなければ,ボンフェローニかホルムま
たはTuekyのHSDを用いる。対照群があればダ
ネットかウィリアムズの方法を用いる。
ボンフェローニの方法
ボンフェローニの不等式「正しい帰無仮説のうちの
少なくとも1つが誤って棄却されてしまう確率は,個
々の正しい帰無仮説が誤って棄却されてしまう確率
の和以下になる」を利用する。
k個の帰無仮説からなる帰無仮説族全体の有意水
準をαにするために,個々の帰無仮説の有意水準
をα/kにして棄却か保留かを判断する。
Rではpairwise.t.test(量的変数, 群分け変数,
p.adjust.method=”bonferroni”)か
pairwise.wilcox.test(量的変数, 群分け変数,
p.adjust.method=”bonferroni”)で,個々の帰無仮説
の有意確率をk倍した値が表示される。
ホルムの方法
ボンフェローニの方法は明らかに第1種の過誤
を小さくしすぎなので,もうちょっと工夫が必要。
帰無仮説族全体の有意水準をαにするため,k
個の帰無仮説の個々の有意確率を計算して小
さい順に,i番目を有意水準α/(k-i+1) で棄却か
保留か判断する。1つでも保留になったら,それ
以後は全部保留。
Rではpairwise.t.test(量的変数, 群分け変数)か
pairwise.wilcox.test(量的変数, 群分け変数) で,
個々の帰無仮説についての確率を(k-i+1) 倍し
た値が表示される。
テューキーのHSD
母集団の分布の正規性と各群の等分散性を仮定。
すべての群間の比較について,誤差分散を使った
t0=|ti-tj|/√VE(1/ni+1/nj) を計算し,ステューデント
化された範囲の分布(Studentized range distribution)
と呼ばれる分布の(1-α)×100%点を√2で割った値
との大小で有意水準αの検定をする方法である。
Rでは,TukeyHSD(aov(量的変数~群分け変数))です
べての2群間の比較について,差の95%信頼区間が
表示される。