第2章 確率と確率分布

第4章補足 分散分析法入門
統計学 2014年度
分散分析の考え方
• 2つの母集団の平均に差があるかどうかは、2つの標本に基
づくt検定をおこなうことができる。
• では、母集団が3つ以上になった場合はどうすればよいので
あろうか?
⇒ 3つの母集団をA,B,Cとすると、AとB、AとC、BとCの間
に差があるかどうかのt検定をおこなうことが可能
⇒ 検定の回数は多くなり、さらに4つ、5つとなると増えるに
したがって、非常に多くなる。
• 3つ以上の母集団の平均に差がないかどうかは、分散分析
を用いて検証する。
母集団1(個体数N1)
×
×
×
×
×
×
×
×
母集団2(個体数N2)
母集団3(個体数N3)
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
この差を検定
する。
標本1(個体数n1)
×
標本2(個体数n2)
×
×
標本3(個体数n3)
×
×
×
この差をもとに
• 最初に、3つの母集団について考えてみる。
• このとき、「母平均の間に差がない」という検定仮説は
H0: μA = μB = μC
となる。対立仮説は
H1: μA ≠ μB ≠ μC
ではなく(「だけではなく」の方が正確か?)、
H1: H0の否定
(μA ≠ μB ≠ μC 以外にμA = μB ≠ μC なども含まれる)
• この検定を、 「グループ間の分散がグループ内の分散に比
べて差がない」か、 「グループ間の分散がグループ内の分
散に比べて明らかに大きい」かということで分析する。
標本1(個体数n1)
この標本のデータ
𝑥11 , 𝑥12 , ⋯ , 𝑥1𝑛1
×
×
グループの平均
1
𝑥1 =
𝑛1
標本2(個体数n2)
×
𝑥1𝑗
𝑗=1
グループの平均
この標本のデータ
𝑥21 , 𝑥22 , ⋯ , 𝑥2𝑛2
×
𝑛1
1
𝑥2 =
𝑛2
𝑛2
𝑥2𝑗
𝑗=1
標本3(個体数n3)
×
×
グループの平均
この標本のデータ
𝑥31 , 𝑥32 , ⋯ , 𝑥3𝑛3
全体の平均
1
𝑥=
𝑛1 + 𝑛2 + 𝑛3
1
𝑥3 =
𝑛3
𝑛1
𝑛2
𝑥1𝑗 +
𝑗=1
𝑛3
𝑥2𝑗 +
𝑗=1
𝑥3𝑗
𝑗=1
𝑛3
𝑥3𝑗
𝑗=1
全変動 = グループ間変動 + グループ内変動
3
• 全変動
𝑛𝑖
𝑆𝑇 =
𝑥𝑖𝑗 − 𝑥
2
𝑖=1 𝑗=1
3
• グループ間変動
𝑆𝐺 =
𝑛𝑖 𝑥𝑖 − 𝑥
𝑖=1
3
• グループ内変動
2
𝑛𝑖
𝑆𝐸 =
𝑥𝑖𝑗 − 𝑥𝑖
𝑖=1 𝑗=1
2
分散分析表
変動要因 平方和
(変動)
グループ
間変動
𝑆𝐺
自由度
𝑔−1
グループ
内変動
𝑆𝐸
𝑛−𝑔
全変動
𝑆𝑇
𝑛−1
不偏分散
F
𝑆𝐺
𝑔−1
𝑆𝐺
𝑔−1
𝑆𝐸
𝑛−𝑔
𝑆𝐸
𝑛−𝑔
この不偏分散
の比が、検定
に用いられるF
統計量である
分散分析の例
• 全国展開している家電量販チェーン店の大手4社A,B,C,Dは
それぞれの出店地域で互いに価格競争をしており、それぞ
れ「一番安い」と宣伝している。
• ある年の夏に特定メーカーの特定機種のエアコンを各店舗
で調査したところ、表のようになった。
(単位: 万円)
A
7.1
7.5
7.4
7.7
7.8
7.0
7.5
B
7.2
7.7
7.3
7.8
7.7
7.1
7.6
C
7.5
7.8
7.4
7.9
7.8
7.3
7.8
D
7.0
7.3
7.0
7.4
7.5
6.9
7.3
7.7
7.6
7.5
7.4
4社のエアコン価格は同じといえるであろうか?
(出典: 大屋幸輔『コアテキスト統計学』238ページ)
• A,B,C,Dのそれぞれの平均を、 μA, μB, μC, μD とすると、検
定仮説は
H0: μA = μB = μC = μD
となる。分散分析表は下のようになる。
分散分析表
変動要因
変動
グループ間 0.650481
グループ内 1.789206
合計
2.439688
自由度
分散 観測された分散比 P-値
F 境界値
3 0.216827 3.39321253 0.031617 2.946685
28
0.0639
31
求められた分散比(F統計量) は3.393であり、自由度(3,28)の
F分布の片側95%の臨界値 2.947 を上回るので、H0を棄却
する。(P値が0.05を下回ることからもこの結論が言える)
よって、エアコンの価格は同じとはいえない。
• 4社の間で平均価格が等しくないということは分かった。
• では、どの社とどの社が等しくて、どの社とどの社が異なる
のか?
• これを調べることは次のステップ、多重比較といわれる問題
になる。
※ p値
• Excelの分析ツールをはじめとする、回帰分析をおこなうソフ
トウエアでは、仮説検定の際にp値が表示される。
• p値は「その統計量が採択域と棄却域の境界値となる仮説
検定の有意水準」である。