第2章 確率と確率分布

第4章補足 分散分析法入門
統計学 2010年度
分散分析の考え方
• 2つの母集団の平均に差があるかどうかは、2つの標本に基
づくt検定をおこなうことができる。
• では、母集団が3つ以上になった場合はどうすればよいので
あろうか?
⇒ 3つの母集団をA,B,Cとすると、AとB、AとC、BとCの間
に差があるかどうかのt検定をおこなうことが可能
⇒ 検定の回数は多くなり、さらに4つ、5つとなると増えるに
したがって、非常に多くなる。
• 3つ以上の母集団の平均に差がないかどうかは、分散分析
を用いて検証する。
母集団1(個体数N1)
×
×
×
×
×
×
×
×
母集団2(個体数N2)
母集団3(個体数N3)
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
この差を検定
する。
標本1(個体数n1)
×
標本2(個体数n2)
×
×
標本3(個体数n3)
×
×
×
この差をもとに
• 最初に、3つの母集団について考えてみる。
• このとき、「母平均の間に差がない」という検定仮説は
H0: μA = μB = μC
となる。対立仮説は
H1: μA ≠ μB ≠ μC
ではなく(「だけではなく」の方が正確か?)、
H1: H0の否定
(μA ≠ μB ≠ μC 以外にμA = μB ≠ μC なども含まれる)
• この検定を、 「グループ間の分散がグループ内の分散に比
べて差がない」か、 「グループ間の分散がグループ内の分
散に比べて明らかに大きい」かということで分析する。
標本1(個体数n1)
この標本のデータ
×
x11 , x12 ,, x1n1
×
グループの平均
1 n
x1   x1 j
1
n
1 j 1
標本2(個体数n2)
この標本のデータ
×
x21 , x22 ,, x2n2
×
グループの平均
x
2

1 n2
n
x
2 j 1
2j
標本3(個体数n3)
この標本のデータ
×
×
x31 , x32 ,, x3n3
グループの平均
1 n
x3   x3 j
全体の平均
 n1

n3
n2


x




x
x
x
1j
2j
3j



j 1
j 1
n1 n2 n3  j 1

1
3
n
3 j 1
全変動 = グループ間変動 + グループ内変動
ni
  ( xij  x )
3
• 全変動
• グループ間変動
• グループ内変動
S
T
2
i 1 j 1
3
ni ( x  x )
SG  
i
i 1
E
ni
  ( xij  xi )
3
S
2
i 1 j 1
2
分散分析表
変動要因 平方和
(変動)
グループ
間変動
G
S
グループ
内変動
全変動
自由度
g-1
S
G
S
E
ng
E
n-1
T
S
g 1
nーg
S
不偏分散
F
S
G
S
E
g 1
n  g
分散分析の例
• 全国展開している家電量販チェーン店の大手4社A,B,C,Dは
それぞれの出店地域で互いに価格競争をしており、それぞ
れ「一番安い」と宣伝している。
• ある年の夏に特定メーカーの特定機種のエアコンを各店舗
で調査したところ、表のようになった。
(単位: 万円)
A
B
C
D
7.1
7.2
7.5
7.0
7.5
7.7
7.8
7.3
7.4
7.3
7.4
7.0
7.7
7.8
7.9
7.4
7.8
7.7
7.8
7.5
7.0
7.1
7.3
6.9
7.5
7.6
7.8
7.3
4社のエアコン価格は同じといえるであろうか?
(出典: 大屋幸輔『コアテキスト統計学』238ページ)
7.7
7.6
7.5
7.4
• A,B,C,Dのそれぞれの平均を、 μA, μB, μC, μD とすると、検
定仮説は
H0: μA = μB = μC = μD
となる。分散分析表は下のようになる。
分散分析表
変動要因
変動
グループ間 0.650481
グループ内 1.789206
合計
2.439688
自由度
分散 観測された分散比 P-値
F 境界値
3 0.216827 3.39321253 0.031617 2.946685
28
0.0639
31
求められた分散比(F統計量) は3.393であり、自由度(3,28)の
F分布の片側95%の臨界値 2.947 を上回るので、H0を棄却
する。(P値が0.05を下回ることからもこの結論が言える)
よって、エアコンの価格は同じとはいえない。
F分布の例
(1,1)
0.12
(5,5)
0.1
(2,10)
0.08
(10,2)
0.06
(3,28)
確率密度
0.14
0.04
0.02
F
6
5.6
5.2
4.8
4.4
4
3.6
3.2
2.8
2.4
2
1.6
1.2
0.8
0.4
0
0
• 4社の間で平均価格が等しくないということは分かった。
• では、どの社とどの社が等しくて、どの社とどの社が異なる
のか?
• これを調べることは次のステップ、多重比較といわれる問題
になる。