第4章補足 分散分析法入門 統計学 2014年度 分散分析の考え方 • 2つの母集団の平均に差があるかどうかは、2つの標本に基 づくt検定をおこなうことができる。 • では、母集団が3つ以上になった場合はどうすればよいので あろうか? ⇒ 3つの母集団をA,B,Cとすると、AとB、AとC、BとCの間 に差があるかどうかのt検定をおこなうことが可能 ⇒ 検定の回数は多くなり、さらに4つ、5つとなると増えるに したがって、非常に多くなる。 • 3つ以上の母集団の平均に差がないかどうかは、分散分析 を用いて検証する。 母集団1(個体数N1) × × × × × × × × 母集団2(個体数N2) 母集団3(個体数N3) × × × × × × × × × × × × × × × × この差を検定 する。 標本1(個体数n1) × 標本2(個体数n2) × × 標本3(個体数n3) × × × この差をもとに • 最初に、3つの母集団について考えてみる。 • このとき、「母平均の間に差がない」という検定仮説は H0: μA = μB = μC となる。対立仮説は H1: μA ≠ μB ≠ μC ではなく(「だけではなく」の方が正確か?)、 H1: H0の否定 (μA ≠ μB ≠ μC 以外にμA = μB ≠ μC なども含まれる) • この検定を、 「グループ間の分散がグループ内の分散に比 べて差がない」か、 「グループ間の分散がグループ内の分 散に比べて明らかに大きい」かということで分析する。 標本1(個体数n1) この標本のデータ 𝑥11 , 𝑥12 , ⋯ , 𝑥1𝑛1 × × グループの平均 1 𝑥1 = 𝑛1 標本2(個体数n2) × 𝑥1𝑗 𝑗=1 グループの平均 この標本のデータ 𝑥21 , 𝑥22 , ⋯ , 𝑥2𝑛2 × 𝑛1 1 𝑥2 = 𝑛2 𝑛2 𝑥2𝑗 𝑗=1 標本3(個体数n3) × × グループの平均 この標本のデータ 𝑥31 , 𝑥32 , ⋯ , 𝑥3𝑛3 全体の平均 1 𝑥= 𝑛1 + 𝑛2 + 𝑛3 1 𝑥3 = 𝑛3 𝑛1 𝑛2 𝑥1𝑗 + 𝑗=1 𝑛3 𝑥2𝑗 + 𝑗=1 𝑥3𝑗 𝑗=1 𝑛3 𝑥3𝑗 𝑗=1 全変動 = グループ間変動 + グループ内変動 3 • 全変動 𝑛𝑖 𝑆𝑇 = 𝑥𝑖𝑗 − 𝑥 2 𝑖=1 𝑗=1 3 • グループ間変動 𝑆𝐺 = 𝑛𝑖 𝑥𝑖 − 𝑥 𝑖=1 3 • グループ内変動 2 𝑛𝑖 𝑆𝐸 = 𝑥𝑖𝑗 − 𝑥𝑖 𝑖=1 𝑗=1 2 分散分析表 変動要因 平方和 (変動) グループ 間変動 𝑆𝐺 自由度 𝑔−1 グループ 内変動 𝑆𝐸 𝑛−𝑔 全変動 𝑆𝑇 𝑛−1 不偏分散 F 𝑆𝐺 𝑔−1 𝑆𝐺 𝑔−1 𝑆𝐸 𝑛−𝑔 𝑆𝐸 𝑛−𝑔 この不偏分散 の比が、検定 に用いられるF 統計量である 分散分析の例 • 全国展開している家電量販チェーン店の大手4社A,B,C,Dは それぞれの出店地域で互いに価格競争をしており、それぞ れ「一番安い」と宣伝している。 • ある年の夏に特定メーカーの特定機種のエアコンを各店舗 で調査したところ、表のようになった。 (単位: 万円) A 7.1 7.5 7.4 7.7 7.8 7.0 7.5 B 7.2 7.7 7.3 7.8 7.7 7.1 7.6 C 7.5 7.8 7.4 7.9 7.8 7.3 7.8 D 7.0 7.3 7.0 7.4 7.5 6.9 7.3 7.7 7.6 7.5 7.4 4社のエアコン価格は同じといえるであろうか? (出典: 大屋幸輔『コアテキスト統計学』238ページ) • A,B,C,Dのそれぞれの平均を、 μA, μB, μC, μD とすると、検 定仮説は H0: μA = μB = μC = μD となる。分散分析表は下のようになる。 分散分析表 変動要因 変動 グループ間 0.650481 グループ内 1.789206 合計 2.439688 自由度 分散 観測された分散比 P-値 F 境界値 3 0.216827 3.39321253 0.031617 2.946685 28 0.0639 31 求められた分散比(F統計量) は3.393であり、自由度(3,28)の F分布の片側95%の臨界値 2.947 を上回るので、H0を棄却 する。(P値が0.05を下回ることからもこの結論が言える) よって、エアコンの価格は同じとはいえない。 • 4社の間で平均価格が等しくないということは分かった。 • では、どの社とどの社が等しくて、どの社とどの社が異なる のか? • これを調べることは次のステップ、多重比較といわれる問題 になる。 ※ p値 • Excelの分析ツールをはじめとする、回帰分析をおこなうソフ トウエアでは、仮説検定の際にp値が表示される。 • p値は「その統計量が採択域と棄却域の境界値となる仮説 検定の有意水準」である。
© Copyright 2024 ExpyDoc