統計学

統計学入門2
統計的検定:
平均値の検定
今日の内容

検定

仮説





帰無仮説・対立仮説
第1種の過誤、第2種の過誤
有意水準
平均値の検定
練習問題
問題1

一世帯あたりの一ヶ月あたりの平均支出
金額が20万円であるかどうかを調べたい
と思った。いまある母集団が設定してあり、
その母集団から大きさ1600の標本を抽出
したところ、平均が22万円で、標準偏差が
5万円だったとする。このとき、平均支出金
額が20万円でないと結論付けられるか。
問題2

ある番組の視聴率調査を行うことになった。
無作為に抽出された400人に調査を行った
とき、200人がその番組を見ていた。母集
団の視聴率が、40%以上であると結論付
けられるか。
仮説




統計的に調べたいと思っている命題
平均が×××である
視聴率が○○○である
A薬とB薬は同じ有効率である
2種類の過誤

第1種の過誤


仮説が正しいときに仮説が正しくないという結
論を出すこと
第2種の過誤

仮説が正しくないときに仮説が正しいという結
論を出すこと
2種類の過誤
検定結果
仮
説
仮説は真
仮説は偽
真
○
第1種の過誤
偽
第2種の過誤
○
2種類の過誤



過誤の可能性は小さい方が望ましい
2種類の過誤を(ある限界を超えて)同時に
小さくすることは不可能
過誤を一定水準まで認める立場をとる
有意水準

第1種の過誤の確率を
一定水準に設定する
有意水準

慣例では、5% や 1%
問題1

一世帯あたりの一ヶ月あたりの平均支出
金額が20万円であるかどうかを調べたい
と思った。いまある母集団が設定してあり、
その母集団から大きさ1600の標本を抽出
したところ、平均が22万円で、標準偏差が
5万円だったとする。このとき、平均支出金
額が20万円でないと結論付けられるか。
帰無仮説と対立仮説

帰無仮説


母平均 = 20万円
対立仮説

母平均 ≠ 20万円
検定統計量と有意水準

検定統計量



検定を行う場合に使用する統計量
帰無仮説の下での(標本)分布を基に、有
意水準に対応する棄却域を設定
検定統計量の実現値に対応する p値を求
め、有意水準と比較
平均の標本分布
(1)
(2)
x の平均は、母集団の平均m
2
x の分散は、  / n
(3a) n が大きいとき、 x の分布は正規分布
(3b) 母集団分布が正規分布であれば、x の
分布は正規分布
帰無仮説と対立仮説

帰無仮説


母平均 = 20万円
対立仮説

母平均 ≠ 20万円
平均の標本分布
(1)
(2)
x の平均は、母集団の平均20万
2
x の分散は、  / n
(3a) n が大きいとき、 x の分布は正規分布
(3b) 母集団分布が正規分布であれば、x の
分布は正規分布
検定統計量

平均の検定の場合
x  m0
Z
s/ n
m0
は帰無仮説での母平均
検定統計量

平均の検定の場合(大きな標本の場合)
x  m0
Z
s/ n
帰無仮説の下で、
平均0、分散1の正規分布
検定統計量

平均の検定の場合(大きな標本の場合)
x  m0
Z
s/ n
帰無仮説が正しくなければ、
平均が0でなく、分散1の正規分布
検定統計量の分布
対立仮説の
下での分布
帰無仮説の
下での分布
-3
-2
-1
0
1
2
3
4
5
6
検定統計量の分布


帰無仮説の下での分布が母集団の分散
に依存しない
母集団の平均が帰無仮説と異なれば、
違った分布となる
棄却域の設定


有意水準(α%)と整合する棄却域を設定
する
帰無仮説の下での分布の両側α%点を棄
却域とする
検定統計量

平均の検定の場合(大きな標本の場合)
x  m0
Z
s/ n
帰無仮説の下で、
平均0、分散1の正規分布
棄却域

有意水準が5%の場合

平均0, 分散1の正規分布の両側5%点
±1.96
検定統計量の分布
対立仮説の
下での分布
帰無仮説の
下での分布
-3
-2
-1
0
1
2
3
4
5
6
検定の手順





仮説の設定
検定方法(統計量)の決定
有意水準の設定
検定統計量の計算
棄却域との比較(p値の算出)
問題1

一世帯あたりの一ヶ月あたりの平均支出
金額が20万円であるかどうかを調べたい
と思った。いまある母集団が設定してあり、
その母集団から大きさ1600の標本を抽出
したところ、平均が22万円で、標準偏差が
5万円だったとする。このとき、平均支出金
額が20万円でないと結論付けられるか。
検定統計量

平均の検定の場合(大きな標本の場合)
x  m0
22  20
Z

 16
s / n 5 / 1600
この値が1.96より大きいので、
帰無仮説を棄却する
t 検定

母集団の分布が正規分布であれば…
(標本の大きさに関係なく)
x  m0
Z
s/ n
は帰無仮説の下で自由度(n -1)の t 分布
棄却域

有意水準が5%の場合

自由度(n-1)の t 分布の両側5%点
分析ツールの出力
t-検定 : 等分散を仮定した2標本による検定
検定統計量の値
両側検定の場合のp値
平均
分散
観測数
プールされた分散
仮説平均との差異
自由度
t
P(T<=t) 片側
t 境界値 片側
P(T<=t) 両側
t 境界値 両側
変数 1
変数 2
1.857143 3.571429
0.809524 2.952381
7
7
1.880952
0
12
-2.33845
0.018745
1.782287
0.037491
2.178813
p 値( p - value ; 有意確率)


帰無仮説の下での分布における、検定統計量の
実現値のパーセント点
p値の簡単な考え方


帰無仮説の下で、現在得られたデータか、それより極
端な(帰無仮説から離れる方向)データが得られる確
率
p値が小さい:

帰無仮説の下ではめったにおこらないことがおこった
ということになる
正規検定

平均の検定の場合(大きな標本の場合)
x  m0
Z
s/ n
帰無仮説の下で、
平均0、分散1の正規分布
t 検定

母集団の分布が正規分布であれば…
(標本の大きさに関係なく)
x  m0
Z
s/ n
は帰無仮説の下で自由度(n -1)の t 分布
検定の選択

標本が大きいとき


分布が正規分布であるとき


正規検定
t 検定
どちらでもない場合

ノンパラメトリック検定(省略)
複数のグループの比較

2つの場合


2標本検定
t 検定(正規検定)
3つ以上の場合

分散分析
帰無仮説と対立仮説

2グループの場合



帰無仮説:2つの母集団の平均が同じ
対立仮説:2つの母集団の平均が異なる
3グループ以上の場合


帰無仮説:すべての母集団の平均が同じ
対立仮説:いずれかの母集団の平均が
他の母集団の平均と異なる
Excelにおける検定の実践方法

1標本

2標本


t 検定、
3標本以上

分析ツールの分散分析
分析ツール:t 検定
分析ツール:t 検定
第1標本の
データ
第2標本の
データ
有意水準
分析ツールの出力
t-検定 : 等分散を仮定した2標本による検定
検定統計量の値
両側検定の場合のp値
平均
分散
観測数
プールされた分散
仮説平均との差異
自由度
t
P(T<=t) 片側
t 境界値 片側
P(T<=t) 両側
t 境界値 両側
変数 1
変数 2
1.857143 3.571429
0.809524 2.952381
7
7
1.880952
0
12
-2.33845
0.018745
1.782287
0.037491
2.178813
分析ツール:分散分析
分析ツール:分散分析
行列形式で
データを入力し
その範囲を指定
列方向に
1グループの
データが並ん
でいる場合
例:分散分析
例:分散分析
例:分散分析
分散分析表
分散分析表
変動要因
変動
グループ間 20750.07
グループ内 9733.8
合計
30483.87
p値
自由度
分散観測された分散比P-値
2 10375.03 28.77868 2.03E-07
27 360.5111
29
検定統計量