統計的推測

2014/11/24
データの収集
• 調査
– 質問紙調査
• 世論調査、
統計的推測
• 実験
– 製薬における臨床実験
• 効果の優劣の判断
– 農事試験
推定と検定
• 効果の推定(英国ロザムステッド農場:近代統計学の祖)
– …
• 観察・記録
– POSデータ、視聴率調査(機械によるもの)、品質管理、…
2
標本調査
標本調査と推測統計の概念図:平均の推定の場合
標本抽出
標本分布と統計的推測
データ収集
x1
x2

xn
標本
• 正規分布の性質を利用して、誤差の大きさを
推測する
集計
母集団
母集団の平均:μ
標本の平均:
標本
x
母集団
2つの値は同じではない
固定された値
推測統計の理論が架け橋となる
3
母集団の
特性値
標本の
特性値
統計的推測
x1
x2

xn
標本分布する
4
1
2014/11/24
平均の推定(nが大きいとき)
理論的には
95%の確率で

x  1 . 96
n
   x  1 . 96
  1.96
n
実際の計算では
信頼度95%の信頼区間
x  1. 96

s
s
   x  1. 96
n
n
s2 
  1.96
s
n
1
2
 ( xi  x )
n 1
-3
-2
-1
信頼度100(1-)%の信頼区間
  s
  s
x  z     x  z 
 2 n
 2 n
  は上側

 2
ただし、z
x  1.96
/2 点
 1.96 
p  1.96
s
n
0
μ
1
2
x
3
x  1.96
P(1  P)
p ~ N ( P,
)
n
pP
 1.96
P(1  P) / n
P (1  P )
P (1  P )
 P  p  1.96
n
n
7
s
n
この範囲にμが入っていると考える
5
比率の場合
• 95%の確率で
s
n
6
比率の場合(実際の計算)
• 95%の確率で
p  1.96
P (1  P )
P (1  P )
 P  p  1.96
n
n
p  1.96
p (1  p )
p (1  p )
 P  p  1.96
n
n
8
2
2014/11/24
例題
検定の手順
• 仮説の設定
• 検定方法(統計量)の決定
• 有意水準の設定
• ある番組の視聴率調査を行うことになった。無作為に抽
出された400人に調査を行ったとき、200人がその番組を
見ていた。母集団の視聴率の区間推定を行え。
区間推定の式
p  1.96
p (1  p )
p (1  p )
 P  p  1.96
n
n
• 検定統計量の計算
• 棄却域との比較(p値の算出)
400分の200=0.5が標本の比率(p)で、n=400なので、
0.5  1.96
0.5(1  0.5)
0.5(1  0.5)
 P  0.5  1.96
400
400
9
帰無仮説と対立仮説
10
検定統計量と有意水準
• 検定統計量
• 帰無仮説は、否定できることを期待
– 帰無仮説を仮定した下での確率的評価の矛盾の
発生により、帰無仮説を棄却する
– 背理法による証明
• 対立仮説では、帰無仮説を棄却する方向性
を指定
– 両側であれば、違いがあること
– 方向性があれば、片側
– 検定を行う場合に使用する統計量
• 帰無仮説の下での(標本)分布を基に、有意
水準に対応する棄却域を設定
• 検定統計量の実現値に対応する p値を求め、
有意水準と比較
11
12
3
2014/11/24
p 値( p ‐ value ; 有意確率)
検定における結論の出し方
• 有意水準とp値を比較し、
• 帰無仮説の下での分布における、検定統計
量の実現値のパーセント点
• あらかじめ決められた有意水準と比較を行い、
検定の結論を下す
p値≥有意水準であれば、
「帰無仮説を棄却できない」
p値<有意水準であれば、
「帰無仮説を棄却する」
たとえば、有意水準5%で検定を行った場合、p値が0.05未満で
あれば、帰無仮説を棄却する。
13
14
クロス集計表
練習問題:独立になるように...
A
B
C
計
1
18(40)
18(40)
9(20)
45(100)
1
15
2
12(40)
12(40)
6(20)
30(100)
2
35
3
10(40)
10(40)
5(20)
25(100)
3
50
計
40
40
20
100
計
A
40
B
20
C
40
計
100
4
2014/11/24
積事象の確率
P(AB)
= P(A) P(B|A)
= P(B) P(A|B)
• P(A|B) :
– Bの下でのAの条件付確率
• P(B|A) :
事象AとBが独立
P(AB) = P(A) P(B)
P(A|B) = P(A)
P(B|A) = P(B)
– Aの下でのBの条件付確率
独立期待度数
eij 
ni n j
n..
独立期待度数
eij 

ni n j
n..
ni n j
n..
n.. n..
独立であるという仮定の下での(i,j)セルの確率
5
2014/11/24
独立性の検定
• 観測度数と独立期待度数の比較
a
b ( nij  eij ) 2
   
2
eij
i 1 j 1
ただし、
eij 
ni n j
n..
独立性の検定
• 観測度数と独立期待度数の比較
a
b ( nij  eij ) 2
   
2
i 1 j 1
eij
独立であるという前提で計算された値と
どの程度離れているかを評価する
p 値の計算と検定結果
• 検定統計量の分布は、自由度(a-1)(b-1)の2
分布
• 2分布の分布点を求める関数
=CHIDIST(2 , df)
p値を設定された有意水準(通常は5%)と比較
し、p値が小さい場合は独立でないと判断す
る
6