第5章 統計的仮説検定

第5章 統計的仮説検定
統計的仮説検定の手順と用語の説明
代表的な統計的仮説検定ー標準正規分布を用
いた検定、t分布を用いた検定、無相関検定、カ
イ二乗検定の説明
100
60
80
母集合(データが散らばっていて相関はゼロ)
40
20
20
40
y
B
60
80
100
5.1 仮説検定の必要性
0
抽出された標本に含まれるデータ
0
相関がある
0
20
40
60
A
80
100
0
20
40
60
80
100
x
相関が見られるような標本を抽出
しかし、母集団全体からデータを得たら相関係数はゼロになるかも
たまたま相関が見られるような標本を抽出しただけではないか??
やはり母集団すべてのデータを集めるしかないのか・・・
2
仮説検定の必要性その2
• データが膨大だとすべてのデータを集めるのは無理
↓
標本抽出をして母数の推定を行った
• 母集団に全く相関がないとしたら、抽出した標本に
見られたような結果が得られる可能性は非常に小さ
いということを主張
• 統計的仮説検定は確率論に基づき、このような主
張を行うための方法
3
統計的仮説検定の手順
手順
やること
1
母集団に関する帰無仮説と対立仮説を設定
2
検定統計量を選択
3
有意水準αの値を決定
4
データから検定統計量の実現値を求める
5
検定統計量の実現値が棄却域に入れば帰無仮説を棄却して、対
立仮説を採択
棄却域に入らなければ、帰無仮説を採択
4
5.2.1 帰無仮説と対立仮説
• 帰無仮説: 「差がない」「効果がない」という仮説
母平均   0 ,母相関係数   0 ,母平均の差
1  2  0 というような仮説
本来主張したいこととは逆の仮説
• 対立仮説:帰無仮説が棄却されたときに採択さ
れる、帰無仮説とは逆の仮説
本来主張したいことを表した仮説
帰無仮説 H0 対立仮説 H1 で表す
帰無仮説と対立仮説(2)
対立仮説の設定により、検定は両側検定か片側検定
• 両側検定:対立仮説が、母平均   0 、母相
関係数   0 、母平均の差 1  2  0 の場合
• 片側検定:対立仮説が、母平均   0 、母相
関係数   0 、母平均の差 1 2 0 の場合
要するに、両側検定は 母平均の場合 μ ≠ 0 を調べるという
ことは
μ > 0 と μ < 0 の両側 を調べる、
ということ
帰無仮説と対立仮説(3)
• 帰無仮説が正しいものとして話を進めていく
• 実際に得られたデータから計算された検定統計
量の値によって採択を判断
• 帰無仮説が正しいとして
ほぼ起こり得ない値(極端):帰無仮説を棄却
あり得るような値(極端でない):帰無仮説を採択
7
5.2.2 検定統計量
• 検定統計量:統計的仮説検定のために用い
られる標本統計量のこと
• 検定統計量の実現値:実際のデータ(手に
入った標本)を基に計算して、具体的な値の
こと
検定統計量の実現値は、対立仮説に
合っているほど0から離れた値を示す
5.2.3 有意水準と棄却域
• 対立仮説を採択するか決定するときに基準
になるのが有意水準
• 有意水準は5%または1%に設定することが
多い
• 帰無仮説が正しいものとして考えた時の標本
分布を帰無分布という
有意水準と棄却域(2)
• 帰無仮説のもとで、非常に生じにくい検定
統計量の値の範囲を棄却域という
• 採択域 : 棄却域以外の部分
• 臨界値 : 棄却域と採択域の境目の値
• 棄却域に検定統計量の実現値が入ったら、
帰無仮説を棄却する
0.4
正規分布を帰無分布とした時の棄却域
0.2
0.1
棄却域
0.0
dnorm(x)
0.3
臨界値
-3
-2
-1
0
1
2
3
x
採択域
11
5.2.4 統計的仮説検定の結果の報告
• 検定統計量の実現値が棄却域に入った場合、
「差がない」という帰無仮説を棄却し、「差が
ある」という対立仮説を採択する。
「検定結果は5% (または1%)水準で有意である」
または
「 p  .05 (または p  .01)で有意差が見られた 」
と記述する。
5.2.5 p値
• p値:帰無仮説が正しいという仮定のもとで、
標本から計算した検定統計量の実現値以上
の値が得られる確率のこと
p値が有意水準より小さい時に帰無仮説を棄却
「 p  .05 (または p  .01 )で有意差が見られた」
有意水準
5.2.6 第1種の誤りと第2種の誤り
• 第1種の誤り:「帰無仮説が真のとき、これを
棄却してしまう」誤りのこと
この種の誤りを犯す確率が「有意水準」または「危険率」
• 第2種の誤り:「帰無仮説が偽のとき、これを
採択する (棄却できない)」誤りのこと
5.2.7 検定力
• 検定力:帰無仮説が偽の場合、全体の確率1か
ら第2種の誤りの確率(  )を引いた確率 1  
「第2種の誤りを犯さない確率」
つまり、間違っている帰無仮説を正しく棄却でき
る確率のこと
5.3 標準正規分布を用いた検定
正規母集団 N ( ,  ) から無作為に標本を抽出
する(サンプルサイズは n )と
標本平均の分布も正規分布
2
標本平均の平均は  、分散は  / n
2
これを標準化したものを検定統計量とする:
X 
Z
~ N (0,1)
 n
5.3 Rを使って
> 心理学テスト <c(13,14,7,12,10,6,8,15,4,14,9,6,10,12,5,12,8,8,12,15)
> z分子 <- mean(心理学テスト)-12 #検定統計量の分子を計算
> z分母 <- sqrt(10/length(心理学テスト)) #検定統計量の分母
> z統計量 <- z分子/z分母
> z統計量
[1] -2.828427
(5)帰無仮説の棄却or採択の決定
• 下側確率:標準正規分布に従う確率変数Zを
例にとれば、 Zがある値α以下となる確率のこ
と --- Prob(Z ≦ α)
• 上側確率:標準正規分布に従う確率変数Zを
例にとれば、 Zがある値αより大きくなる確率
のこと--- Prob(Z > α)
検定の実際
求めたz統計量( -2.828427)が棄却域
に入れば帰無仮説が棄却される
0.2
0.0
0.1
dnorm(x)
0.3
0.4
> qnorm(0.025) #下側確率0.025となるZの値を求める
[1] -1.959964
> qnorm(0.975) #上側確率0.975となるZの値を求める
[1] 1.959964
> qnorm(0.025,lower.tail=FALSE)
#上限確率0.025となるZの値を求める
[1] 1.959964
棄却域を図で表す↓
> curve(dnorm(x),-3,3)
> abline(v=qnorm(0.025))
> abline(v=qnorm(0.975))
-3
-2
-1
0
x
1
2
3
pnorm関数を用いて...
求めたz統計量( -2.828427)に対してpnorm関
数を用いて直接p値を求める方法もある
p値が有意水準より小さい時に帰無仮説を棄却
> pnorm(-2.828427) # 下側確率
[1] 0.002338868
> pnorm(-2.828427,lower.tail=FALSE) # 上側確率
[1] 0.002338868
> 2*pnorm(-2.828427,lower.tail=FALSE) # p値
有意水準0.005よりも小さいので
[1] 0.004677737
帰無仮説が棄却される
5.4 t分布を用いた検定
• 正規母集団からの無作為標本
母集団の分散σ2がわからない場合
X 
Z
 n
そこで
が計算できないので正規分布が使え
ない!
X 
t
ˆ n
を使う(ˆ は標本の不偏分散の正
の平方根)
これはdf=n-1のt分布に従う
5.4 t分布を用いた検定
0.4
• t分布:統計学でよく利用される正規分布の形
に似た、左右対称・山形の分布
• 自由度(df):
t分布の形状を決めるもの
df=8
0.2
0.1
df=0.5
df=限りなく0に近い
0.0
dt(x, 8)
0.3
df=2
-4
-2
0
2
4
5.4 Rを使って
> 心理学テスト <- c(13,14,7,12,10,6,8,15,4,14,9,6,10,12,5,12,8,8,12,15)
> t分子 <- mean(心理学テスト)-12 #検定統計量の分子を計算
> t分母 <-sqrt(var(心理学テスト)/length(心理学テスト)) #検定統計量の分子を計算
> t統計量 <- t分子/t分母
> t統計量
[1] -2.616648
> #自由度19のt分布で下側確率0.025となるtの値を求める
> qt(0.025,19)
> pt(-2.616648,19)
[1] -2.093024
# 自由度19のt分布で下側確率0.975となる [1] 0.00848546
> pt(-2.616648,19,lower.tail=FALSE)
# tの値を求める
[1] 0.9915145
> qt(0.975,19)
[1] 2.093024
> 2*pt(2.616648,19,lower.tail=FALSE)
> qt(0.025,19,lower.tail=FALSE)
[1] 0.01697092
[1] 2.093024
>
5,4 続き
このt検定はRで用意されている。
> t.test(心理学テスト,mu=12)
One Sample t-test
data: 心理学テスト
t = -2.6166, df = 19, p-value = 0.01697
alternative hypothesis: true mean is not equal to 12
95 percent confidence interval:
8.400225 11.599775
sample estimates:
mean of x
10
5.5 相関係数の検定
• 無相関検定:「母集団において相関が0であ
る」と設定して行う検定
• 母集団相関係数(母相関)に関する検定を行
うときは、標本相関係数rから次を求める
t
r n2
1 r
2
5.5 Rを使って
> 統計テスト1 <- c(6,10,6,10,5,3,5,9,3,3,11,6,11,9,7,5,8,7,7,9)
> 統計テスト2 <c(10,13,8,15,8,6,9,10,7,3,18,14,18,11,12,5,7,12,7,7)
> 標本相関 <- cor(統計テスト1,統計テスト2)
> qt(0.025,18)
> サンプルサイズ <- length(統計テスト1)
[1] -2.100922
> t分子 <- 標本相関*sqrt(サンプルサイズ-2)
> qt(0.975,18)
> t分母 <- sqrt(1-標本相関^2)
[1] 2.100922
> qt(0.025,18,lower.tail=FALSE)
> t統計量 <- t分子/t分母
[1] 2.100922
> t統計量
> pt(4.805707,18,lower.tail=FALSE)
[1] 4.805707
[1] 7.08114e-05
> 2*pt(4.805707,18,lower.tail=FALSE)
[1] 0.0001416228
>
5.5 続き
この無相関検定にもRが用意されている。
> cor.test(統計テスト1,統計テスト2)
Pearson's product-moment correlation
data: 統計テスト1 and 統計テスト2
t = 4.8057, df = 18, p-value = 0.0001416
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.4596086 0.8952048
sample estimates:
cor
0.749659
ピアソンの積率相関係数
5.6 独立性の検定
table関数を使ってクロス集計表に合計を足す。
統計
数
学
嫌い
好き
計
嫌い
10
4
14
好き
2
4
6
計
12
8
20
5.6 続き
• 独立性の検定:2つの質的変数間の連関の
有意性を調べる検定
カイ二乗という確率分布を利用するため、カイ二乗
検定ともいう。
• 独立性の検定における検定統計量の式
(Ok  Ek )
(O1  E1 ) (O2  E2 )
x 

 ...
E1
E2
Ek
2
2
2
2
5.6 続き
• 期待度数:2つの変数の間に連関がない(独
立である)という帰無仮説のもとで、帰無仮説
が正しければ(連関がなければ)これくらいの
度数をとるだろうと期待される度数のこと
0.0
0.1
0.2
0.3
dchisq(x, 2)
0.4
0.5
カイ二乗分布
0
5
10
x
15
20
5.6 Rを使って
統計嫌い
統計好き
計
数学嫌い
期待度数イチイチ
期待度数イチニ
14
数学好き
期待度数ニイチ
期待度数ニニ
6
計
12
8
20
5.6 続き
> 期待度数イチイチ <-12*14/20
> 期待度数ニイチ <- 12*6/20
> 期待度数イチニ <- 8*14/20
> 期待度数ニニ <- 8*6/20
> 期待度数 <- c(期待度数イチイチ,期待度数ニイチ,期待度
数イチニ,期待度数ニニ)
> qchisq(0.95,1)
> 観測度数 <- c(10,2,4,4)
[1] 3.841459
> カイ二乗要素 <- (観測度数-期待度数)^2/期待度数
> カイ二乗 <- sum(カイ二乗要素)
> qchisq(0.05,1,lower.tail=FALSE)
[1] 3.841459
> pchisq(2.539683,1,lower.tail=FALSE)
[1] 0.1110171
> 1-pchisq(2.539683,1)
[1] 0.1110171
5.6 続き
> 数学 <- c("嫌い","嫌い","好き","好き","嫌い","嫌い","嫌い","嫌い","嫌い","好き","
好き","嫌い","好き","嫌い","嫌い","好き","嫌い","嫌い","嫌い","嫌い")
> 統計 <- c("好き","好き","好き","好き","嫌い","嫌い","嫌い","嫌い","嫌い","嫌い","
好き","好き","好き","嫌い","好き","嫌い","嫌い","嫌い","嫌い","嫌い")
> クロス集計表 <- table(数学,統計)
> chisq.test(クロス集計表,correct=FALSE)
Pearson's Chi-squared test
data: クロス集計表
X-squared = 2.5397, df = 1, p-value = 0.1110
Warning message:
In chisq.test(クロス集計表, correct = FALSE) :
カイ自乗近似は不正確かもしれません
5.7 サンプルサイズの検定結果への
影響について
履修A
履修した
履修しない
計
文系
16
4
20
理系
12
8
20
計
28
12
40
比較(前のデータの10倍)
履修B
履修した
履修しない
計
文系
160
40
200
理系
120
80
200
計
280
120
400
5.7 続き
> 履修A <- matrix(c(16,12,4,8),2,2)
> rownames(履修A) <- c("文系","理系")
> colnames(履修A) <- c("履修した","履修しない")
> chisq.test(履修A,correct=FALSE)
Pearson's Chi-squared test
data: 履修A
X-squared = 1.9048, df = 1, p-value = 0.1675
> 履修B <- matrix(c(160,120,40,80),2,2)
> rownames(履修B) <- c("文系","理系")
> colnames(履修B) <- c("履修した","履修しない")
> chisq.test(履修B,correct=FALSE)
Pearson's Chi-squared test
data: 履修B
X-squared = 19.0476, df = 1, p-value = 1.275e-05