カイ二乗検定

統計学勉強会
~カイ二乗検定~
地理生態学研究室
3年 髙田裕之
カイ二乗検定とは
期待値・理論値が存在するときに用いる。
一般的にはピアソンのカイ二乗検定のことを指す。
ノンパラメトリックな検定である。
適合度検定と独立性検定がある。
適合度検定の例
東邦大学の学生の男女比は[1:1]と言えるか。
独立性検定の例
東邦大学の理学部と薬学部で男女比に差があると言
えるか。
カイ二乗値
観測値と期待値の差の2乗を期待値で割った値の総和。
n
χ2 =
Σ
i=1
(Oi-Ei)2
Ei
O:観測値 E:期待値
期待値と観測値の差が小さいほど0に近付く。
期待値と観測値の差が大きいほど大きくなる。
カイ二乗分布
カイ二乗値をプロットした曲線。
自由度により異なる。
0.8
0.6
自由度=1
0.4
自由度=3
0.2
自由度=8
0.0
0
5
10
15
20
カイ二乗分布のイメージ(自由度1の場合)
赤と白のボールが100個ずつ入った箱から、無作為に10個の
ボールを取ると、赤と白が5個ずつとなる確率が最も大きく、10
個0個に近付くに従って確率は小さくなる。
この確率の分布したものが自由度1の時のカイ二乗分布である。
>
自由度1の時のカイ二乗分布
1.2
1.0
0.8
0.6
0.4
0.2
3.84
95%
0.0
0
2
4
6
8
10
カイ二乗分布のイメージ(自由度5の場合)
サイコロを120回振って、出た目の数を記録する。すると、全て
が20回ずつとなる確率は0に近く、ある程度バラつく確率が最も
大きい。さらにバラつく確率は小さくなっていく。
0.15
0.10
95%
0.05
11.07
0.00
0
5
10
15
20
0.95の時のカイ二乗値表
自由度
χ2
自由度
1
2
3
4
5
6
7
8
9
10
3.84 5.99 7.82 9.49 11.07 12.59 14.07 15.51 16.92 18.31
15
20
25
30
40
50
60
70
80
100
χ2 25.00 31.41 37.65 43.77 55.76 67.50 79.08 90.53 101.9 124.3
この値よりカイ二乗値が大きければ、帰無仮説を棄却する。
この値よりカイ二乗値が小さければ、帰無仮説を採用する。
例題①
現在東邦大学理学部では、男子1500名、女子900名が在籍して
いる。また、地理生態学研究室では、男子13名、女子7名が在
籍している。これは、理学部の男女比と同じだと言えるか。
地理生態学研究室の男女の人数の期待値は
1500
男: 20× 1500+900 = 12.5
900
女:20× 1500+900 = 7.5
カイ二乗値は
(13-12.5)
(7-7.5)
+
= 1.07
12.5
7.5
今回の自由度は1。また1.07は3.84より小さいため帰無仮説を採用する。
したがって、理学部と地理生態学研究室の男女比は同じだと言える。
Rでやってみる
> geoeco <-c(13,7)
> pn <-c(1500,900)/(1500+900)
> chisq.test(x=geoeco, p=pn)
Chi-squared test for given
probabilities
data: geoeco
X-squared = 0.0533, df = 1, p-value = 0.8174
P値>0.05であるから、帰無仮説は棄却できない。
よって、理学部と地理生態学研究室の男女比は同じ。
例題②
ある年の生物学科の学生の進路を示した。
就職
進学
教職
男子
38
24
7
女子
32
11
8
男女で、就職・進学・教職の割合に差はあるか。
合計の比から期待値を算出する。
男子
女子
合計
就職
38
32
70
進学
24
11
35
教職
7
8
15
合計
70
50
120
男子
女子
合計
就職
?
?
70
進学
?
?
35
教職
?
?
25
合計
70
50
120
男子
女子
合計
就職
41
29
70
進学
20
15
35
教職
9
6
15
合計
70
50
120
カイ二乗値を算出する。
(38-41)2 (24-20)2 (7-9)2 (32-29)2 (11-15)2 (8-6)2
+
+
+
+
+
= 3.51
41
20
9
29
15
6
正確には
2.82
今回の自由度は2×1で2。カイ二乗値3.51は5.99より小さいため帰無
仮説を採用する。
したがって、男女で進路の比に差はないと言える。
Rでやってみる
>
>
>
>
shinro <-matrix(c(38,24,7,32,11,8),ncol=3,byrow=T)
rownames(shinro) <-c("men","women")
colnames(shinro) <-c("syusyoku","shingaku","kyosyoku")
shinro
syusyoku shingaku kyosyoku
men
38
24
7
women
32
11
8
> chisq.test(shinro)
Pearson's Chi-squared test
data: shinro
X-squared = 2.7719, df = 2, p-value = 0.2501
P値>0.05であるから、帰無仮説は棄却できない。
よって、男女で進路の比に差はない。