第3日目第4時限の学習目標

第3日目第4時限の学習目標
 第1日目第3時限のスライドによる、名義尺
度2変数間の連関のカイ2乗統計量について
の復習
 2変量間の連関の強さの統計的有意性検定の
理論と方法を学ぶ。
 第1日目第3時限での演習(3)で使った
データのカイ2乗統計量(イエーツの修正済
み)を用いて、当該カイ2乗統計量の統計的
有意性検定の演習を行う。
カイ2乗統計量の統計的有意性検定(1)
連関のカイ2乗統計量の復習
 第1日目第3
時限のスライ
ドを見て、2
つの名義尺度
間の連関のカ
イ2乗統計量
について復習
をしよう。
カイ2乗統計量の統計的有意性検定(2)
カイ2乗統計量の理論分布(1)
 既に述べた、一般の r ×s 分割表の場合の(ピア
ソンの)カイ2乗統計量
r
s
 2   ( f ij  g ij ) 2 / g ij ,
i 1 j 1
ここで、
g ij  f i  f  j / N
は、2変量間に関連がない、という帰無仮説
のもと
で、近似的に自由度 ν=(r-1)(s-1) なるカイ2乗
分布に従うことがわかっている。
カイ2乗統計量の統計的有意性検定(3)
カイ2乗統計量の理論分布(2)(参考)
 それでは、一般に、自由度 ν のカイ2乗分布とは、
どんな分布であろうか。この理論分布(密度関
数)は、つぎのように書かれる:
f ( x) 


1

  2
 2
2

1
e 2 x 2 , 0  x  
カイ2乗統計量の統計的有意性検定(4)
カイ2乗統計量の理論分布(3)(参考)
 ここで、Γ(ν/2)
はガンマ関数と呼ばれ、次式
で定義される:


1
 
x
2
    x e dx,   0.
2 0
カイ2乗統計量の統計的有意性検定(5)
カイ2乗統計量の理論分布(3)(参考)
 自由度2以下
のカイ2乗分
布は、単調な
減少関数とな
る。
確
率
 一方、自由度
が2より大き
い場合のカイ
2乗分布は右
のような図と
なる。
ν-2
x
カイ2乗統計量の統計的有意性検定(5)
永平寺データの例での有意性検定(1)
 つぎに、第1日目に計算した永平寺データの「性と坐
禅指導の評価」間の関連性のカイ2乗統計量をもとに、
当該2変量間には統計的に有意な関連がみられるかど
うかを見てみよう。
 そのためには、まず当該分割表の行数が2、列数が3
であることを思い出し、カイ2乗分布の自由度が、
ν=(2-1)(3-1)=2 となることに注意しよう。
 さらに、既に第1日目に見せたように、このデータの
期待度数はすべて5以上なのでイエーツの修正は不
要であることにも注意しよう。
カイ2乗統計量の統計的有意性検定(5)
永平寺データの例での有意性検定(2)
 もし統計ソフトを利用しないならば、つぎのような
カイ2乗分布の棄却点についての数値表を見て、検
定の危険率と上記自由度に対応する棄却点の値を読
みとり、上記カイ2乗統計量と比較し、
 カイ2乗統計量の値が、棄却点の値以上ならば、帰
無仮説を棄却する。このことは、性と坐禅の評価の
間には有意な関連があることを意味する。
 そうでなく、カイ2乗統計量の値が、棄却点の値未
満ならば、帰無仮説を採択する。このことは、性と
坐禅の評価の間には有意な関連が見られないことを
意味する。
自由度 ν の χ2-分布の棄却点の値の読み取り方
α
のこ
と
…
0.05
…
0.01
.064
…
3.841
…
6.635
.211
.446
…
5.991
…
9.210
.584
1.649
…
7.815
… 11.345
… 43.773
50.892
p
0.90
1
.016
2
3
0.80
ν
∶
30 20.599
∶
23.364
カイ2乗統計量の統計的有意性検定(5)
永平寺データの例での有意性検定(3)
 この表を見ると、明らかにデータから計算さ
れるカイ2乗統計量の値から、性と坐禅の評
価の間には少なくとも1%水準で統計的に有
意な関連があると言える。
 一方、国際的な統計ソフトの1つである SAS
の出力を見ると、以下のようになり、両者の
間には1%以上の高い水準で、性と坐禅の評
価の間には少なくとも1%水準で統計的に有
意な関連があることがわかる。
カイ2乗統計量の統計的有意性検定(5)
永平寺データの例での有意性検定(4)
Statistic
Chi-Square
Likelihood Ratio Chi-square
DF
Value
Prob
2
2
17.889
20.400
0.000
0.000
 Statistic の項の Chi-square の項が、ピアソンのカイ二乗検定
結果、Likelihood …の項が、尤度比カイ二乗検定結果である。
 通常は、ピアソンのカイ二乗検定の p 値を見る。この例から
は、両変数間には1パーセント以上の高い水準で有意な関連
性があることがわかる。
カイ2乗統計量の統計的有意性検定(5)
永平寺データの例での有意性検定(5)
 いずれにせよ、性と坐禅の評価の間には統計的に有
意な関連があることがわかったので、最後に我々は
第1日目に示した各セルの実度数、期待度数、セル
カイ2乗値を見ながら、どのセルに両変量間の関連
性の特徴が顕著に表れているのかを検討すると良い
。
 その際、注意すべきは、われわれは各セルの実度数
のみで当該セルの度数の多少を論じてはいけない、
ということである。なぜならば、実度数は各行や各
列の合計(すなわち周辺度数)に依存しており、周
辺度数の異なる行や列の実度数の単純な比較は問題
性と坐禅指導の評価間の分割表情報
厳し
適当
過ぎた
275
27
292.6
男 22.0
1.13
1.06
3
124
8.00
106.4
女
3.12
2.93
30
399
計
もっと
厳しく
75
62.3
2.57
10
22.66
7.07
85
計
377
137
514
カイ2乗統計量の統計的有意性検定(5)
永平寺データの例での有意性検定(6)
 この表のセルのうち、赤印で示したのは、各セルの
セルカイ2乗値の相対的に大きいもの3つである。
 これらのセルは、当該分割表のカイ2乗値に対して
大きく貢献しているセルであるので、これらのセル
の特徴を見ることは、上記目的に合致する。
 これらの各セルについて、各セルの実度数が多いか
少ないかは、各セルの期待度数と比較すればよい。
 例えば、女子で(坐禅指導を厳しすぎたとする)者(
3名)は、(期待度数 8 名ほどに比べて)少なかっ
たと言える。
演習9
 演習(2)で作成し、演習(3)で計算した
各自の2×2分割表(性と向性)間の分割表の
カイ2乗統計量を用いて、性と向性の間の関
連性に有無の検定を行え。
 帰無仮説の採択または棄却を、さきほどのカ
イ2乗統計量の棄却点の値を読み取り、決定
せよ。
 この場合、カイ2乗統計量の自由度は、幾つ
か。
 最後に、統計ソフト SAS を用いて、検算をし
てみよう。