講義プリント - 浅野 晃

2010 年度後期 情報統計学 第14回
χ2 分布と推定・検定
第9回の講義で,正規母集団の母分散がわかっているものと仮定して,母平均の区間推定を説明しま
した.しかし,母平均がわからないのに母分散がわかっているというのは変な話で,母平均がわからな
いのなら母分散もわからないはずです.そこで,母平均のかわりにその点推定量として標本平均を用い
るように,母分散の点推定量として不偏分散を用いて,区間推定や検定を行う方法が必要です.そこで
今日は,不偏分散と母分散の関係の手がかりになる χ2(カイ2乗)分布と,それを用いて母分散の区間
推定や検定を行う方法を紹介します.さらに χ2 分布は,次回説明する,標本平均と不偏分散から母平均
の推定・検定を行う方法(t 分布にもとづく推定・検定)の基礎になります.
また,χ2 分布を利用した統計的推測の方法として,各グループに属するデータの数の比率が理論通り
かどうかを検定する適合度検定をとりあげます.
χ2 分布
問題1:ある正規母集団は,母分散 σ2 = 15 であるという.この母集団からサイズ n = 10 の
標本をとったとき,「不偏分散 s2 が a を超える確率が 0.05」であるような a の値を求めよ.
確率変数 Z1 , Z2 , . . . , Zn が互いに独立で,それぞれが標準正規分布 N(0, 1) にしたがうとします.この
とき,
χ2 = Z12 + Z22 + · · · + Zn2
(1)
がしたがう確率分布を自由度 n の χ2 (カイ2乗)分布といい,記号 χ2 (n) で表します1 .
不偏分散と χ2 分布の間には,次のような関係があります.
母平均 μ,母分散 σ2 の正規分布 N(μ, σ2 ) にしたがう母集団から,n 個からなる標本 X1 , X2 , . . . , Xn
をとる.その標本平均を X¯ とし,不偏分散を s2 とするとき,(n − 1)s2 /σ2 は自由度 n − 1 の
χ2 分布 χ2 (n − 1) にしたがう.
その証明は付録2に収録しています.ここでは標本サイズが 2 の場合について上のことを確かめてみ
ましょう.n = 2 ですから,不偏分散 s2 は
s2 =
1
¯ 2 + (X2 − X)
¯ 2
(X1 − X)
2−1
(2)
となります.X¯ = (X1 + X2 )/2 ですから,X1 − X¯ と X2 − X¯ は独立ではありません.したがって,このま
ま χ2 分布の定義を使うことはできません.そこで X¯ = (X1 + X2 )/2 という関係を使ってこの式を変形す
1
詳細は付録1を見てください.
浅野 晃/情報統計学(2010 年度後期) 第14回 (11. 1. 26)
http://kougi.racco.mikeneko.jp/ 1/9 ページ
確率密度
P(χ2 > χ2α(ν)) = α
χ2(ν)
χ2
χ2
α(ν)
図 1: 自由度 ν の χ2 分布の上側確率 100α% のパーセント点 χ2α (ν)
ると,
¯ 2 + (X2 − X)
¯ 2
s2 = (X1 − X)
X1 + X2 2
X1 + X2
= X1 −
+ X2 −
2
2
X1 − X2 2
X2 − X1 2
=
+
2
2
2
(X1 − X2 )
=
2
2
(3)
となります.ここで X1 − X2 = Y とおくと, s2 = Y 2 /2 となります.X1 , X2 は独立で N(μ, σ2 ) にしたがい
ますから,Y = X1 − X2 は平均 0,分散 2σ2 の正規分布 N(0, 2σ2 ) にしたがいます2 .ですから,Y/2σ は
標準正規分布 N(0, 1) にしたがいます.そこで,
s2 =
すなわち
Y2 1 Y
=
√
2
2
2σ
2
Y
· 2σ2 = √
2σ
s2
Y
(2 − 1) 2 = √
σ
2σ
2
2
· σ2
(4)
(5)
と変形すると,χ2 分布の定義から (2 − 1)s2 /σ2 が自由度 1 の χ2 分布にしたがうことがわかります.もと
もと 2 つの独立な変数 X1 , X2 があったのが,不偏分散を求めると独立な変数が Y ただ 1 つになっている
ことに注意してください.
自由度 ν の χ2 分布 χ2 (ν) にしたがう確率変数 χ2 がある範囲の値をとる確率を知るには,数表を利用す
ることができます.χ2 の数表では,各自由度 ν(縦軸)と定数 α(横軸)に対して,P(χ2 > x) = α とな
るような x が縦 ν・横 α の交点の値を読むことで求められます.この x を自由度 ν の χ2 分布の上側確率
100α% のパーセント点といい χ2α (ν) で表します.
問題1では,P(s2 > a) = 0.05 となる a を求めます. s2 > a のとき (n − 1)s2 /σ2 > (n − 1)a/σ2 です.
問題の条件は σ2 = 15 で自由度 n − 1 = 9 ですから,(n − 1)a/σ2 = 9a/15 = 0.6a です.よって,求め
る a は P((n − 1)s2 /σ2 > 0.6a) = 0.05 となる a です.(n − 1)s2 /σ2 は自由度 n − 1 の χ2 分布にしたがう
ので,P((n − 1)s2 /σ2 > 0.6a) = 0.05 となる 0.6a は上側確率 5% のパーセント点 χ20.05 (9) で,数表から
2
第12回の講義を参照.2つの独立な確率変数の 和 の分散も,差 の分散も,どちらもそれぞれの分散の 和 になります.
浅野 晃/情報統計学(2010 年度後期) 第14回 (11. 1. 26)
http://kougi.racco.mikeneko.jp/ 2/9 ページ
確率密度
P((n –1)s2 / σ2 > χ2α/2(n –1)) = α / 2
P((n –1)s2 / σ2 > χ21– α/2(n –1)) = α / 2
χ2(n –1)
χ2
1– α/2(n
–1)
χ2α/2(n
(n –1)s2 / σ2
–1)
図 2: χ2 分布での信頼係数 1 − α 信頼区間
0.6a = 16.9190,よって a = 28.1983 となります.母分散が 15 であっても,不偏分散が 28 を超える確率
が 5% ほどあることになります.
母分散の区間推定
次の問題を考えてみましょう.
問題2:ある試験の受験者から 25 人を抽出して点数を調べたところ,標本平均 53,不偏分
散 48 であった.受験者全体の点数の分布が正規分布であるとして,母分散の 90%信頼区間
を求めよ.
前節で述べた通り,正規母集団について,標本サイズ n,母分散 σ2 ,不偏分散 s2 とするとき,(n−1)s2 /σ2
は自由度 n − 1 の χ2 分布にしたがいます.よって,パーセント点の定義から
P χ21−α/2 (n − 1) ≤ (n − 1)
s2
≤ χ2α/2 (n − 1) = 1 − α
σ2
となります.これを σ2 について解くと,
⎞
⎛
2 ⎟
⎜⎜⎜ (n − 1)s2
(n
−
1)s
⎟⎟⎟
≤ σ2 ≤ 2
P ⎜⎜⎝ 2
⎟⎠ = 1 − α
χα/2 (n − 1)
χ1−α/2 (n − 1)
ですから,信頼係数 1 − α の信頼区間は
⎡
⎤
2 ⎥
⎢⎢⎢ (n − 1)s2
(n
−
1)s
⎥⎥⎥
, 2
⎢⎢⎣ 2
⎥⎦
χα/2 (n − 1) χ1−α/2 (n − 1)
(6)
(7)
(8)
となります.分母にあるパーセント点は,数表から求めることができます.
この問題例の場合は,不偏分散 s2 = 48 で,自由度 n − 1 = 24 です.σ2 の信頼係数 90%信頼区間は
⎡
⎤
⎢⎢⎢ 24 × 48 24 × 48 ⎥⎥⎥
⎢⎢⎣
⎥⎥⎦
,
(9)
χ20.05 (24) χ20.95 (24)
浅野 晃/情報統計学(2010 年度後期) 第14回 (11. 1. 26)
http://kougi.racco.mikeneko.jp/ 3/9 ページ
です.数表から χ20.05 (24) = 36.4150,χ20.95 (24) = 13.8484 ですから,σ2 の 90% 信頼区間は [31.64, 83.19]
となります.
適合度検定
次のような問題を考えます.
あるマメの交配実験の結果は,メンデルの法則によれば「黄色・丸」
「黄色・しわ」
「緑色・
丸」「緑色・しわ」の4種類の形質のマメが 9 : 3 : 3 : 1 の割合で現れるはずだという.実際
にこの実験を行ったところ,それぞれの形質をもったマメの数は 447, 131, 152, 38 であった.
この実験においてメンデルの法則が成り立っているかどうかを有意水準 5% で検定せよ.
この問題で,もしも各形質をもつマメの個数が正確に 9 : 3 : 3 : 1 の比率になっているとすれば,マメ
の総数は 768 ですから,それぞれの個数は 432, 144, 144, 48 になるはずです.このように,実際に観測さ
れたデータをカテゴリに分類したときの比率と,今仮定している理論(モデル)から予想される比率と
のずれが,偶然起こりうる程度のものか,それともモデルの方が間違っていると考えたほうがいいのか
を検定するのが,適合度検定です.ここでは,よく用いられる χ2(カイ2乗)適合度検定を紹介します.
上の問題を一般的に考えると,次のようになります:母集団が k 個のグループに分けられるとしましょ
う.ただし,各グループは,同時に2つ以上のグループに属する個体はない (「排反」といいます)とし
ます.実験によって得た n 個の標本のうち,グループ 1∼k に属するものの数が,おのおの X1 , X2 , ..., Xk
であったとき,
「各グループに属する個体数(例題でいえば豆の数)の比率が p1 , p2 , ..., pk になる」とい
うモデルが正しいかどうかを検定します.
1
2
···
k
合計
実際に観測された個体数 X1
X2 · · ·
Xk
n
理論で予想される比率
p1
p2 · · ·
pk
1
理論で予想される個体数 np1 np2 · · · npk
n
表 1: 適合度検定の考え方.Xi = npi といえるかどうかを検定する.
グループ名
仮定したモデルによれば,n 個からなる標本に対してはグループ 1∼k に属する個体数は np1 , np2 , ..., npk
になるはずです(表を参照).ここで,各グループについて「現実に観測された個体数 Xi と,モデルか
ら予想される値 npi との差」の2乗の比率,すなわち (Xi − npi )2 /npi を全部のグループに対して合計し
たもの,つまり
k
(Xi − npi )2
T=
(10)
np
i
i=1
を考えます.T は,観測値と理論値の差が大きいほど大きくなります.
T は,n が大きいとき,自由度 k − 1 の χ2 分布に近似的にしたがいます.その証明は複雑なのでここ
では示しませんが,グループが2つ,つまり k = 2 の場合について,付録3に説明を載せておきます.
さて,ここで行う検定では,帰無仮説 H0 は「グループ 1, 2, . . . , k に属する個体数の比率は p1 , p2 , . . . , pk
である」で,対立仮説 H1 は「グループ 1, 2, . . . , k に属する個体数の比率は p1 , p2 , . . . , pk ではない」です.
浅野 晃/情報統計学(2010 年度後期) 第14回 (11. 1. 26)
http://kougi.racco.mikeneko.jp/ 4/9 ページ
確率密度
P(T > χ20.05(k – 1)) = 0.05
χ2(k – 1)
T
χ20.05(k – 1)
図 3: 自由度 k − 1 の χ2 分布の確率密度関数と,上側 5 パーセント点 χ20.05 (k − 1)
ここで,T の値が大きいほど,理論値と観測値とのずれが大きい,つまり帰無仮説の成立が疑わしい,と
いうことなので,
「T がそんな大きな値になる確率は,有意水準以下」のとき帰無仮説を棄却します.
自由度 k − 1 の χ2 分布の確率密度関数のグラフ(ヒストグラム)は,図 3 のような形をしています.
このとき,自由度 k − 1 の χ2 分布にしたがう確率変数 T が,χ20.05 (k − 1) より大きい確率が 5%であると
します(t 分布の場合と同様,「上側 5 パーセント点」といいます).
したがって,有意水準が 5%のときは,帰無仮説が正しいとしたときに T の値を計算して,それが
− 1) よりも大きければ,帰無仮説は棄却されます.
χ20.05 (k
結論は何なのか? −適合度検定の問題点
上の例では,帰無仮説 H0:
「4つのグループに属する個体数の比率は 9/16, 3/16, 3/16, 1/16 である」
,対
「4つのグループに属する個体数の比率は 9/16, 3/16, 3/16, 1/16 でない」となります.そこで
立仮説 H1:
(10) 式の T の値を求めると T = (447 − 432)2 /432 + (131 − 144)2 /144 + (152 − 144)2 /144 + (3848)2 /48 = 4.22
となります.4つのグループに分かれるので自由度は 3 で,有意水準が 5%のとき,T > χ20.05 (3) のとき,
H0 は棄却されます.数表より, χ20.05 (3) = 7.8147 ですから,T > χ20.05 (3) ではなく,H0 は棄却されま
せん.
これまでに説明した検定の考え方では,帰無仮説が「モデルは実測データに適合している」となって
いますから,帰無仮説が棄却されたときは「モデルは実測データに適合していないと言える」と結論さ
れ,棄却されないときは「モデルは実測データに適合していないとまでは言えない」という結論が得ら
れるはずです.したがって,今回の例の結論は「メンデルの法則が成り立っていないとまでは言えない」
ということになるはずです.
ところが,ある程度たくさんの標本を集めないと,
「比率」を推測して検定をしようとは思いません.
しかし一方で,第11回の講義で述べたように,標本サイズが大きいと検出力が大きくなります.つま
り,棄却域が広くなり,理論比率と実際に観察された比率のほんのわずかの違いによっても帰無仮説が
棄却され,「モデルは適合しないと言える」という結論が出てしまいます.
現実には,たとえ理論通りの現象が起こっていても,現象には誤差があり,理論通りの比率が実際に
観察されることはまずありません.したがって,標本が多ければ,わずかの誤差を検出して帰無仮説が
棄却され,どんな場合でも「モデルは適合しない」という結論が出てしまいます.これでは,この検定
は役に立ちません.
浅野 晃/情報統計学(2010 年度後期) 第14回 (11. 1. 26)
http://kougi.racco.mikeneko.jp/ 5/9 ページ
そこで,適合度検定では,通常の検定とは逆に「標本サイズが大きく,検出力が十分に高いのに帰無
仮説が棄却されないときは,
『帰無仮説は正しい.モデルは実測データに適合している』あるいは『実測
データはモデルと矛盾しない』と言える」という結論を導く,という考え方があります.しかし,標本
が十分多くないときには,棄却されないからといって間違った結論を出してしまうことがあります.ま
た,そんなに標本が多ければ,検定などしなくても,モデルによる比率と実測データにおける比率を直
接比較するだけでいいはずです.
第11回の講義で,くじびきの例を使って説明した,検定のそもそもの考え方を思い出してください.
それは
「実際にひいた少ない本数のくじが全部はずれだったとき,たったそれだけの数のくじでも
『全部はずれ』なんてことは到底(有意水準より小さな確率でしか)起こらない」
→「『半分の確率で当たる』というおじさんの台詞を無理に信じるよりも『半分の確率で当
たるなんてウソ』と考えるほうが自然」
というものでした.このような推測をしなければならないのは,実際にひくことのできるくじの本数が
少ないからです.もしくじ箱の中のくじの大半をひくことができるのなら,半分の確率で当たるかどう
かは一目瞭然です.
つまり,標本サイズが大きくないと成り立たず,しかも「帰無仮説が棄却されないとき,積極的な結論
が得られる」という検定は,上のような検定の考え方や有意水準の意味を逸脱したものです.したがっ
て,統計学者の間では適合度検定の有用性を否定する見解もあり,使用には注意が必要です.
今日の演習
ある機械が製造する製品の寸法は,正規分布にしたがうとします.製品から,10 個のデータからなる
標本を取り出して測定すると,その寸法 (cm) は次の通りでした.
101, 101, 102, 99, 99, 101, 99, 100, 98, 100
このとき,製品の寸法の母分散の 95% 信頼区間を求めて下さい.
付録1:χ2 分布の定義と正規分布との関係
χ2 分布はガンマ分布という確率分布の1種で,その確率密度関数は次の式で表されます.
xν/2−1 e−x/2
(x ≥ 0)
2ν/2 Γ(ν/2)
= 0 (x < 0)
f (x) =
(A1)
パラメータ ν を自由度とよびます.また,Γ() はガンマ関数という関数で,次のように定義されます.
Γ(α) =
浅野 晃/情報統計学(2010 年度後期) 第14回 (11. 1. 26)
∞
−∞
xα−1 e−x dx
(A2)
http://kougi.racco.mikeneko.jp/ 6/9 ページ
この確率密度関数から,モーメント母関数を求めてみましょう.モーメント母関数の定義により
MX (t) = E(etX ) =
=
1
2ν/2 Γ(ν/2)
1
ν/2
2 Γ(ν/2)
∞
−∞
∞
−∞
etx xν/2−1 e−x/2 dx
xν/2−1 e−
x(1−2t)
2
(A3)
dx
となります.ここで,z = x(1 − 2t)/2 という変数変換を行うと,dx = 2dz/(1 − 2t) ですから
MX (t) =
1
ν/2
2 Γ(ν/2)
=
2 ν/2
1−2t
2ν/2 Γ(ν/2)
∞
2z
1 − 2t
−∞
∞
−∞
ν/2−1
e−z
2
dz
1 − 2t
zν/2−1 e−z dz
(A4)
となり,この式の積分は (A2) 式より Γ(ν/2) ですから,
MX (t) =
2 ν/2
1−2t
Γ(ν/2)
2ν/2 Γ(ν/2)
= (1 − 2t)−ν/2
(A5)
となります.
さて,確率変数 Z1 , Z2 , . . . , Zk が互いに独立で,それぞれが標準正規分布 N(0, 1) にしたがうとします.
このとき,これらの確率変数の2乗の和 V = Z12 + Z22 + · · · + Zk2 がしたがう分布を考えてみます.第12
回の講義の演習問題で示したように,独立な確率変数の和のモーメント母関数は,それぞれのモーメン
ト母関数の積になるので,
MV (t) = MZ 2 +Z 2 +···+Z 2 (t) = MZ 2 (t) · MZ 2 (t) · · · · · MZ 2 (t) = MZ 2 (t)
1
2
1
k
2
k
1
k
(A6)
となります.Z1 は N(0, 1) にしたがうので,
∞
2
−z /2
2e
etz √ dz
1
−∞
2π
∞
2
1
e−z (1−2t)/2 dz
= √
2π −∞
√
√
となり,ここで y = z 1 − 2t という変数変換を行うと,dz = dy/ 1 − 2t ですから
2
MZ 2 (t) = E[etZ1 ] =
MZ 2 (t) =
1
1
√
2π
∞
−∞
e−y
= (1 − 2t)−1/2
2 (1−2t)/2(1−3t)
∞
−∞
· √
1
1 − 2t
(A7)
dy
2
1
√ e−y /2 dy
2π
(A8)
となりますが,下段の積分の中は標準正規分布の密度関数ですから積分の値は1です.よって
MV (t) = MZ 2 (t)
1
k
= (1 − 2t)−k/2
(A9)
です.これは,(A5) 式で示した通り,自由度 k の χ2 分布のモーメント母関数です.つまり,標準正規分
布 N(0, 1) にしたがう独立な確率変数 k 個の2乗の和 V = Z12 + Z22 + · · · + Zk2 は自由度 k の χ2 分布にした
がいます.
浅野 晃/情報統計学(2010 年度後期) 第14回 (11. 1. 26)
http://kougi.racco.mikeneko.jp/ 7/9 ページ
付録2:不偏分散と χ2 分布との関係
母平均 μ,母分散 σ2 の正規分布 N(μ, σ2 ) にしたがう母集団から,n 個からなる標本 X1 , X2 , . . . , Xn をと
ります.その標本平均を X とし,標本分散(不偏分散)σ2 を
s2 =
1
¯ 2 + (X2 − X)
¯ 2 + · · · + (Xn − X)
¯ 2
(X1 − X)
n−1
(A10)
とします.このとき,つぎの関係がわかります.
n
(n − 1)s2 =
i=1
n
=
i=1
n
=
¯ 2
(Xi − X)
(xi − μ) − (X¯ − μ)
(Xi − μ)2 − 2(X¯ − μ)
i=1
n
2
n
n
(Xi − μ) +
i=1
(X¯ − μ)2
i=1
(Xi − μ)2 − 2(X¯ − μ) · n(X¯ − μ) + n(X¯ − μ)2
=
i=1
n
=
(Xi − μ)2 − n(X¯ − μ)2
(A11)
i=1
上の式の両辺を σ2 で割ると
⎛
⎞2
(n − 1)s2 ⎜⎜⎜⎜ X¯ − μ ⎟⎟⎟⎟
+ ⎜⎝
⎟⎠ =
σ2
σ2 /n
n
i=1
Xi − μ
σ
2
(A12)
が得られます.この関係を J + K 2 = L と表します.ここで,「Xi が独立で正規分布にしたがうとき, s2
と X¯ は独立である」3 ことを用いると, J と K 2 は独立となりますから
M J+K 2 (t) = ML (t)
M J (t)MK 2 (t) = ML (t)
ML (t)
ゆえに M J (t) =
MK 2 (t)
(A13)
が得られます.Xi は N(μ, σ2 ) にしたがい,各々は独立なので,L は自由度 n の χ2 分布にしたがいます.
また,X は N(μ, σ2 /n) にしたがいますから,K は N(0, 1) にしたがいます.よって,K 2 は自由度 1 の χ2
分布にしたがいます.以上のことから,(A9) 式で表される χ2 分布のモーメント母関数を使って (A13) 式
を表すと
(1 − 2t)−n/2
M J (t) =
= (1 − 2t)−(n−1)/2
(A14)
(1 − 2t)−1/2
となります.この式は,J が自由度 n − 1 の χ2 分布にしたがうことを表しています.つまり,(n − 1)s2 /σ2
は自由度 n − 1 の χ2 分布 χ2 (n − 1) にしたがいます.
3
この証明は省略します.ホーエル/浅井・村上「入門数理統計学(第4版)」付録6を参照して下さい.
浅野 晃/情報統計学(2010 年度後期) 第14回 (11. 1. 26)
http://kougi.racco.mikeneko.jp/ 8/9 ページ
付録3:χ2 分布と適合度検定について
適合度検定において,グループが2つ,つまり k = 2 の場合を考えます.このとき,本文 (10) 式の T
がどうなるかをみてみましょう.グループが2つしかないので,各グループの個体数 X1 , X2 の合計は全
個体数 n で,また各グループの理論比率 p1 , p2 の合計は 1 です.このとき,T は
T
(X1 − np1 )2 (X2 − np2 )2
+
np1
np2
2
((n − X1 ) − n(1 − p1 ))2
(X1 − np1 )
+
=
np1
n(1 − p1 )
2
(X1 − np1 )2
(X1 − np1 )
+
=
np1
n(1 − p1 )
⎫2
⎧
⎪
⎪
⎪
⎪
)
+
p
−
np
(1
−
p
X
⎬
⎨
1
1
1
1
= (X1 − np1 )2
=⎪
⎪
⎪
⎪
⎩
np1 (1 − p1 )
np1 (1 − p1 ) ⎭
=
(A15)
となります.
ここで,p1 は「ある個体がグループ1に属する確率」と考えられるので,
「n 個の個体のうち,グルー
プ1に属している数」を表す X1 は2項分布 B(n, p1 ) にしたがいます. B(n, p1 ) の期待値は np1 ,分散は
np1 (1 − p1 ) ですから,中心極限定理により,n が大きいとき,(A15) 式の {} 内は標準正規分布にしたが
います.よって,T は自由度 1(すなわち k − 1)の χ2 分布にしたがいます.
浅野 晃/情報統計学(2010 年度後期) 第14回 (11. 1. 26)
http://kougi.racco.mikeneko.jp/ 9/9 ページ