期待度数

確率・統計輪講資料
6-5 適合度と独立性の検定
6-6 最小2乗法と相関係数の推定・検定
M1 西澤
6-5 適合度と独立性の検定
・期待度数
母集団が互いに排反なn個のクラスA1,A2,・・・,Anに分けられており、ある固体が各ク
ラスに属する確率がp1,p2,・・・,pnであることが分かっている(p1+p2+・・・+pn=1)。
この母集団から大きさNの標本を抜き出したとき、各クラスに属する個体の数は、
p1・N,p2・N,・・・pn・Nと期待される。これを期待度数という。
・観測度数
抽出した標本で、実際に各クラスに入っている個体の数をx1,x2,・・・xnとすると、
x1+x2+・・・+xn=Nとなる。
この観測した個体の数を観測度数という。
この2つを比較しようというのが適合度の検定である。
2
6-5 適合度と独立性の検定
例
メンデルの法則で、草花の遺伝的形質が3:2:2:1の割合で生じることが理論的に分
かっているとする。その草花を実際に240本観察した結果、遺伝的形質の割合が
87:66:55:32であったとする。
この場合のクラスはA1~A4の4つ存在し、それぞれの確率はp1=3/8,p2=p3=1/4,
P4=1/8であることが分かる。
期待度数はp1・N=3/8・240=90のように求まる。
表に期待度数と観測度数をまとめると以下のようになる。
クラス
A1
A2
A3
A4
期待度数
90
60
60
30
観測度数
87
66
55
32
3
6-5 適合度と独立性の検定
・多項分布の極限
クラス分けされた母集団は、多項分布に従っており、無作為抽出したN個の標本の観
測度数 x ~ x の確率分布は、
1
n
N!
f ( x , x ,   x ) 
p p  p
x ! x !   x !
x1
1
2
n
x2
1
1
2
2
xn
n
n
(x  x    x  N )
1
2
(6.10)
n
で与えられる。
ここで多項分布のNが大きいときの近似分布を考える。
(i  1,2,  , n)
上式に t  ( x  p N ) / N
の変換を施し、4-3節と同じような計算を行うと、 N  1のとき、t
分布 g (t , t ,  , t ) は、
i
i
i
1
1
2
2
となる。
n
2
n
の従う
n
1
g (t , t ,  t ) 
(2 )
1
, t ,  , t
 1 t t
1
t 
exp         
( p p  p )
p 
 2 p p
2
1
( n 1 ) / 2
2
2
2
n
1/ 2
1
2
n
1
2
n
自由度n-1の  分布に従う
2
4
6-5 適合度と独立性の検定
以上のことから
N  1のとき、多項分布で
(x  p N ) (x  p N )
(x  p N )
X

  
pN
pN
pN
をつくるとXは自由度n-1の  分布に従う、という命題が成り立つ。
観測度数をもとにした帰無仮説の検定
適合度の  検定
2
1
1
2
2
1
2
2
n
n
2
(6.11)
n
2
2
例
メンデルの法則で求めた期待度と観測度を用いて、帰無仮説を立て、危険度5%で適
合度の  検定を行うと、
2
(87  90) (66  60) (55  60) (32  30)
X



 1.25
90
60
60
30
クラス数は4つであるから、Xは4‐1=3の  分布に従う。
2
2
2
2
2
教科書の最後に付随している附表3から自由度3、危険度5%のときの棄却域を求めると、
X>7.81である。 X=1.25 は採択域であるので観察例はメンデルの法則にあっていないとは
いえない。
5
6-5 適合度と独立性の検定
・分割表
母集団が2つの性質A,Bに互いに排反なm個のクラスA1,A2,・・・Amと互いに排反な
n個のクラスB1,B2,・・・Bnに分けられているとき、この母集団からN個の標本を抽出し
て、クラス「AiかつBj」に属する個体の観測度数がxij(i=1,2,・・・,m;
j=1,2,・・・,n)であるとする。これを表にすると以下のようになる。
性質
B1
B2
・・・
Bn
計
A1
A2
・・・
Am
x11
x21
・・・
xm1
x21
x22
・・・
xm2
・・・
・・・
・・・
・・・
x1n
x2n
・・・
xmn
a1
a2
・・・
am
計
b1
b2
・・・
bn
N
上のような表を分割表とよび、分割表を用いて2つの性質A,Bが独立であるかどうかを
検定することを独立性の検定という。
6
6-5 適合度と独立性の検定
・独立性とχ 分布
2
母集団から無作為抽出した1つの個体が、 A , A ,  , A に属する確率 p , p ,  , p
B , B    , B に属する確率 q , q ,  , q が分かっているとすると、AとBが独立なときには、
その個体が A かつ B に属する確率は p q となる。よってN個の標本を抽出したとき、
期待度数は p q Nである。このとき、観測度数 x の総数はmn個なので、例の命題を
使うと、
1
1
2
1
n
n
1
i
j
ij
2
11
1
1
i 1
j 1
2
1
12
1
1
1
(x  p q N )
 
pq N
n
n
j
(x  p q N ) (x  p q N )
(x  p q N )
X

  
pqN
pq N
pqN
m
2
n
j
i
i
2
2
ij
i
i
j
2
2
mn
m
m
2
n
n
2
(6.12)
j
は、mn-1のχ 2 分布に従うことになる。
実際問題、期待度数が分からない場合が殆どであるため、独立性の検定を行うためには
このままではマズイ。修正が必要。
7
6-5 適合度と独立性の検定
次のように修正する。
前の分割表のB1の列を見ると、和はb1で、AiかつB1に属する確率はb1/Nと仮定できる。
ここでこの列だけに着目して、Nの代わりにb1、xiの代わりにxi1、piの代わりにai/Nをとる
と、
(x  a b / N ) (x  a b / N )
(x  a b / N )
X 

  
ab / N
ab /N
ab /N
2
11
1
2
1
21
2
1
m1
m
2
1
1
1
1
2
1
m
1
これがm-1のχ2分布に従うと考えられ、さらに同様にj列について、上式を適応させると
(x  a b / N ) (x  a b / N )
(x  a b / N )
X 

  
ab / N
ab /N
ab /N
2
1j
1
2
j
21
2
j
mj
m
2
j
j
1
j
2
j
m
j
これまたm-1のχ2分布に従うと考えられる。
X=X1+X2+・・・+Xnとして、なおかつb1+b2+・・・+bn=Nの拘束条件より、Xは自由度が
(m-1)×(n-1)のχ2分布に従う。結局以下の命題が成り立つ。
(x  a b / N ) (x  a b / N )
(x  a b / N )
X

  
ab / N
ab /N
ab /N
(x  a b / N )
 
(6.13)
ab / N
2
11
1
1
2
1
21
1
2
2
1
1
mn
m
m
2
n
n
2
m
n
i 1
j 1
ij
i
i
j
j
8
6-6 最小2乗法と相関係数の推定・検定
・散布図やらなんやら
30
重さ x
バネ長 y
28
100
120
130
150
160
180
20.4
22.6
23.4
25.6
26.9
28.7
26
y
24
22
20
18
16
100
120
140
160
180
200
x
相関図または散布図
相関を取ったりするのに使える
回帰直線
9
6-6 最小2乗法と相関係数の推定・検定
y  ax  b
・最小2乗法
・
・
・
・
e
・( x , y )
i
i
i
(i  1,2,  , n)
e  y  (a  bx )
回帰直線からの誤差
i
i
i
(6.15)
この式を線形回帰モデルという。
グラフ上の全ての点における線形回帰モデルの和≒0
全体の誤差の指標にはならない
誤差の指標として、線形回帰モデルの2乗の和をとり、その値が最小となるような
回帰直線の未知係数a,bを求める。これを最小2乗法という!!
Q  e  e    e
2
1
2
2
2
n
(6.16)
Q  ( y  a  bx )  ( y  a  bx )      ( y  a  bx )
2
1
1
2
2
2
n
n
2
(6.17)
10
6-6 最小2乗法と相関係数の推定・検定
Qが最小になるようなa,bを求めるには、
Q
0
a
Q
0
b
(6.18)
(6.19)
の極値問題を考えればよい。
(6.17)式より、
となる。
11
6-6 最小2乗法と相関係数の推定・検定
12
6-6 最小2乗法と相関係数の推定・検定
Q Q
ここまでの5式を回帰係数の定義という。この定義を用いると、 a , b は次のようになる。
となり、この2つが誤差の2乗和を最小にするa,bの値であり、標準回帰係数という。
13
6-6 最小2乗法と相関係数の推定・検定
また、標準相関係数を
と定義すると、
以上のような標本平均、標本分散、標本相関係数を用いると、回帰直線は、
s
y  y  C (x  x)
s
y
xy
(6.34)
x
と書ける。
14
6-6 最小2乗法と相関係数の推定・検定
・誤差の分散
は誤差の分散に相当する。
上式を(6.27)、(6.23)、(6.25)、(6.26)を用いて変形させ、(6.30)を代入し、さらに(6.30)を
使うと、
と変形でき、標本相関係数Cxyが0に近いほどバラつきが大きく、
±1に近づくほど直線に近づくことが分かる
15
6-6 最小2乗法と相関係数の推定・検定
・相関係数の意味
相関係数は-1から+1の尺度
負の相関がある
正の相関がある
曲線的なものとの相関は取れない!
16
6-6 最小2乗法と相関係数の推定・検定
・「相関なし」の検定
直線の当てはめを行った2つの変化量x,yについての標本が、2次元正規分布に
従っている母集団から抽出したものと考えてよい場合、標本からつくった標本相
関係数をもとにして、母集団の母相関係数についての推定、検定をすることがで
きる。
(4.33)式のρxyを母相関係数と考える。相関係数ρxy=0のときには、X、Yはそれぞ
れ独立に1次元正規分布に従う(p-91、例1参照)ので、次の命題が成り立つ。
ρxy=0の2次元正規分布に従う母集団から大きさnの標本(x1,y1),(x2,y2),・・・
(xn,yn)を無作為抽出したとき、標本相関係数Cxyは、確率密度が
1 ((n  1) / 2)
f (C ) 
(1  C )
 ((n  2) / 2)
2
xy
( n4 ) / 2
xy
の分布に従い、
(n  2)C
T
1 C
2
xy
2
xy
のTは、自由度n-2のt分布に従う。
17
6-6 最小2乗法と相関係数の推定・検定
ρxy≠0の2次元正規分布に従う母集団から大きさnの標本(x1,y1),(x2,y2),・・・
(xn,yn)を無作為抽出したとき、標本相関係数Cxyを
1 1 C
Z  tanh C  log
2 1 C
1
xy
xy
xy
と変換したとき、nが大きければ、Zは
に近似的に従う。その結果、
1 1 
  tanh   log
2 1 
1
N (tanh  ,1 /(n  3))
1
xy
xy
xy
xy
としたとき、
T  n  3( Z   )
はN(0,1)に従う。
これらの命題を用いることで、標本相関係数Cxyに基づいて母相関係数ρxyの推定、検定を
行うことができる。
18
疑問、苦情などがありましたらこちらまで・・・
http://www.google.co.jp/
19