確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤 6-5 適合度と独立性の検定 ・期待度数 母集団が互いに排反なn個のクラスA1,A2,・・・,Anに分けられており、ある固体が各ク ラスに属する確率がp1,p2,・・・,pnであることが分かっている(p1+p2+・・・+pn=1)。 この母集団から大きさNの標本を抜き出したとき、各クラスに属する個体の数は、 p1・N,p2・N,・・・pn・Nと期待される。これを期待度数という。 ・観測度数 抽出した標本で、実際に各クラスに入っている個体の数をx1,x2,・・・xnとすると、 x1+x2+・・・+xn=Nとなる。 この観測した個体の数を観測度数という。 この2つを比較しようというのが適合度の検定である。 2 6-5 適合度と独立性の検定 例 メンデルの法則で、草花の遺伝的形質が3:2:2:1の割合で生じることが理論的に分 かっているとする。その草花を実際に240本観察した結果、遺伝的形質の割合が 87:66:55:32であったとする。 この場合のクラスはA1~A4の4つ存在し、それぞれの確率はp1=3/8,p2=p3=1/4, P4=1/8であることが分かる。 期待度数はp1・N=3/8・240=90のように求まる。 表に期待度数と観測度数をまとめると以下のようになる。 クラス A1 A2 A3 A4 期待度数 90 60 60 30 観測度数 87 66 55 32 3 6-5 適合度と独立性の検定 ・多項分布の極限 クラス分けされた母集団は、多項分布に従っており、無作為抽出したN個の標本の観 測度数 x ~ x の確率分布は、 1 n N! f ( x , x , x ) p p p x ! x ! x ! x1 1 2 n x2 1 1 2 2 xn n n (x x x N ) 1 2 (6.10) n で与えられる。 ここで多項分布のNが大きいときの近似分布を考える。 (i 1,2, , n) 上式に t ( x p N ) / N の変換を施し、4-3節と同じような計算を行うと、 N 1のとき、t 分布 g (t , t , , t ) は、 i i i 1 1 2 2 となる。 n 2 n の従う n 1 g (t , t , t ) (2 ) 1 , t , , t 1 t t 1 t exp ( p p p ) p 2 p p 2 1 ( n 1 ) / 2 2 2 2 n 1/ 2 1 2 n 1 2 n 自由度n-1の 分布に従う 2 4 6-5 適合度と独立性の検定 以上のことから N 1のとき、多項分布で (x p N ) (x p N ) (x p N ) X pN pN pN をつくるとXは自由度n-1の 分布に従う、という命題が成り立つ。 観測度数をもとにした帰無仮説の検定 適合度の 検定 2 1 1 2 2 1 2 2 n n 2 (6.11) n 2 2 例 メンデルの法則で求めた期待度と観測度を用いて、帰無仮説を立て、危険度5%で適 合度の 検定を行うと、 2 (87 90) (66 60) (55 60) (32 30) X 1.25 90 60 60 30 クラス数は4つであるから、Xは4‐1=3の 分布に従う。 2 2 2 2 2 教科書の最後に付随している附表3から自由度3、危険度5%のときの棄却域を求めると、 X>7.81である。 X=1.25 は採択域であるので観察例はメンデルの法則にあっていないとは いえない。 5 6-5 適合度と独立性の検定 ・分割表 母集団が2つの性質A,Bに互いに排反なm個のクラスA1,A2,・・・Amと互いに排反な n個のクラスB1,B2,・・・Bnに分けられているとき、この母集団からN個の標本を抽出し て、クラス「AiかつBj」に属する個体の観測度数がxij(i=1,2,・・・,m; j=1,2,・・・,n)であるとする。これを表にすると以下のようになる。 性質 B1 B2 ・・・ Bn 計 A1 A2 ・・・ Am x11 x21 ・・・ xm1 x21 x22 ・・・ xm2 ・・・ ・・・ ・・・ ・・・ x1n x2n ・・・ xmn a1 a2 ・・・ am 計 b1 b2 ・・・ bn N 上のような表を分割表とよび、分割表を用いて2つの性質A,Bが独立であるかどうかを 検定することを独立性の検定という。 6 6-5 適合度と独立性の検定 ・独立性とχ 分布 2 母集団から無作為抽出した1つの個体が、 A , A , , A に属する確率 p , p , , p B , B , B に属する確率 q , q , , q が分かっているとすると、AとBが独立なときには、 その個体が A かつ B に属する確率は p q となる。よってN個の標本を抽出したとき、 期待度数は p q Nである。このとき、観測度数 x の総数はmn個なので、例の命題を 使うと、 1 1 2 1 n n 1 i j ij 2 11 1 1 i 1 j 1 2 1 12 1 1 1 (x p q N ) pq N n n j (x p q N ) (x p q N ) (x p q N ) X pqN pq N pqN m 2 n j i i 2 2 ij i i j 2 2 mn m m 2 n n 2 (6.12) j は、mn-1のχ 2 分布に従うことになる。 実際問題、期待度数が分からない場合が殆どであるため、独立性の検定を行うためには このままではマズイ。修正が必要。 7 6-5 適合度と独立性の検定 次のように修正する。 前の分割表のB1の列を見ると、和はb1で、AiかつB1に属する確率はb1/Nと仮定できる。 ここでこの列だけに着目して、Nの代わりにb1、xiの代わりにxi1、piの代わりにai/Nをとる と、 (x a b / N ) (x a b / N ) (x a b / N ) X ab / N ab /N ab /N 2 11 1 2 1 21 2 1 m1 m 2 1 1 1 1 2 1 m 1 これがm-1のχ2分布に従うと考えられ、さらに同様にj列について、上式を適応させると (x a b / N ) (x a b / N ) (x a b / N ) X ab / N ab /N ab /N 2 1j 1 2 j 21 2 j mj m 2 j j 1 j 2 j m j これまたm-1のχ2分布に従うと考えられる。 X=X1+X2+・・・+Xnとして、なおかつb1+b2+・・・+bn=Nの拘束条件より、Xは自由度が (m-1)×(n-1)のχ2分布に従う。結局以下の命題が成り立つ。 (x a b / N ) (x a b / N ) (x a b / N ) X ab / N ab /N ab /N (x a b / N ) (6.13) ab / N 2 11 1 1 2 1 21 1 2 2 1 1 mn m m 2 n n 2 m n i 1 j 1 ij i i j j 8 6-6 最小2乗法と相関係数の推定・検定 ・散布図やらなんやら 30 重さ x バネ長 y 28 100 120 130 150 160 180 20.4 22.6 23.4 25.6 26.9 28.7 26 y 24 22 20 18 16 100 120 140 160 180 200 x 相関図または散布図 相関を取ったりするのに使える 回帰直線 9 6-6 最小2乗法と相関係数の推定・検定 y ax b ・最小2乗法 ・ ・ ・ ・ e ・( x , y ) i i i (i 1,2, , n) e y (a bx ) 回帰直線からの誤差 i i i (6.15) この式を線形回帰モデルという。 グラフ上の全ての点における線形回帰モデルの和≒0 全体の誤差の指標にはならない 誤差の指標として、線形回帰モデルの2乗の和をとり、その値が最小となるような 回帰直線の未知係数a,bを求める。これを最小2乗法という!! Q e e e 2 1 2 2 2 n (6.16) Q ( y a bx ) ( y a bx ) ( y a bx ) 2 1 1 2 2 2 n n 2 (6.17) 10 6-6 最小2乗法と相関係数の推定・検定 Qが最小になるようなa,bを求めるには、 Q 0 a Q 0 b (6.18) (6.19) の極値問題を考えればよい。 (6.17)式より、 となる。 11 6-6 最小2乗法と相関係数の推定・検定 12 6-6 最小2乗法と相関係数の推定・検定 Q Q ここまでの5式を回帰係数の定義という。この定義を用いると、 a , b は次のようになる。 となり、この2つが誤差の2乗和を最小にするa,bの値であり、標準回帰係数という。 13 6-6 最小2乗法と相関係数の推定・検定 また、標準相関係数を と定義すると、 以上のような標本平均、標本分散、標本相関係数を用いると、回帰直線は、 s y y C (x x) s y xy (6.34) x と書ける。 14 6-6 最小2乗法と相関係数の推定・検定 ・誤差の分散 は誤差の分散に相当する。 上式を(6.27)、(6.23)、(6.25)、(6.26)を用いて変形させ、(6.30)を代入し、さらに(6.30)を 使うと、 と変形でき、標本相関係数Cxyが0に近いほどバラつきが大きく、 ±1に近づくほど直線に近づくことが分かる 15 6-6 最小2乗法と相関係数の推定・検定 ・相関係数の意味 相関係数は-1から+1の尺度 負の相関がある 正の相関がある 曲線的なものとの相関は取れない! 16 6-6 最小2乗法と相関係数の推定・検定 ・「相関なし」の検定 直線の当てはめを行った2つの変化量x,yについての標本が、2次元正規分布に 従っている母集団から抽出したものと考えてよい場合、標本からつくった標本相 関係数をもとにして、母集団の母相関係数についての推定、検定をすることがで きる。 (4.33)式のρxyを母相関係数と考える。相関係数ρxy=0のときには、X、Yはそれぞ れ独立に1次元正規分布に従う(p-91、例1参照)ので、次の命題が成り立つ。 ρxy=0の2次元正規分布に従う母集団から大きさnの標本(x1,y1),(x2,y2),・・・ (xn,yn)を無作為抽出したとき、標本相関係数Cxyは、確率密度が 1 ((n 1) / 2) f (C ) (1 C ) ((n 2) / 2) 2 xy ( n4 ) / 2 xy の分布に従い、 (n 2)C T 1 C 2 xy 2 xy のTは、自由度n-2のt分布に従う。 17 6-6 最小2乗法と相関係数の推定・検定 ρxy≠0の2次元正規分布に従う母集団から大きさnの標本(x1,y1),(x2,y2),・・・ (xn,yn)を無作為抽出したとき、標本相関係数Cxyを 1 1 C Z tanh C log 2 1 C 1 xy xy xy と変換したとき、nが大きければ、Zは に近似的に従う。その結果、 1 1 tanh log 2 1 1 N (tanh ,1 /(n 3)) 1 xy xy xy xy としたとき、 T n 3( Z ) はN(0,1)に従う。 これらの命題を用いることで、標本相関係数Cxyに基づいて母相関係数ρxyの推定、検定を 行うことができる。 18 疑問、苦情などがありましたらこちらまで・・・ http://www.google.co.jp/ 19
© Copyright 2024 ExpyDoc