5.いろいろな確率分布 • • • • • χ2乗分布(chi-square distribution) t - 分布(t distribution) F 分布(F distribution) 2項分布(binominal distribution) ポアソン分布(Poisson distribution χ2 分布 (chi-square) • 確率変数X1,X2,・・・・ Xn が互いに独立で同一の 正規分布 N(μ, σ) に従うとき、統計量 2 ( X 1 X ) 2 ( X 2 X ) 2 ........ ( X n X ) 2 2 の分布は、自由度 n- 1 のχ2 分布に従う。 E( X ) n, V ( X ) 2n • χ2 分布は母集団の分散の推定・検定に用いる。 χ2 分布 f ( x) 1 n 2 2 n 2 x n x 1 2 2 e (0 x ) E( X ) n, V ( X ) 2n t – 分布(t distribution) • 確率変数X1,X2,・・・・ Xn が互いに独立で同一の正規分布 N(μ, σ) に従うとき、 s ( X 1 X ) 2 ( X 2 X ) 2 ...... ( X n X ) 2 n 1 とおくとき、統計量 X t s n の分布は自由度 n – 1 の t 分布に従う。 E ( X ) 0, f ( x) n V (X ) , n2 n2 n 1 2 2 n x n 1 n 2 n 1 2 t 分布は 母集団の平均の推定・検定に用いる。 自由度nが大きいと正規分布に近くなる t – 分布(別の表現) • 確率変数Xが N(0, σ) に従い、確率変数Yが自由 度n-1のχ2分布に従うとき、統計量 t X Y n 1 の分布は自由度 n – 1 の t 分布に従う。 F分布(F distribution) • 確率変数X, Yが独立で、各々自由度n1, n2 のχ2分 布に従うとき、統計量 X n1 F , Y n2 n2 E( X ) , n2 2 2(n1 n2 2)n2 V (X ) n1 (n2 2) 2 (n2 4) は、自由度(n1, n2)のF分布に従う。 • F分布は2つの母集団の分散比の推定・検定のとき に利用される。 2 ガンマ関数(Gamma function) Gam m a function m : int eger (m 1) m(m) ....... m! n : odd 1 , 2 1 n n 2 n 4 .......... 2 2 2 2 3 1 (1) 1, , ( 2) 1 2 2 ( x) e t t x 1dt 0 2項分布(binominal distribution) • 確率pで存在する当たりくじから、復元抽出で n個とりだしたとき、x個当たる確率。B(n,p) X=0, 1, 2, …….,n f(x)=nCx px (1-p) n-x • E(X)=np, V(X)=np(1-p) • B(n,p) は、n∞で、N(np, np(1-p)) となる。 ポアソン分布 (Poisson):rare probability f ( x) P( X x) E( X ) , x e x! V (X ) • 2項分布において、npを一定値λに固定して、n→∞ としたものが ポアソン分布 めったに起こらない事象が起こる確率分布 λ=1だと、 P(X=x) = 0.36788/x! 例:馬に蹴られて死ぬ人数、交通事故死亡者数 6.統計的推定(statistical estimation) 母集団 Population 母数 Parameterθ 例:平均μ ランダム抽出 推定 標本 Sample 推定値 Estimateθ* 例:Xbar • 不偏推定値(unbiased estimate) E(f(X1,X2,…….,Xn))=θ となるf(X1, X2,…..Xn) を不偏推定量という。 不偏推定値(unbiased estimate) *母平均(mean) μの不偏推定値(unbiased estimate) x1 x2 ...... x N x N *母分散σ2の不偏推定値(μ既知) 1 ( x1 ) 2 ....... ( xn ) 2 N *母分散σ2の不偏推定値(μ未知) 1 ( x1 x ) 2 ....... ( xn x ) 2 N 1 区間推定 母分散(σ2)が未知で平均を推定 s s x t N 1 x t N 1 2 N 2 N 1 2 here, s ( x1 x ) 2 ....... ( xN x ) 2 N 1 s S .E. 標準誤差(standard error) N then, x t N 1 S .E. 2 もし、データ数 が21だったら、 自由度は20。 両側で5%危険 率で推定すると する。 t(α)=2.086 標準誤差(SE) を計算して、 誤差範囲は、 t(α)・SE • 自由度10、95%信頼区間なら X +- 2.228 S.E. • 自由度60、95%信頼区間なら X +- 2.000 S.E. 無限大なら 1.96 S.E. 母平均が未知な場合の母分散の推定 ( N 1) s ( N 1) s 2 2 2 N 1 N 1 1 2 2 2 2 7.統計的検定(statistical testing) 7.1 考え方(method) • 帰無仮説H0 検定統計量 棄却 (裏に対立仮説) nil hypothesis statistical variable reject ランダムである。 = 確率は小さい ∴ ランダムではない! 有意水準 5%、1%の 危険率 7.2 母平均の検定 • 正規母集団 N(μ,σ) とする。 母分散が既知(σ2)、平均μ0(既知) • 帰無仮説H0:母集団の平均μはμ0である。 対立仮説H1:母集団の平均μはμ0でない。 (本当は対立仮説を示したい) • 検定統計量 T (x) x 0 , 0 .is.given N T ( x ) obeys N (0,1) 7.2 母平均の検定 • 正規母集団 N(μ,σ) とする。 母分散が未知、平均μ0(既知) • 帰無仮説H0:母集団の平均μはμ0である。 対立仮説H1:母集団の平均μはμ0でない。 (本当は対立仮説を示したい) • 検定統計量 x 0 T (x) , s N 2 0 .is.given T ( x , s ) obeys t N 1 distribution 7.3 平均の差の検定 • 2つの正規母集団とす る。 N(μ1,σ1), N(μ2,σ2) μ1 とμ2 が違うことを 示したい。 T ( x1 , x2 ) x1 x2 1 2 N1 T ( x1 , x2 , s ) N2 x1 x2 2 • σ1,σ2既知 2 obeys N (0,1) 2 1 1 2 s N1 N 2 ( N 1) s1 ( N 2 1) s2 where, s 2 1 , N1 N 2 2 2 • σ1,σ2未知だが等しい。 T obeys t N1 N 2 2 2 x1 x2 T ( x1 , x2 , s1 , s2 ) 2 where, s1 2 2 x 1,i s12 s2 2 N N 2 1 x1 N1 1 2 ,.... T obeys t m , s1 s2 N N 2 m 1 2 2 2 4 4 s1 s2 2 2 N1 ( N1 1) N 2 ( N 2 1) 7.4 母相関係数の検定 - t 分布 ー 無相関が帰無仮説 大きさNの標本の相関係数が r のとき T (r,0) r N 2 1 r 2 obeys t N 2 自 由 度 α=0.05 α=0.01 10 20 50 100 0.5760 0.4227 0.2732 0.1946 0.7079 0.5368 0.3541 0.2540 QBOの西風シアの5年 と東風シアの5年の1月 の帯状平均オゾン混合 比の差(実線)。 単位はppmv。 有意性で差が有意な領 域を影で示す。 影が90, 95, 99%で有意 な差。t検定 図2 1月の50 hPaにおけるオゾン混合比。等値線の単位はppmv。 (a)QBOの西風シアの5年平均。 (b)QBOの東風シアの5年平均。 (c)差(西風-東風)。 影は有意性を表し図1と同じ。 7.5 ノンパラメトリック検定 non-parametric test • 母集団の分布の型に関する情報を仮定せずに検定 する手法。これまで述べた検定は母集団が正規分 布をすると仮定したが、その仮定を行わない。 • それぞれの検定の名前がある。 Wilcoxen’s rank sum test ウィルコクスン検定 Wilcoxen’s rank sum test • 2つの分布型は同じだが、位置がずれている。 これを検定する順位和検定。 グループG1 X11 X12 X13 …… X1N1 グループG2 X21 X22 X23 …….. X2N2 2つのグループの標本を1つにまとめて、Xij の小さ いほうから順位を付けたときの順位を rij とする。 帰無仮説:2つのグループの分布の中央値は同じである。 • 検定量Wは N1 W r1i (グループG1の順位の総和) i 1 r11 r12 ........ r1N1 (N1,N2)が小さいときは、ウィルコクスン検定 の数表で決める。 大きいときは、Wは以下の正規分布に近似さ れることを使う。 N1 N1 N 2 1 N1 N 2 N1 N 2 1 N 2 , 12 • ウィルコクスン検定(中央値の差) Wilcoxen’s test • アンサリー・ブラッドレィ検定(分布の広がり) Ansari-Bradley test • ラページ検定(上記を同時に検定) Lepage test • モンテカルロ法(いろいろ場合によって統計量を考 える。サンプルを乱数で発生させ、確率を求める。コ ンピュータ向き) 8.重回帰分析 (Multiple Regression Analysis) • P個の説明変数 x1, x2,….,xp から目的変数y を予測する。 y = f( x1, x2, … , xp) + e • 線形重回帰モデル Y = a0 + a1x1 + a2X2 + ….. + apxp + e データ 目的 変数 説明変数 誤差 y x1, x2, …………, xp e 1 y1 x11, x21, ………, xp1 e1 2 y2 x12, x22, ………, xp2 e2 . . . . X35 . . 変数番号 N yn データ 番号 . . . . . . x1n, x2n, …………, xpn en データ番号 • データのn組(n>=p+1)から最小2乗法により係数 の最良不偏推定値を求める。 ai : y の xi に関する偏回帰係数。 以下の仮定をおく • • • • eαの期待値はゼロ:E[eα]=0: 不偏性 eαと eα’ は互いに独立:E[eαeα’]=0: 独立性 eαの分散はすべて等しい:E[eα2]=σ2: 等分散性 Eαは N(0, σ2) に従う。: 正規性 予測誤差の平方和を最小にするように、係数を求め る。係数に関する連立方程式を正規方程式という。 分散・共分散行列 s1,1 s2,1 S .... s p ,1 s1, 2 s2 , 2 .... s p,2 ..... s1, p ..... s2, p ..... .... ..... s p , p here, s j ,k 1 n x ji x j xki xk n i 1 1 n S yj yi y x ji x j n i 1 Sa S y a0 y a1 x1 ..... a p x p s1,1 s2,1 .... s p ,1 s1, 2 s2 , 2 .... s p,2 ( j , k 1,2,.......p ) ..... s1, p a1 S y ,1 ..... s2, p a2 S y , 2 ..... .... ... ... ..... s p , p a p S y , p 8.3 分散分析 -回帰の有意性 S yy yi y yi Yi Yi Y 2 2 yi Yi Yi Y 2 ei Yi Y 2 2 ei Yi Y 0 2 2 ST S e S R 全変動(分散)=残差変動 + 回帰による変動 重回帰の分散分析表 変動 自由度 平方和 分散 全体 n-1 Syy VT=Syy/(n-1) 回帰 P SR VR=SR/p 残差 n-p-1 Se Ve=Se/(n-p-1) 分散比 F VR/Ve F は a1=a2=….=0 の帰無仮説のもとで、自由度(p, n-p-1) の F 分布となる。(全体として回帰式が意味があるかどうかの検定 となる) 8.4 重相関係数と決定係数 y y Y Y R y y Y Y y y Y Y y Y Y Y Y Y e Y Y Y Y 0 Y Y Y Y Y Y S R y y Y Y y y S i i 2 2 i i i i i i i i 2 i i i 2 i 2 2 2 i 2 i 2 2 i i R 2 i yy Se SR R 1 S yy S yy R2 を寄与率または決定係数という 回帰で全分散が説明できる割合。 2 S R R S yy , S e 1 R S yy 2 2 F検定が R2 の有意性 検定と一致。 2 R VR p 2 F F ( R ) 2 1 R Ve n p 1 重回帰の注意点 (1) ai の値そのもので寄与 は決まらない。 (2) Xi と Xj に相関があると き、注意。単回帰と符号 さえ変わる。
© Copyright 2024 ExpyDoc