5.いろいろな確率分布

5.いろいろな確率分布
•
•
•
•
•
χ2乗分布(chi-square distribution)
t - 分布(t distribution)
F 分布(F distribution)
2項分布(binominal distribution)
ポアソン分布(Poisson distribution
χ2
分布 (chi-square)
• 確率変数X1,X2,・・・・ Xn が互いに独立で同一の
正規分布 N(μ, σ) に従うとき、統計量
 
2
( X 1  X ) 2  ( X 2  X ) 2  ........ ( X n  X ) 2
2
の分布は、自由度 n- 1 のχ2 分布に従う。
E( X )  n,
V ( X )  2n
• χ2 分布は母集団の分散の推定・検定に用いる。
χ2 分布
f ( x) 
1
n
2   
2
n
2
x
n
x
1 
2
2
e
(0  x  )
E( X )  n,
V ( X )  2n
t – 分布(t distribution)
• 確率変数X1,X2,・・・・ Xn が互いに独立で同一の正規分布
N(μ, σ) に従うとき、
s
( X 1  X ) 2  ( X 2  X ) 2  ...... ( X n  X ) 2
n 1
とおくとき、統計量
X 
t
s
n
の分布は自由度 n – 1 の t 分布に従う。
E ( X )  0,
f ( x) 
n
V (X ) 
, n2
n2
 n 1


 2 
2


n
x
 
n  1  
n
 2 
n 1
2
t 分布は 母集団の平均の推定・検定に用いる。
自由度nが大きいと正規分布に近くなる
t – 分布(別の表現)
• 確率変数Xが N(0, σ) に従い、確率変数Yが自由
度n-1のχ2分布に従うとき、統計量
t 
X
Y
n 1
の分布は自由度 n – 1 の t 分布に従う。
F分布(F distribution)
• 確率変数X, Yが独立で、各々自由度n1, n2 のχ2分
布に従うとき、統計量
X
n1
F
,
Y
n2
n2
E( X ) 
,
n2  2
2(n1  n2  2)n2
V (X ) 
n1 (n2  2) 2 (n2  4)
は、自由度(n1, n2)のF分布に従う。
• F分布は2つの母集団の分散比の推定・検定のとき
に利用される。
2
ガンマ関数(Gamma function)
Gam m a
function
m : int eger
(m  1)  m(m)  ....... m!
n : odd 
1
    ,
2

1
 n   n  2  n  4 
   

.......... 
2
 2   2  2 
3 1
(1)  1,
  
,
 ( 2)  1
2 2
( x)   e t t x 1dt
0
2項分布(binominal distribution)
• 確率pで存在する当たりくじから、復元抽出で
n個とりだしたとき、x個当たる確率。B(n,p)
X=0, 1, 2, …….,n
f(x)=nCx px (1-p) n-x
• E(X)=np, V(X)=np(1-p)
• B(n,p) は、n∞で、N(np, np(1-p)) となる。
ポアソン分布 (Poisson):rare probability
f ( x)  P( X  x) 
E( X )  ,

x
e

x!
V (X )  
• 2項分布において、npを一定値λに固定して、n→∞
としたものが ポアソン分布
めったに起こらない事象が起こる確率分布
λ=1だと、
P(X=x) = 0.36788/x!
例:馬に蹴られて死ぬ人数、交通事故死亡者数
6.統計的推定(statistical estimation)
母集団
Population
母数
Parameterθ
例:平均μ
ランダム抽出
推定
標本
Sample
推定値
Estimateθ*
例:Xbar
• 不偏推定値(unbiased estimate)
E(f(X1,X2,…….,Xn))=θ
となるf(X1, X2,…..Xn) を不偏推定量という。
不偏推定値(unbiased estimate)
*母平均(mean) μの不偏推定値(unbiased estimate)
x1  x2  ...... x N
x
N
*母分散σ2の不偏推定値(μ既知)

1
( x1   ) 2  ....... ( xn   ) 2
N

*母分散σ2の不偏推定値(μ未知)

1
( x1  x ) 2  ....... ( xn  x ) 2
N 1

区間推定
母分散(σ2)が未知で平均を推定
  s
  s
x  t N 1  
   x  t N 1  
2 N
2 N
1
2
here,
s 
( x1  x ) 2  ....... ( xN  x ) 2
N 1
s
S .E. 
標準誤差(standard error)
N

then,

 
x  t N 1    S .E.
2

もし、データ数
が21だったら、
自由度は20。
両側で5%危険
率で推定すると
する。
t(α)=2.086
標準誤差(SE)
を計算して、
誤差範囲は、
t(α)・SE
• 自由度10、95%信頼区間なら
X +- 2.228 S.E.
• 自由度60、95%信頼区間なら
X +- 2.000 S.E.
無限大なら 1.96 S.E.
母平均が未知な場合の母分散の推定
( N  1) s
( N  1) s
2
 

2  
2 
 N 1  
 N 1 1  
2
 2
2
2
7.統計的検定(statistical testing)
7.1 考え方(method)
•
帰無仮説H0  検定統計量  棄却
(裏に対立仮説)
nil hypothesis  statistical variable  reject
ランダムである。 = 確率は小さい
∴ ランダムではない! 有意水準
5%、1%の
危険率
7.2 母平均の検定
• 正規母集団 N(μ,σ) とする。
母分散が既知(σ2)、平均μ0(既知)
• 帰無仮説H0:母集団の平均μはμ0である。
対立仮説H1:母集団の平均μはμ0でない。
(本当は対立仮説を示したい)
• 検定統計量
T (x) 
x  0

,
 0 .is.given
N
T ( x ) obeys N (0,1)
7.2 母平均の検定
• 正規母集団 N(μ,σ) とする。
母分散が未知、平均μ0(既知)
• 帰無仮説H0:母集団の平均μはμ0である。
対立仮説H1:母集団の平均μはμ0でない。
(本当は対立仮説を示したい)
• 検定統計量
x  0
T (x) 
,
s
N
2
0 .is.given
T ( x , s ) obeys t N 1 distribution
7.3 平均の差の検定
• 2つの正規母集団とす
る。
N(μ1,σ1), N(μ2,σ2)
μ1 とμ2 が違うことを
示したい。
T ( x1 , x2 ) 
x1  x2
1
2
N1
T ( x1 , x2 , s ) 

N2
x1  x2
2
• σ1,σ2既知
2
obeys N (0,1)
2
 1
1  2

 s

 N1 N 2 
( N  1) s1  ( N 2  1) s2
where, s 2  1
,
N1  N 2  2
2
• σ1,σ2未知だが等しい。
T obeys t N1  N 2  2
2
x1  x2
T ( x1 , x2 , s1 , s2 ) 
2
where, s1
2
2

x


1,i
 s12 s2 2 



N

N
2 
 1
 x1
N1  1

2
,....
T obeys t m ,
 s1
s2 



N

N
2 
m 1
2
2
2
4
4


s1
s2

 2

2
 N1 ( N1  1) N 2 ( N 2  1) 
7.4 母相関係数の検定 - t 分布 ー
無相関が帰無仮説
大きさNの標本の相関係数が r のとき
T (r,0) 
r N 2
1 r
2
obeys t N 2
自 由 度
α=0.05
α=0.01
10
20
50
100
0.5760
0.4227
0.2732
0.1946
0.7079
0.5368
0.3541
0.2540
QBOの西風シアの5年
と東風シアの5年の1月
の帯状平均オゾン混合
比の差(実線)。
単位はppmv。
有意性で差が有意な領
域を影で示す。
影が90, 95, 99%で有意
な差。t検定
図2 1月の50 hPaにおけるオゾン混合比。等値線の単位はppmv。
(a)QBOの西風シアの5年平均。
(b)QBOの東風シアの5年平均。
(c)差(西風-東風)。
影は有意性を表し図1と同じ。
7.5 ノンパラメトリック検定
non-parametric test
• 母集団の分布の型に関する情報を仮定せずに検定
する手法。これまで述べた検定は母集団が正規分
布をすると仮定したが、その仮定を行わない。
• それぞれの検定の名前がある。
Wilcoxen’s rank sum test
ウィルコクスン検定
Wilcoxen’s rank sum test
• 2つの分布型は同じだが、位置がずれている。
これを検定する順位和検定。
グループG1
X11
X12
X13
……
X1N1
グループG2
X21
X22
X23
……..
X2N2
2つのグループの標本を1つにまとめて、Xij の小さ
いほうから順位を付けたときの順位を rij とする。
帰無仮説:2つのグループの分布の中央値は同じである。
• 検定量Wは
N1
W   r1i
(グループG1の順位の総和)
i 1
 r11  r12  ........ r1N1
(N1,N2)が小さいときは、ウィルコクスン検定
の数表で決める。
大きいときは、Wは以下の正規分布に近似さ
れることを使う。
 N1 N1  N 2  1 N1 N 2 N1  N 2  1 
N

2
,
12


• ウィルコクスン検定(中央値の差)
Wilcoxen’s test
• アンサリー・ブラッドレィ検定(分布の広がり)
Ansari-Bradley test
• ラページ検定(上記を同時に検定)
Lepage test
• モンテカルロ法(いろいろ場合によって統計量を考
える。サンプルを乱数で発生させ、確率を求める。コ
ンピュータ向き)
8.重回帰分析
(Multiple Regression Analysis)
• P個の説明変数 x1, x2,….,xp から目的変数y
を予測する。
y = f( x1, x2, … , xp) + e
• 線形重回帰モデル
Y = a0 + a1x1 + a2X2 + ….. + apxp + e
データ
目的
変数
説明変数
誤差
y
x1, x2, …………, xp
e
1
y1
x11, x21, ………, xp1
e1
2
y2
x12, x22, ………, xp2
e2
.
.
.
.
X35
.
.
変数番号
N
yn
データ
番号
.
.
.
.
.
.
x1n, x2n, …………, xpn
en
データ番号
• データのn組(n>=p+1)から最小2乗法により係数
の最良不偏推定値を求める。
ai : y の xi に関する偏回帰係数。
以下の仮定をおく
•
•
•
•
eαの期待値はゼロ:E[eα]=0: 不偏性
eαと eα’ は互いに独立:E[eαeα’]=0: 独立性
eαの分散はすべて等しい:E[eα2]=σ2: 等分散性
Eαは N(0, σ2) に従う。: 正規性
予測誤差の平方和を最小にするように、係数を求め
る。係数に関する連立方程式を正規方程式という。
分散・共分散行列
 s1,1

 s2,1
S 
....

s
 p ,1
s1, 2
s2 , 2
....
s p,2
..... s1, p 

..... s2, p 
..... .... 

..... s p , p 
here,
s j ,k


1 n
  x ji  x j xki  xk
n i 1


1 n
S yj   yi  y x ji  x j
n i 1

Sa  S y

a0  y  a1 x1  ..... a p x p

 s1,1

 s2,1
 ....

s
 p ,1
s1, 2
s2 , 2
....
s p,2

( j , k  1,2,.......p )

..... s1, p  a1   S y ,1 
  

..... s2, p  a2   S y , 2 

..... ....  ...   ... 
  

..... s p , p  a p   S y , p 
8.3 分散分析 -回帰の有意性
S yy    yi  y     yi  Yi  Yi  Y 
2
2
   yi  Yi    Yi  Y   2 ei Yi  Y 
2
2
  ei   Yi  Y   0
2
2
ST  S e  S R
全変動(分散)=残差変動 + 回帰による変動
重回帰の分散分析表
変動
自由度 平方和
分散
全体
n-1
Syy
VT=Syy/(n-1)
回帰
P
SR
VR=SR/p
残差
n-p-1
Se
Ve=Se/(n-p-1)
分散比 F
VR/Ve
F は a1=a2=….=0 の帰無仮説のもとで、自由度(p, n-p-1) の
F 分布となる。(全体として回帰式が意味があるかどうかの検定
となる)
8.4 重相関係数と決定係数
 y  y Y  Y 

R
  y  y   Y  Y 
  y  y Y  Y    y  Y  Y  Y Y  Y 
  e Y  Y    Y  Y 
 0   Y  Y 



Y Y  
Y Y 
S


R 


  y  y   Y  Y    y  y  S
i
i
2
2
i
i
i
i
i
i
i
i
2
i
i
i
2
i
2 2
2
i
2
i
2
2
i
i
R
2
i
yy
Se
SR
R 
 1
S yy
S yy
R2 を寄与率または決定係数という
回帰で全分散が説明できる割合。
2


S R  R S yy , S e  1  R S yy
2
2
F検定が R2 の有意性
検定と一致。
2
R
VR
p
2
F


F
(
R
)
2
1 R
Ve
n  p 1
重回帰の注意点
(1) ai の値そのもので寄与
は決まらない。
(2) Xi と Xj に相関があると
き、注意。単回帰と符号
さえ変わる。