授業スライド資料(PDFファイル) - 九州大学

九州大学 工学部地球環境工学科
船舶海洋システム工学コース
システム設計工学 (担当:木村)
「検定と最ユウ推定」 2006.05.25
木曜1限(8:40~10:10)
集中講義のため時間変更
場所:船1講義室
【演習問題】
2006.05.18
学籍番号
氏名
同一な正規分布の独立な試行で得られた n 個のデータ
x1 , x2, L , xn , L
について、
データ数 n =2 のとき、もとの正規分布の期待値と分散を信頼係数90%で区間推定せよ。
データ数 n =2 のとき、自由度1
t分布表より、自由度 1 の t が -6.314 と +6.314
の間の値をとる確率は 90% つまり
⎧
2
χ
カイ2乗分布表より、自由度 1 の が
⎫
x−μ
⎪
⎪
Pr ⎨− 6.314 <
< 6.314⎬ = 0.9
σˆ
⎪
⎪
2
⎭
⎩
σˆ
σˆ ⎫
⎧
Pr ⎨ x − 6.314
< μ < x + 6.314
⎬ = 0.9
2
2⎭
⎩
0.003 と 3.84 の間の値をとる確率は 90% つまり
⎧
⎫
(n − 1)σˆ 2
Pr ⎨0.003 <
<
3
.
84
⎬ = 0.9
2
σ
⎩
⎭
Pr 0.003 σ 2 < σˆ 2 < 3.84 σ 2 = 0.9
{
期待値の信頼区間
}
⎧ σˆ 2
σˆ 2 ⎫
2
Pr ⎨
<σ <
⎬ = 0.9
0.003 ⎭
⎩ 3.84
分散の信頼区間
標本から母数に関する情報を得る(復習)
同一な正規分布の独立な試行で得られた n 個のデータ
x + x 2 + L + xn
平均値 x = 1
n
統計量 t =
x1 , x2, L , xn , L
について、
1 n
( xi − x ) 2 を計算する
と分散の推定値 σˆ =
∑
n − 1 i =1
2
x−μ
が自由度 n-1 の t分布 になる
σˆ
n ことを利用することで、
データ数 n に対して
n-1 であることに注意
未知母数μについて区間推定
2
ˆ
−
x
x
(
1
)
n
−
σ
⎛
⎞
χ 2 = ∑⎜ i
⎟ =
2
σ
σ
⎝
⎠
i =1
n
2
は自由度 n-1 の カイ2乗分布 である
ことを利用することで、
未知母数 σ 2 について区間推定
これらの知見を利用して 統計的検定 を行う
t 分布表
自由度
(Degree of freedom)
(n-1)
検定 (統計的検定:statistical test)とは?
ある標本を調査した結果から、
全体の様子についてある仮説を立てた時、
この仮説がどの程度信頼できるかを調べること。
例1) 2種類のダイレクトメールA、Bを用いて注文をとるとき、
AとBの効果には差があるか?
【仮説】 AとBの効果に差が無い → AとBの標本分布の期待値は同じ
【仮説】 AはBよりも5%ほど効果が上である
→ Aの標本分布の期待値はBの標本分布の期待値より5%大きい
例2) 2種類の機械AおよびBによって、ある決まった長さの製品を生産するとき、
機械AとBとの間で、製品の長さのばらつき具合に差があるか?
【仮説】 AとBでは、ばらつきに差が無い → 標本分布の分散がAとBで同じ
これら仮説が正しいかどうかを 確率 で定量的に表す
平均値の検定
t 検定
母集団が正規分布に従うとき
【仮説】
母集団の平均値はμ ← この仮説を検定する
正規分布 N ( μ , σ
2
) に従う母集団から n 個の標本 x1 , x2, L , xn
を得るとき、
1 n
2
母集団の分散 σ が未知のためその推定値として σˆ =
を用いる場合、
(
x
−
x
)
∑
i
n − 1 i =1
x−μ
x + x 2 + L + xn
統計量 t = ˆ
は自由度 n-1 のt分布に従う ただし平均値 x = 1
σ
n
n
2
実際に得られた標本から t を
計算した結果、その値が
棄却域にある場合、
仮説が正しければ
ほとんどあり得ないことが
起こったことになる
よって仮説を棄却する
2
実際に得られた標本と仮説から t を
計算した結果、その値がこの採択域に
あれば有意水準αで仮説が採択される。
2つの母集団間での平均値の差の検定
2つの母集団がそれぞれ正規分布に従うとき (ただし分散は同じ)
【仮説】
母集団の平均値の差は0 ← この仮説を検定する
2つの母集団がそれぞれ期待値
μ1 , μ 2
それぞれの母集団から n1 個の標本
2
2
2
分散 σ の正規分布 N ( μ1 , σ ), N ( μ 2 , σ ) に従い、
x1 , x2, L , xn1
および
n2 個の標本 x1 , x2, L , xn2
を得るとき、 母集団の分散 σ が未知のためその推定値として
2
(n1 − 1)σˆ1 + (n2 − 1)σˆ 2
ˆ
σ =
n1 − n2 − 2
2
2
統計量
t=
2
平均値の差
を用いる場合、
x1 − x2 − ( μ1 − μ 2 )
1 1
ˆ
+
σ
n1 n2
は自由度
n1 + n2 − 2
のt分布に従う
実際に得られた標本と仮説から t を
計算した結果、その値がこの採択域に
あれば有意水準αで仮説が採択される。
分散の検定
母集団が正規分布に従うとき
2
σ
母集団の分散は 0
【仮説】
正規分布 N ( μ , σ
母集団の分散
統計量
σ
2
2
← この仮説を検定する
) に従う母集団から n 個の標本 x1 , x2, L , xn
1 n
2
が未知のためその推定値として σˆ =
を用いる場合、
(
x
−
x
)
∑
i
2
n − 1 i =1
2
n
2
⎛ xi − x ⎞ (n − 1)σˆ
χ = ∑⎜
⎟ =
2
σ
σ
⎝
⎠
i =1
ただし平均値
を得るとき、
2
x=
x1 + x2 + L + xn
n
実際に得られた標本と仮説からカイ2乗を
計算した結果、その値が採択域に
あれば有意水準αで仮説が採択される。
は自由度 n-1 のカイ2乗分布に従う
分布の適合度の検定
カイ2乗分布の応用: 「あてはまり」の検定
観察された標本分布がある特定の分布に一致しているといえるかどうか?
【仮説】 標本分布が特定の分布に一致している → 度数分布が一致
標本分布および仮説による分布が度数分布で表されているとする。
*
それぞれの第kクラスの度数を f k および f k ただし k = 1, 2, L , m
このとき、仮説が正しいならば
統計量
度数
(人数)
(
⎛ f −f*
χ 2 = ∑ ⎜ k *k
⎜
fk
k =1
⎝
m
度数分布
の例
体重
) ⎞⎟
2
⎟
⎠
は自由度 m-1 のカイ2乗分布に従う
標本と仮説からカイ2乗を
計算した結果、その値が
採択域にあれば有意水準α
で仮説が採択される。
データが一致しないなら
分子は大きくなりカイ2乗の
値は大きくなる
とする。
確率モデルの推定(パラメトリック推定)
真の確率モデル(母関数) 例:正規分布
環境
P( x) = N ( μ , σ 2 )
P(x)
x
観測者は真のモデルが
正規分布であることは
知っている
観測者
母平均(期待値) および母分散などの
パラメータは観測者にとって未知
観測データ
標本(sample)
x1 , x2 , L , xn
標本を用いて、未知パラメータを推定する: 推定値
単一のパラメータ推定値を求める
μˆ , σˆ
→ 点推定(最尤推定法など)
未知パラメータが存在する区間を求める → 区間推定
最尤推定法(maximum likelihood method)とは?
ˆ ( x) から観測データ
x1 , x2 , L , xn
推定モデル P
生成される確率(尤度)が最大となるように推定パラメータ
L(θ ) = Pˆ ( x1 ) Pˆ ( x2 ) L Pˆ ( xn )
が
θ を決定する
この関数を最大化するパラメータを
見つければ良いが、乗算なので
解析しにくい
対数をとる
ln L(θ ) = ln Pˆ ( x1 ) + ln Pˆ ( x2 ) + L + ln Pˆ ( xn )
対数尤度
線形になっているので、解析しやすい
尤度を最大化する θ と対数尤度を
最大化する θ の値は同じになる
対数尤度を最大化
するパラメータθを
探索するのが一般的
例) Bernoulli分布の最尤推定
真の確率分布モデル(母関数): 確率 p で x=1, 確率 1-p で x=0 となる分布 F(x)
母関数からの標本: x1=0, x2=1, x3=1, x4=0,…,xn=1
サンプルnコのうち、x=0 となる場合がk回
このとき、未知パラメータpを最尤推定する
対数尤度を計算すると、
ln L(θ ) = ln F ( x1 ) + ln F ( x2 ) + L ln F ( xn )
= k (ln(1 − p ) ) + (n − k )(ln( p ) )
⎛ −1 ⎞
∂
1
⎜
⎟
+ (n − k )
ln L(θ ) = k ⎜
⎟
∂p
p
⎝1− p ⎠
⎛ −1 ⎞
1
⎟⎟ + (n − k ) = 0
k ⎜⎜
p
⎝1− p ⎠
n−k
p=
n
これを最大化するpを求めるためpで微分
⎧ln(1 − p) where x = 0
ln F ( x) = ⎨
where x = 1
⎩ ln(p)
⎧ −1
⎪⎪1 − p where x = 0
∂
ln F ( x) = ⎨
1
∂p
⎪
where x = 1
⎪⎩ p
最大点では傾きゼロ
これを解くと、
p=(x=1となる場合の数)/(全標本数)
という常識的な式を得る
例) マルコフ過程の最尤推定
観測される状態遷移の履歴を x0 x1 L xT と表し、状態 i から j への推移回数を nij と表す。
マルコフモデルにおける状態 i から j へ遷移確率を Pij と表す。
すると観測された履歴が発生する確率(尤度)は
S
S
i =1
j =1
L = Px0 x1 Px1x2 L PxT −1xT = ∏∏ Pij
nij
で与えられる。これを最大にする Pij を求める
Pij ≥ 0, i, j = 1,2,L , S
ただし、Pij は条件として
S
∑ Pij = 1,
j =1
i, j = 1,2, L, S
を満たしていなければならない
制約条件付き最大値問題
ラグランジュ未定乗数法を使って解く
(参考) ラグランジュ未定乗数法とは?
N 個の変数 X = [θ1 , θ 2 , Lθ N ] について、M 個の制約条件 g i ( X) = 0 (i = 1,2, L M )
が与えられている。
この制約のもとで、ある関数 f (X) が極値をとるような変数 X を求める。
M 個の別の未知変数 λ = [λ1 , λ2 , L λM ] を使って、以下の関数 F ( X, λ )
を考える:
M
F ( X, λ ) = f ( X) + ∑ λi g i ( X)
(式1)
i =1
最大化・最小化したい値
制約条件
この関数 F ( X, λ ) の極値条件は、
∂
∂
∂
F ( X, λ ) =
f ( X) +
∂θ k
∂θ k
∂θ k
∂
F = g i ( X) = 0
∂λi
M
∑ λ g ( X) = 0
i =1
i
i
(k = 1,2, L N )
(i = 1,2, L M )
これらを満たす解の中に、求める解が存在する。
ここで式(1)をラグランジュ関数、 λ = [λ1 , λ2 , L λM ] をラグランジュの未定乗数という。
マルコフ過程の最尤推定
⎛⎛ S
⎞ ⎞
F = log L + ∑ λi ⎜ ⎜⎜ ∑ Pij ⎟⎟ − 1⎟
⎜ j =1
⎟
i =1
⎠ ⎠
⎝⎝
S
ラグランジュ関数
と置いて、極値条件から連立方程式を解くと、
状態 i からj へ遷移した回数
Pij =
nij
S
∑n
k =1
を得る。
ik
状態 i を訪問した回数
複雑な確率モデルの推定(パラメトリック推定)
真の確率モデル:混合正規分布
2
P ( x) = k1 N ( μ1 , σ 1 ) + k 2 N ( μ 2 , σ 22 ) + K
環境
P ( x)
複数の正規分布の重ね合わせに
なっている
パラメータは観測者にとって未知
x
観測データ
標本(sample)
観測者
x1 , x2 , L , xn
標本を用いて、未知パラメータを推定する
尤度最大化の数値最適化問題になる
P ( x)
?
一般に最適解が得られるとは限らない
x
クラスタリング(領域分け)と呼ぶ場合もある
混合正規分布の推定:
単に数値最適化として解くのではなく、
「クラスタリング」の特徴を生かした方法がある
例) 推定の結果、要素となる正規分布同士の重なりが
大きい箇所は1つの正規分布にまとめ、
要素となる正規分布にあてはまらないデータが多い箇所
(データの生成確率が低い)では
要素となる正規分布を2つに分割する
N.Ueda, R.Nakano, Z.Ghahramani and G.E.Hinton:
SMEM Algorithm for Mixture Models,
Neural Information Processing Systems 11 (NIPS11), pp.599--605 (1999).
【演習問題】 正規分布の最尤推定
2006.05.25
氏名
学籍番号
真の確率モデル:正規分布
⎛ ( x − μ )2 ⎞
1
⎟⎟
exp⎜⎜ −
P( x) = N ( μ , σ ) =
2
2
σ
σ 2π
⎝
⎠
これから得られる観測データ
2
P ( x)
標本(sample)
x
標本を用いて、未知パラメータ
右式のように標本平均と標本分散より
推定値が得られることを示せ。
(ヒント) 微分公式
∂
1 ∂
ln f (θ ) =
f (θ )
∂θ
f (θ ) ∂θ
μˆ , σˆ
x1 , x2 , L , xn
のとき、
を最尤推定した場合、
x + x + L xn
μˆ = 1 2
,
n
( x1 − μˆ ) 2 + ( x2 − μˆ ) 2 + L + ( xn − μˆ ) 2
2
σˆ =
n