数理統計学(第七回) 線形模型とは?

数理統計学(第七回)
線形模型とは?
浜田知久馬
数理統計学第7回
1
•例:上皿天秤での重量測定
•重さ(α,β)が未知の二
つの物体AとBがあると
する.
•計3回の重量測定
A単独
Y1
B単独
Y2
AとB一緒に
Y3
•これらの測定値と
α, βの関係は?
数理統計学第7回
2
例の問題の定式化
• 次のモデルを想定する.
Y1 =α+ U1
Y2 = b + U2
Y3 =α+ b+U3
• ただし,U1, U2, U3 は互いに独立で,
• E[Ui]= 0, V[Ui]= s2 をみたす確率変数 と仮
定する.
• 仮定より
•
•
E[Y1]= α, E[Y2] = b, E[Y3] =α+ b
V[Y1] = s2 ,V[Y2] = s2 , V[Y3] = s2
数理統計学第7回
3
最良な推定量の求め方
• 推定量を線形推定量に限定すると
αの推定量として
t(Y) = c1 Y1 + c2 Y2 + c3 Y3
という形のものを使うことになる.
• 不偏性:E[t(Y)] =α
• 分散最小性:V[t(Y)] が最小
数理統計学第7回
4
期待値についての公式
• 期待値は線形演算である.
c1, c2 を定数, Y1, Y2 を確率変数とする
と,次式が成り立つ.これを「期待値の
線形性」という.
E[c1Y1 + c2 Y2] = c1E[Y1] + c2E[ Y2]
期待値の線形性より次の式も導ける.
E[c1Y1 + …+ cn Yn]= c1E[Y1]+ …+ cnE[Yn]
数理統計学第7回
5
線形性と不偏性の条件
• 不偏性:E[t(Y)] = α
左辺=c1E[Y1] + c2E[Y2] + c3E[Y3]
c1 a+ c2 b + c3 ( + b)
= (c1 + c3 )α+ (c2 + c3) b
これが恒等的に  に等しいためには?
c1+ c3 = 1, c2 + c3 = 0
数理統計学第7回
6
分散についての公式
標本 (Y1, Y2, … , Yn) が互いに独立な確率変
数であり,統計量 T がその線形式,すなわち,
T = c1Y1 + c2Y2 + … + cnYn
であるとき,次の公式が成り立つ.
V[T]= c12V[Y1]+ c22V[Y2]+ … + cn2V[Yn]
これを分散の加法性(加成性)という.
数理統計学第7回
7
不偏性のもとでの分散最小
• 不偏性=>c1 + c3 = 1, c2 + c3 = 0 (条
件)
• 分散: V[t(Y)] = V[c1 Y1 + c2 Y2 + c3 Y3 ]
= c12 V[Y1] + c22 V[Y2] + c32 V[Y3}
= c12 s2 + c22 s2 + c32 s2
= (c12 + c22 + c32) s2
• これを最小にするには?
数理統計学第7回
8
力づくの解答
V[t(Y)] =(c12 + c22 + c32) s2
c1 + c3 = 1, c2 + c3 = 0
⇒ c1=(1- c3), c2= -c3
V[t(Y)] =[(1- c3)2 +(-c3) 2 +c32]s2
=(1-2c3+c32 +c32 + c32)s2 =(1-2c3+3c32)s2
=[3(c3 -1/3) 2 +1-1/3]s2
c3= 1/3(c1=2/3,c2=-1/3)⇒V[t(Y)]最小
数理統計学第7回
9
Lagrange の未定乗数法
• p 次元ベクトル x について,等式制約:g(x) = 0
の下で,ある目的関数:f(x) の最大(小)値を求
める問題の一つの解法に,ラグランジュの未定
乗数法がある.
Q  f ( x)  g ( x) とおき,連立方程式
dQ
dQ
 0, i  1,2,...p;
0
dxi
d
を解くと,この連立方程式の解の中に求める解が
ある.
数理統計学第7回
10
ラグランジュの未定乗数法
Q = c12 + c22 + c32   (c1 + c3  1)  m (c2 +
c3 )
とおき,微分して 0 とおくことで,
 2c1   = 0, 2c2  m =0, 2c3   m = 0
 c1 + c3 = /2 + /2 + m/2 = 1
 c2 + c3 = m/2 + /2 + m/2 = 0
=>   4/3,m=-2/3
 c1=2/3, c2=1/3, c3=1/3
t(Y) = (2/3) Y1 +数理統計学第7回
(1/3) (Y3  Y2)
11
t(Y) = (2/3) Y1 + (1/3) (Y3  Y2)の意味
自然なαの推定量
T2= Y1 , T3=Y3  Y2
V[T2]= s2 , V[T3]=2s2
T2,T3の重みつき平均WMを考える.
WM=(w2T2+w3T3)/(w2+w3)
w2:w3を2:1とすると
WM= (2/3) Y1 + (1/3) (Y3  Y2) = t(Y)
数理統計学第7回
12
本当に分散が最小?
T = 2/3Y1 -1/3Y2 +1/3Y3
E[T]=2/3α-1/3β+1/3(α+β)=α
V[T]= (4/9+ 1/9+1/9) s2 =6/9s2 =2/3s2
自然なαの推定量として, T2= Y1を考える.
E[T2]=αなので, T2は不偏推定量となるが,
V[T2]= s2>V[T]=2/3s2
と分散はV[T]より大きくなる.
数理統計学第7回
13
演習問題1
βの最良線形不偏推定量を求めよ.
1)不偏性を満たすための条件は.
2)分散が最小になるように係数を決定せ
よ
3)そのときの分散の大きさを評価せよ.
数理統計学第7回
14
まとめ:重量推定の例
• 線形で不偏な推定量の中で,分散が最小な
ものはどのような推定量か?
• 線形性の条件は t(Y) = c1 Y1 + c2 Y2 +c3
Y3
• 不偏性の条件は c1+ c3 = 1, c2 + c3 = 0
• これと分散最小性から,
c1 = 2/3, c2 = -1/3, c3 = 1/3
=> t(Y) = (2/3) Y1 + (1/3) (Y3  Y2)
数理統計学第7回
15
不偏推定量の中で分散最小なもの
=> 最良不偏推定量
線形でかつ不偏な推定量の中で分散が最小
なもの => 最良線形不偏推定量
最良線形不偏推定量を求めるのは厄介
もっと一般的に簡単に求める方法はないの
か?
線形模型の場合,ある条件の下で,
最良線形不偏推定量は最小二乗法で求め
られる.
数理統計学第7回
16
最小二乗法とは
観測変数とその期待値の差の二乗和を
最小とする母数の値を,母数の真の値と断
定する母数推定法
• 線形模型の場合,
• Q = Σ(Yi  XiTb)2
の b に関する最小値は,Y の関数となる.この関数を b の推
定量とする方法
=>
最小二乗推定量
数理統計学第7回
17
最小二乗法の模式図
数理統計学第7回
18
記号表記
Yi
Y1
Y2
Y3
XiT
[1
[0
[1
0]
1]
1]
b
α
β
数理統計学第7回
XiTb
α
β
α+β
19
最小二乗推定量の計算
• Q = (Y1  )2 + (Y2  b)2 + (Y3  b)2
Q を最小にする α,βをa, bとおくと,
• Q をα,βで偏微分して 0 とおくことで,次
の連立方程式の解として求められる.
•  2(Y1  a)  2(Y3  a  b) = 0
•  2(Y2  b)  2(Y3  a  b ) = 0
 a = [2Y1 + (Y3 Y2)] /3
 b = [2Y2 + (Y3 Y
)]
/3
1
数理統計学第7回
20
最小二乗法の良さを示す定理
• 定理1 (線形推定論の基本定理)
線形模型で誤差の3条件が成り立つとき,
未知母数の最小二乗推定量は最良線形
不偏推定量である.
• 定理2 (正規推定論の基本定理)
線形模型で誤差の4条件が成り立つとき,
未知母数の最小二乗推定量は最良不
偏推定量である.
数理統計学第7回
21
誤差の4条件
• 条件1:独立性 => 誤差は独立
独立の定義に第4回で説明
• 条件2:不偏性 => 誤差の期待値が 0
E[Ui] = 0 ; i = 1, 2, …, n
• 条件3:等分散性 => 誤差の大きさは同じ
V[Ui] = s2 ; i = 1, 2, …, n
• 条件4:正規性:誤差の分布は正規分布
数理統計学第7回
22
記号表記
Y
3×1
X
3×2
b
2×1
Xb
3×1
Y1  1 0
 a 
Y  0 1  a   b 
 2    b  



Y3  1 1 
a+b 
数理統計学第7回
23
最小二乗法を行列表現すると?
• Q = (Y  Xb) T(Y  Xb))
dQ
T
 0  (2 X )(Y  Xb)  0
db b b
 ( X X )b  X Y  b  ( X X ) X Y
T
T
数理統計学第7回
T
1
T
24
単回帰分析の場合
Q=Σ(yiーxiβ)2
dQ/dβ=ー2Σxi(yiーxiβ)=0より
Σxi(yiーxib)=0
Σxiyi=bΣxixi =bΣxi2
b=(Σxiyi)/Σxi2
数理統計学第7回
25
補足説明
• スカラーをベクトルで微分
=> ベクトルの各要素で微分してベクトルと同
じ形の行列にしたもの
Q=bTa
⇒ dQ/db=a
Q=bTb
⇒ dQ/db=2b
Q=bTCb ⇒ dQ/db=2Cb
(Cは対称行列)
最小二乗法で解を求めるための方程式を正規方
程式 normal equation という.
• 正規方程式の解が最小二乗推定量である.
数理統計学第7回
26
スカラーをベクトルで微分
要素が3つの場合
Q=bTa=b1a1+ b2a2 + b3a3
dQ/db1= a1 dQ/db2= a2 dQ/db3= a3
dQ/db=[ a1 a2 a3]
Q=bTb=b12+ b22+ b32
dQ/db1=2b1 dQ/db2=2b2 dQ/db3=2b3
dQ/db=[2b1 2b2 2b3] =2[b1 b2 b3]
数理統計学第7回
27
行列について参考にすべきこと
1.1×1 の行列,つまりスカラーは転置
しても変わらない.3T=3
2.横ベクトル ・ 行列 ・ 縦ベクトル
= スカラー
⇒ cT V[Y] d = dT V[Y] c
3.(AB)T = BTAT
4.XTX は対称行列,
すなわち (XTX)T = XTX
数理統計学第7回
28
Qの微分
Q = (Y  Xb) T(Y  Xb))
= Y TY  (Xb) TY Y T Xb+(Xb) TXb
= Y TY  bTXTY  Y TXb +bTXTXb
(Y TXb )T = bTXTY なので
Q = Y TY 2bTXTY +bTXTXb
dQ/db= 2XTY +2XTXb
b=(X TX)-1X TY
数理統計学第7回
29
行列の計算
X T X= 1 0 1
0 1 1
1 0 = 2 1
0 1
1 2
1 1
(X TX)-1=
1
2 -1 = 2/3 –1/3
2×2-1×1 -1 2
–1/3 2/3
X T Y= 1 0 1
Y1 = Y1+Y3
0 1 1 Y2
Y2+Y3
Y3
数理統計学第7回
30
行列の計算(続き)
(X TX)-1 X TY= 2/3 –1/3
Y1+Y3
–1/3 2/3
Y2+Y3
= 2/3(Y1+Y3)1/3(Y2+Y3 )
-1/3(Y1+Y3)+2/3(Y2+Y3 )
= 2/3Y11/3Y2 +1/3Y3
1/3Y1+2/3Y2 +1/3Y3
数理統計学第7回
31
ガウスマルコフの定理:
線形推定論の基本定理
• 線形模型で誤差の3条件が成り立つとき,
未知母数の最小二乗推定量は最良線形
不偏推定量である.
• 証明は?
• 最小二乗推定量が線形不偏であることは証
明が容易.分散最小性の証明は少し面倒
数理統計学第7回
32
誤差の条件の行列表現
線形モデル,Y = X b + U において,
U1, U2, …, Un が互いに独立,不偏,等分
散であれば,
=>E[U]=0
V[U]= s2 I (I はn×n単位行列)
=>Y1, Y2, …Yn は独立,等分散
=>E[Y] = Xb, V[Y]=s2 I
数理統計学第7回
33
線形性
b=(X T
p×n
X )-1
XT
n×p
p×n n×1
Y
bはY1, Y2, …, Ynの線型結合で表現できる.
先の例では
b= 2/3Y11/3Y2 +1/3Y3
1/3Y1+2/3Y2 +1/3Y3
数理統計学第7回
34
不偏性
E[Y] = Xb
b=(X TX)1 XT Y
E[b] = E[(X TX)1 XT Y ]
= (X TX)1 XT E[Y]
= (X TX)1 XT X b
=b
数理統計学第7回
35
定理1の特別な場合として,b が1次元の
場合の証明を行う.
Y = X
b + U
n×1 n×1 1×1
n×1とかく
最小二乗推定量を b = (XTX)1 XTYとかく
• 任意の線形不偏推定量を bu= dTY とすると,
• E[bu ] = dTE[Y] = dTXb
• 不偏性より,dTX = I (単位行列,今は1)
数理統計学第7回
36
共分散の計算
p=3の場合
Z1=α1X1+α2X2+α3X3=αTx
Z2=β1X1+β2X2+β3X3=βTx
Cov[Z1,Z2]=αT Vβ
=α1β1V[X1]+ α1β2Cov[X1,X2]+ α1β3Cov[X1,X3]
+α2β1Cov[X2,X1]+ α2β2V[X2]+α2β3Cov[X2,X3]
+α3β1Cov[X3,X1]+ α3β2Cov[X3,X2]+α3β3V[X3]
Cov[Z1,Z1]=V [Z1] =αT Vα
Cov[Z2,Z2]=V [Z2] =βT Vβ
数理統計学第7回
37
共分散の行列表現
Cov[Z1,Z2]=αT Vβ
α1 α2 α3
V[X1]
Cov[X1, X2] Cov[X1, X3]
Cov[X2, X1] V[X2]
Cov[X2, X3]
Cov[X3, X1] Cov[X3, X2]
V[X3]
β1
β2
β3
X1,X2,X3が独立なときは
Cov[Z1,Z2]=α1β1V[X1]+α2β2V[X2]+α3β3V[X3]
数理統計学第7回
38
最小二乗推定量の分散
V[b]= V[(X TX)1 XT Y ]
aT=[a1,a2,・・・, an] a:n行のベクトル
YT=[Y1,Y2,・・・,Yn] Y:n行のベクトル
V:分散・共分散行列(n×n)
Z=aTY のとき V[Z]=aT V[Y] a
a= [(X TX)1 XT ] T =X (X TX)1 とおくと
V[b]=(X TX)1 XT V[Y] X (X TX)1 と
仮定よりV[Y]= s2 I
Iはn×nの単位行列
V[b]= s2 (X TX)1 XT X (X TX)1 = s2 (X TX)1
数理統計学第7回
39
TX)1 XT V[Y] X (X TX)1
V[b]=(X
V[b]=σ2(X TX)1
σ2
T
X
X TX
σ2
X
σ2
σ2
(X TX)1
(X TX)1
数理統計学第7回
40
ガウスマルコフの定理の証明
V[bu] = V[bu b + b]
= V[bu  b] + V[b]+ 2 Cov[bu b, b]
ところが, Cov[bu b, b]
= Cov [dTY  (XTX)1XTY, (XTX)1XTY ]
= Cov [(dT (XTX)1XT) Y, (XTX)1XTY ]
= (dT  (XTX)1XT) V[Y] X (XTX)1
 (dTX  (XTX)1XTX) (XTX)1 s2 I
= (I  I) (XTX)1 s2 = 0
ゆえに V[bu] = V[b数理統計学第7回
u b] +V[b]≧V[b]
41
共分散の計算
Z1=α1X1+α2X2+ ・・・+αpXp=αTx
Z2=β1X1+β2X2+ ・・・+βpXp=βTx
のとき
Cov[Z1,Z2]= Cov[αTx, βTx]
=ΣαiβjCov[Xi,Xj]
=αT Vβ
b= (X TX)1 XTY =[X(X TX)1 ]T Y
bu b=[dーX(X TX)1 ]T Y
数理統計学第7回
42
先の例での確認
αの最小二乗推定量:b= 2/3Y11/3Y2 +1/3Y3
自然なαの不偏推定量:bu =Y1
Cov[bu b, b]
= Cov[1/3Y1+1/3Y2 1/3Y3 , 2/3Y11/3Y2
+1/3Y3 ]
= 1/3 2/3V[Y1]-1/3 1/3V[Y2] -1/3 1/3V[Y3]
= (2/9-1/9-1/9) s2= 0
bu bとbは無相関⇒bu bはbに対して情報を持た
ない.
43
数理統計学第7回
まとめ
最良線形不偏推定量
• t(Y) = c1 Y1 + c2 Y2 + c3 Y3
• 不偏性:E[t(Y)] =真値
• 分散最小性:V[t(Y)] が最小
誤差の3条件(独立性,不偏性,等分散性)
が成り立てば,最小2乗推定量に一致
分散最小性の証明:ガウスマルコフの定理
数理統計学第7回
44
演習問題
• Y1, Y2, …, Yn が互いに独立で
• E[Yi] = m, V[Yi] = s2 を満たす確率変数のとき,
問1:Y1 + Y2 の期待値と分散はいくらか.
問2:Y1  Y2 の期待値と分散はいくらか.
問3: m の線形不偏推定量(c1Y1+c2Y2+ … + cnYn)
はどのような条件を満たさなければならないか.
問4:その中で分散が最小なもの,つまり最良線
形不偏推定量は?
数理統計学第7回
45