回帰分析

回帰分析
ここでは以下の内容について説明をする。
第 1 回 回帰分析とは 最小自乗法とは
単回帰の場合の回帰係数の仮定
結果の検討に用いる手法
決定係数 重回帰係数
回帰平方和 残差平方和
ダービンワトソン比
(重回帰係数) 2  決定係数
全平方和  回帰平方和  残差平方和
第 2 回 回帰係数の区間推定、検定
分散分析
第 3 回 重回帰分析 係数の推定
係数の分散…区間推定、検定
分散分析
変数の選択
第 4 回 回帰式の予測への適用
推定と予測の違い
予測値の信頼性
確率統計Ⅱ
1. 回帰分析とは
…結果
原因 で結果
を説明する。
y  ax  b  
y  Ax  B
 :誤差
:説明変数、外生変数、独立変数
:被説明変数、内生変数、従属変数 これが、確率変数
( x1 , y1 )( xn , y n ) から推定値 a, b を求める。
この時、「最小自乗法」という推定方法を用いる
…原因
y  Ax  B の様に x が 1 つである場合…単回帰分析
y  A1 x1  A2 x2  B の様に x が複数ある場合
…重回帰分析
2. 最小自乗法
n

2
最小とする
i 1
推定法としては P215
モーメント法
最尤法
n
単回帰分析の場合
 ( )
i 1
n
2
i
 ( )
i 1
i
2
i 1
n
重回帰分析の場合
  yi  (axi  b)
n
2
  yi  (a1 x1i  a 2 x2i  b)
i 1
2
3. 回帰係数の推定
n
n
S      yi  (axi  b)
i 1
2
i
2
i 1
n
S
 2 xi ( y i  axi  b)  0
a
i 1
n
n
i 1
i 1
n
a  xi2  b xi   xi yi
S
 2 ( y i  axi  b)  0
b
i 1
n
i 1
n
n
n
i 1
i 1
i 1
a  xi  b    y i
n
 (x
a
i 1
i
 x )( yi  y )
n
 (x
i 1
i
 x)2
b  y  ax
4. 推定結果の検討
・推定値(計算値)と実測値の相関関係…重相関係数…決定係数
R
 ( y  y )(Y  Y )
 ( y  y )  (Y  Y )
i
i
2
i

2
i
2
 (Y  Y )

 ( y  y)
2
:実測値
2
:計算値
i
i
・分散分析(全分散 回帰分散 残差分散)
ギリシャ語のアルファベット
分散分析表
自由度
全体平方和
(n  1)
回帰平方和
p
誤差平方和
(n  1)  p
平方和
分散
分散比
VR  S R / p
F  VR / Ve
S t  i 1 ( yi  y ) 2
n
n
S r  i 1 (Yˆ  Y ) 2
S e  i 1  i2
n
Ve  S e /( n  1)  p
・誤差の検討
n
DW比(d ) 
 (
i 2
i
  i 1 ) 2
n

i 1
 2(1  r )
2
i
誤差の相関
問 1.ある地域の生産量と出荷額を6年間について調べたのが表1である.
以下の問いに答えよ
生産量
出荷額
1.77
3.46
1.56
2.43
1.51
2.46
1.29
2.38
1.20
1.82
1.05
1.62
S.50
S.51
S.52
S.53
S.54
S.55
生産量
2.00
1.50
1.00
0.50
0.00
0.00
1.00
2.00
3.00
4.00
出荷量
①最小自乗法を用いて、生産量を出荷額で表す式を求めよ.(答えではなく計算過程も示す
こと)
生産量を出荷額で表す式を Y  ax  b とする( y : 生産量, x : 出荷額).残差を  とすると,
 i  yi  Yi  yi  axi  b

2
i
  ( yi  axi  b) 2
f (a, b)   ( yi  axi  b) として,これが最小になる条件は,
2
f
 2 xi ( yi  axi  b)  0
a
f
 2 ( yi  axi  b)  0
b
これを解くと,
a
n xi y i   xi  y i
n x  ( xi )
2
i
2
b
x y x y x
n x  ( x )
2
i
i
2
i
i
i
2
i
また,以下の様な表を作成すると,
S.50
S.51
S.52
S.53
S.54
S.55
合計
生産量
1.77
1.56
1.51
1.29
1.20
1.05
8.38
出荷額
3.46
2.43
2.46
2.38
1.82
1.62
14.17
f
f
 0,
 0 である.
a
b
11.97
5.90
6.05
5.66
3.31
2.62
35.53
6.12
3.79
3.71
3.07
2.18
1.70
20.58
i
a
6  20.58  14.17  8.38
 0.385
6  35.53  (14.17) 2
b
35.53  8.38  20.58  14.17
 0.488
6  35.53  (14.17) 2
よって,
Y  0.385x  0.488
②式の精度を表す分散分析表を作りなさい.
y i の平均値を y として以下の様な表を作成する.
S.50
S.51
S.52
S.53
S.54
S.55
合計
平均
生産量
1.77
1.56
1.51
1.29
1.20
1.05
出荷額
3.46
2.43
2.46
2.38
1.82
1.62
予測値
1.82
1.42
1.44
1.40
1.19
1.11
1.40
2.36
1.40
実測値の全変動 St 
( y
回帰による変動 Sr 
 (Y
残差による変動 Se 
( y
i
 y ) 2  0.349
0.139
0.027
0.013
0.011
0.039
0.120
0.349
0.178
0.001
0.001
0.000
0.043
0.082
0.306
0.003
0.019
0.006
0.013
0.000
0.004
0.044
(全変動の自由度 ft=6-1=5)
2
i
i
 Y )  0.305 (回帰による変動自由度 fr= (n  1)  p =1)
 Yi ) 2  0.044 (残差による変動の自由度 fe= (n  1)  p =4)
回帰による変動の不偏分散 Vr=Sr/fr=0.305/1=0.305
残差による変動の不偏分散 Ve=Se/Fe=0.044/4=0.011
分散分析表
回帰変動
残差変動
全変動
自由度
1
4
5
平方和
10.305
0.044
0.349
不偏分散 分散比
0.305
30
0.011
③偏回帰係数の 95%信頼区間を求めなさい.
回帰式の回帰係数と切片の分散は,残差 ( yi  Yi ) の分散を s 
2
1
( yi  Yi ) 2 とすると

n2
以下の様になる.
V (a) 
1
s2
2
 ( xi  x )
V (b) 
x
n ( x  x )
2
i
2
s2
i
s 2  0.0109 であるので,
0.0109
35.53  0.0109
V (a) 
 0.00530 , V (b) 
 0.0314
2.064
6  2.064
したがって求める 95%信頼区間は,自由度 4 に対し t 0.975  2.776 であるため,
a  t 0.975 V (a)  a  2.776  0.00530  a  0.2020
b  t 0.975 V (b)  b  2.776  0.0314  b  0.492
0.1825  a  0.5866
 0.003  b  0.980
④重回帰係数,ダービンワトソン比を求めなさい.
重回帰係数 r 
S.50
S.51
S.52
S.53
S.54
S.55
合計
1 n
 ( yi  y )(Yi  Y )
n i 1
1 n
1 n
2
(
y

y
)
(Yi  Y ) 2


i
n i 1
n i 1
0.16
0.00
0.00
0.00
0.04
0.10
0.31
0.178
0.001
0.001
0.000
0.043
0.081
0.305
より,以下の様な表を作成する.
よって
r
1
 0.31
6
 0.935
1
1
 0.349
 0.305
6
6
n
ダービーワトソン比
d
 (
i 2
i
  i 1 ) 2
より,以下の様な表を作成する.
n

i 1
2
j
残差
S.50
S.51
S.52
S.53
S.54
S.55
Σ
-0.05
0.14
0.08
-0.11
0.01
-0.06
0.00
0.00
0.02
0.01
0.01
0.00
0.00
0.04
0.19
-0.06
-0.19
0.13
-0.07
-0.01
0.03
0.00
0.04
0.02
0.01
0.10
⑤推定した回帰式の妥当性を検討するために,行ったら良いと考える方法を説明しなさい.
⑥出荷額が 2.00 の時の生産量の 95%信頼区間を求めなさい.
x0  2.00 , y0  0.385  2.00  0.488  1.258 とすると, Y のに対する 95%信頼区間は
以下で表せられる.
y0 
2.776
n2
s n 1
n( x 0  x ) 2
s x2
(ここで s x 
2
1
 ( xi  x ) 2 )
n
よって,
y0 
2.776
62
 0.0109  6  1 
6(2.00  2.36) 2
 1.258  0.046  0.321
0.344
生産量(y)
S.50
S.51
S.52
S.53
S.54
S.55
合計
平均
1.77
1.56
1.51
1.29
1.20
1.05
8.38
1.40
a=
b=
予測値Y
S.50
S.51
S.52
S.53
S.54
S.55
合計
平均
1.82
1.42
1.43
1.40
1.19
1.11
出荷額(x)
3.46
2.43
2.46
2.38
1.82
1.62
14.17
2.36
0.385
0.488
(yi-平均y)^2
0.139
0.027
0.013
0.011
0.039
0.120
0.349
全変動
S.50
S.51
S.52
S.53
S.54
S.55
合計
6.12
3.79
3.71
3.07
2.18
1.70
20.58
(Yi-平均y)^2
0.178
0.001
0.001
0.000
0.043
0.081
0.305
(yiーYi)^2
0.002
0.019
0.006
0.013
0.000
0.004
0.044
回帰による変動
5
0.070
27.93
1
0.305
残差による変動
4
0.011
(yi-平均y)(Yi-平均Y) (Yi-平均Y)^2
0.16
0.178
0.00
0.001
0.00
0.002
0.00
0.000
0.04
0.043
0.10
0.081
0.31
0.305
重相関係数=
0.935
残差ε (i)=yi-Yi
-0.05
0.14
0.08
-0.11
0.01
-0.06
0.00
ダービーワトソン比=
ε (i)^2
0.00
0.02
0.01
0.01
0.00
0.00
0.044
2.179
(xi-平均x)^2
S.50
S.51
S.52
S.53
S.54
S.55
合計
x*y
11.97
5.90
6.05
5.66
3.31
2.62
35.53
1.40
自由度
不偏分散
分散比
S.50
S.51
S.52
S.53
S.54
S.55
合計
x*x
1.206
0.005
0.010
0.000
0.293
0.550
2.064
(yi-Yi)の分散s
0.011
aの分散V(a)
0.005
2.776*(V(a))^0.5=
0.202
0.183<a<0.587
ε (i)-ε (i-1)
0.19
-0.06
-0.19
0.13
-0.07
-0.01
(ε (i)-ε (i-1))^2
0.03
0.00
0.04
0.02
0.01
0.095
重相関係数と決定係数
n
(y
R
i 1
(y
i
i
 y )(Yi  Y )
 y ) 2   (Yi  Y ) 2
これの分子は y  Y であるので
( y
 y )(Yi  Y )   ( yi  Yi  Yi  Y )(Yi  Y )
i
  ( yi  Yi )(Yi  Y )   (Yi  Y ) 2
   i (Yi  Y )   (Yi  Y ) 2
この第1項は
 (Y
i
i
 Y )    i (axi  b)  Y   i
 a   i xi  b   i
=0
これより
R 
2
 (Y
i
 Y )
2
 ( yi  y ) 2   (Yi  Y ) 2
自由度調整済みの重相関係数
R2  1
Ve
VT
 (Y  Y )

 ( y  y)
2
i
i
2
2
回帰分析 <練習問題>
y を x で説明する回帰式を推定するため、以下のデータを収集して、
y
x
1

回帰式は yi  1   2 xi   i とし、 1 ,  2 を

2
i
を最小にする
ように推定した。その結果を ˆ1 , ˆ 2 、これと x i を用いて推定した
i

ˆ1  ˆ2 xi を Yi とする。
n
この時、
( y
i
 y ) 2  (Yi  Y )  ( yi  Yi ) 2
1
 yi
n
但し、
1
Y   Yi
n
y
であることを証明しなさい。
ˆ1 , ˆ2 及び yi , xi は以下の条件を満たす。
ヒント
(y
(y
i
 ˆ1  ˆ 2 xi )  0
i
 ˆ1  ˆ 2 xi ) xi  0
(解答)
( y
 y ) 2   ( yi  Yi )  (Yi  y )
2
i
  ( yi  Yi ) 2  2 ( yi  Yi )(Yi  y )   (Yi  y ) 2
ここで (Yi  y )  (Yi  Y )  (Y  y ) として、
(y
i
 Yi )(Yi  Y )  (Y  y )
  ( yi  Yi )Yi  Y  ( yi  Yi )  Y  ( yi  Yi )  y  ( yi  Yi )
( y
 Yi )   ( yi  ˆ1  ˆ2 xi ) 0
i
( y
i
 Yi )Yi    i (ˆ1  ˆ2 xi )  ˆ1   i  ˆ2   i xi
   x
i
i
( y
i
 (Y
i
 0 より
 y ) 2   ( yi  Yi ) 2   (Yi  y ) 2
 y ) 2 について考える
i
 (Y  y )  (Y  Y )  (Y  y )
  (Y  Y )  2 (Y  Y )(Y  y )   (Y  y )
2
2
i
i
2
i
2
i
ここで
 (Y
i
 Y )(Y  y )  (Y  y ) (Yi  Y )  (Y  y )Yi  Y 1  0
 (Y
i
 y ) 2  (Y  y )1
Y  ˆ1  ˆ 2
x
y  ˆ1  ˆ 2
i
n
 Y  y 

i
n
 x  
i
n
i
n
 0 (   i  0)
  ( yi  y )2  (Yi  Y )  ( yi  Yi ) 2
これより
分散分析表
自由度
平方和
全平方和
(n  1)
S t  i 1 ( yi  y ) 2
回帰平方和
p
S R  i 1 (Yˆi  Y ) 2
誤差平方和
(n  1)  p
S e  i 1  i2
分散
分散比
VR  S R p
F  VR Ve
n
n
n
 i  yi  Yi
Ve  S e (n  1)  p
補足資料
ダービンワトソン比(DW 比)
1.定義式
n
 
DW比d  
i 2
  i 1 
2
i
n

i 1
2
i
2.これの意味
誤差  i 互いに独立であるということは当然、隣接している誤差  i
ロということ
そこで  i と  i 1 の相関係数 r を求めると
n
 
r
i 2
n
 
i 2
  i  i 1   i 
i
n
i 
 
2
i
i 2
i 
2
i 1
誤差の平均とはともにゼロとしているので上の式は
n
r
 
i i 1
i 2
n
n
 
i 2
2
i
i 2
2
i 1
ここで、 d を変形してみると
n
d
 
i 2
  i 1 
n
2
i
n

i 1
2
i

n
   
i 2
2
i
i 2
n
2
i 1
 2  i  i 1
i 2
n

i 1
2
i
 i 1 の相関係数はゼ
n が大きければ
n

i 1
n
2
i
n
≒   ≒   i21
i 2
2
i
i 2
と近似できるので d は以下のようになる
n
d
 n 2 n

 2  i  i 1 2   i    i  i 1 
i 2

i 2
≒  i 2
n
n
   
2
i
i 2
2
i 1
i 2
n
  i2
n

i 1

2

 
n

i 2
n
 i2


i 2
 i21

i 2
n

 i2

i 2


i i 1
i 2
i 2
i 2

 i  i 1 


i 2
 


2
i 1
n
n

n
n
i 2



 21 




n
2
i
 i2
n


i 2
2
i 1








≒ 21  r 
3.判定
 0 であるので
正の系列相関が有る時 0  r  1 であるので
負の系列相関が有る時 1  r  0 であるので
系列相関が無い時 r
d 2
0d 2
2d 4
2
i 1
・回帰係数の区間推定、検定
y  ax  b の(偏)回帰係数は
n
a
 (x
i 1
i
 x )( y i  y )
n
 ( xi  x ) 2

( x1  x ) y1 ( xn  x ) y n 
i 1
n
 (x
i 1
i
 x)2
b  y  ax
ここで、 x i は確率変数であり y i は確率変数である  i の関数であることを考えると
分散 V (a) 

( x1  x ) 2
 
2
n
2
 ( x1  x ) 
 i 1

2
( xn  x ) 2
n
2
 ( x n  x ) 
 i 1

2
2
2
n
 (x
i 1
i
 x)2
V (b)  V ( y )  V (a)  ( x ) 2



 x
1
x2

 n
   n
n
n
2
(
x

x
)
( xi  x ) 2



i
i 1
i 1

2
2
2
参考までに a, b を求めると
E a  


 2



x1  x  E  y     xn  x  E  y 
1
n
n
n
2
2
 xi  x 
 xi  x 
i 1
i 1
yi  Axi  B   i であるので
E yi   AE xi   B より
Axi  B  E ( i )  Axi  B










xn  x 
xn  x  


x1  x 
x1  x 



E a   n
x1    n
xn A  n
 n
B



2
2
2
2 
 xi  x      xi  x 
 xi  x  
   xi  x 


i 1
i 1
 i 1

 i 1

A
Eb  E y   Ea x
 Ax  B  Ax
B
回帰係数の平均、分散が点推定された A,B 及び残差の分散  2 で表されるのでこれまで
の区間推定及び既定の知識を生かして回帰係数の検定・区間推定を行う
(残差の分散  2 が既知の場合 a, b は正規分布  2 が未知の場合は標本分散の t 分布を用い
る)
 2 が既知として
A  0 の検定を行うと
帰無仮説 H 0 : A  0
検定統計量
対立仮説 H1 : A  0
これが
Z がこの範囲であれば棄却
A の区間推定を行うと、
a A
Z 

2
Z
1
2
n

2
 x  x 
2
i
i 1
a  Z
2
2
n
 (x
i 1
i
 x)
 AaZ
2
2
1

2
n
 (x
i 1
i
 x)2
5. 例題
数値例
この例題で、 a, b の点推定を行うと、
データ
1
2
3
4
5
6
7
8
9
10
合計
平均

8.2
9.5
9.0 10.2
8.5 11.2
9.3 11.5
8.8 12.0
10.6 13.0
9.6 13.7
10.7 14.5
10.2 15.8
10.9 16.1
95.8 127.5
9.58 12.75
( xi  x )
n 1
A  0.371
x
y
2
R  0.864
DW比  3.50
B  4.850
y  0.371x  4.850
この例題で、残差の標本分散を求めると、
n
S 
2
(y
i 1
i
 axi  b)
n2
 0.271
したがって、係数の分散 V(a ) 、 V(b ) は、
V( a )  0.00586
V(b )  0.980
1
n
 (x
i 1
i
S2
 x)2


2


x
1
 2


 S
分散分析法
n
n
2

( xi  x ) 

ダービンワトソン比 

i 1


変相関係数
a  0 の仮説検定を行うと、
t
統計量
0.371  0
V( a )
有意水準を 0.05 とすると、この統計量は自由度 (10  2) の t 分布に従うので
5%(0.05)
となり、
この統計量は t  4.847 であるので
仮説 (a  0) は棄却される→ (a  0)
 2.306
2.306
a の信頼区間を推定する
t
0.371  A
V( a )
信頼係数 (1   ) を 0.95 とすると、 t は (n  2) の t 分布に従うので
 2.306 
0.371  A
V( a )
 2.306
 0.1765  0.371  A  0.1765
0.1945  A  0.5475
 2.306
2.306
この範囲に統計量が存在
B については各自で行うこと
することが必要
6. 回帰分析の適用
・回帰式を予想に用いたとき
偏回帰係数の共分散
・多変数
ステップワイズ
・連立方程式
計量経済モデル
・残差
時系列モデル 空間相互作用モデル
回帰式を用いた予測
推定した回帰式を用いて説明変数 x にある特定の値 x 0 を与えた時の被説明変数 y の推定
値を求めることを考える.
被説明変数の推定値を Y0 とすると,
これより
Y0  ax0  b  y  a( x0  x )
E (Y0 )  E ( y )  ( x0  x ) E(a)
 ax  b  ( x0  x )a
 ax0  b
推定値 Y0 の分散は
V (Y0 )  V ( y )  ( x0  x )  V (a)
2
( x0  x ) 2


 2
2
n  ( xi  x )
これより推定値 Y0 の区間推定及び検定が行うことができる.
この推定値 Y0 は y の母平均の区間推定値を与えるのであって,説明変数 x 0 の時の被説明
変数の測定値 y がこの区間に入るということを意味している訳ではない.
個々の測定値には測定誤差  が伴うので測定値 y の分散は以下のようになる.
2
V  y 0  Y0   1 
( x0  x )
1

2
n  ( xi  x ) 2
この関係を図で示すと
✽
✽
例題で計算すると
V (a) 
1
0.011
 2 
 0.00521
2
2.11
 ( xi  x )
1
x2
1 (2.36) 2 2
2
V (b)  ( 
)


(

)
n  ( xi  x ) 2
6
2.11
 2.806  0.011  0.0309
V (a)  0.0722 ,
V (b)  0.176
2.776  0.0722  0.200
2.776  0.176  0.489
a0
V (a)
b0
V (b)

0.385
 5.33
0.0722

0.488
 0.998
0.489
a  0.200
b  0.489
x  2.0 の時 Y0 は
Y0  0.385  2.0  0.488  1.258
V (Y0 ) 
2
n

( x0  x ) 2
 2
2
(
x

x
)
 i
0.011 (2.0  2.36) 2

 0.011
6
2.11
 0.00251

例題の計算
x0  2.00 の時 Y0 は
Y0  0.385  2.00  0.488  1.258
推定値 Y0 の分散は
2
( x0  x ) 2
V (Y0 ) 

 2
2
n  ( xi  x )
 2  0.011
n6
x  2.36
回帰係数の区間推定と検定の為の分散の求め方(2)
回帰式 yi  1   2 xi   i で確率変数は  i
E ( i )  0
これは
V ( i )   2
i  1n
Cov( i  j )  0
最小二乗法で推定した ˆ 2 は
ˆ 2 
 ( x  x )( y  y )
 (x  x)
i
i
2
i
この式で  i を含むのは、 y i 及び y であるので
yi  1   2 xi   i
y  1   2 x 
 ( yi  y )   2 ( xi  x )  ( i 

n
i

i
n
)
( xi  x ) 2

 ( xi  x ) i   ( xi  x )    i
ˆ
  2 


2
 ( xi  x ) 2
 ( xi  x ) 2  ( xi  x ) 2 n
  2 
(x  x) 
(x  x)
i
2
i
i
E (ˆ2 )   2
2


1
V ( ˆ2 )  
( x1  x ) 2    ( xn  x ) 2  2
2
  ( xi  x ) 
1

2
2
 ( xi  x )



2

 ˆ2は N   2 ,
2 

(
x

x
)
 i



同様に、 ˆ1 について行うと
ˆ1  y  ˆ2 x y  1   2 x 

i
n
 (x  x) 
 (x  x)
 (x  x)  )x

 (x  x)
ˆ 2   2 
i
i
2
i
  i )  (
 ˆ1  ( 1   2 x 
2
n
i
2
i
i
 1
( xi  x ) x 
 1    

2  i
 n  ( xi  x ) 
 
 E ˆ1  1
2
2


x
1
 ( x1  x ) 2    ( x n  x ) 2  2
V ( ˆ1 )      2     2  


n
  ( xi  x ) 
2
(x)2


 ( xi  x ) 2  2
2 
2
n
(x  x)








2
n

(x)2
i
 x)
2
n ( xi  x )
2
2
 ( x
 ( x )
2
2
 2 x  xi  n( x ) 2  n( x ) 2
 ( x )
2
2
 2n( x ) 2  2n( x ) 2
2
n ( xi  x )
2
2
2
n ( xi  x )


i
 (x

n ( xi  x ) 2
i
 x ) 2  n( x ) 2
i
i
 (x )

2
i


( xi ) 2

2
ˆ

 1は N 1 ,



n  ( xi  x ) 2




練習問題
(1) yi  1   2 x2   i の  i の分散(残差分散)求めなさい
(2) 分散分析表から決定係数を計算し、回帰の R と比較しなさい
2
(3) 有意 F の意味を説明しなさい
(4) 係数の検定に用いる統計量と、帰無仮説を説明しなさい
(5) 区間推定に用いられる統計量と、その分布型を説明しなさい