13.3 因子分析

第5章 重回帰分析
重回帰分析とは
5.1 適用例と解析ストリー
例:中古マンションの価格 y(千万円)
広さx1 (m2) ,築年数x2 (年)
5.2 説明変数が2個の場合の解析方法
(1)最小2乗法による回帰式の推定
観測値
yi  0  1xi1  2 xi 2   i  i~N (0, 2 )
(5.3)
予測値
yˆi  0  1 xi1   2 xi 2
(5.4)
残 差
 i  yi  yˆi  yi  (0  1xi1  2 xi 2 )
(5.5)
残差平方和 S e    i   [ yi  (  0  1 xi1   2 xi 2 )]
2
Se
 2[ yi  (  0  1 xi1   2 xi 2 )]  0
 0
Se
 2 xi1[ yi  (  0  1 xi1   2 xi 2 )]  0
1
Se
 2 xi 2 [ yi  (  0  1 xi1   2 xi 2 )]  0
1
2
(5.6)
(5.7)
(5.8)
(5.9)
(1)最小2乗法による回帰式の推定
0  y  1 x1  2 x2
(5.13)
1
 1  S11 S12  S1y 
    S
 S 
S
22   2y 
 2   21
 S22S1y  S12S2y 
1


2 
S
S

S
S
S11S22  S12  12 1y 11 2y 
(5.28)
多重共線性
多重共線性 (Multicollinearity)
通称「マルチコ」。独立変数間に非常に強い相関があったり,一
次従属な変数関係がある場合には,解析が不可能であったり,
たとえ結果が求まったとしてもその信頼性は低くなる。
 1 
1
  
2
S
S

S
 2
11 22
12
S11S22  S12  0
2
2
S12
1
S11S22
S12
r12 
1
S11S22
 S22S1y  S12S2y 
- S S  S S 
 12 1y 11 2y 
(2) 寄与率と自由度調整済み寄与率
S yy  (ˆ0  ˆ1S1 y  ˆ2 S2 y )  Se
 SR  Se
S yy : T  n  1
S R : R  2
S e : e  n  3
寄与率(決定係数)
Se
SR
2
R 
 1
S yy
S yy
自由度調整済寄与率(決定係数)
Se / e
Se /(n  3)
*2
R  1
 1
S yy / T
S yy /(n  1)
pp.71
(3) 説明変数の選択(変数選択)
説明変数の選択:
目的変数に有効な説明変数のみをモデルに採用すること
①変数減少法:すべての変数を取り込んだ段階から不要な
変数を削除していく方法
②変数増加法:定数項だけのモデルから有用な変数を追加
していく方法
③変数増減法:①と②を両方取り入れた方法
ここでは,変数増加法について説明する.
変数増加法
定数項だけのモデル Model0:
yi  0   i
変数増加法
①定数項だけのモデル Model0:
yi  0   i
② Model0にx1かx2のどちらの変数を取り込むのが良いか?
1つの変数xjだけを取り込んだ単回帰式 yˆ i  ˆ0  ˆ j xij
F0 
(Se( M 0)  Se( M 1) ) /(e( M 0)  e( M 1) )
Se( M 1) / e( M 1)
F0はF (e( M 0)  e( M 1) ,e( M1) )に従う F分布
F0  a
F0  a
xjを取り込む.ただし複数の
xj に対するF値がa以上の場
合は最も大きな値をとる変数
だけを取り込む→③
Model0を支持して終了
S yy
Se( M 0)  S yy
e( M 0)  T
Se(M 0)
SR(M 1)
Se(M 1)
Model0
Model1
変数増加法
③定数項と1変数のモデル Model1: yi  0  1 xi1   i
④Model1に変数x2を取り込む方が良いか?
2変数を取り込んだモデル Model2: yi  0  1 xi1  2 xi 2   i
F0 
(Se( M 1)  Se( M 2) ) /(e( M 1)  e( M 2) )
Se( M 2) / e( M 1)
F0はF (e( M 1)  e( M 2) ,e( M 2) )に従う F分布
F0  a(e( M 1)  e( M 2) ,e( M 2) )
X2を取り込む
F0  a(e( M 1)  e( M 2) ,e( M 2) )
Model1を支持して終了
S yy
(Se( M 1)  Se( M 2) )
SR(M 1)
S R(M 2)
Se(M 1)
Se(M 2)
Model1
Model2
(4)残差とテコ比に検討
yk  yˆ k
標準化誤差 ek 
Ve
(5)得られた回帰式の利用
2

 2
1
D
ˆ
ˆ
ˆ
 0  1 x1   2 x2 ~ N (  0  1 x1   2 x2 ,  
 )
 n n  1

D2  (n 1) ( x1  x1 )2 S11  2( x1  x1 )(x2  x2 )S 12  ( x2  x2 )2 S 22
0  1 x1  2 x2 の信頼率95%の信頼区間
2


1
D
ˆ
ˆ
ˆ
 0  1 x1   2 x2  t (e ,0.05)  
Ve
 n n  1
0  1 x1  2 x2 の信頼率95%の予測区間
2


1
D
ˆ
ˆ
ˆ
 0  1 x1   2 x2  t (e ,0.05) 1  
Ve
 n n  1

5.3 説明変数がp個の場合の解析方法
yi  0  1xi1  2 xi 2    p xip   i  i ~ N (0, 2 )
e  y  yˆ  y  (ˆ  ˆ x  ˆ x    ˆ x )
i
i
n
i
i
n
0
1 i1
2 i2
p ip
Se   ei  { yi  ( ˆ0  ˆ1 xi1  ˆ2 xi 2    ˆ p xip )}2
2
i 1
i 1
Seを最小とする ˆ0 , ˆ1 , ˆ2 ,, ˆ pを求める.
Se Se Se
Se



0
ˆ0 ˆ1 ˆ2
ˆ p
y  ˆ  ˆ x  ˆ x    ˆ x
0
1 1
2 2
p
p
ˆ1S11  ˆ2 S12    ˆ p S1 p  S1 y
ˆ1S21  ˆ2 S22    ˆ p S2 p  S2 y

ˆ1S p1  ˆ2 S p 2    ˆ p S pp  S py
ただし
n
S jk  S kj   ( xij  x j )(xik  xk )
n
i 1
S jy   ( xij  x j )( yi  y )
i 1
5.3 説明変数がp個の場合の解析方法
 ˆ1   S11
ˆ  
  2    S 21
   
  
ˆ p   S p1
S12
S 22

S p2
1
 S1 p   S1 y 
 S1 p  S 2 y 
     
  
 S pp   S py 
変数間に線形関係を有している場合,逆行列が求まらない
残差平方和の最小値
Se  S yy  (ˆ0  ˆ1S1 y  ˆ2 S2 y    ˆ p S py )
誤差の母分散ˆ 2  Ve 
Se
e

Se
n  p 1
(2) 寄与率と自由度調整済み寄与率
S yy  (ˆ0  ˆ1S1 y  ˆ2 S2 y    ˆ p S py )  Se
 SR  Se
S yy : T  n  1
S R : R  p
Se : e  n  p  1
寄与率(決定係数)
Se
SR
2
R 
 1
S yy
S yy
自由度調整済寄与率(決定係数)
S /
R*2  1  e e
S yy / T
(3) 説明変数の選択(変数選択)
pp.71
説明変数の選択:
目的変数に有効な説明変数のみをモデルに採用すること
①変数減少法:すべての変数を取り込んだ段階から不要な
変数を削除していく方法
②変数増加法:定数項だけのモデルから有用な変数を追加
していく方法
②変数増減法:①と②を両方取り入れた方法
ここでは,変数増加法について説明する.
変数増加法
定数項だけのモデル Model0:
yi  0   i
(4)残差とテコ比に検討
yk  yˆ k
標準化誤差 ek 
Ve
(5)得られた回帰式の利用
2

 2
1
D
ˆ
ˆ
ˆ
ˆ
ˆ
 0  1 x1   2 x2     p x p ~ N (  0  1 x1   2 x2     p x p ,  
 )
 n n  1
p
p
D  (n  1) ( xi  xi ) 2 S ij
2
i 1 j 1
0  1x1  2 x2    p x p の信頼率95%の信頼区間
2


1
D
ˆ
ˆ
ˆ
ˆ
 0  1 x1   2 x2     p x p  t (e ,0.05)  
Ve
 n n  1
0  1x1  2 x2    p x p の信頼率95%の予測区間
2


1
D
ˆ
ˆ
ˆ
 0  1 x1   2 x2  t (e ,0.05) 1  
Ve
 n n  1
5.4 行列とベクトルによる表現
4.3 行列とベクトルによる表現と同じ
EXCELを用いた重回帰分析
表5.1 中古マンションのデータ
サンプルNo.
1
2
3
4
5
6
7
8
9
10
広さx1
(m 2)
51
38
57
51
53
77
63
69
72
73
築年数x2
価格y
(年数) (
千万円)
16
3.0
4
3.2
16
3.3
11
3.9
4
4.4
22
4.5
5
4.5
5
5.4
2
5.4
1
6.0
EXCELの出力例
概要
回帰統計
0.97384694
重相関 R
0.94837787
重決定 R2
0.93362869
補正 R2
0.263625
標準誤差
10
観測数
分散分析表
自由度
回帰
残差
合計
切片
X値1
X値2
有意 F
観測された分散比
分散
変動
64.30037501 3.1255E-05
2 8.93751302 4.46875651
7 0.48648698 0.06949814
9.424
9
t
標準誤差
係数
1.02012955 0.44362392 2.29953684
0.06680477 0.00706459 9.45628471
-0.0808299 0.0122415 -6.6029458
下限 95% 上限 95%
P-値
0.055028639 -0.0288736 2.069133
3.08902E-05 0.05009968 0.08351
0.000303475 -0.1097765 -0.05188