多変量解析 -重回帰分析-

多変量解析 -重回帰分析-
発表者:時田 陽一
発表日:11月20日
1.重回帰式の求め方
p個の説明変数 x1 , x2 ,, x p について、n個のデータが測定されたとする
x1
x2
・・・
xj
・・・
xp
y
1
x 11
x 12
・・・
x 1j
・・・
x 1p
y1
2
x 21
x 22
・・・
x 2j
・・・
x 2p
y2
:
:
:
:
:
i
x i1
x i2
x ip
yi
:
:
:
:
:
n
x n1
x n2
x np
yn
:
・・・
x ij
・・・
:
・・・
x nj
・・・
求める重回帰式: y  a1x1  a2 x2   a p x p  a0
i番目のサンプルの理論値を yˆi とすると: yˆi  a1xi1  a2 xi 2   a p xip  a0
i番目のサンプルの残差: ei  yi  yˆi
S E を最小にする a ji を求める
残差平方和 S E :
n
n
S E   e    yi  yˆ i 
i 1
2
i
2
最小2乗法
i 1
  yi  a1 xi1  a2 xi 2    a p xip  a0 
n
i 1
2
正規方程式
S E を最小にするための係数 a ji
S E を a1 , a2 ,, a p で編微分して0とおき、(p+1)元の
連立方程式を作り、解く
正規方程式
●基本統計量
・平均:目的変数の平均を y
説明変数の平均を x
n
n
・積和:yとj番目の変数との積和
S yj    yi  y xij  x j 
n
j
y   yi n , x j   xij n
i 1
i 1
i 1
・偏差平方和:変数yの偏差平方和
n
S yy    yi  y 
2
i 1
S jj   xij  x j 
i 1
S    x
n
jk
x j における偏差平方和
n
・平方和・積和行列:
各説明変数における偏差平方和、
変数相互の積和で作られる行列
2
i 1
逆行列:
ij
 x j xik  xk 
S 
1
jk
k  1,, p 
偏回帰係数の公式
正規方程式を変形させる
 S11a1  S12 a2    S1k ak    S1 p a p  S y1 


S
a

S
a



S
a



S
a

S
 21 1
22 2
2k k
2p p
y2 





 S j1a1  S j 2 a2    S jk ak    S jp a p  S yj 





 S a  S a  S a  S a  S 
p2 2
pk k
pp p
yp 
 p1 1
この連立方程式を解くことで、偏回帰係数 a1 , a2 ,, a p が求まる
a0  a1x1  a2 x2   a p x p  y (正規方程式をサンプル数nで割る)

これから、a0  y  a1 x1  a2 x2   a p x p

平方和・積和行列の適用
平方和・積和行列を適用すると以下のようになる
・残差平方和
・重相関係数
・偏回帰係数
aj 
SE 
[ yj S ]
[ yy S ]
・偏相関係数
ryj23 p  
[S ]
[ yy S ]
ry12 p  1 
・標準誤差
S aj  S jjVE
[ xj S ]
[ yy S ][ jj S ]
SE
 S

n  p 1
jj
各行列は以下の通り(p=2の場合)
 S11

Sij   S 21
 S y1

S12
S 22
S y2
[S ]
S yy [ yy S ]
S1 y 

S2 y 
S yy 
S11
S12
S1 y
[ S ]  S 21
S 22
S2 y
S y1
S y2
S yy
[ij S ] : 行列 Sij のi行j列目の要素の余因子
S ij :平方和・積和行列の逆行列のi j成分
S jj [ S ] [ yy S ]
n  p 1
相関行列の適用
相関行列を Rij とする
 r11

Rij   r21
ry1

r12
r22
ry 2
r1 y 

r1 y 
ryy 
1
r12
r1 y
[ R ]  r21
1
r1 y
ry1
ry 2
1
・連立方程式
1 a1  r12 a2    r1 p a p  r1 y
r21a1  1 a2    r2 p a p  r2 y
・残差平方和
[ij R] :[R ] のi行j列目の
余因子行列
1 [R ]
のi行j列目の
ij R :
余因子行列の逆行列
・標準偏回帰係数
[ R]
SE 
[ yy R]
aj ' 

rp1a1  rp 2 a2    1  a p  rpy
・標準誤差
・重相関係数
S aj '  r jjVe S yy
 r jj
[ R] [ yy R]
SE
 r jj
S yy  (n  p  1)
n  p 1
ry12 p  1 
[ R]
[ yy R ]
[ yj R]
[ yy R]
2.重回帰式の係数に関する
推定と検定
●標準誤差
・標本調査を何度も行い、各調査ごとに重回帰式を得たとする
・求められた偏回帰係数 a ji 別々に、度数分布、ヒストグラムを作成する
ここで、ある変数 a j の母集団の偏回帰係数を j とする
ヒストグラムは平均  j 標準偏差 S aj  S jjVE の正規分布に
近づくことがわかっている
標準誤差
p
p
jk
定数項 a0 の標準誤差:S a 0  (1 n   x j xk S )VE
j 1 k 1
n:サンプル数、S jk:逆行列、
x j , xk ;説明変数の平均
係数・定数項の推定
信頼幅:100(1-α)%
自由度:n-p-1
t値: t (n  p  1, 2)
a j の区間推定:
a j  t (n  p 1, 2)  Saj  a j  a j  t (n  p 1, 2)  Saj
a0 の区間推定:
a0  t (n  p 1, 2)  Sa0  a0  a0  t (n  p 1, 2)  Sa0
T値・F値と係数・定数項の検定
●T値と係数・定数項の検定
・有意水準α、自由度n-p-1におけるt値を t (n  p  1, 2)
・j番目変数の偏回帰係数を標準誤差 S aj で割った値 Taj
Taj  a j Saj
Taj  t (n  p 1, 2) であれば、a j は有意
Taj は母集団の偏回
帰係数が a j  0という
仮説の下に自由度の
t分布に従う
・定数項 a0 を標準誤差 S a 0 で割った値Ta 0
Ta 0  a0 Sa 0
T値
Ta 0  t (n  p 1, 2) であれば、 a0 は有意
●係数検定のためのF値
Faj : Taj (j番変数のT値)を2乗した値
Faj  Taj
2
母集団の偏回帰係数が a j  0
という仮説の下に自由度
(t , n  p  1) のF分布に従う
変数選択法を用いる場合、F値を使って検定する
3.理論値に関する分析
●ダーヴィンワトソン比
重回帰分析:残差 ei がランダムでなければならない
値が2前後の
ときランダム
ダーヴィンワトソン比(Dw):一つ前の ei との系列相関を見ることによって
ei に何らかの傾向があるか判断する
n
Dw   ei  ei 1 
i 2
2
n
2
e
i
i 1
ei  yi  yˆi 
理論値の区間推定
ある特定のサンプルi番目の理論値を yˆi とする
yˆi  a0  a1xi1  a2 xi 2   a p xip
理論値が標本調査より得たものであるとき、
「何%の信頼度でこの理論値は○から△の間にある」 という
理論値の区間推定
理論値の標準偏差: K  1 n  Di2 n VE
VE :残差変動の不偏分散
n : サンプル数
D :点 xij と平均 x j とのマハラノビスの汎距離 (j=1,・・・,p)
2
i
D   xij  x j xik  xk S jk  n
p
2
i
p
S jk は平方和・
積和行列なの
でn倍
j 1 k 1
jk
i番目サンプルの母集団の理論値をS 、標本調査による理論値を yˆi とすると
区間推定(有意水準α、n-p-1の l (n  p  1, 2)とする)
~
yˆi  t (n  p 1, 2)  K  Yi  yˆi  t (n  p 1, 2)  K
4.変数選択法[1]
説明変数選択の注意点
① 目的変数と相関の高い変数を選ぶ
② 説明変数相互で相関の高いものは、いずれかの変数を除外する
マルチコ(多重共線性)の原因
説明変数の候補の中から、変数を選択して重回帰式を求める方法
A.分析者自身が変数を選択する方法
・・・・・・・・一般的な重回帰分析
B.ある基準を設け、これとの大小関係から
自動的に変数を選択させる方法 ・・・変数選択法
変数選択法[2]
変数選択法(各偏回帰係数に対応するF値と、あらかじめ設定した
F-in・F-outの値とを比較して、当該変数の取り込み・除外を行う)
変数増加法 : 変数が1つも含まれていないモデルから出発し、
変数を一つずつ増加させて、変数選択を行う
変数減少法 : 説明変数全部を用いたモデルから出発し、
変数を1つずつ減少させ、変数選択を行う
変数増減法 : 増加法と減少法との問題点(増加法では1度採用された
変数は落とされない、減少法では1度落とされた変数は
採用されることが無い)を改良した方法
5.重回帰分析における1つの工夫
重回帰分析
説明変数が多くなるとマルチコが起こりやすくなる
変数選択を厳しくすると説明変数の数が3~4個となり
重回帰分析の本来の意味をなさない
「説明変数の数を多くとってもマルチコ現象が起こらない重回帰分析」
主成分への回帰
説明変数に主成分分析を適用し、相互に相関の無い固有ベクトルで表す
求められた固有ベクトルとサンプルデータから、主成分得点を算出
目的変数と主成分得点の重回帰分析を行う
重回帰分析の偏回帰係数と固有ベクトルとの積和により係数を求める
短回帰の合成
p個の説明変数各々について単回帰分析を行う。それを合成して
重回帰式を作る
残差平方和 S E を求め、最小2乗法により係数を求める
求めた係数により回帰式の係数を求める