情報とコンピュータ

データ解析
http://coconut.sys.eng.shizuoka.ac.jp/data/
静岡大学工学部
安藤和敏
2005.11.02
重回帰分析のデータ
(説明変数が2個の場合)
個体番号
変数 x
変数 u
変数 y
1
x1
u1
y1
2
x2
u2
y2
…
…
…
…
i
xi
ui
yi
…
…
…
…
n
xn
un
yn
説明変数が2個の場合の重回帰分析
与えられたデータに「最もよくあてはまる」平面
回帰方程式
y  a  bx  cu (1)
を求めること.
目的変数
切片
偏回帰係数
説明変数
「最もよくあてはまる平面」ってどういうこと?
残差
 i  yi  (a  bxi  cui )
残差平方和 Q
Q
n
2

i 1 i
n
y
i 1 i
 

 (a  bxi  cui )
2
Qを a,b ,cを変数にもつ3変数関数として見て,
Q(a,b,c)を最小にする a,b,cが,データに「最もよくあ
てはまる」平面を与えると考える.
このようにしてa,b,cを求める方法を最小2乗法と呼ぶ.
どのようにしてQ(a,b,c)を最小にする a,b,cをもとめる
のかを見ていく.
Q(a,b,c)を最小にする a,b,c
2
 sx
s xu  b   s xy 

,





2
su  c   suy 

 s xu
a  y  bx  cu
2-3 回帰分析の精度を示す決定係数
精度が良い回帰方程式
26.0
25.5
25.0
24.5
24.0
23.5
23.0
y = 0.1589x - 1.9801
22.5
22.0
21.5
150
155
160
165
170
175
回帰方程式は,データをよく表現している.
精度が悪い回帰方程式
35.0
30.0
25.0
20.0
15.0
10.0
5.0
y = 0.4505x - 55.641
0.0
150
155
160
165
170
175
回帰方程式は,データを表現しているとはいえない.
決定係数
決定係数は,回帰方程式が与えられた多変数デー
タをどれだけよく表現しているかを示す尺度である.
説明変数が2個の場合の重回帰分析
y  a  bx  cu を回帰方程式とする.このとき,
yˆi  a  bxi  cui (i  1,, n)
で定義される変数 yˆ を予測値と呼ぶ.
残差  i は以下のように書ける.
 i  yi  (a  bxi  cui )  yi  yˆi .
yˆ の平均
1 n
yˆ  i 1 yˆ i
n
1 n
 i 1 (a  bxi  cui )
n
1 n
1 n
1 n
 i 1 a  b i 1 xi  c i 1 ui
n
n
n
 a  bx  cu
 y.
分散の関係
2
sy

2
s yˆ
 s  (3)
2
実測値の分散 = 予測値の分散 + 残差の分散
平方和の分解(1)
  yi  y   
n
i 1
2

 (a  bxi  cui )
 (a  bxi  cui )  y}
2
n
i 1
n
{
y
i 1 i
 i  (a  bxi  cui )  y
2
 

n
n
2


(
a

bx

cu
)

i
i
i
i 1
i 1
n
2

(
a

bx

cu
)

y
i
i
i
i 1



2
y

n

i 1 i
 
 


(a  bxi  cui )  y  0

n

(
a

bx

cu
)

y
i
i
i
i 1
n
 i 1  i (a  y )  bxi  cui
n
n
 i 1  i (a  y )  i 1 b i xi
n
n
 (a  y ) i 1 i  b i 1  i xi
 0.




n
c

u
i
i
i 1
n

u
i
i
i 1
 c
平方和の分解(2)

n
2

i 1 i
2


(a  bxi  cui )  y


 yˆi  y 
n
2

i 1 i
n
2

i 1 i
2
 sy

n
i 1
n
i 1
2
s  s yˆ .
2
2
決定係数
2
sy
R 
2
2
s yˆ
2
sy


2
sy
2
s  s yˆ
2
 s
2
2
sy
 1
2
s
2
sy
R2は決定係数と呼ばれる.
0≦R2 ≦1が成り立ち,1に近いほど回帰方程式
の精度が良いと考えられる.
補正決定係数
実は説明変数の数を増やしていけば, R2は1に近く
することができる.説明変数の数による影響を排除す
ために,決定係数のかわりに以下で定義されるR*2を
考えることも
ある.
2
s /(n  p  1)
*2
R  1
2
s y /(n  1)
ここで,pは説明変数の数.R*2は補正決定係数と
呼ばれる.
重相関係数
yˆ
と
y の相関係数
ryyˆ 
s yyˆ
s y s yˆ
は重相関係数と呼ばれる.
重相関係数2=決定係数(1)
nsyyˆ  
n
(
y
i 1 i
 y )( yˆ i  y )

n
ˆ i  yˆ i  y )( yˆ i  y )
(
y

y
i
i 1
n
ˆ i  y )( yˆ i  y )
(


y
i
i 1
n
n
2
ˆ
ˆ

(
y

y
)

(
y

y
)
i 1 i i
i 1 i
n
n
ˆi

(
a

bx

cu

y
)

(
y
i
i
i
i 1
i 1
n
2
2
ˆ
(
y

y
)

ns
i
y
i 1






 y)
2
重相関係数2=決定係数(2)
s yyˆ 
 s yyˆ 
2
s yyˆ
s y s yˆ
s yˆ
2
sy
2

s yˆ
2
s y s yˆ
R
2

s yˆ
sy
重相関係数の性質
予測値 yˆ は,回帰方程式の切片aと偏回帰係数
b, c によって
yˆi  a  bxi  cui
で定義される.
任意のα,β,γに対して
~
yi    xi  ui
で定義される変数
~y を考えると,
ry~y  ryyˆ .
本日のまとめ
• 次の関係式の導出を理解した.
2
sy

2
s  s yˆ .
2
• 決定係数と補正決定係数の意味を理解した.
• 決定係数と重相関係数の関係を理解した.
• Excelを用いた重回帰分析で,決定係数,補
正決定係数などを計算する方法を理解した.