回帰分析(Regression Analysis)

回帰分析(Regression Analysis)
最小2乗法
決定係数
回帰分析とは2変数の間に線形式を当てはめ、YがXによって
どれくらい説明できるのかを定量的に分析することである
Y
傾き


切片
線形関係の仕組み
X
XとYの線形関係
変数xと変数yの線形関係を把握するため
に、一つの固定した傾き  と切片  をと
り、その直線を
① y    x
とおいてみる。
X:独立変数(説明変数).
Y:従属変数(被説明変数).
xからyへの推計とその誤差
 とβが決められたら、式①のxに第 i 番のデータ
を xi 代入したときの yi の値を yi* とすると、
y    x
*
理論値 ②
i
i が得られる。
n個データ ( xi , yi )(i  1,2,  , n)について、n個の誤差  iが
式③によって得られる。
実際値 ③
誤差 ④
yi    xi   i
i  yi  y  yi  (  xi )
*
i
 yi    xi
最小2乗法

パラメータ(Parameter, 未知の係数) 、  が
定まれば、この直線が定まり、x から y が決定され
る仕組みが明らかになる。
最小2乗法( Least Squares Method)とは、
 i  yi  (  xi ) としたとき、
n
2

 i
i 1
n

i 1
2
i
→最小となるような  と  を求める手法
が誤差の2乗和と呼ばれる
誤差の2乗和(Sum of Squares of Errors)
⑤ SSE 
n

i 1
n
2
i
  ( yi    xi )  Q
2
i 1
を最小にするような  と  の値を求める。
この方法を最小2乗法といい、その推定値
を最小2乗推定値という。
誤差を最小にする方法

SSEは と  の2変数関数の2次式であるの
で、最小を求めるために 、 でそれぞれ偏微
分して0とおくと、正規方程式

Q
 2 ( yi    xi )  0

Q
 2 xi ( yi    xi )  0

となる。
極値の判定
関数f(x)において、
`
``
f (a)  0, f (a)  o
ならば
f(x)はx=aで極小となり
ならば
f (a)  0, f (a)  o
`
``
f(x)はx=aで極大となる
連立方程式の解を解く
Q
 2 ( yi    xi )  0

より
Q
 2 xi ( yi    xi )  0

n
n
y
i
i 1
 n    xi
i 1
⑥
n
x y
i 1
i
i
n
n
   xi    x
i 1
i 1
2
i
回帰係数の計算式
式⑥を  ,  の2元連立方程式として解く
と、,  の最小2乗推定値は
⑦ b
⑧
n xi yi   xi  yi
n x  ( xi )
2
i
2

S xy
S xx
a  y  bx
⑨ 回帰方程式
yi  a  bxi
練習問題
最小2乗残差
回帰直線を用いてxに x i を代入したときの直線
の予測値 y
ˆi
⑩
yˆ i  a  bxi
と実際値の yi との差
⑪
ei  yi  yˆ i  yi  a  bxi
作成する。これを最小2乗残差という。
最小2乗残差の平均値と分散
残差 ei は理論的誤差  i の実現値と見なし
て、n 個のデータを用いて x と y の線形関
係をよく把握したものである。
1 n
⑫残差の平均 e   ei  y  a  bx  0
n i 1
⑬残差の分散 S  1 (e  e ) 2  1 e 2
 i
i
ee
n
n
残差の分散が小さいほど、回帰直線のフィット(当てはまり)の
度合いはよく、n個データの xi と yi の線形関係は強くなる
練習問題
予習:pp.200-202