1 - 安部公輔 ( Kousuke ABE )

数理統計学 II
（数理統計の基礎 II）
4 回目 — 回帰分析・最小二乗法 —
安部公輔
1 / 23
内容
目標
回帰分析の目的や基本的概念に触れ，代表的な手法である最小二
乗法を学ぶ．
Keywords
単回帰分析・説明変数（独立変数）
・目的変数（従属変数）
・予測
値・残差平方和・平方和の分解・決定係数などなど
2 / 23
参考書
■ 統計（竹村彰通，共立出版）
記号などはこの本を参考にしている部分が多い．
3 / 23
イントロ
何か実験データが与えられたとき，散布図をプロットするついでに，
データにフィットする直線を引いて
こんなグラフを作成するが，何の意味があるのか？
4 / 23
イントロ
ばねに重りを吊るしたときのばねの伸びを測っているとして，横軸
を重りの質量 [g]，縦軸をばねの伸び [mm] として考えてみる．
グラフから 12g の重りなら 25mm 位と予測できる
直線を引く目的=データに基づく予測
物理定数を推定しているとも言える
5 / 23
イントロ
じゃあ，どうやって直線を引くの？
直線の方程式は
y = a + bx
「予測の精度」が最善となるようにパラメータ a, b を決定してやる．
そのために
予測の誤差を表す関数 Q(a, b) を定義し，それが最小値をとるよ
うな a, b を求める．
6 / 23
設定・記号および用語
(x1 , y1 ), (x2 , y2 ), · · · , (xN , yN ) というデータが与えられている．
x: 原因となる変数．重りの重さなど．独立変数．説明変数．
y: 結果を表す変数．ばねの伸びなど．従属変数．目的変数．
回帰直線: データに最もフィットする直線 y = a + bx.
こいつを（何らかの算出基準に基づいて）求めたい．
b: 回帰係数， a: 定数項などと呼ぶ．
予測値: y
ˆi = a + bxi
説明変数が xi のとき回帰直線から予測される目的変数の値．
これをできるだけ正確にしたい．
残差: ei = yi − y
ˆi = yi − (a + bxi )
予測値 y
ˆi と実測値 yi との差．つまり予測の誤差．
これを平均的に小さくしたい．
7 / 23
図示すると
× (xi , yi )
ei
y = a + bx
×
×
×
×
×
×
(xi , yˆi )
×
×
こんな感じ
8 / 23
各種計算の前に記号のおさらい
平均：x =
N
N
1 N
xi ,
y=
i=1
N
1 N
yi .
i=1
xi = N x などの計算はよく使う．
i=1
共分散： Sxy =
N
1 N
(xi − x)(yi − y)
i=1
相関係数：標準化した上での共分散
N
(xi − x)(yi − y)
Sxy
rxy = √
= i=1
N
Sxx Syy
N
(x − x)2 (y − y)2
i
i=1
i
i=1
計算するときのコツ：(xi − x) や (yi − y) はできるだけ崩さない
ようにして，上記の記号に置き換えられる部分を見付けていく．
9 / 23
残差平方和
誤差の指標として，残差平方和 Q(a, b) を以下で定義する．
Q(a, b) =
=
N
i=1
N
e2i =
N
(yi − yˆi )2
i=1
(yi − (a + bxi ))2
i=1
何故これを指標にするのか？
ei は正負両方の値をとり得るので単純和では都合が悪い．
N
|ei | も候補にはなるが微積などとの相性が良くない．
i=1
平方和は数学的に扱い易い．
（後日説明するベクトルのノルムと
の関連付けが容易．
）
10 / 23
最小点の導出
まず
∂Q
∂a
=
∂Q
∂b
= 0 となる (a, b) を求める．
Q(a, b) = N a2 − 2a
N
(yi − bxi ) +
i=1
N
(yi − bxi )2
i=1
だから
∂Q
∂a
= 2N a − 2
N
(yi − bxi ) = 0
i=1
となるのは
a=
N
1 N
(yi − bxi ) = y − bx
i=1
のとき．そこでこの a を Q(a, b) に代入して Q(y − bx, b) を調べる．
11 / 23
最小点の導出
Q(y − bx, b) =
N
((yi − y) − b(xi − x))2
i=1
=
N
(yi − y)2 − 2b
N
(yi − y)(xi − x) + b2
i=1
i=1
2
= N Sxx b − 2Sxy b + Syy
2
2
Sxy
Sxy
+ Syy −
= N Sxx b −
Sxx
Sxx
N
(xi − x)2
i=1
平方完成してるだけ
Sxy
のときだから，結局
これが最小になるのは当然 b =
Sxx
N
1
Sxy
i=1 (xi − x)(yi − y)
N
b=
=
, a = y − bx
1 N
2
Sxx
i=1 (xi − x)
N
とすればよい．
12 / 23
まとめると
データに最もフィットする直線 y = a + bx を最小二乗法によって
求めた場合，結果は
b=
Sxy
Sxx
,
a = y − bx
となる．ただし x, y は平均， Sxy は
Sxy =
N
1 N
(xi − x)(yi − y)
i=1
で定義される共分散である．
13 / 23
相関係数との関係
回帰直線 y = a + bx において x と y の関係に本質的に影響する
のは回帰係数 b だから，相関係数と何かしら関係があるはず．
相関係数は
rxy
Sxy
= √
Sxx Syy
だったから
Sxy
Sxy
σy
Syy
b=
= √
= rxy ·
√
Sxx
σx
Sxx Syy Sxx
y のスケール
= スケールに依らない関連度 ·
x のスケール
となっている．標準偏差（従って単位の変更など）によって値が変
わることに注意する．与えられたデータそのままの状態で最小二乗
法を適用するのには注意を要する．
14 / 23
決定係数
回帰直線 y = a + bx （の係数）は求まった．では，これでどれく
らい説明や予測ができているのか？数値で示したい．
ポイント
残差平方和をどれくらい小さくできたかで評価するのが自然．
単位（スケール）依存の問題などがあるのでそこは調整する．
値が 1 なら良くフィットしていて， 0 は駄目，というのが使
い易い．
実測値 y の変化を予測値 yˆ でどこまで表現できているか，と
いう視点も盛り込む．
=⇒ 分散（標準偏差）を使って評価する．
N
決定係数 : R2 = 1 − N
2
e
i=1 i
2
(y
−
y)
i
i=1
を用いる．何だこれは？
15 / 23
いくつか計算を
a, b は最小二乗法で求められているものとする．
N
ei =
i=1
=
N
i=1
N
(yi − yˆi ) =
N
(yi − (a + bxi ))
i=1
N
yi − N a − b
i=1
xi = N (y − a − bx) = 0
i=1
つまり，最小二乗法で求められた回帰直線を用いた場合，残差の合
計はプラスマイナスゼロ．
また，上式は
0=
N
1 N
yi −
i=1
N
1 N
yˆi = y − yˆ
i=1
を意味するので y = y
ˆ が成立．
16 / 23
いくつか計算を
N
i=1
(xi − x)ei =
N
(xi − x)(yi − y − b(xi − x))
i=1
= N Sxy −
Sxy
Sxx
· N Sxx = 0
Sxy
b=
だから
Sxx
これを線型代数の視点から見ると， x の平均偏差ベクトルと残差ベ
クトルが直交していることになる（詳細は後日）．
17 / 23
いくつか計算を
yˆi − y = a + bxi − y = b(xi − x) だから
N
N
(ˆ
yi − y)ei = b
(xi − x)ei = 0
i=1
i=1
y = yˆ だったから
N
(ˆ
yi − yˆ)ei = 0
i=1
でもある．
これまた，線型代数の視点から見れば，ある種のベクトルの直交関
係として捉えることができる．
18 / 23
平方和の分解
これまでの準備から
N
N
N
(yi − y)2 =
(ˆ
yi − y + yi − yˆi )2 =
((ˆ
yi − y) + ei )2
i=1
=
=
i=1
N
N
i=1
N
i=1
N
i=1
i=1
(ˆ
yi − y)2 +
(ˆ
yi − yˆ)2 +
e2i
∵
i=1
N
(ˆ
yi − y)ei = 0 から
i=1
e2i
これを
全平方和 = 全変動 =回帰平方和+残差平方和
=予測値で説明できる変動
+説明できていない変動（誤差）
と解釈して，平方和の分解などという．
19 / 23
決定係数
そこで
N
N
2
(ˆ
y
−
y
ˆ
)
e
i
i=1 i
R2 =
= i=1
=
1
−
N
N
2
2
全平方和
(y
−
y)
(y
−
y)
i
i
i=1
i=1
回帰平方和
2
と定め，決定係数（直線がどれ位フィットしているかの指標）と呼
ぶ．実は今の場合，
N
i=1
N
N
(yi − y)(ˆ
yi − yˆ) =
(ei + yˆi − y)(ˆ
yi − yˆ) =
(ˆ
yi − y)2
i=1
i=1
や yˆi = a + bxi などから
R = |rxy |
2
が導かれるので，たまたま R2 = rxy
である．0 ≤ R2 ≤ 1 であり，
値が 1 に近いほど良くフィットしている事になる．
20 / 23
最初から標準化しておくと
x = y = 0,
N
1 N
i=1
a = y − bx = 0,
N
xi ei = 0,
i=1
x2i =
N
N
1 N
i=1
b = rxy ·
yˆi ei = 0,
yi2 = 1
σy
σx
= rxy
R2 = 1 −
i=1
N
1 N
e2i
i=1
鬱陶しいものが色々消えて（途中計算も）すっきり．平方和の分解も
N =
N
i=1
yi2 =
N
i=1
yˆi2 +
N
e2i
i=1
と明解になるし，この形なら「平方和の分解＝ピタゴラスの定理」
と言われても驚かないだろう？
21 / 23
え？ピタゴラス？
N = 3 の場合で概要を見る．簡単のため x, y は標準化しておく．
⎛ ⎞
⎛ ⎞
⎛ ⎞
⎛ ⎞
y1
yˆ1
e1
x1
x = ⎝x2 ⎠ , y = ⎝y2 ⎠ , yˆ = ⎝yˆ2 ⎠ , e = ⎝e2 ⎠ とおく．
x3
y3
yˆ3
e3
ˆ = bx, e = y − yˆ などの関係がある．
各ベクトル間には y
√
√
2
2
2
また， |x| = x1 + x2 + x3 = N σx = N だから，標準偏差
はベクトルの大きさに相当するものであり，標準化は単位ベクトル
化に相当すると言える．
3
2
最小二乗法では e = y − y
ˆ に対して |e| = i=1 e2i を最小化する．
つまり y
ˆ = bx の形のベクトルで最も y に近いものを選んでいる．
それゆえ y
ˆ は y の x 方向への正射影になり，e と x, yˆ が直交する
y |2 + |e|2 が成り
のは当然．結果としてピタゴラスの定理 |y|2 = |ˆ
立つ．
（実は今の場合，決定係数は R2 = |ˆ
y |2 になっている．
）
22 / 23
イメージ図
Span[1, x]
y
e
yˆ = a1 + bx
Span[1, x] については後日解説．
このイメージ図の汎用性の高さを今後見ることになる．
23 / 23

Download Report