1 最小二乗法

2 変数について n 個の観測値 (xi , yi ) i = 1, . . . , n を考える. このデータについてつぎの線形関係が成り立
つとする.
yi = α + βxi + ui
この式を単回帰モデルという. yi は結果となる変数で被説明変数と呼ぶ. xi は原因となる変数で説明変数と呼
ぶ. α と β は回帰係数とよばれ, 前者は切片を表し, 後者は傾きを表す. 被説明変数の変化のうち説明変数の変
化だけで説明できない部分で, ui を観測不能項 (unobserved term) と呼ぶ. データ (xi , yi ) から回帰係数をも
とめることを, y を x に回帰するといい, 英語では “We regress y on x.” という.
1
最小二乗法
回帰分析の第一の目的はデータ (xi , yi ) より, 回帰係数を推計することである. この推計方法で最も利用さ
れるのが最小二乗法である. 最小二乗法は OLS (ordinary least squares) 法とも言われ, 残差二乗和を最小す
るように回帰係数を推計する方法である. いま推計値を a と b とする. yi の残差 ỹi を
ỹi = yi − a − bxi
で定義して, 残差二乗和 (residual sum of squares) を
RSS(a, b) =
n
∑
ỹi2 =
i=1
n
∑
(yi − a − bxi )2
i=1
と定義する. テキストによっては SSR (sum of squared residuals) としているものがある. RSS(a, b) は a と
b の値によって変動するので, a と b の関数である. この残差二乗和を最小にするように a と b を求めるのが最
小二乗法であり, その推定量を最小二乗推定量という. a = α̂, b = β̂ を最小二乗推定量とする. そのもとの残
差および残差自乗和は
ỹi = yi − α̂ − β̂xi
n
n
∑
∑
RSS(α̂, β̂) = min
(yi − a − bxi )2 =
(yi − α̂ − β̂xi )2
a,b
i=1
i=1
である.
2 つの値 α̂, β̂ を同時に推定する前に, 以下の 2 つの特殊ケースを考えてみよう. まず説明変数が存在しない
モデルである. つまり
yi = α + ui
である. このときの残差自乗和は
RSS(a) =
n
∑
ỹi2 =
i=1
n
∑
(yi − a)2
i=1
であり, その最小値は
RSS(a) = na2 − 2a
n
∑
i=1
yi +
n
∑
yi2 = na2 − 2naȳ + nȳ 2 − nȳ 2 +
i=1
n
∑
= n(a − ȳ)2 − nȳ 2 +
n
∑
i=1
n
∑
yi2 = n(a − ȳ)2 +
(yi − ȳ)2
i=1
i=1
1
yi2
∑n
より a = α̂ = ȳ で残差自乗和は RSS(α̂) =
i=1 (yi
− ȳ)2 である. 残差二乗和の最小値では RSS(a) を
a = α̂ について微分してゼロとなっている. つまり
n
∑
d
RSS(a)
yi = 0
= 2nα̂ − 2α̂
da
a=α̂
i=1
より α̂ = ȳ である.
次に定数項が無いモデルを考えよう. つまり
yi = βxi + ui
である. このときの残差自乗和は
RSS(b) =
n
∑
ỹi2 =
i=1
n
∑
(yi − bxi )2
i=1
であり, その最小値は
RSS(b) = b2
n
∑
x2i − 2b
n
∑
i=1
i=1
n
∑
n
∑
xi yi +
n
∑
yi2
i=1
∑n
∑n
n
2
2
∑
( i=1 xi yi )
( i=1 xi yi )
∑n
∑
−
+
yi2
n
2
2
x
x
i=1 i
i=1 i
i=1
i=1
i=1
)(
( n
∑n
∑n
)2
n
2
∑
∑
xi yi
( i=1 xi yi )
=
x2i
b − ∑i=1
− ∑
+
yi2
n
n
2
2
x
x
i
i
i=1
i=1
i=1
i=1
= b2
より b = β̂ =
∑n
i=1
xi yi /
∑n
i=1
x2i − 2b
xi yi +
x2i で残差自乗和は RSS(β̂) =
∑n
i=1
∑n
2 ∑n
yi2 − ( i=1 xi yi ) / i=1 x2i である. 残
差二乗和の最小値では RSS(b) を b = β̂ について微分してゼロとなっている. つまり
n
n
∑
∑
d
RSS(b)
= 2β̂
x2i − 2β̂
xi yi = 0
db
b=β̂
i=1
i=1
より β̂ =
∑n
i=1
xi yi /
∑n
i=1
x2i である.
さて, もとの単回帰モデル
yi = α + βxi + ui
に戻って最小自乗推定量をもとめよう. 残差二乗和の最小値は, α̂ と β̂ のそれぞれの偏微分してゼロとなって
いる. すなわち
n
∑
∂RSS(a, b) ∂RSS
=
−2
(yi − α̂ − β̂xi ) = 0
=
∂a
∂ α̂
a=α̂,b=β̂
i=1
n
∑
∂RSS(a, b) ∂RSS
=
−2
(yi − α̂ − β̂xi )xi = 0
=
∂b
∂ β̂
a=α̂,b=β̂
i=1
となり, 両辺を整理すると
nα̂ + β̂
α̂
n
∑
i=1
xi + β̂
n
∑
i=1
n
∑
i=1
2
xi =
x2i =
n
∑
i=1
n
∑
i=1
yi
xi yi
となる. この連立方程式を正規方程式といい, この方程式を α̂ と β̂ で解いたものが最小二乗推定量となる.
最小二乗推定量 β̂ は,
∑n
i=1 (xi
− x̄)2 =
∑n
i=1
x2i − nx̄2 > 0 のもと
∑n
∑n
∑n
∑n
xi yi − nx̄ȳ
x y − i=1 xi i=1 yi
i=1
∑n i i 2
∑n
∑i=1
=
n
2
2
2
n i=1 xi − ( i=1 xi )
i=1 xi − nx̄
∑n
∑n
(x − x̄)(yi − ȳ)
(xi − x̄)yi
∑n i
= i=1
= ∑i=1
n
2
2
(x
−
x̄)
i=1 i
i=1 (xi − x̄)
β̂ =
n
となる. 一方, α̂ は
α̂ = ȳ − β̂ x̄
によって求められる.
最小二乗推定量 β̂ は, Sy2 =
∑n
i=1 (xi
∑n
2
i=1 (yi − ȳ) ,sy =
√
√
∑n
Sy2 /n, Sx2 = i=1 (xi − x̄)2 , sx = Sx2 /n, Sxy =
− x̄)(yi − ȳ), sxy = Sxy /n, および rxy = sxy /(sx sy ) とおくと
β̂ =
Sxy
sy
= rxy
2
Sx
sx
である.
説明変数を親の身長とし, 被説明変数を子供の身長とする. この単回帰モデルにおいて, 傾きの係数が 1 未
満になる関係を最初に発見した人が, 子供の身長は父親の身長に回帰すると主張したため, 回帰式と呼ばれる
ようになっている. しかしながら sx = sy のとき, β̂ = rxy であるため, 両方の標準偏差が等しければ常に絶対
値で 1 未満の値になることに注意されたい.
ところで, この結果と定数項が存在しないモデルでの推計結果との類似点に気づかないだろうか. 定数項が
ある場合の最小自乗推定量は
∑n
i=1 (xi
− x̄)yi /
∑n
i=1 (xi
− x̄)2 で, ない場合は
∑n
i=1
xi yi /
∑n
i=1
x2i である.
説明変数 xi の平均からの偏差 xi − x̄ を説明変数として, 定数項なしモデルについて残差自乗和を最小にする
ように求めればよい. この考え方は説明変数が複数存在する際に, FWL 定理として次回で拡張される.
さて, 微分を使わず, 残差二乗和が最小であることを示そう. 残差は
ỹi = yi − a − bxi = yi − ȳ − b(xi − x̄) + (ȳ − a + bx̄)
であり, 残差自乗は
2
ỹi2 = {yi − ȳ − b(xi − x̄) + (ȳ − a + bx̄)}
= (yi − ȳ)2 + b2 (xi − x̄)2 + (ȳ − a − bx̄)2 − 2b(yi − ȳ)(xi − x̄)
−2β̂(xi − x̄)(ȳ − a − bx̄) + 2(yi − ȳ)(ȳ − a − bx̄)
なので, 残差自乗和は
n
∑
i=1
ỹi2 =
n
∑
2
{yi − ȳ − b(xi − x̄) − (ȳ − a + bx̄)}
i=1
n
n
n
∑
∑
∑
=
(yi − ȳ)2 + b2
(xi − x̄)2 + n(ȳ − a − bx̄)2 − 2b
(yi − ȳ)(xi − x̄)
i=1
i=1
i=1
n
n
∑
∑
−2β̂(ȳ − a − bx̄)
(xi − x̄) + 2(ȳ − a − bx̄)
(yi − ȳ)
i=1
i=1
3
である. 最後と最後から 2 番めの項は
n
∑
ỹi2 =
i=1
である. Sy2 =
∑n
i=1 (xi
∑n
i=1 (yi
− ȳ) = 0 より, ゼロなので
n
n
n
∑
∑
∑
(xi − x̄)2 + n(ȳ − a − bx̄)2 − 2b
(yi − ȳ)(xi − x̄)
(yi − ȳ)2 + b2
i=1 (yi
i=1
i=1
i=1
∑n
− x̄) =
− ȳ)2 , Sx2 =
n
∑
∑n
i=1 (xi
− x̄)2 , Sxy =
∑n
i=1 (yi
− ȳ)(xi − x̄) とおくと,
ỹi2 = Sy2 + Sx2 b2 − 2Sxy b + n(ȳ − a − bx̄)2
i=1
(
)
Sxy
= Sy2 + Sx2 b2 − 2 2 b + n(ȳ − a − bx̄)2
Sx
(
)2
2
Sxy
Sxy
2
2
= Sy − 2 + Sx b − 2
+ n(ȳ − a − bx̄)2
Sx
Sx
2
/Sx2 である.
となる. よって b = β̂ = Sxy /Sx2 , a = α̂ = ȳ − β̂ x̄ で残差二乗和は最小となり, その値は Sy2 − Sxy
以下, 断りがない限り残差および残差自乗和は, 最小自乗推定量のもとの残差 ỹi = yi − α̂ − β̂xi および残差
自乗和 RSS(α̂, β̂) を意味しているとする.
2
残差の性質
被説明変数 yi は yi = α + βxi + ui と仮定していたが, 観測不能項を用いず最小二乗推定量 α̂, β̂ に置き換
えたものを予測値 (predicted value) もしくは理論値という. つまり
ŷi = α̂ + β̂xi
と定義する. 予測値は α̂ = ȳ − β̂ x̄, β̂ = Sxy /Sx2 を用いて
ŷi = ȳ + β̂(xi − x̄) = ȳ +
Sxy
(xi − x̄)
Sx2
とも書ける. 前節で定義した残差 ỹi は被説明変数と予測値の差 ỹi = yi − ŷi であり,
ỹi = yi − α̂ − β̂xi = yi − ȳ − β̂(xi − x̄)
Sxy
= yi − ȳ − 2 (xi − x̄)
Sx
とも書ける. 被説明変数は予測値と残差に分解できる.
この予測値と残差の性質をいくつか述べる. 最小二乗法の計算方法より残差は
n
∑
i=1
n
∑
ỹi =
n
∑
(yi − α̂ − β̂xi ) = 0
i=1
n
∑
ỹi xi =
(yi − α̂ − β̂xi )xi = 0
i=1
i=1
が成り立つ. 残差の和はゼロであり, 残差と説明変数の積和もゼロである. また残差と予測値の積和はゼロで
ある. 実際
n
∑
i=1
ỹi ŷi =
n
∑
ỹi (α̂ + β̂xi ) = α̂
i=1
n
∑
i=1
4
ỹi + β̂
n
∑
i=1
ỹi xi = 0
である. また予測値の和は ŷi = yi − ỹi なので
n
∑
ŷi =
n
∑
i=1
yi −
i=1
n
∑
ỹi =
n
∑
i=1
yi
i=1
であり, 観測値の和と等しい. したがって予測値の平均は観測値の平均と等しい.
予測値の平均周りの自乗和を回帰変動 (explained sum of squares) という. つまり
ESS =
n
∑
(ŷi − ȳ)2
i=1
と定義する. 回帰変動は, ŷi − ȳ = β̂(xi − x̄),β̂ = Sxy /Sx2 なので
ESS = β̂ 2
n
∑
2
(xi − x̄)2 = β̂ 2 Sx2 = Sxy
/Sx2
i=1
とも表される. また回帰変動は予測値と被説明変数の平均周りの積和に等しい. 実際 yi = ŷi + ỹ より
n
n
n
n
n
∑
∑
∑
∑
∑
(ŷi − ȳ)(yi − ȳ) =
(ŷi − ȳ)(ŷi + ỹi − ȳ) =
(ŷi − ȳ)2 +
ỹi (ŷi − ȳ) =
(ŷi − ȳ)2
i=1
i=1
i=1
i=1
i=1
である. これより
ESS = β̂
n
∑
(xi − x̄)(yi − ȳ) = β̂Sxy
i=1
でもある.
2
最小自乗推定量の計算の際にすでに残差自乗和 RSS は Sy2 − Sxy
/Sx2 であることを示しているが, 残差の性
質より示すと
RSS =
n
∑
ỹi2
i=1
n
∑
=
n {
∑
i=1
Sxy
yi − ȳ − 2 (xi − x̄)
Sx
}2
(
)2 ∑
n
n
Sxy ∑
Sxy
=
(yi − ȳ) − 2 2
(xi − x̄)(yi − ȳ) +
(xi − x̄)2
2
S
S
x
x
i=1
i=1
i=1
2
2
= Sy2 − Sxy
/Sx2
である. また残差自乗和は残差と観測値の積和でもある. 実際
n
∑
i=1
ỹi yi =
n
∑
ỹi (ŷi + ỹi ) =
i=1
n
∑
ỹi ŷi +
i=1
n
∑
i=1
ỹi2
=
n
∑
ỹi2
i=1
である.
被説明変数 yi の平均周りの自乗和を全変動 (total sum of squares) という. つまり
T SS =
n
∑
(yi − ȳ)2 = Sy2
i=1
と定義する. 全変動は回帰変動 ESS と残差二乗和 RSS と以下の関係が成り立つ.
T SS = ESS + RSS
2
これは残差自乗和 RSS が Sy2 − Sxy
/Sx2 であることより自明である.
5
決定係数
3
回帰分析で説明できる回帰変動がどれだけ全変動を説明しているかの指標として決定係数がある. 決定係数
を
R2 =
ESS
RSS
=1−
T SS
T SS
2
/Sx2 なので,
で定義する. T SS = Sy2 および ESS = Sxy
R2 =
2
Sxy
2
= rxy
Sx2 Sy2
であり, 決定係数は x と y の相関係数を二乗したものと同じである.
また, 決定係数は被説明変数 yi と予測値 ŷi の相関係数を二乗したものと等しい. 実際
∑
2
ESS 2
ESS
{ (yi − ȳ)(ŷi − ȳ)}
∑
∑
=
=
2
2
{ (yi − ȳ) } { (ŷi − ȳ) }
T SS · ESS
T SS
であり, 決定係数と等しい.
決定係数の重要な性質は 0 ≤ R2 ≤ 1 である. 完全な線形関係があるときに 1 となる. 説明変数が被説明変
数をどれだけ説明しているかの指標となり, 1 に近いほど望ましいとされる.
計算例
4
以下のデータを考える.
i
xi
yi
1
10
6
2
12
9
3
14
10
4
16
10
残差と残差自乗は以下のようになる.
i
xi
yi
ỹi
ỹi2
1
10
6
6 − a − 10b
(6 − a − 10b)2
2
12
9
9 − a − 12b
(9 − a − 12b)2
3
14
10
10 − a − 14b
(10 − a − 14b)2
4
16
10
10 − a − 16b
(10 − a − 16b)2
よって, 残差自乗和は RSS = (6 − a − 10b)2 + (9 − a − 12b)2 + (10 − a − 14b)2 + (10 − a − 16b)2 である.
これは a と b の関数である. 最小二乗推定量は RSS を最小にする a と b を選ぶことである.
最小二乗推定量を計算する. 平均はそれぞれ x̄ = 13 と ȳ = 8.75 となる. 次に偏差の自乗和と積和を計算
する.
6
i
xi
yi
xi − x̄
yi − ȳ
(xi − x̄)2
(xi − x̄)(yi − ȳ)
1
10
6
-3
-2.75
9
8.25
2
12
9
-1
0.25
1
-0.25
3
14
10
1
1.25
1
1.25
4
16
10
3
1.25
9
3.75
52
35
0
0
20
13
このとき回帰係数は
13
= 0.65
20
α̂ = 8.75 − 0.65 × 13 = 0.3
β̂ =
である. 回帰係数の計算に
∑
(yi − ȳ)2 を使っていない.
次に yi の偏差を使わずに計算する.
i
xi
yi
xi − x̄
(xi − x̄)2
(xi − x̄)yi
1
10
6
-3
9
-18
2
12
9
-1
1
-9
3
14
10
1
1
10
4
16
10
3
9
30
52
35
0
20
13
このとき回帰係数は同じく β̂ =
13
20
= 0.65 および α̂ = 0.3 である.
最後に xi と yi の両方の偏差を使わないやり方は以下の通りである. それぞれの自乗和と積和を求める.
i
xi
yi
x2i
yi2
xi yi
1
10
6
100
36
60
2
12
9
144
81
108
3
14
10
196
100
140
4
16
10
256
100
160
52
35
696
317
468
このとき回帰係数は
∑n
xi yi − nx̄ȳ
468 − 4 × 13 × 8.75
β̂ = ∑i=1
= 0.65
=
n
2 − nx̄2
696 − 4 × 132
x
i=1 i
および α̂ = 0.3 である.
残差と予測値と RSS,ESS,T SS は次のようになる.
i
xi
yi
ỹi
ŷi
yi − ȳ
ŷi − ȳ
ỹi2
(yi − ȳ)2
(ŷi − ȳ)2
1
10
6
-0.8
6.8
-2.75
-1.95
0.64
7.5625
3.8025
2
12
9
0.9
8.1
0.25
-0.65
0.91
0.0625
0.4225
3
14
10
0.6
9.4
1.25
0.65
0.36
1.5625
0.4225
4
16
10
-0.7
10.7
1.25
1.95
0.49
1.5625
3.8025
52
35
0
35
0
0
2.3
10.75
8.45
7
RSS = 2.3, T SS = Sy2 = 10.75, ESS = 8.45 であり, T SS = ESS + RSS が成立する. なお ESS は
ESS = β̂Sxy = 0.65 × 13 で計算できることに留意されたい. なので決定係数 R2 は 8.45/10.75 = 0.786 で
ある.
8