回帰分析(最小二乗法) - 京都大学大学院情報学研究科高度情報教育

情報基礎 III 第 8 回
回帰分析と最小二乗法
京都大学 大学院情報学研究科 数理工学専攻/高度情報教育基盤コア
關戸 啓人
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
–
回帰曲線と回帰分析 1
多変量解析 — 回帰分析と最小二乗法
2 つの確率変数 X と Y を考える. X = x という条件下での Y の平均
E[Y |X = x] を x の関数と思ったとき,それを回帰曲線という.
回帰分析とは,大雑把に言えば,回帰曲線を推定することにより,2 つの確率
変数 X と Y の関係を調べること,である.特に,E[Y |X = x] を推定するとき
は,X は説明変数で,Y は目的変数である.つまり,Y がどのような値を取る
かは X によって定まる,と考えている.
説明変数は複数あっても良い.説明変数が X 1, X 2, . . . , X n で,
E[Y |X 1 = x 1, X 2 = x 2, . . . , X n = x n ] を考えても良い.説明変数が 1 個の場合を単
回帰分析,複数の場合を重回帰分析という.
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
1
回帰曲線と回帰分析 2
多変量解析 — 回帰分析と最小二乗法
例えば,小学生を対象に,X を朝食を食べる割合,Y でテストの点数とすれ
ば,回帰分析で,これらの関係がわかるであろう.多くの場合は,
E[Y |X = x] = ax + b (a, b ∈ R)
という関係を仮定する,もしくは,
E[Y |X = x] = ax + b + ε (a, b ∈ R)
として,誤差項( X だけでは説明できない部分)ε をできるだけ小さくするよ
うに a, b を決めることが多い.
重回帰分析の場合は,
n
∑
E[Y |X k = x k ] =
a k x k + b + ε (a k , b ∈ R)
k=1
とする場合が多い.勿論,もっと複雑な式を考えることもある.
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
2
回帰曲線と回帰分析 3
多変量解析 — 回帰分析と最小二乗法
ただし,推定した結果,a が明らかに正であるからと言って,朝食を食べる
ことが直接テストの点数を上げるとは限らない.例えば,食生活をきちんと
躾けていれば,朝食を食べる割合が高くなり,テストの点数も良い傾向にあ
り,朝食を食べたからといってテストの点数が上がるわけではないかもしれ
ない.
a が 0 か,正か,負かのみが重要な場合もあるが,そのようなときは,検定な
どを用いれば良い.他にも,a, b を推定した後,ε(残差)がどのようになっ
ているか調べ,E[Y |X = x] の式の形を修正するなどを考えることも必要かも
しれない.今回は,どうやって,関数 E[Y |X = x] を推定するかについて述べ
る.多くの場合は,最小二乗法を用いる.
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
3
最小二乗法の概要
多変量解析 — 回帰分析と最小二乗法
未知な関数 を得られた データ から推定したい.
今回は特に未知関数が 1 変数関数の時を考える(2 変数以上を考える場合は,
以下で x はベクトルだと思えば良い).この時,大雑把に言うと
未知関数 f (x) の形はわかっていて,未知パラメータを含む形で書かれる
データ (x j , y j ) は f (x j ) での値が y j であることを「示唆」する
データは厳密に「正しい」訳ではない.つまり厳密に f (x j ) = y j とは限ら
ない(測定誤差などが含まれている)
という状況で,未知関数を推定する.
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
4
最小二乗法の例 (その 1)
多変量解析 — 回帰分析と最小二乗法
f (x) = θ1 x + θ0
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
5
最小二乗法の例 (その 1)
多変量解析 — 回帰分析と最小二乗法
f (x) = 0.8x + 1.2
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
5
最小二乗法の例 (その 2)
多変量解析 — 回帰分析と最小二乗法
f (x) = θ3 x 3 + θ2 x 2 + θ1 x + θ0
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
6
最小二乗法の例 (その 2)
多変量解析 — 回帰分析と最小二乗法
f (x) = 0.3x 3 − 0.5x 2 − 2.7x + 2.1
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
6
最小二乗法の例 (その 3)
多変量解析 — 回帰分析と最小二乗法
θ 2 x 2 + θ1 x + θ0
f (x) =
x + θ3
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
7
最小二乗法の例 (その 3)
多変量解析 — 回帰分析と最小二乗法
2.1x 2 − 13.1x + 3.1
f (x) =
x + 12.0
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
7
最小二乗法の例
多変量解析 — 回帰分析と最小二乗法
その 1: 直線で近似する場合
f (x) = θ0 + θ1 x
(単純な)単回帰分析
その 2: 未知関数がパラメータについて線形(線形最小二乗法)
f (x) = θ0 f 0(x) + θ1 f 1(x) + · · · + θm−1 f m−1(x)
(単純な)重回帰分析,以下では主にこれを説明する
その 3: 未知関数がパラメータについて非線形(非線形最小二乗法)
f (x) = f (x; θ0, θ1, . . . , θm−1)
複雑な式の形を指定した場合,解く場合は最適化の理論を用いる
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
8
回帰モデルの例 (1) — 単回帰モデル
多変量解析 — 回帰分析と最小二乗法
体重を意味する確率変数を W
身長を意味する確率変数を H
モデル:W = θ1 H + θ0 + ε
データは,例えば
体重 (kg) 身長 (cm)
A氏
56.8
163.3
B氏
52.1
160.2
C氏
52.6
158.0
D氏
23.4
129.0
E氏
32.1
139.7
F氏
40.6
141.4
情報基礎
III 第 8 回
(2015 年 12 月 01 日)
9
回帰モデルの例 (2-1) — 重回帰モデル
多変量解析 — 回帰分析と最小二乗法
体重を意味する確率変数を W
身長を意味する確率変数を H
モデル:W = θ2 H 2 + θ1 H + θ0 + ε
データは,例えば
体重 (kg) 身長 (cm) 身長 2(cm2)
A氏
56.8
163.3
26666.89
B氏
52.1
160.2
25664.04
C氏
52.6
158.0
24964.00
D氏
23.4
129.0
16641.00
E氏
32.1
139.7
19516.09
F氏
40.6
141.4
19993.96
情報基礎
III 第 8 回
(2015 年 12 月 01 日)
10
回帰モデルの例 (2-2) — 重回帰モデル
多変量解析 — 回帰分析と最小二乗法
体重を W ,身長 H ,体脂肪率を F ,性別を S
性別は女性を 1,男性を 0 で表す
モデル:W = θ3 H + θ2F + θ1S + θ0 + ε
データは,例えば
体重 (kg) 身長 (cm) 体脂肪率 (%) 性別
A氏
56.8
163.3
14.3
0
B氏
52.1
160.2
15.3
0
C氏
52.6
158.0
21.2
1
D氏
23.4
129.0
13.3
1
E氏
32.1
139.7
16.8
0
F氏
40.6
141.4
19.6
1
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
11
線形最小二乗法の定義,および,性質 1
多変量解析 — 回帰分析と最小二乗法
線形回帰モデルは
m−1
∑
Y =
θk f k (x) + ε = f (x, θ) + ε
で表され,
k=0
f k (x) は既知の関数
θk は未知のパラメータ,θ = (θ0, θ1, . . . , θm−1)T
ε は確率変数で平均 0(E[ε] = 0)
を意味する.今,n 個のデータを
y j = f (x j , θ) + ε j , j = 1, 2, . . . , n
で書く.理論を考える上では, y j , ε j は確率変数.
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
12
線形最小二乗法の定義,および,性質 2
多変量解析 — 回帰分析と最小二乗法
n 個のデータ
y j = f (x, θ) + ε j , j = 1, 2, . . . , n
今回は,誤差 ε j に対して以下の仮定を置く
平均は 0.つまり,E[ε j ] = 0
誤差の分散は等しく,正.つまり,V[ε j ] = σ2 > 0
誤差は互いに独立.つまり,E[εi ε j ] = 0, i ̸= j
このとき,
S(β) =
n
∑
(y j − f (x j , β))2
j =1
を最小化する β を最小二乗推定量 θ̂ と言う.
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
13
線形最小二乗法の定義,および,性質 2 (補足)
多変量解析 — 回帰分析と最小二乗法
n 個のデータ
y j = f (x, θ) + ε j , j = 1, 2, . . . , n
今回は,誤差 ε j に対して以下の仮定を置く
平均は 0.つまり,E[ε j ] = 0
誤差の分散は等しくない場合.つまり,V[ε j ] = σ2j > 0
誤差は互いに独立.つまり,E[εi ε j ] = 0, i ̸= j
このとき,
S(β) =
n (y − f (x , β))2
∑
j
j
j =1
σ2j
を最小化する β を最小二乗推定量 θ̂ と言う.(この場合も以降の議論はだいたい成り立つ)
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
13
絵で見る最小二乗法
多変量解析 — 回帰分析と最小二乗法
緑の線の長さの二乗和を最小化するように,未知パラメータ θ を推定する
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
14
線形最小二乗法の定義,および,性質 3
多変量解析 — 回帰分析と最小二乗法
最小二乗推定量 θ̂ は,最良線形不偏推定量である.
E[θ̂] = θ (不偏)
θ̂ は, y j について線形の式で書ける(線形)
その中で,分散がある意味で最小(最良) Cov[β] − Cov[θ̂] が非負定値
誤差 ε が正規分布に従うとき,最小二乗推定量 θ̂ は,最尤推定量である.つ
まり,x 1, . . . , x n を固定して,測定結果として y 1, . . . , y n が得られる確率を θ の
関数として考えた時,その確率の値が最大となるのが θ = θ̂ の時である.
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
15
最小二乗法推定量 (その 1)
多変量解析 — 回帰分析と最小二乗法
S(β) =
n
∑
(y j − f (x j , β))2
j =1
を最小化したいのだから,β0, β1, . . . , βm−1 で偏微分して 0 になる β を見つけれ
ば良い.
f (x, β) = β1 x + β0 の場合
n
∑
S(β) =
(y j − β1 x j − β0)2
j =1
であるから,
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
16
最小二乗法推定量 (その 1)
多変量解析 — 回帰分析と最小二乗法
n
∑
∂
S(β) = 2
(x 2j β1 + x j β0 − x j y j ) = 0
∂β1
j =1
n
∑
∂
S(β) = 2
(x j β1 + β0 − y j ) = 0
∂β0
j =1
つまり (∑
x 2j
∑
∑
xj
)(
xj
n
を解けば良い.
(∑
)
xj yj
β1
= ∑
β0
yj
)
∑ ∑
xj yj− xj yj
∑ 2 ∑
β1 =
n x j −( x j )2
∑ 2∑
∑
∑
xj yj− xj yj xj
∑ 2 ∑
β0 =
n x −( x )2
n
∑
j
情報基礎 III 第 8 回
j
(2015 年 12 月 01 日)
17
最小二乗法推定量 (その 2)
多変量解析 — 回帰分析と最小二乗法
S(β) =
n
∑
(y j − f (x j , β))2
j =1
β0, β1, . . . , βm−1 で偏微分して 0 になる β を見つける.
f (x, β) = β0 f 0(x) + β1 f 1(x) + · · · + βm−1 f m−1(x) の場合
(
)2
n
m−1
∑
∑
S(β) =
yj −
βk f k (x j )
j =1
k=0
であるから,
((
)
)
n
m−1
∑
∑
∂
S(β) = 2
f i (x j )
f k (x j )βk − y j = 0
∂βi
j =1
k=0
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
18
正規方程式
多変量解析 — 回帰分析と最小二乗法
これを B β = b と書くと (B ∈ M m (R), b ∈ Rm )
n
∑
B i j =
f i (x k ) f j (x k )
b i =
k=1
n
∑
f i (x k )y k
k=1
となる.行列 B がフルランクであれば,最小二乗推定量が一意に定まる.
B β = b は正規方程式と呼ばれる.
数値計算する際は,この方程式を直接解くよりも高精度な方法が存在する.
(Excel で 2003 以前のバージョンでは,この正規方程式を解くことによって,
回帰分析を行う.2003,および,それ以降では,この後補足で述べる QR 分
解を用いた方法を使用している)
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
19
正規方程式
多変量解析 — 回帰分析と最小二乗法
行列 A ∈ M n,m (R) を
∂
A i j = f j (x i ) = ∂β
f (x i ) (ヤコビアン,データ行列)
j
で定義すると,
B = A T A
b = A T y
であるから,正規方程式は
A T Aβ = A T y ( y は (y 1, . . . , y n )T)
と書きなおされる.最小二乗推定量は
θ̂ = (A T A)−1 A T y
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
20
回帰モデルの例 (1) — 単回帰モデル
多変量解析 — 回帰分析と最小二乗法
モデル:W = θ1 H + θ0 + ε
データは,例えば
体重 (kg) 身長 (cm)
A氏
56.8
163.3
B氏
52.1
160.2
C氏
52.6
158.0
D氏
23.4
129.0
E氏
32.1
139.7
F氏
40.6
141.4

1
1


1
A=
1

1
1

163.3
160.2


158.0
,
129.0

139.7
141.4


56.8
52.1




52.6


y =

23.4


32.1
40.6
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
21
回帰モデルの例 (2-1) — 重回帰モデル
多変量解析 — 回帰分析と最小二乗法
モデル:W = θ2 H 2 + θ1 H + θ0 + ε
データは,例えば
wi
hi
A 氏 56.8 163.3
B 氏 52.1 160.2
C 氏 52.6 158.0
D 氏 23.4 129.0
E 氏 32.1 139.7
F 氏 40.6 141.4
h i2
26666.89
25664.04
24964.00
16641.00
19516.09
19993.96

1
1


1
A=
1

1
1
163.3
160.2
158.0
129.0
139.7
141.4

26666.89
25664.04


24964.00
,
16641.00

19516.09
19993.96

56.8
52.1




52.6
y =

23.4


32.1
40.6

情報基礎 III 第 8 回
(2015 年 12 月 01 日)
22
回帰モデルの例 (2-2) — 重回帰モデル
多変量解析 — 回帰分析と最小二乗法
モデル:W = θ3 H + θ2F + θ1S + θ0 + ε
データは,例えば
wi
hi
A 氏 56.8 163.3
B 氏 52.1 160.2
C 氏 52.6 158.0
D 氏 23.4 129.0
E 氏 32.1 139.7
F 氏 40.6 141.4
f i si
14.3 0
15.3 0
21.2 1
13.3 1
16.8 0
19.6 1

1
1


1
A=
1

1
1
0
0
1
1
0
1
14.3
15.3
21.2
13.3
16.8
19.6

163.3
160.2


158.0
,
129.0

139.7
141.4


56.8
52.1




52.6


y =

23.4


32.1
40.6
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
23
QR 分解を用いて解く
多変量解析 — 回帰分析と最小二乗法
行列 A を QR 分解できたとして
A = QR
とする.ただし,Q ∈ M n,m (R) は列ベクトルが長さ 1 で互いに直交し,
R ∈ M m (R) は正則な上三角行列である.このとき,正規方程式は,
A T Aβ = A T y
(QR)TQRβ = (QR)T y
R TQ TQRβ = R TQ T y
R TRβ = R TQ T y
(Q TQ = I )
Rβ = Q T y
(R T は正則)
となり,R は上三角行列であるから,これは簡単に解ける.
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
24
行列 A が列フルランクでない場合
多変量解析 — 回帰分析と最小二乗法
行列 A が列フルランクでない場合は,最小二乗推定量は一意に定まらない.
そこで,最小二乗推定量の中で,∥β∥2 を最小とするものを求めることが多い.
√
√
ただし,∥β∥2 = ∥β∥ = β20 + β21 + · · · β2m−1 = βTβ
結論を言うと, A の Moore–Penrose の一般逆行列を A + と書くと,
β = A + y = R +Q T y
を求めれば良いことがわかる.
これは,特異値分解を用いることによって計算できる.
(完全ピポット選択付
き QR と直交変換を用いた高速な方法などもある)
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
25
行列 A が列フルランクでない場合
多変量解析 — 回帰分析と最小二乗法
正則でなくても,長方行列でも良い行列 A ∈ M mn (R) に対して,AX A = A
を満たす行列 X ∈ M nm (R) を一般逆行列といい A − で表す
A − は必ず存在し,一般的には A − は一意ではなく複数存在する
連立一次方程式 Ax = b の解の一つは,存在するならば x = A −b と書
ける
連立一次方程式 Ax = b の解は,存在するならば,任意のベクトル y を
用いて x = A −b + (I − A − A)y と書ける
連立一次方程式 Ax = b は (I − A A −)b = 0 ならば解が存在する
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
26
行列 A が列フルランクでない場合
多変量解析 — 回帰分析と最小二乗法
正則でなくても,長方行列でも良い行列 A ∈ M mn (R) に対して, AX A =
A, X AX = X , (AX )T = AX , (X A)T = X A を満たす行列 X ∈ M nm (R) を Moore–
Penrose の一般逆行列といい A + で表す
A + は必ず存在し,一意である
連立一次方程式 Ax = b の解が存在するならば,その中で ∥x∥2 が最小
となるものは x = A +b となる
連立一次方程式 Ax = b の解が存在しなければ,∥Ax − b∥2 が最小とす
るのは x = A +b となる
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
27
演習
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
28
Excel を用いた回帰分析
演習
身長と体重の関係を調べよう.
6-1.xlsx に 100 人分の身長と体重のデータがある.性別のデータもある.
まずは,身長 = a × 体重 + b + 誤差というモデルで a, b を求めてみよう.
100 人分のデータはプロットしており,平方残差,平方残差の和などは自動的
に計算される.(この Excel データの作り方は講義中に軽く述べる)
注意:データは京都府統計なび・学校保健統計調査
http://www.pref.kyoto.jp/t-ptl/tname/k070.html の京都府の幼稚園∼高等学
校の学生の統計データを参考に生成したもので,実際のものではありません.
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
29
Excel を用いた回帰分析
演習
回帰分析を行う際は,前回ヒストグラムを生成するときに用いた,アドイ
ンのデータ分析の中にある回帰分析を用いる.
入力 Y 範囲に身長のデータの区間 B2:B101
入力 X 範囲に体重のデータの区間 C2:C101
を入力して,後々のために,残差グラフの作成,正規確率グラフの作成にチェッ
クを入れる.定数に 0 を使用のチェックが外れていることを確認して,OK を
押す.
切片の係数 B17 に b の値が,X 値 1 の係数 B18 に a の値が書かれる.また,残
差の平方和は C13 に書かれている.セルの座標は Excel 2010 の場合である.
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
30
Excel を用いた回帰分析
演習
実際に,a, b の値を,先ほどのワークシートに入力して,残差の平方和が一
致するか確かめてみよ.また,a, b の値を色々入れてみて,残差の平方和が,
求められた最小値より小さくなることがないことを確かめてみよ.
その他の項目をいくつか簡単に説明すると,
回帰の有意 F:
値が小さくないと,その回帰モデルは意味が無いかもしれない
X 値の P-値:
値が小さくないと,その変数は要らないかもしれない(係数は 0 かも)
補正 R2:
そのモデルで記述できる割合みたいなもの
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
31
Excel を用いた回帰分析
演習
残差のグラフを見てみると,真ん中が膨らんでいる形のようにも見える(モ
デルを改善できるかも)が,だいたい X の値に関係なくばらけている(この
モデルでうまく説明できている)ようにみえる.
今度は,別の方法で a, b を求めてみよう.Excel には,最適化問題を解くソル
バーが用意されているのでそれを用いていみよう.まず,前回分析ツールの
アドインを有効化したのと同様に,ファイル,オプション,アドイン,設定
からソルバーアドインを有効化する.そして,データ,分析の欄(分析ツール
の近く)から,ソルバーを立ち上げる.
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
32
Excel を用いた回帰分析
演習
目的セルの欄には最小化したいセル G5 を,変数セルの欄には変数のセル
G2:G3 を入力する.目標値は最小値を選ぶ.制約条件はないので何も入力せ
ず,制約のない変数を非負数にするというチェックを外す.後は,解決を押す
と,最適化問題を解いてくれる.
最適化ソルバーを用いた方が汎用的である.非線形最小二乗法でも解けるか
もしれない.しかし,問題によっては,精度が良くない,精度の設定が難し
い,遅い,局所解に陥って最適値が求まっていないかもしれない,などとい
うことがあるかもしれない.
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
33
Excel を用いた回帰分析
演習
次はモデルを変更して重回帰分析をしてみよう.性別は男を −1,女を 1 と
いう数で表すとする.
身長 = a × 体重 + b × 性別 + c + 誤差
というモデルで重回帰分析してみよ.
また,残差が真ん中が膨らんでいたのが気になる.単位を考えると体重は身
長の 3 乗の影響がある気がするし,よく肥満の基準として用いられる BMI は
体重は身長の 2 乗に関係していることを示唆している.そこで,
体重 = a × 身長3 + b × 身長2 + c × 身長 + d + 誤差
として重回帰分析してみよ.
情報基礎
III 第 8 回
(2015 年 12 月 01 日)
34
Excel を用いた回帰分析
演習
データは
6-1a.xlsx : 100 人分のデータ
6-1b.xlsx : 10000 人分のデータ
6-1c.xlsx : 1000000 人分のデータ
がある.また,拡張子が.txt のテキストデータもある.
ヒント:重回帰分析するときは,入力 X 範囲に複数の列を指定すれば良い.た
だし,Excel 2010 では,連続する列しか入力を受け付けない.また,17 列以
上指定することはできない.
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
35
(補足)Excel の回帰分析の見方
定数項のある場合の重回帰分析を考える.つまり,
Y = θ 0 + θ1 X 1 + θ2 X 2 + · · · + θ m X m + ε
を考える.ここで,特に,値の変化に着目する.つまり,X 1 がこれぐらい大きくなったから
Y がこれぐらい大きくなったとか,X 2 がこれぐらい小さくなったから Y がこれぐらい大きく
なったなど,相対的な値の変化に着目し,絶対的な値にはさほど興味が無いという状況を考
える.そこで,各確率変数を平均からのズレ Y − E[Y ], X k − E[X k ] に着目し式を変形すると,
Y − E[Y ] =
m
∑
θk (X k − E[X k ]) + θ0 +
m
∑
θk E[X k ] − E[Y ] + ε
k=1
k=1
となるが,両辺の平均は 0 であるから,
θ0 +
m
∑
θk E[X k ] − E[Y ] = 0
k=1
となり,考えるモデルは
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
36
(補足)Excel の回帰分析の見方
Y − E[Y ] =
m
∑
θk (X k − E[X k ]) + ε
k=1
と表される.つまり,θ0 は平均の情報が詰まったパラメータであり,平均からのズレのみに
着目すると θ0 は消える.
データを用いた形で書いてみよう.データとして (y k , x k1, x k2, . . . , x km ), k = 1, 2, . . . , n が与え
られたとする.この時,各系列の平均を
n
1 ∑
yk ,
y=
n k=1
n
1 ∑
x ki
xi =
n k=1
とすると,
yk − y =
m
∑
i =1
θk (x ki − x i ) + εk , k = 1, 2, . . . , n
と表される.ここで,左辺を並べてできるベクトルは
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
37
(補足)Excel の回帰分析の見方
(
y1 − y
y2 − y · · ·
)T {
(
y n − y ∈ z = z1 · · ·
)
}
zn ∈ R | z1 + z2 + · · · + zn = 0
n
より,n − 1 次元の線形空間の元である.これは, y k − y の値は各々がバラバラに取って良い
わけではなく,平均に縛られるため,自由度が 1 つ減って自由度が n − 1 になったということ
である.言い換えると,適切なデータに対して適切な関数 g 1(x), g 2(x), . . . , g n−1(x) を用意すれ
ば,厳密に
yk − y =
n−1
∑
i =1
g i (x k ), k = 1, 2, . . . , n
と書けるということを意味している.
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
38
(補足)Excel の回帰分析の見方
今は勿論,m < n −1 の状況を考え,θi f i (x) の m 個の関数だけでは y k − y の値を厳密に表す
ことはできず,
m
∑
yk − y =
θk (x ki − x i ) + εk , k = 1, 2, . . . , n
i =1
と残差の項 εk がついているわけであるが,上と見比べて,
θi (x ki − x i ) ↔ g i (x k ), i = 1, 2, . . . , m
εk ↔ g m+1(x k ) + g m+2(x k ) + . . . + g n−1(x k )
という対応関係を考えることができる.よって,全体の自由度を n − 1 と言い,回帰の部分
∑
θi (x ki − x i ) の自由度を m ,残差 εk の部分の自由度を n − m − 1 と言う.これが,Excel の分
散分析表の自由度に書かれている値になる.
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
39
(補足)Excel の回帰分析の見方
次に,y k の平均からのズレをどの部分でどれぐらい説明されているかを考える.合計の変
動(Excel の分散分析表にある項目)とは
n
∑
(y k − y)2
k=1
であり,計算すると,最小二乗推定量を用いたならば
(
)2
n
m
∑
∑
2
(y k − y) =
θk (x ki − x i ) + εk
k=1
(
=
i =1
m
∑
i =1
)2
θk (x ki − x i )
+ ε2k
となる.これは,最小二乗法は,n − 1 次元の線形空間の点から,その m 次元の部分線形空間
へ射影することに対応していると考えるとわかりやすい.よって,象徴的に書けば y k の変動
= 回帰によって説明される変動 + 残差によって説明される変動と分解されることになる.こ
れが,Excel の分散分析表の変動に書かれている値になる.
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
40
(補足)Excel の回帰分析の見方
Excel の分散分析表の分散の項は,変動 / 自由度の値が書かれている.これは, y k の変動
を自由度 1 つ当たりでどれぐらい説明できているかを表す.
次に,Excel で回帰分析した際に,回帰統計の欄に表示される事柄を述べる.重相関 R は重
相関係数であり,m = 1 の時には単純に相関係数になる.m = 1 の時は,
y k − y = θk (x k − x) + εk , k = 1, 2, . . . , n
となるが,相関係数 R は
∑
(x k − x)(y k − y)
R=√
∑
∑
2
(x k − x) (y k − y)2
で定義される.
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
41
(補足)Excel の回帰分析の見方
重決定 R2 というのは,決定係数 R 2 と呼ばれる量であるが,定義は複数存在し,各々の統
計処理ソフトによって違う値を返すことがある.一般的な定義の 1 つとしては,相関係数の
2 乗とすることで,
∑
( (x k − x)(y k − y))2
2
R =∑
∑
2
(x k − x) (y k − y)2
となるが,実はこれは,
∑
残差の部分による変動
(θ1(x k − x))2 回帰の部分で説明できる変動
2
=
=
1
−
R = ∑
y k の総変動
y k の総変動
(y k − y)2
と同値であることがわかる(一般的にこちらの式を定義にすることも多い,y k の総変動など
の定義もどこの周りで考えるかなど一意ではないが).また,補正 R2 は自由度調整済決定係
数と呼ばれるもので,
1−
残差の部分による変動/残差の部分の自由度
y k の総変動/全自由度
を定義とすることが多い.
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
42
(補足)Excel の回帰分析の見方
また,m > 1 の場合,重相関係数は y k − y と
まで定義や性質は m = 1 の場合とほぼ同じ.
∑
θi (x ki − x i ) の相関係数で定義され,補正 R2
決定係数は,当てはまりの良さを表している指標であり,0.8 程度を超えるとよく当てはまっ
ていると考えることができる.パラメータの数が増えれば増えるほど,決定係数の値は増え
ていき,パラメータの数が違うモデルで比較する場合は,自由度調整済決定係数を用いたほ
うが良い.しかし,決定係数の定義が複数あるのに加え,特に定数項を持たない場合,線形
最小二乗法以外を用いた場合には,決定係数として直感と大きく外れた値が出てくることも
あり,注意が必要.
√
標準誤差は, 残差の分散,つまり
√
∑ 2
εk
n −1−m
で定義される.
情報基礎 III 第 8 回
(2015 年 12 月 01 日)
43