4 線形回帰分析 - ReSET.JP

統計学 第 4 回
Revised at 01:19, April 3, 2014
http://my.reset.jp/˜gok/math/statistics/
1
線形回帰分析
4
4.1
n
1X
(aj s + t − bj )2
n j=1
既存データから未知の値を推測すること
= t2 + 2E[A]st − 2E[B]t + E[A2 ]s2 + −2E[AB]s + E[B 2 ]
µ
∂2
E[AB] − E[A]E[B]
= (t + E[A]s − E[B])2 + V ar[A] s −
+(定数)
V ar[A]
英語と数学の試験結果を比較したり、年収と食費の統計的な関連を見る事がありま
す。2つのデータを同時に扱うので、2次元のデータと考えても良いでしょう。
2次元のデータ (aj , bj ), j = 1, 2, . . . , n が与えられ、第1成分データを A、第2成分
データを B とします。この与えられたデータを基にして、『仮に A の値が a であった
と書けますから(ただし各種平均値は存在し、V ar[A] 6= 0 である必要があります)、
ならば B の値はどれくらいだろうか?』と云う問題を考えてみます。
横軸に A、縦軸に B を取ってデータ値を点として可視化した図が下左図の様になって
いるとしましょう。こう云った場合に下右図の様に仮想の直線を図中に引いて『まあ、
大体こんなもんだろ』と話を単純化してみる事があります。
s=
E[AB]] − E[A]E[B]
,
V ar[A]
t = E[B] − E[A]
E[AB] − E[A]E[B]
V ar[A]
のときに最小値になる事は明らかなのですが、求めた s, t の値の中に全く同じもの:
E[AB] − E[A]E[B] が含まれていますね。これは何でしょうか。
4.2
成分の和と共分散
2次元データ (A, B) に対して、2つの成分を加えて得られる1次元データを考えます。
元データ (A, B) : (a1 , b1 ), (a2 , b2 ), . . . , (an , bn )
↓ 加工
派生データ A + B : a1 + b1 , a2 + b2 , . . . , an + bn
要するに2つのデータに間には1次関数の関係があると仮定しようと云うわけです。
で、問題はこの直線の引き方ですが、当然の要求として引いた直線の表す仮想値と実
際のデータ(現実値)の差が出来るだけ小さくなる様にしたいわけです。
具体的には与えられたデータ {(aj , bj )}j に対して、直線 y = sx + t を考えて、B =
sA + t と表せると仮定した場合の仮想値 cj = saj + t と現実値 bj の差の自乗和:
n
X
j=1
(saj + t − bj )2
すると和 A + B の平均値と分散は、
n
n
n
1X
1X
1X
(aj + bj ) =
aj +
bj = E[A] + E[B]
n j=1
n j=1
n j=1
£
§
V ar[A + B] = E (A + B − E[A + B])2
E[A + B] =
=
=
が最小となる様な直線を求めます(これを最小自乗法と言います)。
差の自乗和を具体的に計算すれば
n
X
j=1
(aj s + t − bj )2 =
n
X
j=1
(a2j s2 + t2 + b2j + 2aj st − 2bj t − 2aj bj s)
なので、確率論的な意味を付け易くするために n で割って平方完成すれば
=
n
1X
(aj + bj − E[A] − E[B])2
n j=1
n
1X
{(aj − E[A]) + (bj − E[B])}2
n j=1
n
n
n
1X
1X
1X
(aj − E[A])2 + 2
(aj − E[A])(bj − E[B]) +
(bj − E[B])2
n j=1
n j=1
n j=1
= V ar[A] + 2E [(A − E[A])(B − E[B])] + V ar[B]
と計算され、和の平均は平均の和ですが、和の分散は単純に分散の和とはならずにクロ
スタームが入って来る事になります。このクロスタームを共分散と呼んでいます:
統計学 第 4 回
Revised at 01:19, April 3, 2014
4.3
定義 4.2.1 2次元の有限データ (aj , bj ), 1 ≤ j ≤ n に対して、第1成分データを
http://my.reset.jp/˜gok/math/statistics/
回帰直線
この共分散と言う概念を使えば、求める理想と現実の差が最小となる直線の方程式は
A、第2成分データを B とするとき、
Cov[A, B]
E[A]Cov[A, B]
x + E[B] −
V ar[A]
V ar[A]
Cov[A, B]
y − E[B] =
(x − E[A])
V ar[A]
y=
Cov[A, B] = E[(A − E[A])(B − E[B])]
n
=
1X
(aj − E[A])(bj − E[B])
n j=1
を A, B の共分散(covariance)と言います。
と書ける事が分かります。この直線を、B の A への回帰直線(regression line)と言い
ます。丁度『(平均値、平均値)』の点 (E[A], E[B]) を通っていますね。
対称性:
Cov[A, B] = Cov[B, A]
例題 4.3.1 次の表は、ある農園からランダムに選ばれた6本のパイナップルの木につ
いて、幹の周囲 X と高さ Y を測定したものです(単位メートル)。
X : {xj }
Y : {yj }
は自明ですね。また、
n
1X
Cov[A, B] =
(aj bj − E[A]bj − E[B]aj + E[A]E[B])
n j=1
µ X ∂
1X
1X
1
=
aj bj − E[A]
bj −
aj E[B] + E[A]E[B]
n
n
n
1X
=
aj bj − E[A]E[B]
n
= E[AB] − E[A]E[B]
であることに注意し、これを有効利用して計算しますが、これこそまさにさっきの計算
で最小値を与える s, t を求めた時に現れていたものです。
可算無限データに関しても全く同様に定義されます:
0.75
8.7
0.55
6.8
0.72
7.9
0.61
7.0
0.66
7.1
0.58
6.1
(1)X, Y の平均値、分散、共分散、Y の X への回帰直線を求めて下さい。
(2)幹の周囲が 0.64 の木の高さを推測して下さい。
E[X] =
3.87
,
6
E[Y ] =
43.6
6
2.5275 14.9769
0.1881
2
V ar[X] = E[X 2 ] − {E[X]} =
−
=
6
36
36
µ
∂2
320.96
43.6
24.8
V ar[Y ] =
−
=
6
6
36
28.447 168.732
1.95
Cov[X, Y ] = E[XY ] − E[X]E[Y ] =
−
=
6
36
36
従って Y の X への回帰直線は
定義 4.2.2 2次元の可算無限データ (aj , bj ), j ∈
に対して、第1成分データを
A、第2成分データを B とし、どちらも平均値が存在するとき、
E[(A − E[A])(B − E[B])] =
X
(a,b)
(a − E[A])(b − E[B])P [(A, B) = (a, b)]
が有限値として存在するとき、これを A, B の共分散(covariance)と言い記号
Cov[A, B] で表します。
2
y−
43.6
1.95
=
6
0.1881
µ
x−
3.87
6
∂
となり、これに x = 0.64 を代入すれば木の高さの推測値が得られます:
y=
1.95 · 0.64 · 6 − 3.87 · 1.95 + 43.6 · 0.1881
8.14266
=
∼ 7.21.
6 · 0.1881
1.1286
統計学 第 4 回
Revised at 01:19, April 3, 2014
4.4
http://my.reset.jp/˜gok/math/statistics/
3
直線も同一です。データそのものを表現すると云う目的に於いては、これらの基本的な
Anscombe’s quartet
統計量が如何に不十分なものであるか認識する良い機会でしょう。それらはデータのご
次の4つの2次元データがあります:
A1
B1
10.0
8.04
8.0
6.95
13.0
7.58
9.0
8.81
11.0
8.33
14.0
9.96
6.0
7.24
4.0
4.26
12.0
10.84
7.0
4.82
5.0
5.68
A2
B2
10.0
9.14
8.0
8.14
13.0
8.74
9.0
8.77
11.0
9.26
14.0
8.10
6.0
6.13
4.0
3.10
12.0
9.13
7.0
7.26
5.0
4.74
A3
B3
10.0
7.46
8.0
6.77
13.0
12.74
9.0
7.11
11.0
7.81
14.0
8.84
6.0
6.08
4.0
5.39
12.0
8.15
7.0
6.42
5.0
5.73
A4
B4
8.0
6.58
8.0
5.76
8.0
7.71
8.0
8.84
8.0
8.47
8.0
7.04
8.0
5.25
19.0
12.50
8.0
5.56
8.0
7.91
8.0
6.89
く一面を示しているに過ぎないのです。
平均値、分散、積の平均値を計算しておきます:
E[A1 ] = E[A2 ] = E[A3 ] = E[A4 ] = 9
E[B1 ] ∼ E[B2 ] ∼ E[B3 ] ∼ E[B4 ] ∼ 7.5
V ar[A1 ] = V ar[A2 ] = V ar[A3 ] = V ar[A4 ] = 10
V ar[B1 ] ∼ V ar[B2 ] ∼ V ar[B3 ] ∼ V ar[B4 ] ∼ 3.75
10.0 · 8.04 + 8.0 · 6.95 + · · · + 5.0 · 5.68
797.6
=
∼ 72.5
11
11
10.0 · 9.14 + 8.0 · 8.14 + · · · + 5.0 · 4.74
797.59
E[A2 B2 ] ∼
=
∼ 72.5
11
11
10.0 · 7.46 + 8.0 · 6.77 + · · · + 5.0 · 5.73
797.47
E[A3 B3 ] ∼
=
∼ 72.5
11
11
8.0 · 6.58 + 8.0 · 5.76 + · · · + 8.0 · 6.89
797.58
E[A4 B4 ] ∼
=
∼ 72.5
11
11
E[A1 B1 ] ∼
4.5
相関係数
共分散はそれぞれのデータ値の大きさなどを反映しますので2つのデータの『相互関
係そのもの』を見るのには適していません。そこで共分散を正規化して2つのデータの
関係にフォーカスしたものが次の相関係数です。
Aj 、Bj それぞれのグループ内で平均値、分散が等しく、更に積の平均値も全て等しい
ので、共分散は全て等しくなります:
Cov[Aj , Bj ] ∼ 72.5 − 9 · 7.5 ∼ 5.0
定義 4.5.1 2次元の有限データ (A, B) に対して、V ar[A] 6= 0, V ar[B] 6= 0 である
とき共分散を標準偏差の積で割ったもの:
従って4つのケースとも同一の回帰直線が得られます:
y ∼ 0.5x + 3.0.
データそのものを散布図で見る限りはこれら4つの2次元データは相当に異なるタイ
プの分布をしていますが(下図)、平均値、分散、共分散などは全く同じであり、回帰
Cor[A, B] = p
Cov[A, B]
p
V ar[A] V ar[B]
をこれらのデータの相関係数(correlation coefficient)と言います。
統計学 第 4 回
Revised at 01:19, April 3, 2014
相関係数の定義を詳しく見ると、
4.6
1
Pn
− E[A])(bj − E[B])
q P
n
1
2
2
(a
−
E[A])
j
j=1
j=1 (bj − E[B])
n
n
Pn
j=1 (aj − E[A])(bj − E[B])
q
qP
= P
n
n
2
2
(a
−
E[A])
j=1 j
j=1 (bj − E[B])
n
(A, B の相関係数)= q P
n
1
4
問題演習
j=1 (aj
であって、これは2つの n 次元ヴェクター
= (a1 − E[A], . . . , an − E[A]),
http://my.reset.jp/˜gok/math/statistics/
= (b1 − E[B], . . . , bn − E[B])
の内積をそれらのヴェクターの大きさの積で割ったものになっています。
従って内積が、それら2本のヴェクターの成す角を θ とした時に ·
= | || | cos θ と
表される事から考えれば、相関係数とは、正にその2つのデータの“成す角”の cosine
であることが分かります。
しかし内積だけを見ていたのではヴェクターの大きさが影響していて角度は分かりに
くくなっていますので、ヴェクターの大きさで割って正規化してやる事によって2つの
ヴェクターがどんな幾何学的関係にあるかが分かり易くなるわけです。
従って、相関係数は −1 から 1 までの値をとり、それぞれのデータの平均値との差を
基本演習 4.1 ばねの変位を測定して次のデータが得られました:
荷重 X
伸び Y
0
10
18.2 22.3
20
30
40
27.0
31.3
34.2
(1)X, Y の平均値、分散、共分散、相関係数を求めて下さい。
(2)Y の X への回帰直線を求め、X = 50 に対する Y の値を推測して下さい。
基本演習 4.2 先の例題 4.3.1 において X の Y への回帰直線を求めて下さい。
発展演習 4.3 2次元のデータ (X, Y ) = {(xj , yj ) | j = 1, 2, . . . , n } において Y =
pX + w の関係(p, w は定数)があるとき相関係数 Cor[X, Y ] を求めて下さい。各
種平均値・分散等は存在し、特に分散は0でないものとします。
発展演習 4.4 2次元のデータ (A, B) が与えられ、各成分データは平均値と分散を
もち、分散はいずれも正であるとします。
このとき A, B それぞれを標準化したものを A∗ , B ∗ と置く時、A∗ ± B ∗ の分散
を計算する事により |Cor[A, B]| ≤ 1 である事を証明して下さい。
とったものがヴェクターとして見て平行で同じ向きならば相関係数は 1、平行で逆向き
発展演習 4.5 赤いサイコロと青いサイコロが1つずつあります。これらを同時に
ならば相関係数は −1 となる事が分かります。
振って出た目をそれぞれ R(Red)、B(Blue) で表します。
2つのデータが平行であると云う事は、要するに一方のデータが他方のデータの定
数倍になっていると云うことですが、定数を付加しても分散は変わらない事を考慮すれ
ば、2つのデータ A, B が線形関係 B = pA + w を満たす時に、p > 0 なら相関係数は
1、p < 0 なら相関係数は −1 となるのだと云うことが分かります。
しかしあくまでも相関係数は2つのデータの間の線形関係を見ているだけですので、
非線形な関係がある場合には『2つのデータの間に強い関連性があるにも拘らず相関
係数は比較的小さくなる』事もあると言えるでしょう。また、相関係数が同じであって
も、先に見た Anscombe’s quartet の様に全く異なる様相をもつ可能性もあるわけです。
この点には十分注意して相関係数と云うものを理解する必要があります。
このとき R と B の共分散を求めて下さい。
平成26 年度前学期
課題 4.1 下のデータはあるクラスのうち30名分の解析学Bの中間試験と定期試
験の結果です:
定期 \ 中間
55-59
60-64
65-69
70-74
75-79
80-84
85-89
90-94
95-99
35-39
0
0
0
0
1
0
0
0
0
55-59
1
0
0
0
0
0
0
0
0
60-64
2
1
0
0
2
0
0
0
0
65-69
0
0
0
0
0
2
0
1
0
70-74
0
0
0
0
0
0
1
0
0
75-79
1
0
0
0
1
1
0
1
0
80-84
0
0
1
1
1
0
1
0
1
85-89
0
0
0
0
2
1
1
0
1
90-94
0
0
0
0
0
0
0
3
0
95-99
0
0
0
1
0
0
0
1
0
得点は5点幅で階級化されており、処理する際には各階級に属する得点は全てそ
の階級の中間値(階級値と言います)であるとします。例えば中間試験の得点で階
級85-89には5名が入っていますが、実際の得点に関わらずこれらは全て87
点であるとして処理します。
中間試験、定期試験それぞれの平均値と分散を求め、更に共分散、相関係数も求
めて下さい。
課題 4.2 ある日のプロ野球公式戦において12球団の安打数と得点は以下の表の通
りでした。得点データを A、安打数データを B として以下の問いに答えて下さい。
得点 A
3
2
7
1 1
2
1
6
3 0
7
3
安打 B
5
8
6
5 8
8
7
11
7 4
7
8
(1)A, B それぞれの平均値 E[A], E[B] と A の分散 V ar[A] を求めて下さい。
(2)回帰直線を求め、得点が5点である時の安打数を概算して下さい。
統計学
第4回
課題
氏
名
学学番
年科号