hsGPA, ACT

エコノメトリックス
第5回
2011年前期
中村さやか
今日やること
Ch. 3 Multiple Regression Analysis: Estimation
3.1 Motivation for Multiple Regression
3.2 Mechanics and Interpretation of Ordinary
Least Squares
単回帰 (simple regression): 説明変数が1つ
重回帰 (multiple regression): 説明変数が複数
重回帰モデルと偏微分
説明変数が二つの重回帰モデル: y=β0+ β1 x1 + β2 x2 +u
y
 1 ,
x1
y
 2
x2
β1 : uとx2 を一定にしたまま x1 だけを変化させたときのyの変化
x1 の偏微分係数
β2 : uとx1 を一定にしたまま x2 だけを変化させたときのyの変化
x2 の偏微分係数
• 偏微分: 他の変数をすべて一定にして一つの変数だけを微
小に変化させた場合の被説明変数の変化を表す
重回帰モデルの例 1
wage=β0+ β1 educ + β2 exper +u
β1 : 経験年数を一定にしたまま教育水準だけを変化させたとき
の賃金の変化
β2 : 教育水準を一定にしたまま経験年数だけを変化させたとき
の賃金の変化
• 単回帰(一変数モデル)と比較して「他の要因を全て一定にし
て」(ceteris paribus)ある一つの説明変数が被説明変数に
及ぼす影響を測るのにより適している
重回帰モデルの例 2
• colGPA: 大学でのGPA
• hsGPA: 高校でのGPA
• ACT: achievement testの成績
colGPAをhsGPAとACTに回帰
colGˆ PA = 1.29 + 0.453hsGPA + 0.0094ACT
⇒高校時代の成績が同じであれば、ACTの成績は大学での成
績にはあまり影響しない
colGPAをACTだけに回帰
colGˆ PA = 2.40 + 0.271ACT
⇒ACTの成績が大学での成績に及ぼす影響を測る上で、高校
時代の成績を一定にできていない
重回帰モデルの例 2 続き
• 高校時代の成績が同じ学生の間でACTの成績が大学での
成績に及ぼす影響を測りたい
⇒高校時代のGPAがある値(例:3.2)だった学生だけのサンプ
ルを用いてcolGPAをACTに回帰すればよいのでは?
• 現実的にはサンプル数が少なすぎる (可能な場合はこの方
法をとることもある)
• サンプル全体を用いて分析したい
重回帰モデルの例 3
cons=β0+ β1 inc + β2 inc2 +u
dcons
 1  2 2inc
dinc
cons  ( 1  2 2inc )inc
• 推定手法は説明変数が二つのモデルと全く同じ
• 単回帰(一変数モデル)よりもフレキシブルな関数形:
説明変数の2乗の項、3乗の項、・・・と加えていけば、どんな
関数でも(パラメタに関して非線形な関数でも)近似できる
(テイラー展開)
最小二乗法の推定に必要な仮定
y=β0+ β1 x1 + β2 x2 +u
⇒ E(u| x1, x2 )=0 が推定のための必要条件
wage=β0+ β1 educ + β2 exper +u
⇒ E(u| educ, exper)=0 が推定のための必要条件
成り立っているか?
cons=β0+ β1 inc + β2 inc2 +u
⇒ E(u| inc, inc2 ) = E(u| inc) =0 が推定のための必要条件
Model with k Independent Variables
線形重回帰モデル (multiple linear regression model)
y=β0+ β1 x1 + β2 x2 + β3 x3 + ... + βk xk +u
y  1x1   2 x2  ...   k xk
Δ x2=0,…, Δ xk=0 ⇒ Δy= β1 Δ x1
⇒ それぞれの説明変数の係数は他の変数を全て一定にして
その変数だけを変化させた場合のyの変化を表す
推定に必要な仮定: E(u| x1, x2, ... xk )=0
例) log(salary)=β0+β1log(sales)+β2ceoten+β3ceoten2+u
重回帰分析の利点
ある変数x1がyに与える影響を測りたい
線形単回帰モデル: y=β0+ β1 x1 +u
推定に必要な仮定: E(u| x1)=0
問題点: uにはyに影響するx1以外の様々な要因が含まれる
⇒もし要因のどれかとx1 に相関があったら仮定が成立せず
⇒もしそのような要因を表す変数が利用可能であれば、その変
数とx1を説明変数とする重回帰モデルを推定すればよい
注意: 追加した変数と誤差項に相関がないことが必要
例: log(賃金) = β0+ β1 教育年数 + u,
u=生来能力
⇒生来能力を表す変数が利用可能であれば、説明変数に含め
ればよい
用語集
y=β0+ β1 x1 + β2 x2 + β3 x3 + ... + βk xk +u
y
x1, x2, ... xk
被説明変数
(explained variable)
説明変数
(explanatory variables)
従属変数
(dependent variable)
regressand
独立変数
(independent variables)
regressors
u: 誤差項(error term) または 攪乱項(disturbance term)
2変数モデルの最小二乗法による推定
yi   0  1 xi1   2 xi 2  ui i  1,..., n  yˆ i  ˆ0  ˆ1 xi1  ˆ2 xi 2
( yˆ i :yの予測値 ˆ0 , ˆ1 , ˆ2 : パラメタの推定値 )
uˆ  y  yˆ  y  ˆ  ˆ x  ˆ x
(残差/residual )
i
i
i
i
0
1 i1
2 i2
n
残差の二乗和を最小化 : ˆMin
ˆ ˆ
ˆ  ˆ x  ˆ x ) 2
(
y


 i 0 1 i1 2 i 2
 0 , 1 ,  2 i 1
最小化の必要条件 : 上式を ˆ0 , ˆ1 , ˆ2でそれぞれ微分すると 0
n
 ( y  ˆ
i
i 1
n
x
i 1
i1
n
x
i 1
i2
0
 ˆ1 xi1  ˆ2 xi 2 )  0
( yi  ˆ0  ˆ1 xi1  ˆ2 xi 2 )  0
( yi  ˆ0  ˆ1 xi1  ˆ2 xi 2 )  0
k変数モデルの最小二乗法による推定
yˆ i  ˆ0  ˆ1 xi1  ˆ2 xi 2  ˆ3 xi 3  ...  ˆk xik
uˆi  yi  yˆ i  yi  ˆ0  ˆ1 xi1  ˆ2 xi 2  ˆ3 xi 3  ...  ˆk xik
n
Min
ˆ ˆ
ˆ  ˆ x  ˆ x  ˆ x  ...  ˆ x ) 2
(
y


 i 0 1 i1 2 i 2 3 i3
k ik
ˆ0 , 1 ,  2 ,.., ˆk i 1
最小化の必要条件 : 上式を ˆ0 , ˆ1 , ˆ2 ,.., ˆkでそれぞれ微分すると 0
n
 ( y  ˆ
i
i 1
n
x
i 1
i1
0
 ˆ1 xi1  ˆ2 xi 2  ˆ3 xi 3  ...  ˆk xik )  0
( yi  ˆ0  ˆ1 xi1  ˆ2 xi 2  ˆ3 xi 3  ...  ˆk xik )  0

n
x
i 1
ik
( yi  ˆ0  ˆ1 xi1  ˆ2 xi 2  ˆ3 xi 3  ...  ˆk xik )  0
Partialling-Out
yˆ  ˆ0  ˆ1 x1  ˆ2 x2
(rˆ y )


 rˆ
n
ˆ
1
i 1
n
i1 i
2
i 1 i1
rˆi1  x1を x2に回帰した残差
( x1   0   1 x2  uを推定し、推定値 ˆ0と ˆ1をもとに
rˆi1  xi1  xˆi1  xi1  ˆ0  ˆ1 xi2を計算)
 rˆi1 : xi1のうち xi2によって説明できない 部分
 ˆ : x の影響を除いた上での yと x の関係
1
2
1
単回帰と重回帰の比較
~ ~
~ ~
~
~
ˆ
ˆ
ˆ
y   0  1 x1 , yˆ   0  1 x1   2 x2 , x2   0  1 x1.
~ ˆ ˆ ~
 1  1   21
~ ˆ
   になるのは以下のい ずれかの場合
1
1
1
ˆ2  0  x2が yに影響を与えない
~
2 1  0 
x1と x2が相関していない
• 現実には全く同じ値になることはないが、係数の値が近くな
るのはこれらの値のうちどちらかが0に近い場合
単回帰と重回帰の比較の例 1
colGPA: 大学でのGPA
hsGPA: 高校でのGPA
ACT: achievement testの成績
colGˆ PA = 1.29 + 0.453hsGPA + 0.0094ACT
colGˆ PA = 2.40 + 0.271ACT
colGˆ PA = const + 0.482hsGPA
Corr(hsGPA, ACT) = 0.346
hsGPAの係数はACTを説明変数に加えてもあまり変わらない
←hsGPAを説明変数に含めたモデルでは、ACTの係数が0に
近い
単回帰と重回帰の比較の例 2
prate: 401k年金プランへの参加率
mrate: 労働者の年金積立に対する企業からの補助率
praˆte = 80.12 + 5.52mrate + 0.243age
praˆte = 83.08 + 5.86mrate
Corr(mrate, age) = 0.12
mrateの係数はageを説明変数に加えてもあまり変わらない
←mrateとageの相関が小さい
決定係数(R2)
yi  yˆ i  ui
yˆ iと uiには相関なし
つまり、全ての
yiは予測値と残差に分け られる
n
総平方和(total sum of squares , SST )   ( yi  y ) 2
i 1
n
説明された平方和 (explained sum of squares , SSE )   ( yˆ i  y ) 2
i 1
n
残差平方和(residual sum of squares , SSR)   ui
2
i 1
SST=SSE+SSR → 1=SSE÷SST+SSR÷SST
SSE÷SSTをR2、または決定係数と呼ぶ
(単回帰でも重回帰でも同様)
重回帰モデルについての決定係数の注意点
• 説明変数を追加するほどR2 の値が大きくなる
説明力が全くない説明変数を加えても、 R2の値が(少しは)
増え、減ることは絶対にない
例: 個々人の賃金を被説明変数とするモデルで説明変数
に社会保障番号の最後の番号を追加
⇒ R2 の値そのものは重回帰モデルではあまり参考にならない
⇒重回帰分析では説明変数の数が多いだけではR2 が高くなら
ないようにした補正R2 を使うことが多い (Ch.6参照)
⇒ 説明変数(1つもしくは複数)を加える前と後でR2 の値を比較
することで、加えた説明変数に説明力があるかどうかテスト
する方法もある
重回帰分析の決定係数の例
colGPA: 大学でのGPA
hsGPA: 高校でのGPA
ACT: achievement testの成績
colGˆ PA = 1.29 + 0.453hsGPA + 0.0094ACT
n=141, R2=0.176
• 大学のGPAの個人差のうち、高校のGPAとACTの成績の個
人差によって説明できるのは約17.6%
説明変数を追加すると決定係数が変化する例
• データ: 男性、カリフォルニア在住、1960-1961年生まれ、
1985年以前に逮捕歴あり
narr86: 1986年に逮捕された回数
pcnv: 1985年以前の起訴率
avgsen: 1985年以前に起訴された件での服役年数
ptime86: 1986年の服役月数
qemp86: 1986年の就業4半期数
narr̂86 = 0.712 - 0.150pcnv - 0.034ptime86 - 0.104qemp86
n=2725, R2=0.0413
narr̂86 = 0.707 - 0.151pcnv + 0.0074avgsen
-0.037ptime86 - 0.103qemp86
n=2725, R2=0.0422
説明変数を追加すると決定係数が変化する例 続き
narr̂86 = 0.712 - 0.150pcnv - 0.034ptime86 - 0.104qemp86
n=2725, R2=0.0413
narr̂86 = 0.707 - 0.151pcnv + 0.0074avgsen
- 0.037ptime86 - 0.103qemp86
n=2725, R2=0.0422
• avgsenの係数の推定値が+
⇒服役年数が長い判決を受けると犯罪率が上がる!?
• 決定係数の値は高くなったが変化は小さい
• だからといって、 avgsenを説明変数から除いたモデルが
勝っているとは必ずしも言えない
• 説明力のない変数だから除いてもよいわけではない
原点を通る重回帰直線
• 単回帰の場合と同様に、切片のない、つまり回帰式が原点
を通る線形重回帰モデルを推定可能
• 母集団における真の切片の値が0でない限り、説明変数の
係数にバイアスが生じる
• 1-SST/SSTとしてR2を計算すると負になることがある
⇒ R2が負にならないように以下の式が用いられることも
R 
2

n
i 1
( yi  y )( yˆ i  yˆ )
i 1 ( yi  y )
n
2

2
2
ˆ
ˆ
(
y

y
)
i1 i
n
yˆ i : yiの予測値 yˆ : yˆ iの平均値
←切片のあるモデルについてはどちらの式でも同じ値