2001年度 経済統計処理講義内容

第2章 単純回帰分析
ー 計量経済学 ー
第1節 線形関係
1
2
3
4
5
経済2変数の関係
線形関係(1)
線形関係(2)
撹乱項
撹乱項の性質
第2節 最小2乗法
1
2
3
4
記号の準備
最小2乗法
回帰線が原点を通るケース
最小2乗法の性質
(1)
(2)
(3)
(4)
不偏性
一致性
効率性
線形性
5 決定係数
6 検定
7 単純回帰の実際の例
-レクリエーション等の消費関数-
第1節 線形関係
1.経済2変数の関係
• 経済の動きをあらわす経済指標には、関連のあるものが
多くある。
(例) 利子率と設備投資 -
利子率が下がると、設備投資がしやすくなる。
たとえば所得と消費の関係を考えると、
所得↑ → 消費↑
所得↓ → 消費↓
という関係が考えられる。このような関係を分析する方法
が回帰分析である。
• 所得と消費の関係を分析する場合、分析目的に応じて、
2種類の統計データのうちどちらかがを用いられる。
– 時系列データ
• データを時間の順序にならべたものであり、過去の変動から現状を
•
把握し、将来を予測するなどの目的に用いる。
データの発生間隔により、年次データ、四半期データ、月次データな
どがある
※ 四半期データ - 1年を1月~3月、4月~6月、7月~9月、10月~12月の4つに分
けたもので、それぞれを第Ⅰ四半期、第Ⅱ四半期、第Ⅲ四半期、第Ⅳ四半期とい
う。
– クロスセクションデータ
• ある1時点において何らかの属性に関してならべたものであり、地
•
域差などの現状を把握するために用いる。
都道府県別データ、世帯の収入階級別データ、企業の従業員規模
別データなどがある。
家計消費支出と家計可処分所得
年
消費支出(Y)
平成1
233.0
2
243.7
3
251.0
4
256.9
5
260.3
6
267.3
7
272.0
8
278.6
9
281.2
10
280.2
所得(X)
266.0
279.4
291.1
295.6
297.8
302.2
305.0
305.5
309.1
311.7
出典:水野(2005)『テキスト計量経済学(第2版)』41ページ。
原データは、内閣府『国民経済計算年報 平成16年版』
290
280
270
260
Y
2.線形関係(1)
250
240
230
220
260
270
280
290
300
310
320
X
家計可処分所得(𝑋)を横軸に、家計消費支出(𝑌)を縦軸にとった散布図を
描くと、その点の集合は直線に近い関係が見られる。そこで、この2変量間
の関係をもっともよく表す式として、𝑌 = 𝑎 + 𝑏𝑋 という1次式を想定する。
Δ𝑌
この𝑏 = は𝑋が1単位増加したときの𝑌の増分であり、限界消費性向とい
Δ𝑋
われる。
3.線形関係(2)
• Xが原因で、Yが結果であるという因果関係が成り立っている場合、
散布図や経済理論からYとXの関係をなんらかの数式の形(回帰モ
デルという)で表し、分析をおこなう。
Y=a+bX
Y=a+bX2
3
2.5
2
1.5
1
0.5
• このYを被説明変数または従属変数、Xを説明変数または独立変数
という。
• 両者の関係がY = a + bX + cZというように被説明変数が説明変数
の1次の項と定数項の和の形で表現できるものを線形関係という。
20
18
16
14
12
10
8
6
4
X
2
20
18
16
14
12
10
8
6
4
0
2
0
20
18
16
14
12
10
8
6
4
X
Y=5/(X+2)のグラフ
Y
900
800
700
600
500
400
300
200
100
0
2
50
45
40
35
30
25
20
15
10
5
0
0
Y=5+2X 2のグラフ
Y
0
Y=5+2Xのグラフ
Y
Y=a/(X+b)
X
• しかし、散布図から導かれるYとXの関係は線形なものば
•
かりではない。
線形でない非線形な式は次の2つに分類できる。
– 線形な式に変換できるもの
– 線形な式に変換できないもの
• 線形な式に変換できるものの例として、次のような式が
ある。
𝑌 = 𝑎𝑋 𝑏
1
𝑌=𝑎 𝑏
𝑋
• これらの式は対数変換し、変数の置き換えをおこなうこと
によって線形な式として取り扱える。
log 𝑌 = log 𝑎 + 𝑏 log 𝑋
log 𝑌 = log 𝑎 − 𝑏 log 𝑋
log 𝑌 = 𝑌 ′
log 𝑎 = 𝑎 ′
log 𝑋 = 𝑋′
𝑌 ′ = 𝑎′ + 𝑏𝑋′
𝑌 ′ = 𝑎′ − 𝑏𝑋′
<弾力性>
• 被説明変数Yと説明変数Xを両方対数変換したもの回帰
係数bを考えると、
Δ𝑌
Δ log 𝑌
𝑏=
= 𝑌
Δ log 𝑋 Δ𝑋
𝑋
となり、この値は弾力性を表す。
• 弾力性とは、Xが1%増加したときにYが何%増加するか
を表す値である。
(例) X: 20(万円)→28(万円) (28-20)/20 = 0.4 すなわち40%増加
Y: 15(万円)→18(万円) (18-15)/15 = 0.2 すなわち20%増加
b=0.2/0.4=0.5 すなわち、Xが1%増加したとき、Yは0.5%増加する。
<数学的補足(1)>(初学者はとばしてください)
• 自然対数logについて
Y=logXとは、ある定数e(=2.718…)をX乗したものがYとなること。
eX=Yとあらわすことができる。
自然対数であること(eのかわりに10を用いたものを常用対数という)
を明確にするため、lnと表記することもある。
• logの計算規則
– log(XY) = logX + logY
– log(X/Y) = logX - logY
– log(Xa) = a logX
この計算規則をY=aXbに適用すると
log 𝑌 = log 𝑎 + log 𝑋 𝑏
= log 𝑎 + 𝑏 log 𝑋
<数学的補足(2)>(初学者はとばしてください)
• logの微分
logXをXで微分すると
𝑑 log 𝑋 1
=
𝑑𝑋
𝑋
となる。したがって、𝑑 log 𝑋 =
𝑑 log 𝑌
このことから
𝑑 log 𝑋
=
𝑑𝑋
𝑋
である。
𝑑𝑌
𝑌
𝑑𝑋 であることがわかる。
𝑋
この値はΔ𝑋 → 0としたときの、弾力性の極限の値であり、弾力性の
値に等しい。
4.撹乱項
• 2つの経済変数の動きを考えると、完全に直線の形にな
ることはまれである。
• 理由としては
– 説明変数以外の他の要因が考えられる。
– 人間の行動は理論どおりにいかない。
– 測定誤差の問題。
などが考えられる。
• これらのさまざまな理由を全て吸収したものを u という確
率変数で表して、Y = a + bX + u というモデルを考え
る。
• このuのことを撹乱項(または誤差項)とよぶ。
5.撹乱項の性質
• YとXのデータが1,2,…,n 年分あったとする。
• 撹乱項は、ある年のXに対する直線上の値と、実際のY
•
の値とのズレを確率変数としてあらわしたもの。
撹乱項もu1,u2,…,unというように、各X1,X2,…,Xnに対して
存在する。
年
1
2
Y
Y1
Y2
X
X1
X2
u
u1
u2
…
…
…
…
n
Yn
Xn
un
• 撹乱項の性質として
–
–
–
–
その分布が正規分布
平均値がゼロ
分散がσ2
撹乱項は相互に独立
un
u2
u1
という仮定がおかれる。
X1
X2
Xn
第2節 最小2乗法
1.記号の準備
母集団(個体数 N)
標本(個体数 n)
× ×
×
× ×
× ×
×
×
× × ×
Y  a  bX
Y  aˆ  bˆX
真の回帰関係
推定された回帰関係
回帰分析の第1目
標はパラメータa,b
の推定値を求める
ことである。
パラメータの推定
には、最小2乗法
が用いられる。
算術平均に関して
1
𝑋 = 𝑋1 + ⋯ + 𝑋𝑛
𝑛
1
𝑌 = 𝑌1 + ⋯ + 𝑌𝑛
𝑛
偏差を小文字で表す。
𝑥1 = 𝑋1 − 𝑋
⋮
𝑥𝑛 = 𝑋𝑛 − 𝑋
𝑦1 = 𝑌1 − 𝑌
⋮
𝑦𝑛 = 𝑌𝑛 − 𝑌
偏差2乗和と偏差交差積の和は次のようになる。
𝑆𝑥2 = 𝑥12 + ⋯ + 𝑥𝑛2
𝑆𝑦2 = 𝑦12 + ⋯ + 𝑦𝑛2
𝑆𝑥𝑦 = 𝑥1 𝑦1 + ⋯ + 𝑥𝑛 𝑦𝑛
2.最小2乗法
• 推定値𝑎, 𝑏を用いて求められる𝑌 = 𝑎 + 𝑏𝑋は推定された
回帰直線上の点である。この𝑌 のことを予測値(または理
論値)という。
• 実際のYから予測値を引いたものが残差であるが、この2
乗和が最小になるように𝑎, 𝑏 を定める方法が最小2乗法
である。
• 最小2乗パラメータ推定値は
𝑆𝑥𝑦
𝑏= 2
𝑆𝑥
𝑎 = 𝑌 − 𝑏𝑋
である。
真の回帰直線と推定された回帰直線
(仮説例による)
280
240
200
160
120
真の回帰直線
推定された回帰直線
80
100
150
200
250
300
Y
推定された回帰式(その2)
真の回帰式 Y=a+bX
×
残差
推定された回帰式(その1)
残差=撹乱項の実現値の推定値
X
3.回帰線が原点を通るケース
• 経済理論などの制約により、回帰線が必ず原点を通ると
いうことを想定することがある。すなわち、X = 0 のとき、
Y = 0 となる。
• このときの回帰モデルはY = bX + u となるので、残差2
乗和Gは
𝐺 = 𝑌1 − 𝑏𝑋1
2
+ ⋯ + 𝑌𝑛 − 𝑏𝑋𝑛
となるので、これを最小化する𝑏は、
𝑋1 𝑌1 + ⋯ + 𝑋𝑛 𝑌𝑛
𝑏=
𝑋12 + ⋯ + 𝑋𝑛2
である。
2
4.最小2乗推定量の性質
• 回帰係数の推定値𝑎, 𝑏 を求める方法は、最小2乗法以外
にもいくつかの方法が存在する。
• しかし、最小2乗法によって求められた𝑎, 𝑏 は、他の推定
量よりすぐれた性質を持っている。どちらの推定量がすぐ
れているかを判断する基準として、
– 不偏性
– 一致性
– 効率性
というものがある。
(1) 不偏性
• 𝑏 の算術平均が真の回帰係数bに一致するということ。す
なわち、𝐸 𝑏 = 𝑏となることである。
• 一般的に推定量tが不偏性を持つということは
𝐸 𝑡 =𝜃
が満たされることである。(θは母数)
(2) 一致性
• 一致性とは標本に含まれるデータを増やしたときに推定
量が母数に近づくということであり、この場合は𝑏 が真の
回帰係数bに近づく。
(3) 効率性
• 𝑏1 , 𝑏2 がともに推定量であったとすると、その中で分散が
一番小さい推定量が望ましいということ。
• 𝑏1 , 𝑏2 がともに不偏推定量であり、
𝑏1 の分散 < 𝑏2 の分散
となるとき、𝑏1 は𝑏2 より効率的であるという。
• 最小2乗推定量𝑏 はもっとも効率的な推定量である。
以上3つの性質を満たすことから、 𝑏 は最小分散不偏推定
量である
(4) 線形性
• 最小2乗推定量𝑏 にはもう1つの重要な性質があり、それ
•
は線形性と呼ばれるものである。
線形性とは推定量がデータの線形結合で表現できること
であり、この場合は
𝑏 = 𝛼1 𝑌1 + ⋯ + 𝛼𝑛 𝑌𝑛
と表現できることから、線形性が成り立っている。
3つの性質に加え、この線形性の性質を満たすことから、
最小2乗推定量は最良線形不偏推定量(Best Linear
Unbiased Estimator)であるといわれる。
5.決定係数
例1
X
• 右の表のような数値例を
例2
X
Y
10
8
13
9
11
14
6
4
12
7
5
考えてみよう。
• この2つの例に回帰分析
を適用すると、ともに
Y=3+0.5X という回帰直
線が導出される。
8.1
7.1
9.5
7.5
8.4
10
6
5
9
6.4
5.5
10
8
13
9
11
14
6
4
12
7
5
11
11
10
10
9
9
8
8
7
7
Y=3+0.5X
6
Y
Y=3+0.5X
6
5
9.3
8.3
8.2
7.5
7.1
10.7
6.7
5.7
9.7
5.1
4.2
5
4
4
3
6
9
12
15
3
6
9
12
15
• この2つの図を比べると、データに対する回帰直線のあては
•
•
まりが異なること(データが直線の近くに位置しているか、直
線から離れて位置しているか)がわかる。そのあてはまり具
合を数値で表したものが決定係数R2である。
この2つの例の、左はR2=0.998、右はR2=0.685となる(導出方
法は後述)。
決定係数は、
回帰によって説明される変動
𝑅 =
𝑌の全変動
2
と解釈することができ、0と1の間の値をとる。決定係数が1に
近いほど回帰直線のあてはまりはよく、決定係数の値が小さ
い場合(0.5とか0.6以下の場合)には、分析の妥当性を検討す
る必要がある。
• 具体的には、すべての点のYの平均の線を引き、各点と平均
の差の2乗和と、回帰直線上の点(予測値)と平均の差の2乗
和の比をとったものである。
— Yの平均の線
} 各点と平均の差、これの2乗和がY
11
10
9
8
7
6
5
4
3
6
9
12
15
の全変動となる。
{ 回帰直線上の点(予測値)と平均の
差、この2乗和が回帰によって説明さ
れる変動となる。
この2つの比が決定係数R2となる。
決定係数の式は次のようになる。
𝑅2 =
これを変形すると𝑅2 =
𝑆𝑥𝑦
2
𝑆𝑥2 𝑆𝑦2
となる。
𝑌𝑖 − 𝑌
𝑌𝑖 − 𝑌
2
2
もう少し詳細にみてみよう
𝑌𝑖 − 𝑌 = 𝑌𝑖 − 𝑌𝑖 + 𝑌𝑖 − 𝑌
となるので、Yの全変動は
𝑌1 − 𝑌
2
+ ⋯ + 𝑌𝑛 − 𝑌
2
=
𝑌1 − 𝑌1 + 𝑌1 − 𝑌
=
𝑌1 − 𝑌1
2
2
+ ⋯+
+ ⋯ + 𝑌𝑛 − 𝑌𝑛
2
𝑌𝑛 − 𝑌𝑛 + 𝑌𝑛 − 𝑌
+
𝑌1 − 𝑌
2
+ ⋯ + 𝑌𝑛 − 𝑌
+ 2 𝑌1 − 𝑌1 𝑌1 − 𝑌 + ⋯ + 𝑌𝑛 − 𝑌𝑛 𝑌𝑛 − 𝑌
となる。ところで、
𝑌𝑖 = 𝑎 + 𝑏𝑋𝑖 , 𝑎 = 𝑌 − 𝑏𝑋
となることから、 𝑌𝑖 = 𝑌 + 𝑏 𝑋𝑖 − 𝑋 となる。よって、
𝑌𝑖 − 𝑌 − 𝑏 𝑋𝑖 − 𝑋
𝑌 + 𝑏 𝑋𝑖 − 𝑋 − 𝑌 = 𝑦𝑖 − 𝑏𝑥𝑖 𝑏𝑥𝑖 = 𝑏 𝑥𝑖 𝑦𝑖 − 𝑏𝑥𝑖2
となる。Yの全変動の3番目の項は、
𝑏 𝑥1 𝑦1 + ⋯ + 𝑥𝑛 𝑦𝑛 − 𝑏 𝑥12 + ⋯ + 𝑥𝑛2
𝑥1 𝑦1 + ⋯ + 𝑥𝑛 𝑦𝑛 2
= 𝑏 𝑥1 𝑦1 + ⋯ + 𝑥𝑛 𝑦𝑛 −
𝑥1 + ⋯ + 𝑥𝑛2
2
2
𝑥1 + ⋯ + 𝑥𝑛
=0
2
となる。よって、Yの全変動は
𝑌1 − 𝑌
2
+ ⋯ + 𝑌𝑛 − 𝑌
2
=
𝑌1 − 𝑌1
2
+ ⋯ + 𝑌𝑛 − 𝑌𝑛
2
回帰で説明されない部分
+
𝑌1 − 𝑌
2
+ ⋯ + 𝑌𝑛 − 𝑌
回帰で説明される部分
に分解される。決定係数は
回帰によって説明される変動
𝑅 =
𝑌の全変動
2
であるが、
𝑅2 =
𝑌1 − 𝑌
𝑌1 − 𝑌
2
2
2
+ ⋯ + 𝑌𝑛 − 𝑌
+ ⋯ + 𝑌𝑛 − 𝑌
2
2
2
𝑏𝑥1 + ⋯ + 𝑏𝑥𝑛
=
𝑦12 + ⋯ + 𝑦𝑛2
𝑏 2 𝑥12 + ⋯ + 𝑥𝑛2
=
𝑦12 + ⋯ + 𝑦𝑛2
2
𝑥1 𝑦1 + ⋯ + 𝑥𝑛 𝑦𝑛
𝑥12 + ⋯ + 𝑥𝑛2
=
𝑥12 + ⋯ + 𝑥𝑛2
𝑦12 + ⋯ + 𝑦𝑛2
2
𝑆𝑥𝑦
𝑥1 𝑦1 + ⋯ + 𝑥𝑛 𝑦𝑛 2
= 2
= 2 2
𝑥1 + ⋯ + 𝑥𝑛2 𝑦12 + ⋯ + 𝑦𝑛2
𝑆𝑥 𝑆𝑦
となる。
2
<相関係数>
• 決定係数の平方根をとると、
𝑅=
𝑆𝑥𝑦
𝑥1 𝑦1 + ⋯ + 𝑥𝑛 𝑦𝑛 2
=
𝑥12 + ⋯ + 𝑥𝑛2 𝑦12 + ⋯ + 𝑦𝑛2
𝑆𝑥2 𝑆𝑦2
となる。これを相関係数という。
• 相関係数は-1と1の間の値をとり、次のような関係を表している。
正の相関(R>0)
負の相関(R<0)
無相関(R=0)
•Xが大きな値をと
るほど、Yも大きな
値をとる。
•Xが大きな値をと
るほど、Yは小さな
値をとる。
•Xの値とYの値に
一定の傾向がみら
れない。
6.検定
• 回帰係数の推定値𝑎, 𝑏 を、最小2乗法によって求めること
は、計算式に当てはめれば簡単に求めることができる。
• しかし、定数項や説明変数が回帰式の中で本当に意味
を持つものであるかどうか、検定する必要がある。
• 良くおこなわれる検定は次の2つである。
1 H0: a=0 vs. H1: a≠0 の検定
定数項が0であるかどうかの検定。
H0が成り立つとき、X=0の時のYは0となる。この場合、回帰線は
原点を通る。
消費関数でH0が成り立てば、所得が0の時の消費は0となる。こ
の検定は経済理論の検証の場合が多い。
2 H0: b=0 vs. H1: b≠0 の検定
Y=a+bXにおいてH0: b=0 が成立した場合、この回帰式はY=a
となる。
この式は、「Yの大きさはXの値にかかわらず一定値aをとる」と
いうことを表している。
回帰分析は、Xの大きさが大きくなることが原因となってYが大
きくなる(または小さくなる)ときに行う分析であるので、 H0が採
択された場合には、「この分析は行う意味がなかった」ということ
になってしまう。
Y
Y= a
a
X
<検定統計量>
• 検定をおこなう場合に撹乱項の分散σ2が必要となるが、この値はわか
らないので残差からその推定量を考える。
𝑠2
𝑒12 + ⋯ + 𝑒𝑛2
=
𝑛−2
この推定量を用いて、
𝑡=
𝑏−𝑏
𝑠2
𝑥12 + ⋯ + 𝑥𝑛2
を考えると、tは自由度n-2のt分布に従う。H0: b=0の検定にはこの検
定統計量を用いればよい。
• またH0: a=0 の検定には
𝑎−𝑎
𝑡=
1
𝑋2
2
𝑠
+
𝑛 𝑥12 + ⋯ + 𝑥𝑛2
が自由度n-2のt分布に従うという性質を用いればよい。