2001年度 経済統計処理講義内容

第2章 単純回帰分析
ー 計量経済学 ー
第1節 線形関係
1
2
3
4
5
経済2変数の関係
線形関係(1)
線形関係(2)
撹乱項
撹乱項の性質
第2節 最小2乗法
1
2
3
4
記号の準備
最小2乗法
回帰線が原点を通るケース
最小2乗法の性質
(1)
(2)
(3)
(4)
不偏性
一致性
効率性
線形性
5 決定係数
6 検定
7 単純回帰の実際の例
-レクリエーション等の消費関数-
第1節 線形関係
1.経済2変数の関係
• 経済の動きをあらわす経済指標には、関連のあるものが
多くある。
(例) 利子率と設備投資、GDPと輸入
たとえば所得と消費の関係を考えると、
所得↑ → 消費↑
所得↓ → 消費↓
という関係が考えられる。このような関係を分析する方法
が回帰分析である。
• 所得と消費の関係を分析する場合、分析目的に応じて、
2種類の統計データのうちどちらかがを用いられる。
– 時系列データ
• データを時間の順序にならべたものであり、過去の変動から現状を
•
把握し、将来を予測するなどの目的に用いる。
データの発生間隔により、年次データ、四半期データ、月次データな
どがある
※ 四半期データ - 1年を1月~3月、4月~6月、7月~9月、10月~12月の4つに分
けたもので、それぞれを第Ⅰ四半期、第Ⅱ四半期、第Ⅲ四半期、第Ⅳ四半期とい
う。
– クロスセクションデータ
• ある1時点において何らかの属性に関してならべたものであり、地
•
域差などの現状を把握するために用いる。
都道府県別データ、世帯の収入階級別データ、企業の従業員規模
別データなどがある。
2.線形関係(1)
CとYDの散布図
290
280
270
C
260
250
240
230
220
260
270
280
290
300
310
320
YD
CとYDを散布図に表した場合、この両者に直線の関係が
見られる。そこで、C = a + bYD という1次式を想定する。
この b 
C
YD
はYDが1単位増加したときのCの増分であり、
限界消費性向といわれる。
3.線形関係(2)
• 散布図からY(ここではC)とX(ここではYD)の関係を数式
の形で表す。
• このYを被説明変数または従属変数、Xを説明変数また
は独立変数という。
• 両者の関係がY = a + bX + cZというように被説明変数
が説明変数の1次の項と定数項の和の形で表現できるも
のを線形関係という。
• しかし、散布図から導かれるYとXの関係は線形なものば
•
かりではない。
線形でない非線形な式は次の2つに分類できる。
– 線形な式に変換できるもの
– 線形な式に変換できないもの
• 線形な式に変換できるものの例として、次のような式が
ある。
Y  aX b
1
Y a b
X
• これらの式は対数変換し、変数の置き換えをおこなうこと
によって線形な式として取り扱える。
logY  log a  b log X
logY  log a  b log X
logY  Y 
log a  a
log X  X 
Y   a   bX 
Y   a   bX 
<弾力性>
• 被説明変数Yと説明変数Xを両方対数変換したもの回帰
係数bを考えると、
Y
 logY
b
 Y
 log X X
X
となり、この値は弾力性を表す。
• 弾力性とは、Xが1%増加したときにYが何%増加するか
を表す値である。
(例) X: 20(万円)→28(万円) (28-20)/20 = 0.4 すなわち40%増加
Y: 15(万円)→18(万円) (18-15)/15 = 0.2 すなわち20%増加
b=0.2/0.4=0.5 すなわち、Xが1%増加したとき、Yは0.5%増加する。
<数学的補足(1)>(初学者はとばしてください)
• 自然対数logについて
Y=logXとは、ある定数e(=2.718…)をX乗したものがYとなること。
eX=Yとあらわすことができる。
自然対数であること(eのかわりに10を用いたものを常用対数という)
を明確にするため、lnと表記することもある。
• logの計算規則
– log(XY) = logX + logY
– log(X/Y) = logX - logY
– log(Xa) = a logX
この計算規則をY=aXbに適用すると
logY  log a  log( X b )
 log a  b log X
<数学的補足(2)>(初学者はとばしてください)
• logの微分
logXをXで微分すると
d log X
1

dX
X
dX
d
log
X

となる。したがって、
である。
X
dY
d logY
 Y であることがわかる。
このことから
d log X dX
X
この値は X  0 としたときの、弾力性の極限の値であり、弾力性
の値に等しい。
4.撹乱項
• 2つの経済変数の動きを考えると、完全に直線の形にな
ることはまれである。
• 理由としては
– 説明変数以外の他の要因が考えられる。
– 人間の行動は理論どおりにいかない。
– 測定誤差の問題。
などが考えられる。
• これらのさまざまな理由を全て吸収したものを u という確
率変数で表して、Y = a + bX + u というモデルを考える。
• このuのことを撹乱項(または誤差項)とよぶ。
5.撹乱項の性質
• YとXのデータが1,2,…,n 年分あったとする。
• 撹乱項は、ある年のXに対する直線上の値と、実際のY
•
•
の値とのズレを確率変数としてあらわしたもの。
撹乱項もu1,u2,…,unというように、各X1,X2,…,Xnに対して
存在する。
撹乱項の性質として
–
–
–
–
その分布が正規分布
平均値がゼロ
分散がσ2
撹乱項は相互に独立
という仮定がおかれる。
第2節 最小2乗法
1.記号の準備
母集団(個体数 N)
標本(個体数 n)
× ×
×
× ×
× ×
×
×
× × ×
Y  a  bX
Y  aˆ  bˆX
真の回帰関係
推定された回帰関係
パラメータa,b
の推定値を求
めるために、
最小2乗法が
用いられる。
算術平均に関して
1
( X1   X n )
n
1
Y  (Y1  Yn )
n
X 
偏差を小文字で表す。
x1  ( X 1  X )

y1  (Y1  Y )

xn  ( X n  X )
yn  (Yn  Y )
偏差2乗和と偏差交差積の和は次のようになる。
S x2  x12    xn2
S y2  y12    yn2
S xy  x1 y1    xn yn
2.最小2乗法
• 推定値
aˆ , bˆ を用いて求められる Yˆ  aˆ  bˆX は推定された
回帰直線上の点である。この Yˆ のことを予測値(または
理論値)という。
• 実際のYから予測値を引いたものが残差であるが、この2
乗和が最小になるように aˆ , bˆ を定める方法が最小2乗法
である。
• 最小2乗パラメータ推定値は
S xy
ˆ
b 2
Sx
aˆ  Y  bˆX
である。
Y
推定された回帰式(その2)
真の回帰式 Y=a+bX
残差
推定された回帰式(その1)
残差=撹乱項の実現値の推定値
X
3.回帰線が原点を通るケース
• 経済理論などの制約により、回帰線が必ず原点を通ると
いうことを想定することがある。すなわち、X = 0 のとき、
Y = 0 となる。
• このときの回帰モデルはY = bX + u となるので、残差2
乗和Gは
2
2
G  (Y1  bˆX1 )   (Yn  bˆX n )
となるので、これを最小化する bˆ は、
X Y    X nYn
bˆ  1 12
X 1    X n2
である。
4.最小2乗推定量の性質
• 回帰係数の推定値
aˆ , bˆ を求める方法は、最小2乗法以
外にもいくつかの方法が存在する。
• しかし、最小2乗法によって求められた aˆ , bˆ は、他の推定
量よりすぐれた性質を持っている。どちらの推定量がすぐ
れているかを判断する基準として、
– 不偏性
– 一致性
– 効率性
というものがある。
(1) 不偏性
•
bˆ の算術平均が真の回帰係数bに一致するということ。す
なわち、 E(bˆ)  b となることである。
• 一般的に推定量tが不偏性を持つということは
E (t )  
が満たされることである。(θは母数)
(2) 一致性
• 一致性とは標本に含まれるデータを増やしたときに推定
量が母数に近づくということであり、この場合は bˆ が真の
回帰係数bに近づく。
(3) 効率性
•
bˆ1 , bˆ2 がともに推定量であったとすると、その中で分散が一
番小さい推定量が望ましいということ。
• bˆ1, bˆ2 がともに不偏推定量であり、
•
bˆ1の分散  bˆ2の分散
となるとき、 bˆ1 は bˆ2 より効率的であるという。
最小2乗推定量 bˆ はもっとも効率的な推定量である。
以上3つの性質を満たすことから、 bˆ は最小分散不偏推
定量である
(4) 線形性
• 最小2乗推定量 bˆ にはもう1つの重要な性質があり、それ
•
は線形性と呼ばれるものである。
線形性とは推定量がデータの線形結合で表現できること
であり、この場合は
bˆ  1Y1   nYn
と表現できることから、線形性が成り立っている。
3つの性質に加え、この線形性の性質を満たすことから、
最小2乗推定量は最良線形不偏推定量(Best Linear
Unbiased Estimator)であるといわれる。
5.決定係数
• 決定係数は回帰モデルのあてはまり具合を示す尺度で
ある。次のような数値例を考えてみよう。
例1
X
例2
X
Y
10
8
13
9
11
14
6
4
12
7
5
8.1
7.1
9.5
7.5
8.4
10
6
5
9
6.4
5.5
Y
10
8
13
9
11
14
6
4
12
7
5
9.3
8.3
8.2
7.5
7.1
10.7
6.7
5.7
9.7
5.1
4.2
• この2つの例に回帰分析を適用すると、ともにY=3+0.5X とい
う回帰直線が導出される。ところで、散布図に回帰直線を書き
入れたものが下図である。
11
11
10
10
9
9
8
8
7
7
6
6
5
5
4
3
6
9
12
15
4
3
6
9
12
15
• この2つの図を比べると、データに対する回帰直線のあて
はまりが異なることがわかる。それを数値で表したものが
決定係数R2であり、左はR2=0.998、右はR2=0.685である。
• 決定係数は、
R2 
回帰によって説明され る変動
Yの全変動
と解釈することができ、0と1の間の値をとる。決定係数が1
に近いほど回帰直線のあてはまりはよく、決定係数の値
が小さい場合(0.5とか0.6以下の場合)には、分析の妥当
性を検討する必要がある。
• 具体的には、すべての点のYの平均の線を引き、各点と平均
の差の2乗和と、回帰直線上の点(予測値)と平均の差の2乗
和の比をとったものである。
— Yの平均の線
} 各点と平均の差、これの2乗和がY
11
10
9
8
7
6
5
4
3
6
9
12
15
これを変形すると R 2 
の全変動となる。
{ 回帰直線上の点(予測値)と平均の
差、この2乗和が回帰によって説明さ
れる変動となる。
この2つの比が決定係数R2となる。
決定係数の式は次のようになる。
ˆ  Y )2
(
Y

i
R2 
 (Yi  Y ) 2
( S xy ) 2
SxS y
となる。
もう少し詳細にみてみよう
Yi  Y  (Yi  Yˆi )  (Yˆi  Y )
となるので、Yの全変動は
(Y1  Y ) 2    (Yn  Y ) 2  {(Y1  Yˆ1 )  (Yˆ1  Y )}2    {(Yn  Yˆn )  (Yˆn  Y )}2
 {(Y  Yˆ ) 2    (Y  Yˆ ) 2 }  {(Yˆ  Y ) 2    (Yˆ  Y ) 2 }
1
1
n
n
1
 2{(Y1  Yˆ1 )(Yˆ1  Y )    (Yn  Yˆn )(Yˆn  Y )}
となる。ところで、
Yˆi  aˆ  bˆX i , aˆ  Y  bˆX
となることから、 Yˆi  Y  bˆ( X i  X ) となる。よって、
(Yi  Y  bˆ( X i  X ))(Y  bˆ( X i  X )  Y )  ( yi  bˆxi )bˆxi  bˆ( xi yi  bˆxi2 )
となる。Yの全変動の3番目の項は、
bˆ{( x1 y1    xn yn )  bˆ( x12    xn2 )}
x y    xn y n 2
2
 bˆ{( x1 y1    xn yn )  1 12
(
x



x
)}  0
1
n
2
x1    xn
n
となる。よって、Yの全変動は
(Y1  Y )2   (Yn  Y )2  {(Y1  Yˆ1 )2   (Yn  Yˆn )2}  {(Yˆ1  Y )2   (Yˆn  Y )2}
回帰で説明されない部分
回帰で説明される部分
に分解される。決定係数は
R2 
であるが、
回帰によって説明され る変動
Yの全変動
(Yˆ1  Y ) 2    (Yˆn  Y ) 2
R 
(Y1  Y ) 2    (Yn  Y ) 2
(bˆx1 ) 2    (bˆxn ) 2

y12    yn2
bˆ 2 ( x12    xn2 )

y12    yn2
2
( x1 y1    xn yn ) 2 ( x12    xn2 )
{
} 2
2
2
( x1    xn )
y1    yn2
( S xy ) 2
( x1 y1    xn yn ) 2
 2

( x1    xn2 )( y12    yn2 ) S x2 S y2
となる。
<相関係数>
• 決定係数の平方根をとると、
S xy
( x1 y1    xn yn ) 2
R

( x12    xn2 )( y12    yn2 )
S x2 S y2
となる。これを相関係数という。
• 相関係数は-1と1の間の値をとり、次のような関係を表している。
正の相関(R>0)
負の相関(R<0)
無相関(R=0)
•Xが大きな値をと
るほど、Yも大きな
値をとる。
•Xが大きな値をと
るほど、Yは小さな
値をとる。
•Xの値とYの値に
一定の傾向がみら
れない。
6.検定
• 回帰係数の推定値
aˆ , bˆ を、最小2乗法によって求めるこ
とは、計算式に当てはめれば簡単に求めることができる。
• しかし、定数項や説明変数が回帰式の中で本当に意味
を持つものであるかどうか、検定する必要がある。
• 良くおこなわれる検定は次の2つである。
1 H0: a=0 vs. H1: a≠0 の検定
定数項が0であるかどうかの検定。
H0が成り立つとき、X=0の時のYは0となる。この場合、回帰線は
原点を通る。
消費関数でH0が成り立てば、所得が0の時の消費は0となる。こ
の検定は経済理論の検証の場合が多い。
2 H0: b=0 vs. H1: b≠0 の検定
Y=a+bXにおいてH0: b=0 が成立した場合、この回帰式はY=a
となる。
この式は、「Yの大きさはXの値にかかわらず一定値aをとる」と
いうことを表している。
回帰分析は、Xの大きさが大きくなることが原因となってYが大
きくなる(または小さくなる)ときに行う分析であるので、 H0が採
択された場合には、「この分析は行う意味がなかった」ということ
になってしまう。
Y
Y= a
a
X
<検定統計量>
• 検定をおこなう場合に撹乱項の分散σ2が必要となるが、この値はわか
らないので残差からその推定量を考える。
e12    en2
s 
n2
2
この推定量を用いて、
bˆ  b
t
s 2 ( x12    xn2 )
を考えると、tは自由度n-2のt分布に従う。H0: b=0の検定にはこの検
定統計量を用いればよい。
• またH0: a=0 の検定には
t
aˆ  a
1
X2
s (  2
)
2
n x1    xn
2
が自由度n-2のt分布に従うという性質を用いればよい。