2001年度 経済統計処理講義内容

第2章 単純回帰分析
ー 計量経済学 ー
第1節 線形関係
1
2
3
4
5
経済2変数の関係
線形関係(1)
線形関係(2)
撹乱項
撹乱項の性質
第2節 最小2乗法
1
2
3
4
記号の準備
最小2乗法
回帰線が原点を通るケース
最小2乗法の性質
(1)
(2)
(3)
(4)
不偏性
一致性
効率性
線形性
5 決定係数
6 検定
7 単純回帰の実際の例
-レクリエーション等の消費関数-
第1節 線形関係
1.経済2変数の関係
• 経済の動きをあらわす経済指標には、関連のあるものが
多くある。
(例) 利子率と設備投資 -
利子率が下がると、設備投資がしやすくなる。
たとえば所得と消費の関係を考えると、
所得↑ → 消費↑
所得↓ → 消費↓
という関係が考えられる。このような関係を分析する方法
が回帰分析である。
• 所得と消費の関係を分析する場合、分析目的に応じて、
2種類の統計データのうちどちらかがを用いられる。
– 時系列データ
• データを時間の順序にならべたものであり、過去の変動から現状を
•
把握し、将来を予測するなどの目的に用いる。
データの発生間隔により、年次データ、四半期データ、月次データな
どがある
※ 四半期データ - 1年を1月~3月、4月~6月、7月~9月、10月~12月の4つに分
けたもので、それぞれを第Ⅰ四半期、第Ⅱ四半期、第Ⅲ四半期、第Ⅳ四半期とい
う。
– クロスセクションデータ
• ある1時点において何らかの属性に関してならべたものであり、地
•
域差などの現状を把握するために用いる。
都道府県別データ、世帯の収入階級別データ、企業の従業員規模
別データなどがある。
家計消費支出と家計可処分所得
年
消費支出(Y)
平成1
233.0
2
243.7
3
251.0
4
256.9
5
260.3
6
267.3
7
272.0
8
278.6
9
281.2
10
280.2
所得(X)
266.0
279.4
291.1
295.6
297.8
302.2
305.0
305.5
309.1
311.7
290
280
270
260
Y
2.線形関係(1)
250
240
230
220
260
270
280
出典:水野(2005)『テキスト計量経済学(第2版)』41ページ。
原データは、内閣府『国民経済計算年報 平成16年版』
290
300
310
320
X
家計可処分所得(X)を横軸に、家計消費支出(Y)を縦軸にとった散布図を
描くと、その点の集合は直線に近い関係が見られる。そこで、この2変量間
の関係をもっともよく表す式として、Y = a + bX という1次式を想定する。
この
b
Y
X
はXが1単位増加したときのYの増分であり、
限界消費性向といわれる。
3.線形関係(2)
• Xが原因で、Yが結果であるという因果関係が成り立っている場合、
散布図や経済理論からYとXの関係をなんらかの数式の形(回帰モ
デルという)で表し、分析をおこなう。
Y=a+bX
Y=a+bX2
3
2.5
2
1.5
1
0.5
• このYを被説明変数または従属変数、Xを説明変数または独立変数
という。
• 両者の関係がY = a + bX + cZというように被説明変数が説明変数
の1次の項と定数項の和の形で表現できるものを線形関係という。
20
18
16
14
12
10
8
6
4
X
2
20
18
16
14
12
10
8
6
4
0
2
0
20
18
16
14
12
10
8
6
4
X
Y=5/(X+2)のグラフ
Y
900
800
700
600
500
400
300
200
100
0
2
50
45
40
35
30
25
20
15
10
5
0
0
Y=5+2X 2のグラフ
Y
0
Y=5+2Xのグラフ
Y
Y=a/(X+b)
X
• しかし、散布図から導かれるYとXの関係は線形なものば
•
かりではない。
線形でない非線形な式は次の2つに分類できる。
– 線形な式に変換できるもの
– 線形な式に変換できないもの
• 線形な式に変換できるものの例として、次のような式が
ある。
Y  aX b
1
Y a b
X
• これらの式は対数変換し、変数の置き換えをおこなうこと
によって線形な式として取り扱える。
logY  log a  b log X
logY  log a  b log X
logY  Y 
log a  a
log X  X 
Y   a   bX 
Y   a   bX 
<弾力性>
• 被説明変数Yと説明変数Xを両方対数変換したもの回帰
係数bを考えると、
Y
 logY
b
 Y
 log X X
X
となり、この値は弾力性を表す。
• 弾力性とは、Xが1%増加したときにYが何%増加するか
を表す値である。
(例) X: 20(万円)→28(万円) (28-20)/20 = 0.4 すなわち40%増加
Y: 15(万円)→18(万円) (18-15)/15 = 0.2 すなわち20%増加
b=0.2/0.4=0.5 すなわち、Xが1%増加したとき、Yは0.5%増加する。
<数学的補足(1)>(初学者はとばしてください)
• 自然対数logについて
Y=logXとは、ある定数e(=2.718…)をX乗したものがYとなること。
eX=Yとあらわすことができる。
自然対数であること(eのかわりに10を用いたものを常用対数という)
を明確にするため、lnと表記することもある。
• logの計算規則
– log(XY) = logX + logY
– log(X/Y) = logX - logY
– log(Xa) = a logX
この計算規則をY=aXbに適用すると
logY  log a  log( X b )
 log a  b log X
<数学的補足(2)>(初学者はとばしてください)
• logの微分
logXをXで微分すると
d log X
1

dX
X
dX
d
log
X

となる。したがって、
である。
X
dY
d logY
 Y であることがわかる。
このことから
d log X dX
X
この値は X  0 としたときの、弾力性の極限の値であり、弾力性
の値に等しい。
4.撹乱項
• 2つの経済変数の動きを考えると、完全に直線の形にな
ることはまれである。
• 理由としては
– 説明変数以外の他の要因が考えられる。
– 人間の行動は理論どおりにいかない。
– 測定誤差の問題。
などが考えられる。
• これらのさまざまな理由を全て吸収したものを u という確
率変数で表して、Y = a + bX + u というモデルを考え
る。
• このuのことを撹乱項(または誤差項)とよぶ。
5.撹乱項の性質
• YとXのデータが1,2,…,n 年分あったとする。
• 撹乱項は、ある年のXに対する直線上の値と、実際のY
•
の値とのズレを確率変数としてあらわしたもの。
撹乱項もu1,u2,…,unというように、各X1,X2,…,Xnに対して
存在する。
年
1
2
Y
Y1
Y2
X
X1
X2
u
u1
u2
…
…
…
…
n
Yn
Xn
un
• 撹乱項の性質として
–
–
–
–
その分布が正規分布
平均値がゼロ
分散がσ2
撹乱項は相互に独立
un
u2
u1
という仮定がおかれる。
X1
X2
Xn
第2節 最小2乗法
1.記号の準備
母集団(個体数 N)
標本(個体数 n)
× ×
×
× ×
× ×
×
×
× × ×
Y  a  bX
Y  aˆ  bˆX
真の回帰関係
推定された回帰関係
回帰分析の第1目
標はパラメータa,b
の推定値を求める
ことである。
パラメータの推定
には、最小2乗法
が用いられる。
算術平均に関して
1
( X1   X n )
n
1
Y  (Y1  Yn )
n
X 
偏差を小文字で表す。
x1  ( X 1  X )

y1  (Y1  Y )

xn  ( X n  X )
yn  (Yn  Y )
偏差2乗和と偏差交差積の和は次のようになる。
S x2  x12    xn2
S y2  y12    yn2
S xy  x1 y1    xn yn
2.最小2乗法
• 推定値
aˆ , bˆ を用いて求められる Yˆ  aˆ  bˆX は推定された
回帰直線上の点である。この Yˆ のことを予測値(または
理論値)という。
• 実際のYから予測値を引いたものが残差であるが、この2
乗和が最小になるように aˆ , bˆ を定める方法が最小2乗法
である。
• 最小2乗パラメータ推定値は
S xy
ˆ
b 2
Sx
aˆ  Y  bˆX
である。
真の回帰直線と推定された回帰直線
(仮説例による)
280
240
200
160
120
真の回帰直線
推定された回帰直線
80
100
150
200
250
300
Y
推定された回帰式(その2)
真の回帰式 Y=a+bX
×
残差
推定された回帰式(その1)
残差=撹乱項の実現値の推定値
X
3.回帰線が原点を通るケース
• 経済理論などの制約により、回帰線が必ず原点を通ると
いうことを想定することがある。すなわち、X = 0 のとき、
Y = 0 となる。
• このときの回帰モデルはY = bX + u となるので、残差2
乗和Gは
2
2
G  (Y1  bˆX1 )   (Yn  bˆX n )
となるので、これを最小化する bˆ は、
X Y    X nYn
bˆ  1 12
X 1    X n2
である。
4.最小2乗推定量の性質
• 回帰係数の推定値
aˆ , bˆ を求める方法は、最小2乗法以
外にもいくつかの方法が存在する。
• しかし、最小2乗法によって求められた aˆ , bˆ は、他の推定
量よりすぐれた性質を持っている。どちらの推定量がすぐ
れているかを判断する基準として、
– 不偏性
– 一致性
– 効率性
というものがある。
(1) 不偏性
•
bˆ の算術平均が真の回帰係数bに一致するということ。す
なわち、 E(bˆ)  b となることである。
• 一般的に推定量tが不偏性を持つということは
E (t )  
が満たされることである。(θは母数)
(2) 一致性
• 一致性とは標本に含まれるデータを増やしたときに推定
量が母数に近づくということであり、この場合は bˆ が真の
回帰係数bに近づく。
(3) 効率性
•
bˆ1 , bˆ2 がともに推定量であったとすると、その中で分散が一
番小さい推定量が望ましいということ。
• bˆ1, bˆ2 がともに不偏推定量であり、
•
bˆ1の分散  bˆ2の分散
となるとき、 bˆ1 は bˆ2 より効率的であるという。
最小2乗推定量 bˆ はもっとも効率的な推定量である。
以上3つの性質を満たすことから、 bˆ は最小分散不偏推
定量である
(4) 線形性
• 最小2乗推定量 bˆ にはもう1つの重要な性質があり、それ
•
は線形性と呼ばれるものである。
線形性とは推定量がデータの線形結合で表現できること
であり、この場合は
bˆ  1Y1   nYn
と表現できることから、線形性が成り立っている。
3つの性質に加え、この線形性の性質を満たすことから、
最小2乗推定量は最良線形不偏推定量(Best Linear
Unbiased Estimator)であるといわれる。
5.決定係数
例1
X
• 右の表のような数値例を
例2
X
Y
10
8
13
9
11
14
6
4
12
7
5
考えてみよう。
• この2つの例に回帰分析
を適用すると、ともに
Y=3+0.5X という回帰直
線が導出される。
8.1
7.1
9.5
7.5
8.4
10
6
5
9
6.4
5.5
10
8
13
9
11
14
6
4
12
7
5
11
11
10
10
9
9
8
8
7
7
Y=3+0.5X
6
Y
Y=3+0.5X
6
5
9.3
8.3
8.2
7.5
7.1
10.7
6.7
5.7
9.7
5.1
4.2
5
4
4
3
6
9
12
15
3
6
9
12
15
• この2つの図を比べると、データに対する回帰直線のあては
•
•
まりが異なること(データが直線の近くに位置しているか、直
線から離れて位置しているか)がわかる。そのあてはまり具
合を数値で表したものが決定係数R2である。
この2つの例の、左はR2=0.998、右はR2=0.685となる(導出方
法は後述)。
決定係数は、
R2 
回帰によって説明され る変動
Yの全変動
と解釈することができ、0と1の間の値をとる。決定係数が1に
近いほど回帰直線のあてはまりはよく、決定係数の値が小さ
い場合(0.5とか0.6以下の場合)には、分析の妥当性を検討す
る必要がある。
• 具体的には、すべての点のYの平均の線を引き、各点と平均
の差の2乗和と、回帰直線上の点(予測値)と平均の差の2乗
和の比をとったものである。
— Yの平均の線
} 各点と平均の差、これの2乗和がY
11
10
9
8
7
6
5
4
3
6
9
12
15
これを変形すると R 2 
の全変動となる。
{ 回帰直線上の点(予測値)と平均の
差、この2乗和が回帰によって説明さ
れる変動となる。
この2つの比が決定係数R2となる。
決定係数の式は次のようになる。
ˆ  Y )2
(
Y

i
R2 
 (Yi  Y ) 2
( S xy ) 2
SxS y
となる。
もう少し詳細にみてみよう
Yi  Y  (Yi  Yˆi )  (Yˆi  Y )
となるので、Yの全変動は
(Y1  Y ) 2    (Yn  Y ) 2  {(Y1  Yˆ1 )  (Yˆ1  Y )}2    {(Yn  Yˆn )  (Yˆn  Y )}2
 {(Y  Yˆ ) 2    (Y  Yˆ ) 2 }  {(Yˆ  Y ) 2    (Yˆ  Y ) 2 }
1
1
n
n
1
 2{(Y1  Yˆ1 )(Yˆ1  Y )    (Yn  Yˆn )(Yˆn  Y )}
となる。ところで、
Yˆi  aˆ  bˆX i , aˆ  Y  bˆX
となることから、 Yˆi  Y  bˆ( X i  X ) となる。よって、
(Yi  Y  bˆ( X i  X ))(Y  bˆ( X i  X )  Y )  ( yi  bˆxi )bˆxi  bˆ( xi yi  bˆxi2 )
となる。Yの全変動の3番目の項は、
bˆ{( x1 y1    xn yn )  bˆ( x12    xn2 )}
x y    xn y n 2
2
 bˆ{( x1 y1    xn yn )  1 12
(
x



x
1
n )}  0
2
x1    xn
n
となる。よって、Yの全変動は
(Y1  Y )2   (Yn  Y )2  {(Y1  Yˆ1 )2   (Yn  Yˆn )2}  {(Yˆ1  Y )2   (Yˆn  Y )2}
回帰で説明されない部分
回帰で説明される部分
に分解される。決定係数は
R2 
であるが、
回帰によって説明され る変動
Yの全変動
(Yˆ1  Y ) 2    (Yˆn  Y ) 2
R 
(Y1  Y ) 2    (Yn  Y ) 2
(bˆx1 ) 2    (bˆxn ) 2

y12    yn2
bˆ 2 ( x12    xn2 )

y12    yn2
2
( x1 y1    xn yn ) 2 ( x12    xn2 )
{
} 2
2
2
( x1    xn )
y1    yn2
( S xy ) 2
( x1 y1    xn yn ) 2
 2

( x1    xn2 )( y12    yn2 ) S x2 S y2
となる。
<相関係数>
• 決定係数の平方根をとると、
S xy
( x1 y1    xn yn ) 2
R

( x12    xn2 )( y12    yn2 )
S x2 S y2
となる。これを相関係数という。
• 相関係数は-1と1の間の値をとり、次のような関係を表している。
正の相関(R>0)
負の相関(R<0)
無相関(R=0)
•Xが大きな値をと
るほど、Yも大きな
値をとる。
•Xが大きな値をと
るほど、Yは小さな
値をとる。
•Xの値とYの値に
一定の傾向がみら
れない。
6.検定
• 回帰係数の推定値
aˆ , bˆ を、最小2乗法によって求めるこ
とは、計算式に当てはめれば簡単に求めることができる。
• しかし、定数項や説明変数が回帰式の中で本当に意味
を持つものであるかどうか、検定する必要がある。
• 良くおこなわれる検定は次の2つである。
1 H0: a=0 vs. H1: a≠0 の検定
定数項が0であるかどうかの検定。
H0が成り立つとき、X=0の時のYは0となる。この場合、回帰線は
原点を通る。
消費関数でH0が成り立てば、所得が0の時の消費は0となる。こ
の検定は経済理論の検証の場合が多い。
2 H0: b=0 vs. H1: b≠0 の検定
Y=a+bXにおいてH0: b=0 が成立した場合、この回帰式はY=a
となる。
この式は、「Yの大きさはXの値にかかわらず一定値aをとる」と
いうことを表している。
回帰分析は、Xの大きさが大きくなることが原因となってYが大
きくなる(または小さくなる)ときに行う分析であるので、 H0が採
択された場合には、「この分析は行う意味がなかった」ということ
になってしまう。
Y
Y= a
a
X
<検定統計量>
• 検定をおこなう場合に撹乱項の分散σ2が必要となるが、この値はわか
らないので残差からその推定量を考える。
e12    en2
s 
n2
2
この推定量を用いて、
t
bˆ  b
s 2 ( x12    xn2 )
を考えると、tは自由度n-2のt分布に従う。H0: b=0の検定にはこの検
定統計量を用いればよい。
• またH0: a=0 の検定には
t
aˆ  a
1
X2
s (  2
)
n x1    xn2
2
が自由度n-2のt分布に従うという性質を用いればよい。