回帰分析入門

回帰分析入門
経済データ解析 2009年度
このスライドの内容
2変量データの記述
2変量データの記述には、それぞれ1変量データを記述することに
加え、2変量間の関係の記述が含まれる。2変量間の関係を数値で
表す相関係数と、グラフで表す散布図を紹介する。
因果関係と計量経済分析
経済2変量間に因果関係が見られる場合、その定量的な分析をお
こなうことが計量経済分析である。
回帰分析
計量経済分析によく用いられる統計分析手法である、回帰分析の
簡単な紹介をおこなう。
2変量データの記述
2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。
2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述
2変量の関係
(例)英語の点数が高い人は数学の点数も高い
(例)数学の点数が高い人は社会の点数が低い
⇒ 1つの変量Xが変化したときに、それにともなってYがど
のように変化するか
2変量の関係の表現方法
数値的表現-相関係数
視覚的表現-散布図
この2つの表現には関連性がある
2変量の関係の数値的表現
相関係数
R


 ( X  X )(Y Y ) (定義式)
 ( X  X )  (Y Y )
n  X Y  ( X )( Y )
{n  X  ( X ) }{n Y  (Y
2
2
2
2
2
(計算式)
2
)}
相関係数Rは-1と1の間の値をとる。
– R>0 正の相関
– R<0 負の相関
– R=0 無相関
2変量の関係の視覚的表現
散布図
正の相関(R>0)
負の相関(R<0)
無相関(R=0)
•Xが大きな値を
とるほど、Yも大
きな値をとる。
•Xが大きな値を
とるほど、Yは小
さな値をとる。
•Xの値とYの値
に一定の傾向が
みられない。
相関関係と因果関係
相関関係
– 双方向的な関係
(例)英語の点数が高い⇔数学の点数が高い
因果関係
– 一方が原因となって、もう一方が結果となる関
係。原因と結果を反対にすることはできない。
(例)所得が高い(原因)⇒消費が多い(結果)
所得と消費の関係は相関関係だけではなく、所得を原因、
消費を結果とする因果関係が成り立っている。
– 所得が多くなれば(原因) → 消費も多くなる(結果)
– 所得が少なくなれば(原因) → 消費も少なくなる(結果)
相関関係
因果関係
因果関係の例
※ 風が吹くと桶屋が儲かる
風が吹くと砂ぼこりが立つ
→ 砂ぼこりで目を痛めて失明する人が増える
→ 失明した人はよく三味線を弾くのでその需要が増える
→ 三味線には猫の皮を張るので猫が捕獲されて数が減る
→ するとねずみが増えるので桶がたくさんかじられる
→ だから桶屋が儲かる
いくつもの因果関係が連鎖したもの。
最終的には
風が吹く(原因) ⇒ 桶屋が儲かる(結果)
となる。
経済理論はこのような因果関係の積み重ねである。
(例) 「利子率を下げると消費が拡大し、需要が喚起される」
このような論理の積み重ねによって、経済の現状把握・予測
をおこなうことを定性的分析という。
これから一歩踏み込んで、
「利子率を○%下げると消費が拡大し、○○円程度の需要が喚起される」
というように、数量的な把握をするものが定量的分析である。
このような定量的分析をおこなうために、統計データが用い
られる。
(例) 風速○メートルの風が吹けば、失明する人が○人増えて (中略)
桶屋が○○円儲かる。
統計データを用いた定量的分析のことを、計量分析
という。経済分析における計量分析が計量経済分
析である。
計量経済分析をおこなうことによって、経済理論が
現実経済に合致しているかどうかのチェックをおこ
なうことができる。
因果関係の定量的分析には回帰分析という統計手
法がよく用いられる。
回帰分析
回帰分析は、因果関係の定量的分析に最適な統計的方法である。
Xが原因で、Yが結果であるという因果関係が成り立っている場合、数
式の形(回帰モデルという)で表し、分析をおこなう。
回帰モデルの例
(どのような式が最適かは、散布図や経済理論などから総合的に判断される)
Y=a+bX2
Y=a+bX
3
2.5
2
1.5
1
0.5
Xを独立変数(説明変数)とよび、Yを従属変数(被説明変数)とよぶ。
20
18
16
14
12
10
8
6
4
X
2
20
18
16
14
12
8
10
6
4
0
2
0
20
18
16
14
12
10
8
6
4
X
Y =5/(X +2)のグラフ
Y
900
800
700
600
500
400
300
200
100
0
2
50
45
40
35
30
25
20
15
10
5
0
0
Y =5+2X 2のグラフ
Y
0
Y =5+2X のグラフ
Y
Y=a/(X+b)
X
所得と消費の例では、散布図や経済理論から
Y=α+βX という直線の関係が最適であると示
唆される。
回帰分析の第1目標 → α,β(これらを回帰係
数とよぶ)の推定値を求めること
⇒ この推定値を求めることによって、所得が変化したと
きに、消費がどの程度の大きさになるかを推定できる。
所得と消費
300
280
消費
260
240
Y=α+βX
220
200
180
160
200
220
240
260
280
所得
300
320
340
回帰係数の推定値
回帰係数の推定値は最小2乗法という方法で求めることがで
きる。
最小2乗法はデータの各点と直線との距離(これを残差とい
う)の2乗和が最小となるように直線を引く方法である。
推定値は次のような式
で求められる。
11
10
9
8
b
7
6
n XY   X  Y
n X 2  ( X ) 2
X  Y   X  XY

a
n X  ( X )
2
5
2
4
3
6
9
12
15
2
予測値と残差
あるXに対応する直線上の点を予測値(または理論値)といい、
であらわす。
Yˆ
予測値は、すべてのデータが推定された回帰直線上にある
とした場合に、あるXに対応したYの値であり、データとして現
有していないXに対するYの値の予測となる。
11
Y
Yˆ
残差はYから Yˆ を引い
たものである。
10
9
8
7
6
5
4
3
6
9
12
15
所得と消費
300
280
260
消費
係数推定値として、
b=0.945
a=-23.21
という結果が得られたとする。
これは、回帰直線の方程式
Yˆ
(ただし、推定されたもの)
が、
Y = -23.21 + 0.945 X
であることを表している。
240
220
Y=-23.21
+0.945X
200
180
160
200
220
240
260
280
所得
X=250のとき、
Y = -23.21 + 0.945 × 250 = 213.04
から、Yの予測値(理論値)は213.04となる。
X=350のとき、
Y = -23.21 + 0.945 × 350 = 307.54
から、Yの予測値(理論値)は307.54となる。
300
320
340
決定係数
決定係数は回帰モデルのあてはまり具合を示す尺度
である。次のような数値例を考えてみよう。
例1
X
例2
X
Y
10
8
13
9
11
14
6
4
12
7
5
8.1
7.1
9.5
7.5
8.4
10
6
5
9
6.4
5.5
Y
10
8
13
9
11
14
6
4
12
7
5
9.3
8.3
8.2
7.5
7.1
10.7
6.7
5.7
9.7
5.1
4.2
この2つの例に回帰分析を適用すると、ともに
Y=3+0.5X という回帰直線が導出される。ところで、
散布図に回帰直線を書き入れたものが下図である。
11
11
10
10
9
9
8
8
7
7
6
6
5
5
4
3
6
9
12
15
4
3
6
9
12
15
この2つの図を比べると、データに対する回帰直線のあては
まりが異なることがわかる。それを数値で表したものが決定
係数R2であり、左はR2=0.998、右はR2=0.685である。
決定係数は、
R2 
回帰によって説明され る変動
Yの全変動
と解釈することができ、0と1の間の値をとる。決定係数が1に
近いほど回帰直線のあてはまりはよく、決定係数の値が小さ
い場合(0.5とか0.6以下の場合)には、分析の妥当性を検討す
る必要がある。
具体的には、すべての点のYの平均の線を引き、各点と平均
の差の2乗和と、回帰直線上の点(予測値)と平均の差の2乗
和の比をとったものである。
11
10
9
8
7
6
5
4
3
6
9
12
15
— Yの平均の線
} 各点と平均の差、これの2乗和がY
の全変動となる。
{ 回帰直線上の点(予測値)と平均の
差、この2乗和が回帰によって説明さ
れる変動となる。
この2つの比が決定係数R2となる。
決定係数の式は次のようになる。
R
2
(Yˆ  Y )


 (Y  Y )
2
2