回帰分析入門

回帰分析入門
経済データ解析 2006年度
2変量データの記述(1)
2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。
2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述
2変量データの記述(2)
2変量の関係
(例)英語の点数が高い人は数学の点数も高い
(例)数学の点数が高い人は社会の点数が低い
⇒ 1つの変量Xが変化したときに、それにともなってYがど
のように変化するか
2変量の関係の表現方法
数値的表現-相関係数
視覚的表現-散布図
この2つの表現には関連性がある
2変量の関係の記述(1)
相関係数
R

 ( X  X )(Y  Y ) (定義式)
 ( X  X )  (Y  Y )
n XY  ( X )(  Y )
(計算式)
{n X  ( X ) }{n Y  ( Y ) }
2
2
2
2
2
2
相関係数Rは-1と1の間の値をとる。
– R>0 正の相関
– R<0 負の相関
– R=0 無相関
2変量の関係の記述(2)
散布図
正の相関(R>0)
負の相関(R<0)
無相関(R=0)
•Xが大きな値を
とるほど、Yも大
きな値をとる。
•Xが大きな値を
とるほど、Yは小
さな値をとる。
•Xの値とYの値
に一定の傾向が
みられない。
相関関係と因果関係
相関関係
– 双方向的な関係
(例)英語の点数が高い⇔数学の点数が高い
因果関係
– 一方が原因となって、もう一方が結果となる関
係。原因と結果を反対にすることはできない。
(例)所得が高い(原因)⇒消費が多い(結果)
因果関係の例
※ 風が吹くと桶屋が儲かる
風が吹くと砂ぼこりが立つ
→ 砂ぼこりで目を痛めて失明する人が増える
→ 失明した人はよく三味線を弾くのでその需要が増える
→ 三味線には猫の皮を張るので猫が捕獲されて数が減る
→ するとねずみが増えるので桶がたくさんかじられる
→ だから桶屋が儲かる
風が吹く(原因) ⇒ 桶屋が儲かる(結果)
経済理論はこのような因果関係の積み重ねである。
(例) 「利子率を下げると消費が拡大し、需要が喚起される」
このような論理の積み重ねによって、経済の現状把握・予測
をおこなうことを定性的分析という。
これから一歩踏み込んで、
「利子率を○%下げると消費が拡大し、○○円程度の需要が喚起される」
というように、数量的な把握をするものが定量的分析である。
このような定量的分析をおこなうために、統計データが用い
られる。
(例) 風速○メートルの風が吹けば、失明する人が○人増えて (中略)
桶屋が○○円儲かる。
統計データを用いた定量的分析のことを、計量分析
という。経済分析における計量分析が計量経済分
析である。
計量経済分析をおこなうことによって、経済理論が
現実経済に合致しているかどうかのチェックをおこ
なうことができる。
因果関係の定量的分析には回帰分析という統計手
法がよく用いられる。
回帰分析(1)
因果関係の分析に最適な統計的方法
Xが原因で、Yが結果であるという因果関係が成り立って
いる場合、数式の形(回帰モデルという)で表し、分析をお
こなう。
回帰モデルの例
(どのような式が最適かは、散布図や経済理論などから総合的に判断
される)
Y=α+βX
Y=α+βX2
Y=α/(X+β)
Xを独立変数(説明変数)とよび、Yを従属変数(被説明変数)とよぶ。
回帰分析(2)
所得と消費の例では、散布図や経済理論から
Y=α+βX という直線の関係が最適であると示
唆される。
回帰分析の第1目標 → α,β(これらを回帰係
数とよぶ)の推定値を求めること。
所得と消費
300
280
消費
260
240
220
200
180
160
200
220
240
260
280
所得
300
320
340
回帰係数の推定値
回帰係数の推定値は最小2乗法という方法で求めることがで
きる。
最小2乗法はデータの各点と直線との距離(これを残差とい
う)の2乗和が最小となるように直線を引く方法である。
推定値は次のような式
で求められる。
11
10
9
8
b
7
6
n XY   X  Y
n X 2  ( X ) 2
X  Y   X  XY

a
n X  ( X )
2
5
2
4
3
6
9
12
15
2
予測値と残差
あるXに対応する直線上の点を予測値(または理論値)といい、
であらわす。
Yˆ
予測値は、すべてのデータが推定された回帰直線上にある
とした場合に、あるXに対応したYの値であり、データとして現
有していないXに対するYの値の予測となる。
11
Y
Yˆ
残差はYから Yˆ を引い
たものである。
10
9
8
7
6
5
4
3
6
9
12
15
決定係数
決定係数は回帰モデルのあてはまり具合を示す尺度
である。次のような数値例を考えてみよう。
例1
X
例2
X
Y
10
8
13
9
11
14
6
4
12
7
5
8.1
7.1
9.5
7.5
8.4
10
6
5
9
6.4
5.5
Y
10
8
13
9
11
14
6
4
12
7
5
9.3
8.3
8.2
7.5
7.1
10.7
6.7
5.7
9.7
5.1
4.2
この2つの例に回帰分析を適用すると、ともに
Y=3+0.5X という回帰直線が導出される。ところで、
散布図に回帰直線を書き入れたものが下図である。
11
11
10
10
9
9
8
8
7
7
6
6
5
5
4
3
6
9
12
15
4
3
6
9
12
15
この2つの図を比べると、データに対する回帰直線
のあてはまりが異なることがわかる。それを数値で
表したものが決定係数R2 であり、左はR2=0.998、右
はR2=0.685である。
決定係数は、
回帰によって説明され る変動
R 
Yの全変動
と解釈することができ、0と1の間の値をとる。決定係
数が1に近いほど回帰直線のあてはまりはよく、決
定係数の値が小さい場合(0.5とか0.6以下の場合)に
は、分析の妥当性を検討する必要がある。
2
具体的には、すべての点のYの平均の線を引き、各
点と平均の差の2乗和と、回帰直線上の点(予測値)
と平均の差の2乗和の比をとったものである。
11
10
9
8
7
6
5
4
3
6
9
12
15
Yの平均の線
各点と平均の差、これの2乗和がY
の全変動となる。
回帰直線上の点(予測値)と平均の
差、この2乗和が回帰によって説明さ
れる変動となる。
この2つの比が決定係数R2となる。
決定係数の式は次のようになる。
R
2
(Yˆ  Y )


 (Y  Y )
2
2