保険・年金論(第3回) リスクプーリング

統計基礎(第14回)
単回帰、多重回帰分析
早稲田大学大学院商学研究科
2015年7月15日
大塚忠義
1
回帰分析:平均への回帰
実験回数が増える
と平均に近づく
・・大数の法則、中
心極限定理
メンデルのもう一つの発
見である平均への回帰
美男美女の子供は
ハンサムか?
・・No
平均へ回帰する
2
回帰分析(1)
2変数X,Yのデータがあるとき回帰方程式
を用いて、XとYの関係を定量的に表す
モデル:確率変数を用いて、YをXで説明す
る:Xの値によってYが定まる確率(=説明
力=決定係数)が存在する
2変数X,Yの組合せの標本に対して、XとY
の因果関係を決定係数を用いて定量的に
表す
Y=aX+b:線形回帰
3
回帰分析(2)
Y=aX+b+ε
ε :誤差項、測定誤差:確率変数で正規
分布にしたがう
⇒Yも正規分布に従う確率分布となる
a,b を母数として、標本として得られたすべ
てのx、yを上記の関係式で示すことができ
る
4
散布図
5
回帰分析(3)
XによってYが一意に定まる方程式とは、Y
が生起する確率を示すことで決定的に異
なる
相関関係はXとYが同時に発生する確率が
存在するが、因果関係を示すことはない
6
回帰分析(4)
Y: 説明される変数:従属変数、被説明変
数、内生変数
X: 説明する変数:独立変数、説明変数、外
生変数
X: 単回帰:1つの外生変数
X1 , , X n :重回帰:複数の外生変数、各外
生変数は独立であることが望ましい。少な
くとも強い相関があってはならない
7
最小二乗法(1)
Y=aX+b:回帰方程式の母数a,b を定める
手法
Yi  aX i  b   i
 i  Yi  (aX i  b)
S    i   (Yi  (aX i  b))
2
2
Sを最小にする a , b 標本値をもとに算出
し、その値をa,b の推定量とする
⇒線形偏微分方程式の解を求める
8
最小二乗法(2)
a : 傾き
b : 切片
 i  Yi  (aX i  b) :残差:標本値と回帰式
による結果との差⇒回帰式で説明できな
い部分
2
S    i :残差二乗和:残差の分散
最小二乗法では、これを最小にする a , b を
定める

i
 0,   i xi  0
9
最小二乗法(3)
R 2 :決定係数:線形モデルの当てはまりの
良さを示す指標
2
 ( yi  y ) :全変動:被説明変数の標本分
散
全変動は、回帰式で説明できる変動部分
とできない変動部分がある
回帰式で説明できる部分が大きい=残差
二乗和が小さい
残差二乗和
=1-
全変動
10
11
最小二乗法(4)
R 2 :決定係数:1に近いほど説明係数の説
明力が大きい
通常0.66以上はほしい
0.5以下の場合:別の説明係数を探す
説明変数を複数にし重回帰分析を行う
12
決定係数(1)
R 2 :決定係数:線形モデルの当てはまりの
良さを示す指標
2
 ( yi  y ) :全変動:被説明変数の標本分
散:TSS: total squared deviation
全変動は、回帰式で説明できる変動部分
とできない変動部分がある
2
2
S    i   (Yi  (aX i  b)) 残差二乗和:
回帰式で説明できない変動:
RSS: residual sum of suqres
13
決定係数(2)
回帰式で説明できる部分が大きい=残差
二乗和が小さい
残差二乗和
𝑅𝑆𝑆
=1-
=1-
𝑇𝑆𝑆
全変動
14
決定係数(3)
R 2 :決定係数:1に近いほど説明係数の説
明力が大きい
通常0.66以上はほしい
0.5以下の場合:別の説明係数を探す
説明変数を複数にし重回帰分析を行う
15
回帰分析(7)
Y=aX+b:線形回帰
非線形回帰:線形でないもの
16
17
18
Y e
 aX b
19
20
回帰分析(8)
非線形回帰:線形でないもの
Y  aX
log Y  b log X  log a
b
Y  ab
log Y  log b  X  log a
x
 aX  b
Y e
log Y  aX  b
21
回帰分析(4)
クロスセッション
同時期に得られるX,Yの因果関係を調べる
売り上げに貢献する要素は何か?
価格、品質、営業担当者数、広告宣伝費
顧客の評判は、因果関係を形成しない
野球選手の打率に貢献する要素は?
X⇒YであったらY⇒Xは成立しない
この順番を考慮することが相関との差異
22
回帰分析(5)
時系列分析
異なった時期に得られる同一種のデータを
もとに、過去の実績で現在を説明する
将来推計を行う時に活用でする
昨年の中学1年生と今年の2年生の身長
の関係を調べ、来年の2年生の身長を見
込む
23
回帰分析(6)
コブダグラスの生産関数
生産額:GDP、投下資本:K、雇用者数:L
月平均労働時間H

GDP  AK ( LH )

log GDP  A   log K   log LH
24
回帰分析(7)
パネル分析
パネルと時系列の複合
将来のGDP, 失業率…
説明変数と被説明変数のタイムラグ:今年
の売上は昨年の設備投資と相関?
今年の家計消費は昨年の家計収入と相関
?
昨日の福岡、大阪の天気と今日の東京の
天気
25
多重回帰分析(1)
単回帰分析
2変数 X , Yのデータがあるとき回帰方程式
を用いて、
の関係を定量的に表す
Yi  aX i  b   i
多重回帰分析
多変数X1 , X n , Y のデータがあるとき回帰
方程式を用いて、
の関係を定量
的に表す
Yi  a1 X1i  a2 X 2i   an X ni  b   i
26
多重回帰分析(2)
Y  a1 X1  a2 X 2   an X n  b  
ε :誤差項、測定誤差:確率変数で正規
分布にしたがう
⇒Yも正規分布に従う確率分布となる
考え方は、単回帰の場合とまったく同じ
被説明変数Y:家計消費
説明変数:家計収入、貯蓄額、家族数、景
気動向
27
多重回帰分析(3)
X1 ,
, X n :重回帰:複数の外生変数、各外
生変数は独立であることが望ましい。少な
くとも強い相関があってはならない
社会現象のなかで候補となる説明変数は
、強い相関:従属関係になっているものが
多く存在する
28
Question?
お疲れ様でした
29