第2章 確率と確率分布

重回帰分析入門
(第5章補足)
統計学 2007年度
a) 重回帰分析とは
所得と消費との間に、
Y(消費) = a + b X(所得)
↑
結果
↑
原因
という因果関係が存在することを、ケインズが提唱した。
これは、
消費額の大小は、所得の大小が原因となっている。
ということである。
(例) 毎月のバイト代収入が5万円の人と、3万円の人では、一般的に5万
円の人のほうが多く使うことができる。
しかし、消費額の大小を決定する原因は所得だけでよいであろうか?
(例) 毎月のバイト代収入が5万円の人と、3万円の人では、一般的に5万
円の人のほうが多く使うことができる。
ここで、毎月のバイト代が5万円の人が2人いたとしよう。その2人のう
ち1人は貯蓄が0円、もう1人は100万円の貯蓄があったとする。
この2人の所得は等しい。なので、消費額は同じぐらいになるはずで
あるが、100万円の貯蓄がある人は、その貯蓄を崩して消費することも可
能である。
すなわち、消費額の大小は、所得だけでなく、資産(預貯金以外に、
株式などを含めたもの)の大小によって決定されるのではないであろう
か?
Y(消費) = a + b X(所得) + c W(資産)
↑
結果
↑
原因1
† このようなモデルはトービンによって提唱された
↑
原因2
•
説明変数が複数ある回帰モデルのことを重回帰モデルとい
い、重回帰モデルを用いた分析のことを重回帰分析という。
(説明変数が1つのモデルは単回帰モデル(または単純回帰モデル)と
いい、単回帰モデルを用いた分析のことを単回帰分析(または単純
回帰分析)という)
•
重回帰モデルは次のような式で表される。
1. Y = a + bX + cW + dZ + ・・・
2. Y = a + b1X1 + b2X2 + b3X3 + ・・・
(説明変数とその係数を添え字つきの変数で表したもの)
3. Y = b0 + b1X1 + b2X2 + b3X3 + ・・・
(上の式の定数の部分も添え字つきの表現をしたもの)
•
重回帰モデルの中には説明変数が多数のモデルもあるの
で、別々のアルファベットで表現するには不十分となり、添
え字つきの変数で表現されることがある。
b) 3変数(説明変数が2つ)の場合の重回帰モデル
Y
3変数の場合には回帰直線ではなく、
回帰平面になる。
W
×
×
×
この場合、最小2乗法は各点と回帰平
面との垂直方向の距離(これが残差)
の2乗和が最小になるように平面を描く
ことである。
×
回帰平面 Y=a+bX+cW
最小2乗法で求めた回帰平面の係数推
定値は次のようになる。
X
aˆ  Y  bˆX  cˆW
 ( X  X )(Y  Y ) (W  W )   ( X  X )(W  W ) (W  W )(Y  Y )
 ( X  X )  (W  W )  ( ( X  X )(W  W ))
 (W  W )(Y  Y ) ( X  X )   ( X  X )(W  W ) ( X  X )(Y  Y )
cˆ 
 ( X  X )  (W  W )  ( ( X  X )(W  W ))
bˆ 
2
2
2
2
2
2
2
2
c) 自由度修正済み決定係数
• 単回帰分析において、回帰モデルのあてはまり具合の尺度
として決定係数を紹介した。
• 重回帰分析においても、決定係数は回帰モデルのあてはま
り具合の尺度となる。
• しかし、決定係数には次のような欠点がある。
決定係数は、説明変数の数を増やせば増やすほど、
説明変数と被説明変数の間に因果関係が見られな
くても1に近づく
すなわち、Y(消費)=a+bX(所得)+cW というモデルの変
数Wに、全く関係ないデータ(たとえば、阪神タイガースの順
位のデータとか、交通事故死亡者数のデータとか)を用いて
も、単回帰モデルより決定係数が1に近づく。
• そこで、決定係数に説明変数の数を考慮して修正を加えた、
自由度修正済み決定係数が用いられる。
• 自由度修正済み決定係数は次のように定義される。
R 2  1
残差の分散
Yの分散
ただし、
e12    en2
残差の分散 
nk
k: 変数の数
(Y1  Y ) 2    (Yn  Y ) 2
Yの分散 
n 1
である。
• 自由度修正済み決定係数と決定係数には、次のような関係
がある。
R 2  1
n 1
(1  R 2 )
nk
• 自由度修正済み決定係数 R 2 は負の値をとることもある。
(例) n=4, k=3,R2=0.5 のとき
4 1
R  1
(1  0.5)  1  3  0.5  0.5
43
2
• 自由度修正済み決定係数は、説明変数の数が異なる複
数のモデルで、どちらのモデルが回帰のあてはまりが良
いかを判断するときなどに用いられる。
• たとえば消費関数において、
Y(消費)  a  bX(所得)
Y(消費)  a  bX(所得)  cW(資産)
のいずれのモデルが良いかを判断するためには、決定係
数ではなく、自由度修正済み決定係数が有効である。
d) 仮説検定
• 重回帰分析においても、個々の回帰係数についての仮説検
定をおこない、それぞれの変数が回帰モデルに含まれるべき
かどうかを検討する。
(Y=a+bX+cWというモデルであれば、 H0: b=0 vs. H1: b≠0 の検定と、
H0: c=0 vs. H1: c≠0 の検定をおこなう)
• 重回帰モデルの場合は、複数の回帰係数が同時に0である
という検定もおこなうことが可能である。
• すなわち、 H0: b=c=0 という検定仮説の検定である。(対立
仮説は簡単に表現できない。各自考えてみよ)
• この場合、検定統計量がF分布にしたがうので、それを用い
た検定をおこなう。