2001年度 経済統計処理講義内容

第3章 重回帰分析
ー 計量経済学 ー
第1節 3変数のケースの最小2乗法
1
2
3
4
3変数のケース
回帰線が原点を通るケース
重相関係数
自由度修正済み決定係数
第2節 t検定
1 検定の問題
第3節 重回帰に関連する諸概念
1 偏相関係数
第4節 4変数以上のケース
1 4変数のケース(偏微分を利用)
2 多変数のケース(行列を利用)
• 第2章で考えた、独立変数が1つの場合の単純
回帰分析では、経済モデルを分析する上で不十
分なことがある。
(例) 消費関数において、
Y=a+bX +cW
↑
↑
↑
消費 所得 資産
というように、説明変数を所得1つだけでなく、
資産などを含む複数考えることがある。
このような、説明変数が複数の回帰モデルを重
回帰モデルという。
第1節 3変数のケースの最小2乗法
1 3変数のケース
• 単回帰モデル
𝑌 = 𝑎 + 𝑏𝑋
– 𝑎, 𝑏の推定
– 決定係数R2
– 個々の係数について
t検定
• 重回帰モデル
𝑌 = 𝑎 + 𝑏𝑋 + 𝑐𝑊
– 𝑎, 𝑏, 𝑐の推定
– 決定係数R2(ただし
問題あり)
– 個々の係数について
t検定
<3変数の場合のパラメータ推定値>
3変数の場合には回帰直線ではなく回帰平面となる。
このとき、最小2乗法は空間上にある各点との垂直方向
の距離(これが残差となる)の2乗和が最小になるように
回帰平面 Y=a+bX+cW を描くことである。
Y
W
×
×
×
×
回帰平面 Y=a+bX+cW
X
パラメータ推定値は次のようになる。
ただし
𝑎 = 𝑌 − 𝑏𝑋 − 𝑐 𝑊
2 −𝑆 𝑆
𝑆𝑥𝑦 𝑆𝑤
𝑥𝑤 𝑤𝑦
𝑏= 2 2
𝑆𝑥 𝑆𝑤 − 𝑆𝑥𝑤 2
𝑆𝑤𝑦 𝑆𝑥2 − 𝑆𝑥𝑤 𝑆𝑥𝑦
𝑐= 2 2
𝑆𝑥 𝑆𝑤 − 𝑆𝑥𝑤 2
𝑆𝑥2 = 𝑥12 + ⋯ + 𝑥𝑛2
𝑆𝑦2 = 𝑦12 + ⋯ + 𝑦𝑛2
𝑆𝑧2 = 𝑧12 + ⋯ + 𝑧𝑛2
𝑆𝑥𝑦 = 𝑥1 𝑦1 + ⋯ + 𝑥𝑛 𝑦𝑛
𝑆𝑥𝑤 = 𝑥1 𝑤1 + ⋯ + 𝑥𝑛 𝑤𝑛
𝑆𝑤𝑦 = 𝑤1 𝑦1 + ⋯ + 𝑤𝑛 𝑦𝑛
これは残差2乗和を𝑎, 𝑏, 𝑐で偏微分し、それらを0とおい
たものを整理する。(別紙参照)
これから正規方程式といわれる次のような連立方程式
が得られる。
𝑌 = 𝑛𝑎 + 𝑏
𝑋𝑌 = 𝑎
𝑊𝑌 = 𝑎
𝑋+𝑐
𝑋+𝑏
𝑊+𝑏
𝑊
𝑋2 + 𝑐
𝑋𝑊 + 𝑐
𝑋𝑊
𝑊2
これを解いたものがパラメータ推定値
2 回帰線が原点を通るケース
Y = bX + cW+u
という、回帰平面が原点を通るモデルを考える。
このときの残差2乗和Gは
2
𝐺 = 𝑌1 − 𝑏𝑋1 − 𝑐𝑊1 + ⋯ + 𝑌𝑛 − 𝑏𝑋𝑛 − 𝑐𝑊𝑛
2
となるので、これを最小にするような 𝑏, 𝑐 をもとめる。(具体
的には 𝑏, 𝑐 で偏微分したものを0とおく)すると、次のような
正規方程式が得られる。
𝑋𝑌 = 𝑏
𝑋2 + 𝑐
𝑊𝑌 = 𝑏
𝑋𝑊 + 𝑐
𝑋𝑊
𝑊2
この方程式を解くと
𝑏=
𝑐=
となる。
𝑊 2 𝑋𝑌 − 𝑊𝑌 𝑋𝑊
𝑋2 𝑊 2 −
𝑋𝑊 2
𝑋 2 𝑊𝑌 − 𝑋𝑌 𝑋𝑊
𝑋2 𝑊 2 −
𝑋𝑊 2
3 重相関係数
• 決定係数は単純回帰の場合同様、次のように定義され
る。
回帰によって説明される変動
𝑌の全変動
2
𝑌𝑖 − 𝑌
=
𝑌𝑖 − 𝑌 2
𝑅2 =
この式を変形すると次のように表すことができる。
(別紙参照)
𝑅2 =
𝑏𝑆𝑥𝑦 + 𝑐𝑆𝑤𝑦
𝑆𝑦2
• 重相関係数はこの平方根をとった
𝑅=
𝑏𝑆𝑥𝑦 + 𝑐𝑆𝑤𝑦
𝑆𝑦2
であり、重回帰の場合には + の値しかとらない。
• 決定係数は説明変数の数を増やせば増やすほど、(そ
の説明変数が被説明変数に関係なくても)その値が1に
近づく
• ex2-5に次のデータを加えて重回帰分析をやってみよう。
1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
4
4
1
3
6
6
5
6
6
2
4
5
6
6
5
6
このデータは阪神タイガースのセリーグでの順位
6
6
6
4
4 自由度修正済み決定係数
• 決定係数に、説明変数の数を考慮して修正を加えたもの。
残差の分散
2
𝑅 =1−
𝑌の分散
ただし、
𝑒12 + ⋯ + 𝑒𝑛2
残差の分散 =
k: 変数の数
𝑛−𝑘
2
𝑌1 − 𝑌 + ⋯ + 𝑌𝑛 − 𝑌 2
𝑌の分散 =
𝑛−1
である。
• 自由度修正済み決定係数と決定係数には、次のような関係
がある。
𝑛−1
2
𝑅 =1−
1 − 𝑅2
𝑛−𝑘
<自由度修正済み決定係数の性質と使い方>
• 自由度修正済み決定係数𝑅2 は負の値をとることもある。
(例) n=4, k=3,R2=0.5 のとき
4−1
=1−
1 − 0.5 = 1 − 3 × 0.5 = −0.5
4−3
• 自由度修正済み決定係数は、説明変数の数が異なる複
数のモデルで、どちらのモデルが回帰のあてはまりが良
いかを判断するときなどに用いられる。
• たとえば消費関数において、
𝑅2
𝑌 消費 = 𝑎 + 𝑏𝑋 所得
𝑌(消費) = 𝑎 + 𝑏𝑋(所得) + 𝑐𝑊(資産)
のいずれのモデルが良いかを判断するためには、決定係
数ではなく、自由度修正済み決定係数が有効である。
第2節 t検定
1 検定の問題
• 自由度修正済み決定係数は、あくまでモデル全体のあて
•
はまりを示す指標である。個々の変数がモデルにおいて
意味を持つかどうかは、t検定が利用される。
標準誤差はそれぞれ次のようになる。
2 + 𝑊 2 𝑆 2 − 2𝑋 𝑊𝑆
1
𝑋 2 𝑆𝑤
𝑥
𝑥𝑤
=
+
2 − 𝑆
2
𝑛
𝑆𝑥2 𝑆𝑤
𝑥𝑤
2
𝑆
𝑤
2
𝑠𝑏2 = 2 2
𝑠
𝑆𝑥 𝑆𝑤 − 𝑆𝑥𝑤 2
2
𝑆
𝑥
2
𝑠𝑐2 = 2 2
𝑠
𝑆𝑥 𝑆𝑤 − 𝑆𝑥𝑤 2
𝑠𝑎2
𝑠2
ただし
2
2
𝑒
+
⋯
+
𝑒
𝑛
1
𝑠2 =
𝑛−3
たとえば「XがYに影響を及ぼしているか」を検定するため
には、H0: b=0 という帰無仮説を設定し、t検定をおこな
えば良い。
この場合の検定統計量は
𝑏−𝑏
𝑡𝑏 = 2
𝑠𝑏
となるが、帰無仮説が正しいと設定して𝑡𝑏 =
𝑏
𝑠𝑏2
の値を求
める。
この値と、自由度n-3のt0.95とを比較すれば良い。
第3節 重回帰に関連する諸概念
1 偏相関係数
相関が高い
X
Y
強い影響
W
YとXとの間の関係は「見せかけの相関」である。
YとXとの相関が本当はどの程度かを見るためには、他の
変数の影響を除いた偏相関係数で見る必要がある。
• YをWに対して回帰する。すると、
𝑌1 = 𝑎′ + 𝑐 ′ 𝑊1 + 𝑢1
⋮
𝑌𝑛 = 𝑎′ + 𝑐 ′ 𝑊𝑛 + 𝑢𝑛
Wの影響をとり除いた部分
Wの影響による部分
となる。同様にXをWに回帰すると、
𝑌1 = 𝑎′′ + 𝑐 ′′ 𝑊1 + 𝑢1
⋮
𝑌𝑛 = 𝑎′′ + 𝑐 ′′ 𝑊𝑛 + 𝑢𝑛
Wの影響による部分
となる。
Wの影響をとり除いた部分
• この2つの残差u1,・・・,unと v1,・・・,vnの相関係数が偏相
関係数である。偏相関係数は次のようになる。
𝑢1 𝑣1 + ⋯ + 𝑢𝑛 𝑣𝑛
𝑟𝑌𝑋・𝑊 =
𝑢12 + ⋯ + 𝑢𝑛2 𝑣12 + ⋯ + 𝑣𝑛2
• 偏相関係数はまた、各変数間の相関係数を用いて次の
ように表せる。
𝑟𝑌𝑋・𝑊 =
𝑟𝑌𝑋 − 𝑟𝑌𝑊 𝑟𝑋𝑊
2
2
1 − 𝑟𝑌𝑊
1 − 𝑟𝑋𝑊
rYX: YとXの相関係数
rYW: YとWの相関係数
rXW: XとWの相関係数
第4節 4変数以上のケース
1 4変数のケース(偏微分を利用)
4変数の場合、Y=a+bX+cW+dZというモデルになるが、
パラメータ推定値は、残差2乗和を最小にする。
残差2乗和Gは
𝐺 = 𝑌1 − 𝑏𝑋1 − 𝑐𝑊1 − 𝑑𝑍1
2
+ ⋯ + 𝑌𝑛 − 𝑏𝑋𝑛 − 𝑐𝑊𝑛 − 𝑑𝑍𝑛
2
となるので、これを 𝑎, 𝑏, 𝑐, 𝑑 で偏微分したものを0とおくこ
とによって、次のような正規方程式が得られる。
𝑌 = 𝑛𝑎 + 𝑏
𝑋𝑌 = 𝑎
𝑊𝑌 = 𝑎
𝑍𝑌 = 𝑎
𝑋+𝑐
𝑋+𝑏
𝑊+𝑏
𝑍+𝑏
𝑊+𝑑
𝑋2 + 𝑐
𝑋𝑊 + 𝑐
𝑋𝑍 + 𝑐
𝑍
𝑋𝑊 + 𝑑
𝑊2 + 𝑑
𝑊𝑍 + 𝑑
𝑋𝑍
𝑊𝑍
𝑍2
2 多変数のケース(行列を利用)
一般的なモデルとして、説明変数がm個のモデルを考える。
すなわち、 Y=a+b1X1+ ・・・ +bmXmというモデルである。
このモデルに撹乱項uを加えて、n年分を書くと次のように
なる。
𝑌1 = 𝑎 + 𝑏1 𝑋11 + ⋯ + 𝑏𝑚 𝑋𝑚1 + 𝑢1
⋮
𝑌𝑛 = 𝑎 + 𝑏1 𝑋1𝑛 + ⋯ + 𝑏𝑚 𝑋𝑚𝑛 + 𝑢𝑛
ここで、次のように行列とベクトルを定義する。
𝑎
𝑢1
1 𝑋11 ⋯ 𝑋𝑚1
𝑌1
𝑏1
𝐗= ⋮
,𝐘 = ⋮ ,𝐩 = ⋮ ,𝐮 = ⋮
⋮
𝑢𝑛
𝑌𝑛
1 𝑋1𝑛 ⋯ 𝑋𝑚𝑛
𝑏𝑚
よって、行列とベクトルを用いてあらわすと
𝐘 = 𝐗𝐩 + 𝐮
と表される。
パラメータ推定値、残差のベクトルを次のように表す。
𝐩=
𝑎
𝑒1
𝑏1
,𝐞 = ⋮
⋮
𝑒𝑛
𝑏𝑚
すると、
𝐘 = 𝐗𝐩 + 𝐞
となる。
残差2乗和Gは
となるので、
𝐆 = 𝐞′ 𝐞
𝐆 = 𝐘 − 𝐗𝐩 ′ 𝐘 − 𝐗𝐩
を最小にする 𝐩 を求める。 𝐩 で偏微分して整理すると、正
規方程式は
𝐗 ′ 𝐘 − 𝐗 ′ 𝐗𝐩 = 𝟎
これを 𝐩について解いたものがパラメータ推定値であり、
𝐩 = 𝐗 ′ 𝐗 −𝟏 𝐗 ′ 𝐘
である。