相関と回帰 - 専修大学ホームページはこちら

相関と回帰
専修大学経済学部
「経済統計学」
作間逸雄
多変数のデータ
• いままでは、1変数データの記述(平均・分散・標準
偏差・ヒストグラム等々)、分析。
• このパワーポイントでは多変数(多変量)のデータ
を記述、分析することを考える。
変数
個体名
所持金(円)
通学時間(分) サークル
ゼミ
A
2521
70
1
1
B
918
40
1
1
C
30062
100
1
1
D
15321
30
0
0
E
9771
90
0
0
F
1550
70
0
0
レコード
2変数データを記号であらわす
record1
X 1 , Y1
record 2
X 2 , Y2
record 3
X 3 , Y3
n
x1  X 1  X ,
y1  Y1  Y
小文字は、「偏差」をあらわす。
n
 X , Y
i 1
i
i 1
i
n
X,
Y
x
i 1
i
 0,
n
y
i 1
i
散布図
Y
X
相関係数のアイディア
Y
 xy  0
0
 xy-
+
Y
-
+
X
X
散布図を4区画にわけ、 x y  ( X  X )(Y  Y )
i i
i
i
相関係数のアイディア
Y
負の相関(逆相関)
-
正の相関(順相関)
+
Y
-
+
X
X
 xy  ( X  X )(Y  Y ) の正負によって上図の+領域にある
相関係数のアイディア
n
• 共分散
比較せよ!
• 分散(nで割
る算式)
• (参考)変動
• 標準偏差
s XY 
(X
i 1
i
 X )(Yi  Y )
n
データのスケールや単位に依存する!
n
sX 2 
2
(
X

X
)
 i
i 1
n
n
2
(
X

X
)
 i
i 1
n
sX 
2
(
X

X
)
 i
i 1
n
相関係数のアイディア(続)
• 相関係数とは、2つの変数が直線的にどの程度関
連しているかを示す尺度。
• スケールや単位に依存する共分散(sXY)を標準偏
差の積(sXsY)でわると、スケールや単位の取り方
から自由な尺度を作ることができる。
n
rXY
s XY


s X sY
x y
i 1
n
 xi

(X
i 1
i
i
n
2
i 1
n
i
2
y
 i
i 1
 X )(Yi  Y )
n
 (Xi  X )
n
2
2
(
Y

Y
)
 i
相関係数の性質
1  rXY  1
証明はあとまわし!
1に近いほど正の相関が強く、ー1に近いほど
負の相関が強い。
0に近いと相関が弱い。
回帰
Y
-
+
Y
-
+
X
X
回帰
• 回帰(regression)
• 生物統計学者であり、「優生学」の創始者、フランシ
ス・ゴールトン(F.Galton,1822-1911)の着想によ
る。
• ゴールトンは次のようなことを主張した。たとえば、
背の高い親を持つ子の身長は親ほどには高くない。
逆に、背の低い親を持つ子の身長は親ほどには低
くない。このように、集団平均からのずれの著しい親
の子は親よりずれが小さくなる傾向がある。第2世
代は平均の方向にもどってゆく(子の回帰)。このよ
うな先祖返りが「回帰」と呼ばれた。
回帰直線
子
の
身
長
Y
直線の傾きが集団遺
伝学上の「回帰」。
回帰bが0<b<1であ
ることがゴールトンの
主張
子の平均
からのず
れ
Y
親の
平均
からの
ずれ
X
親の身長
X
統計学上の「回帰」
• 現在の統計学では、2変数データ(一般に多変数
データ)に関数関係をあてはめることを「回帰」と呼
ぶ。
• 経済学でも、消費関数C=a+bYの推計等、さまざ
まな分野で使われる。
• 関数における「独立変数」(…を決めれば)、「従属
変数」(…が決まる)の区別に対応するのが「説明変
数」、「被説明変数」。ただし、若干意味がちがう。
• たとえば、C=a+bY+cY2の場合、独立変数はY
だが、説明変数は、YとY2である。
どうやって回帰直線をひくか?
最小二乗法OLS
Y
データ点と回帰直線との垂直距
離の2乗の合計を最小にしよう!
X
n
Z   (Yi  a  bX i ) 2  最小
未知数はa、bである。
i 1
n
Z
 0よ り 、 2(Yi  a  bX i )  0
a
i 1
n
Z
 0よ り 、 2 X i (Yi  a  bX i )  0
b
i 1
整理し て、
n
n
 Y  na  b X
i
i
i 1
n
n
 X Y  a X
i 1
i i
i 1
i
n
2

b
X

i
i
回帰直線は、(Xの平均、Y
の平均)の点を通る。
i 1
こ の2 つの式を 「 正規方程式」 と いう 。 正規方程式を 解いて、
aと bを 求める 。
上式は次のよ う に整理でき る 。
Y  a  bX
X
i
 nXに注意し 、a  Y  bX を 正規方程式の2 番目の式に代入する 。
n
n
i 1
i 1
2
X
Y

(
Y

bX
)
nX

b
X
 ii
 i
n
n
i 1
i 1
2
2
X
Y

nXY

b
(
X

nX
)
 ii
 i
n
n
i 1
i 1
2
(
X

X
)(
Y

Y
)

b
(
X

X
)
 i
 i
i
or
n
n
i 1
i 1
2
x
y

b
x
ii i
n
b 
(X
i 1
i
 X )(Yi  Y )
n
(X
i 1
i
 X )2
n

x y
i 1
n
i
i
x
i 1
i
2
相関係数の幾何学的解釈
x 
y 
x   1  , y   1 を 変数の偏差を
 x2 
 y2 
あ ら わすベク ト ルと する 。
x
x2
x y
余弦定理によ り 、
| x  y |2 | x |2  | y |2 2 | x || y | cos 
y2
y
θ
( x1  y1 ) 2  ( x2  y2 ) 2  ( x12  x2 2 )  ( y12  y2 2 )
 2 x12  x2 2 y12  y2 2 cos 
2 x1 y1  2 x2 y2  2 x12  x2 2 y12  y2 2 cos 
x1
2データの場合、この図はあ
りない!偏差ベクトルの要素
の符号は、たとえば、正、負
のようになるはず。
y1
 cos  
x1 y1  x2 y2
x  x2
2
1
2
y1  y2
2
2

sxy
sx s y
 rxy
余弦定理の復習
C
b
a
θ
A
c
P
B
三平方の定理によ り 、
2
2
2
2
b 2  CP  AP
a 2  CP  BP
2
 a 2  (b 2  AP )  (c  AP) 2
 (b 2  b 2 cos 2  )  (c  b cos  ) 2
 (b 2  b 2 cos 2  )  (c 2  b 2 cos 2   2bc cos  )
 b 2  c 2  2bc cos 
残差分散の分解による方法
最小二乗法は、 残差2 乗和を 最小にする から 、 残差分散を 最小にする と 考えても 同じ であ る 。
1 n 2 1 n
se   ei   (Yi  a  bX i ) 2
n i 1
n i 1
1
  (Yi  Y  Y  a  bX i  bX  bX ) 2
n
1
  {(Yi  Y )  (Y  a  bX )  b( X i  X )}2
n
2
1
1
1
  (Yi  Y )  (Y  a  bX ) 2  b 2  ( X i  X ) 2  2b (Yi  Y )( X i  X )
n
n
n
2
2
2
2
 sY  (Y  a  bX )  b s X  2bs XY
2
 sY 2  (Y  a  bX ) 2  s X 2 (b 2  2b
s XY
)
sX 2
s XY s XY 2 s XY 2
 sY  (Y  a  bX )  s X (b  2b 2  4 )  2
sX
sX
sX
2
2
2
2
s XY 2 s XY 2
 (Y  a  bX )  s X (b  2 )  2  sY 2
sX
sX
2
2
し たがっ て、 Y  a  bX 、 かつb 
s XY
のと き 、 残差分散は、 最小値を と る 。
sX 2
s XY 2
そのと き の、 残差分散の値は、 se  sY  2 。
sX
2
2
回帰計算のワークシート
国名
インド
インドネシア
カンボジャ
タイ
ベトナム
フィリピン
マレーシア
エジプト
ケニア
モロッコ
合計
平均
X
Y
530
810
310
2,190
480
1,080
3,640
1,530
340
1,180
x
y
x^2
y^2
55
18
43
6
9
5
16
56
24
64
1人当たりGNI( X) 米ドル表示 2001年 ユニセフ資料
女性成人非識字率(Y) % 2000年 ユニセフ資料
xy
回帰計算のワークシート(続)
国名
インド
インドネシア
カンボジャ
タイ
ベトナム
フィリピン
マレーシア
エジプト
ケニア
モロッコ
合計
平均
X
Y
530
810
310
2,190
480
1,080
3,640
1,530
340
1,180
12090
1209
x
55
18
43
6
9
5
16
56
24
64
296
29.6
y
-679
-399
-899
981
-729
-129
2431
321
-869
-29
0
25.4
-11.6
13.4
-23.6
-20.6
-24.6
-13.6
26.4
-5.6
34.4
0
x^2
y^2
xy
461041
645.16 -17246.6
159201
134.56
4628.4
808201
179.56 -12046.6
962361
556.96 -23151.6
531441
424.36 15017.4
16641
605.16
3173.4
5909761
184.96 -33061.6
103041
696.96
8474.4
755161
31.36
4866.4
841 1183.36
-997.6
9707690
4642.4
-50344
決定係数
• どんな散布図でも、回帰直線は引けてしまう。
• あてはまりのよさの尺度がほしい。それが決
定係数である。直感的に、それは、相関係数
と密接な関係にある。
Yˆi  a  bX iと する 。
ei  Yi  Yˆiは、 「 残差」 と 呼ばれる 。 決定係数の導出の準備と し て、
正規方程式によ っ て、 残差について、 次の式が成り 立つこ と に注意する 。
( Y  a  bX )   e  0
 X (Y  a  bX )   X e   x e
i
i
i
i
i
i
i i
i i
0
n
以上の準備のも と で、 全変動 (Yi  Y ) 2を 分解する 。
i 1
n
n
 (Y  Y )   (Y Yˆ  Yˆ  Y )
2
i 1
i
i 1
i
i
2
i
  (Yi Yˆi ) 2   (Yˆi  Y ) 2  2 (Yˆi  Y )(Yi  Yˆi )
  ei 2  b 2  ( X i  X ) 2  2b ( X i  X )ei
こ こ で、 右辺第2 項、 第3 項について、
Yˆ  Y  (a  bX )  (a  bX )  b( X  X )の関係を 使っ ている 。
i
i
i
第3 項は、 0 であ る こ と がわかっ ている から 、 結局、
次のよ う な全変動の分解ができ る 。
2
2
2
2
(
Y

Y
)

e

b
(
X

X
)
 i
i
 i
全変動の分解
 (Y  Y )   e
2
i
i
2
 b2  ( X i  X )2
について、 右辺第2 項は、 全変動中、 回帰によ っ て説明でき る 部分であ る 。
回帰によ っ て説明でき る 変動
を 決定係数と いう 。
全変動
2
e
 i は、 残差2 乗和と 呼ぶこ と ができ る ので、
R2 
1  R2 
残差2 乗和
 0よ り 、1  R 2  0
全変動
決定係数と相関係数との関係
2
2
2
2
2
b
(
X

X
)
b
s

i
X
決定係数R 2 
=
2
2
(
Y

Y
)
s
 i
Y
 R2  r 2
ま た、 0  R 2  1だから 、 -1  r  1
 s XY  2
 2  sX
2
s
(
s
)
  X 2
 XY
sY
s X 2 sY 2
※内閣府男女共同参画局編『少子化と男女共同
参画に関する社会環境の国際比較報告書』(国立
印刷局、2005年) の5頁に同じものがある。
合計特殊出生率(TFR)とは?
• ふつう、「出生率」といえば、これ。
• 女性が出産可能な年齢を15歳から49歳までと規定
し、それぞれの出生率を出し、足し合わせることで、
人口構成の偏りを排除し、一人の女性が一生に産
む子どもの数の平均を求めたもの。
• ある年において、f(x)を「年齢xの女性が一年間に産
んだ子どもの数」、g(x)を「年齢xの女性の数」とする
と、その年の合計特殊出生率は
• 「特殊」とは、「年齢を特定した」意味にとればよいだ
合計特殊出生率の計算
合計特殊出生率(TFR)とは?
• TFR=Total Fertility Rate
• 合計特殊出生率がおよそ2( 2.08 人口置換
水準)であれば人口は横ばいを示し、これを
上回れば自然増、下回れば自然減となる。
• 1990年の「1.57ショック」以降、少子化対策が
政府の重要課題となっている。
世界の合計特殊出生率
合計特殊出生率の推移
相関分析・回帰分析の注意点
• 相関分析を行うこと、回帰直線をひくことは、2つの
変数の間に因果関係が存在することを示すもので
はない。原因・結果は、分析者がモデルの中で構想
するものである。
共通の第三変数
• みかけの相関(疑似相関) が影響
• 「コウノトリの数が多いところでは(夫婦)の子供の数
も多い!」
• 都市化
コウノトリの減少
出生率の低下
横断面vs時系列
スウェーデンの奇跡
スウェーデン・モデルの失敗
線形回帰の範囲は広い(1)
関数をあてはめるといっても、これまでは、その関
数は、1次関数に限られていた。線形回帰である。
しかし、線形回帰の範囲は広い。
流動性選好の場合
 1 
r  a  b

L

L
*


r : 利子率
L : 貨幣量
この部分をXと変
換すれば、線形回
帰の範囲内。
L* : 貨幣に対する 取引需要( 既知)
重回帰
• 単回帰(単純回帰)が定数項のほか、説明変数が1
つしかない回帰であるのに対して、重回帰は、定数
項のほか、説明変数2つ以上の回帰である。
• 消費関数の推計でも、(可処分)所得以外に、たと
えば、前期の消費を説明変数にとり入れる可能性
がある。
C  5.04  0.659Y  0.280C1
• 最小二乗法の考え方は、単回帰の場合と同じ。
修正決定係数
• 重回帰の場合、決定係数については、要注意。
• 説明変数をふやしてゆくと、決定係数は自動的に
増加する。あてはまりのよさを誇張して示してしま
う。
• そこで、決定係数を修正して使う。それが修正済
み決定係数あるいは自由度調整済み決定係数
である。
R2

n
R2 
Yˆ  Y
i 1
n

 Y  Y 
i 1
n
2
、 書き 換え て R 2 
n
 Y  Y   e
2
i
i 1
2
i
i 1
n
 Y  Y 
2
i
2
i
i 1
すな わち、
n
1  R2  1 
e
i 1
n
2
i
 Y  Y 
2
i
i 1
こ の式を 「 自由度」 を 用いて、 次のよ う に修正する 。
こ こ で、 kは、 説明変数の数であ る 。
n
e
i 1
1 R2 
2
n
e
i
2
n  k 1  R 2  1 n 1
i 1
n
n
2
2
n  k 1
Y

Y
Y

Y
 i 
 i 
i 1
n 1
n 1
R2  1
(1  R 2 )
n  k 1
i
i 1
重相関と偏相関
• 重相関係数Rは決定係数R2の平方根である。
• 重相関係数は説明変数全体と被説明変数と
の関係の強さを示す。
• 説明変数一つ一つと被説明変数との関係の
強さを測るのが偏相関係数。
• X0, X1, X2の3変数データの場合、 X0とX1を
X2に対して回帰させたときの残差をX0・2およ
びX1・2と書く。この両者の相関係数を偏相関
係数と呼ぶ。
偏相関係数の計算
• ふつうの相関係数(単純相関係数)がわかってい
れば、偏相関係数は、次式から計算できる(証明
は略)。
R01  R02 R12
R01 2 
(1  R022 )(1  R122 )
R01 2は、 X 2を 一定と し たと き の X 0と X 1と の偏相関係数。
R01は、 X 0と X 1と の単純相関係数、
R02は、 X 0と X 2と の単純相関係数、
R12は、 X 1と X 2と の単純相関係数であ る 。
回帰の推測統計的側面
• 記述統計としての回帰(平均や分散を計算するのと同
じように、データを整理する作業である!)
• 整理の仕方が回帰式
Yi  a  bX i  ei
を使っていて複雑だっただけ。
• ここでは、推測統計としての回帰を考える。そのなか
で、検定という統計的推測の手法を説明してみよう。
• 母集団(=現実の経済)がどうなっているかをモデル
として思い描く。実際に得られたデータによって、その
モデルが支持されるかどうかをテストするわけである。
標準線形回帰モデル
• まず、次のような標準線形回帰モデルが母
集団に妥当すると仮定する。
説明変数は、確率
変数ではない。
被説明変数
説明変数
Yi     X i   i
i  1, , n
確率変数
誤差項
標準線形回帰モデル(2)
• モデルは、データが生み出される構造。
• たとえば、Xが原因であり、Yが結果であると
いう因果関係が分析者の頭の中で想定され
ている。
• 誤差項がつくことに関しては、2通りの説明が
ある。1)測定誤差 2)説明変数以外の要因
の影響の総和
標準線形回帰モデル(3)
――誤差項に関する仮定――
E ( i )  0
var( i )   2、 すなわち、 分散一定。
 iは互いに独立。
し たがっ て、 i  jについてcov(  i , j ) =0、
さ ら に、 「 標準正規線形回帰モデル」 では、
i
N (0,  2 )
以上の仮定のも と に、
最小二乗法で計算さ れた a, bについて、
E (a)   , E (b)  


2 1
var(a)    
n
n


X2
 , var(b) 
( X  X )2 
2
n
( X  X )2
標準線形回帰モデル(4)
n
s2 
e
i 1
2
i
, E (s 2 )   2
n  k 1
すなわち、 s 2は、  2の不偏推定量であ る 。
その平方根sは、 「 ( 回帰) 方程式の標準誤差」 と 呼ばれる 。
var(a )と var(b)の式中にあ る  2を こ の s 2で置き 換えて、
それら の推定量を 得る 。
その平方根が切片と 回帰係数の推定量aと bのも つ分布
すなわち標本分布の標準偏差の推定量sa , sbと なる 。
kは説明変数の数
それを 具体的に計算し たも のが「 標準誤差」 と 呼ばれる も のであ る 。
n-k-1は自由度ともいう。
回帰モデルの仮説検定(1)
――t検定――
• 「t値」(t-value)は、最小二乗法によって推定された
回帰係数(や切片)が「有意である」かどうかを判定
するために用いられる統計量である。
• 「有意である」とは、回帰係数が統計学的にゼロで
ないと判定されることである。
• そのため、「検定」の手法が用いられる。「検定」で
は、「帰無仮説」が設定され、それがテストされる。
• β=0という仮説が設定される。それがテストの結果、
だめだということになれば(「棄却」されれば)、β≠0、
つまり、説明変数は被説明変数に「有意に」影響を
与えているということになる。
回帰モデルの仮説検定(2)
――t検定――
• 標準正規線形回帰モデルのもとで、
(b-β)/sbは、自由度n-k-1のt分布に従うこと
が知られている。
• 帰無仮説(β=0)のもとでのtの値b/sbをt値
またはt比という。たとえば、tがある大きな値
t1をとるとき、t分布表を使って、tがそのよう
な値あるいはさらに大きな値を取る確率
P(|t|≧|t1|)を計算できる。
回帰モデルの仮説検定(3)
――t検定――
• その確率(P値)があまりに小さければ、帰無
仮説は疑わしいことになるであろう。
• 仮説検定では、「有意水準」と呼ばれる確率
をあらかじめ(5%とか1%とか)定めておいて、
その確率とうえの確率を比較する。そのさい、
t分布表で臨界値を調べておくとよい。
• 有意水準は、分析者が判定ミスを犯す確率で
もある。
回帰モデルの仮説検定(3)
――t検定――
•
•
•
•
めやすは、t値>2.0。
仮説検定には、両側検定と片側検定がある。
どちらを選ぶかは、「対立仮説」の問題。
重回帰モデルの検定には、t検定以外に、複
数の回帰係数をまとめて検定するF検定があ
る。
• もし、t値が小さい場合、多重共線性(「マルチ
コ」)の危険がある。
回帰結果のあらわし方
賃金関数1965-80年についての神代
和欣(かずよし)氏の推計
春季賃上げ率=-32.909 + 9.974(有効求人倍率) X
(-4.76)
(7.62)
Y
+0.766(消費者物価上昇率:全国)
(9.07)
+29.176(卸売物価相対比:工業製品/原材料)
(4.28)
Z
R  0.958
S  1.34
D.W .  2.98
2
たとえば、
150/120
=1.25
重回帰の例と回帰結果の表し方
• データ
Water Companies
Profit (million pounds),
2005-06
Leakage(million liters per
day),2004-05
Capital Expenditure,
2005-10
Seven Trent
412
502
2200
United Utilities
481
500
2500
Yorkshire
224
293
1450
Northumbrian
217
222
839
Anglican
108
214
1460
Southern
100
92
1560
South West
175
83
762
83
73
755
Wessex
相関行列
相関行列
Leakage
(million
liters per
day),200405
Capital
Profit (million
Expenditure,
pounds),
2005-10
2005-06
Leakage(million liters per day),2004-05
1.0000
Capital Expenditure, 2005-10
0.8584
1.0000
Profit (million pounds), 2005-06
0.9338
0.7858
1.0000
重回帰の結果(被説明変数=利潤
説明変数=漏水量、資本支出)
重回帰式
変数名
Leakage(million liters per day),2004-05
Capital Expenditure, 2005-10
定数項
偏回帰係数
T 値
P 値
0.831952982
3.1726
0.0247
-0.013559322
0.1938
38.73122355
0.6430
判 定
*
標準誤差
偏相関
単相関
0.2622325
0.8174
0.9338
0.8540
0.0699753
-0.0863
0.7858
0.5486
60.239608
*5%有意 **1%有意
重回帰結果
精度
決定係数
0.8730
修正済決定係数
0.8222
重相関係数
0.9344
修正済重相関係数
0.9068
ダービンワトソン比
2.4409
赤池のAIC
93.0394