スライド

平成 27 年度経済統計分析入門
第 6 回 「 2 次元データの整理」 .
原 尚幸
.
新潟大・経済
http://www.econ.niigata-u.ac.jp/˜hara/G-stat/
[email protected]
H. Hara (Niigata U.)
2 次元データの整理
May 27, 2015
1 / 18
2 次元データの整理
これまで 1 次元データの分布と特性値を学習
家賃, ビッグマック価格, GDP etc...
ここでは 2 次元データを扱う
各都道府県の (大卒率, 平均月収)
各国の (GDP, 人口増加率),
各年の (消費者物価指数, 為替レート )
etc..
変数間の関係の有無, 強弱を視覚的, 定量的に
とらえる手法を学ぶ
散布図
共分散
相関係数
H. Hara (Niigata U.)
2 次元データの整理
May 27, 2015
2 / 18
記法
2 次元データが n 個得られているとする
n 個の組を
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
とあらわす
各都道府県の (大卒率, 平均月収)
各国の (GDP, 人口増加率),
各年の (消費者物価指数, 為替レート ), etc..
データの種類ごとに
x = (x1 , x2 , . . . , xn ),
y = (y1 , y2 , . . . , yn )
ともあらわす
H. Hara (Niigata U.)
2 次元データの整理
May 27, 2015
3 / 18
散布図
2 次元データを平面上にプロットした図
(例) 都道府県別男性の大卒率と平均月収
x 軸:大卒率 (2010 年国勢調査)
y 軸:平均月収 (2010 年賃金構造基本統計調査報告)
350
大卒率が高 (低) ければ
月収も高 (低) い傾向
分布が右上がり
300
average salary
400
大卒率と平均月収は比例的
大卒率と月収は正の相関を持つと
いう
0.15
0.20
0.25
0.30
percentage of collage grad
H. Hara (Niigata U.)
2 次元データの整理
May 27, 2015
4 / 18
散布図
2 次元データを平面上にプロットした図
(例) 世界の一人当たり GDP と人口増加率の関係
データ:World Bank のデータ (2009 年)
貧しい国ほど人口増加率が高いのでは?
0.15
横軸:対数一人当 GDP
人口増加率の外れ値が 3 国
0.05
アラブ首長国連邦, カタール
バーレーン
外国人労働者の流入が主原因
0.00
Population growth rate
0.10
縦軸:人口増加率
5
6
7
8
9
log(GDP per capita)
H. Hara (Niigata U.)
10
11
12
今回の分析の目的からすると外れ値
⇒ ここではこの 3ヶ国を除去
2 次元データの整理
May 27, 2015
5 / 18
散布図
2 次元データを平面上にプロットした図
(例) 世界の一人当たり GDP と人口増加率の関係
データ:World Bank のデータ (2009 年)
貧しい国ほど人口増加率が高いのでは?
0.05
横軸:対数一人当 GDP
0.03
一人当 GDP と人口増加率は反比例
0.01
0.02
一人当 GDP が高 (低) ければ
人口増加率も高 (低) い傾向
0.00
分布が右下がり
−0.01
Population growth rate
0.04
縦軸:人口増加率
5
6
7
8
9
10
11
12
x と y は負の相関を持つという
log(GDP per capita)
H. Hara (Niigata U.)
2 次元データの整理
May 27, 2015
5 / 18
共分散
共分散
データ x = (x1 , . . . , xn ), y = (y1 , . . . , yn ) に対し
1∑
(xi − x¯)(yi − y¯)
n i=1
n
Sxy =
.
を x と y の共分散という
相関関係の定量化指標
Sxy = Syx
x と y が正の相関 ⇔ Sxy > 0
x と y が負の相関 ⇔ Sxy < 0
x = y のときは x = y の分散
H. Hara (Niigata U.)
2 次元データの整理
.
May 27, 2015
6 / 18
共分散と相関の正負
350
300
average salary
400
大卒率 (x) と平均月収 (y)
0.15
0.20
0.25
percentage of collage grad
H. Hara (Niigata U.)
0.30
x1 − x¯, . . . , xn − x¯ を
y1 − y¯, . . . , yn − y¯ に対してプロット
正の相関がある
⇒ xi − x¯ > 0 だと yi − y¯ > 0
xi − x¯ < 0 だと yi − y¯ < 0
の傾向が強い
⇒ 第 1, 3 象限にデータが集まる
の傾向が強い
⇒ (xi − x¯)(yi − y¯) > 0 になる
の傾向が強い
⇒ Sxy = 1.248 > 0
2 次元データの整理
May 27, 2015
7 / 18
共分散と相関の正負
−100
−50
0
50
100
大卒率 (x) と平均月収 (y)
−0.10
−0.05
0.00
H. Hara (Niigata U.)
0.05
0.10
x1 − x¯, . . . , xn − x¯ を
y1 − y¯, . . . , yn − y¯ に対してプロット
正の相関がある
⇒ xi − x¯ > 0 だと yi − y¯ > 0
xi − x¯ < 0 だと yi − y¯ < 0
の傾向が強い
⇒ 第 1, 3 象限にデータが集まる
の傾向が強い
⇒ (xi − x¯)(yi − y¯) > 0 になる
の傾向が強い
⇒ Sxy = 1.248 > 0
2 次元データの整理
May 27, 2015
7 / 18
共分散と相関の正負
−100
−50
0
50
100
大卒率 (x) と平均月収 (y)
−0.10
−0.05
0.00
H. Hara (Niigata U.)
0.05
0.10
x1 − x¯, . . . , xn − x¯ を
y1 − y¯, . . . , yn − y¯ に対してプロット
正の相関がある
⇒ xi − x¯ > 0 だと yi − y¯ > 0
xi − x¯ < 0 だと yi − y¯ < 0
の傾向が強い
⇒ 第 1, 3 象限にデータが集まる
の傾向が強い
⇒ (xi − x¯)(yi − y¯) > 0 になる
の傾向が強い
⇒ Sxy = 1.248 > 0
2 次元データの整理
May 27, 2015
7 / 18
0.03
0.02
0.01
0.00
−0.01
Population growth rate
0.04
0.05
共分散と相関の正負
5
6
7
8
9
log(GDP per capita)
H. Hara (Niigata U.)
10
11
12
GDP (x) と人口増加率 (y)
x1 − x¯, . . . , xn − x¯ を
y1 − y¯, . . . , yn − y¯ に対してプロット
負の相関がある
⇒ xi − x¯ > 0 だと yi − y¯ < 0
xi − x¯ < 0 だと yi − y¯ > 0
の傾向が強い
⇒ 第 2, 4 象限にデータが集まる
傾向が強い
⇒ (xi − x¯)(yi − y¯) < 0 になる
傾向が強い
⇒ Sxy = −0.00460 < 0
2 次元データの整理
May 27, 2015
8 / 18
−0.03
−0.02
−0.01
0.00
0.01
0.02
0.03
共分散と相関の正負
−2
0
H. Hara (Niigata U.)
2
GDP (x) と人口増加率 (y)
x1 − x¯, . . . , xn − x¯ を
y1 − y¯, . . . , yn − y¯ に対してプロット
負の相関がある
⇒ xi − x¯ > 0 だと yi − y¯ < 0
xi − x¯ < 0 だと yi − y¯ > 0
の傾向が強い
⇒ 第 2, 4 象限にデータが集まる
傾向が強い
⇒ (xi − x¯)(yi − y¯) < 0 になる
傾向が強い
⇒ Sxy = −0.00460 < 0
2 次元データの整理
May 27, 2015
8 / 18
−0.03
−0.02
−0.01
0.00
0.01
0.02
0.03
共分散と相関の正負
−2
0
H. Hara (Niigata U.)
2
GDP (x) と人口増加率 (y)
x1 − x¯, . . . , xn − x¯ を
y1 − y¯, . . . , yn − y¯ に対してプロット
負の相関がある
⇒ xi − x¯ > 0 だと yi − y¯ < 0
xi − x¯ < 0 だと yi − y¯ > 0
の傾向が強い
⇒ 第 2, 4 象限にデータが集まる
傾向が強い
⇒ (xi − x¯)(yi − y¯) < 0 になる
傾向が強い
⇒ Sxy = −0.00460 < 0
2 次元データの整理
May 27, 2015
8 / 18
共分散の性質
データ x の各要素を a 倍したものを z とおく
z = (z1 , . . . , zn ) = (ax1 , . . . , axn )
z と y の共分散は
1∑
=
(zi − z¯)(yi − y¯)
n i=1
n
Szy
1∑
a(xi − x¯)(yi − y¯)
n i=1
n
=
= aSxy
値が大きければ相関が強いというわけではない
相関の強さの指標としては不適切
単位を変えても相関関係は変わらない
H. Hara (Niigata U.)
2 次元データの整理
May 27, 2015
9 / 18
相関係数
相関係数
データ x = (x1 , . . . , xn ), y = (y1 , . . . , yn ) に対し , Sx , Sy を
それぞれ x, y の標準偏差, Sxy を x, y の共分散とする.
そのとき,
Sxy
rxy =
Sx Sy
.
を x と y の相関係数という
相関関係の定量化指標
Sxy = Syx
x と y が正の相関 ⇔ Sxy > 0 ⇔ rxy > 0
x と y が負の相関 ⇔ Sxy < 0 ⇔ rxy < 0
H. Hara (Niigata U.)
2 次元データの整理
.
May 27, 2015
10 / 18
相関係数の性質
xi の基準化変数
xi − x¯
yi − y¯
と yi の基準化変数
の共分散
Sx
Sy
−1 ≤ rxy ≤ 1
z = (z1 , . . . , zn ) = (ax1 , . . . , axn ) のとき rzy = rxy
rxy の絶対値が大きいほど相関関係が強いと解釈する
yi = axi + b とすると
a > 0 のとき rxy = 1
a < 0 のとき rxy = −1
H. Hara (Niigata U.)
2 次元データの整理
May 27, 2015
11 / 18
相関係数
国別 GDP と人口増加率
−100
−0.03
−50
−0.02
−0.01
0
0.00
0.01
50
0.02
100
0.03
都道府県別大卒率と平均
月収
−2
−0.10
−0.05
0.00
0.05
2
rxy = −0.168
rxy = 0.831
H. Hara (Niigata U.)
0
0.10
2 次元データの整理
May 27, 2015
12 / 18
クラスの大きさと教育効果の関係
興味
700
.
小さいクラスは教育効果を上げるか?
660
640
データ
加州の小学校 420 校の
620
Test Score
680
テスト スコアと教師一人あたりの
生徒数 (STR:student-teacher
ratio) は負の相関を持つか?
14
16
18
20
22
24
26
STR
カリフォルニア州の 420 校の
テスト スコアと生徒 / 教師比
(STR)
H. Hara (Niigata U.)
縦軸:統一テスト の平均点
..
横軸:STR
共分散・相関係数
Sxy = −8.159, rxy = −0.226
2 次元データの整理
May 27, 2015
13 / 18
たばこの値段と需要量の関係
興味
5.2
.
たばこ税は喫煙を抑制するか?
4.6
4.8
価格と消費量には負の相関があるか?
4.2
4.4
データ
米国 48 州の’85 年と ’95 年における
..(対数) 一人当売上箱数
縦軸:
4.0
Packages per capita
5.0
価格が上がれば消費量が減るか?
4.8
5.0
5.2
5.4
5.6
5.8
6.0
Price
米国 48 州のたばこの平均価
格と一人当たりの売上げ箱数
(1985 年と 1995 年)
H. Hara (Niigata U.)
横軸:(対数) 税込価格
※ 米国は州によってたばこ税が異なる
共分散・相関係数
Sxy = −0.0532, rxy = −0.686
2 次元データの整理
May 27, 2015
14 / 18
因果関係と相関係数 (雑談)
通常の経済理論によれば・
・
・
円高 (ド ル安)
⇒ 輸入品物価の下落
⇒ 国産品の物価も下落
円高 (ド ル安) ⇔ 円 / ド ルレート は小
円 / ド ルレート と消費者物価指数は正の相関を持つだろう
H. Hara (Niigata U.)
2 次元データの整理
May 27, 2015
15 / 18
因果関係と相関係数 (雑談)
ところが・
・
・
90
100
1972 年∼2004 年の円 /ド ルレート
と消費者物価指数 (CPI) の関係
70
50
60
相関係数 = −0.901
⇒ 強い負の相関??
40
CPI
80
横軸:円 / ド ルレート
縦軸:CPI
理論が誤りなのか??
100
150
200
250
300
Yen/US dollar rate
H. Hara (Niigata U.)
2 次元データの整理
May 27, 2015
16 / 18
因果関係と相関係数 (雑談)
物価は円 /ド ルレート 以外の要因にも依存して決定している
賃金率
100
100
60
wage rate
80
70
CPI
40
50
40
60
70
40
50
60
CPI
80
80
90
90
100
賃金率と物価は正の相関
賃金率と円 / ド ルレート は負の相関
100
150
200
250
300
Yen/US dollar rate
x : 円 / ド ル , y : CPI
相関係数 = −0.901
H. Hara (Niigata U.)
40
60
80
100
wage rate
x : 賃金率, y : CPI
相関係数 = 0.984
2 次元データの整理
100
150
200
250
300
Yen/US dollar rate
x : 円 / ド ル , y : 賃金率
相関係数 = −0.933
May 27, 2015
17 / 18
因果関係と相関係数 (雑談)
物価は円 /ド ルレート による
物価は賃金率にもよる
円 /ド ルレート は賃金率を介しても物価に影響する
円 /ド ルレートが下落 (円高に傾く)
1
2
直接的には物価を下げる効果
賃金が上昇 ⇒ 物価も上昇
円 /ド ルレート と CPI は負の相関
直接的な効果より賃金を介した
間接的な効果の方が大きい
.
因果関係の正負と相関関係の正負は
.
必ずしも符合しないので注意が必要
H. Hara (Niigata U.)
2 次元データの整理
May 27, 2015
18 / 18
.