平成 27 年度経済統計分析入門 第 6 回 「 2 次元データの整理」 . 原 尚幸 . 新潟大・経済 http://www.econ.niigata-u.ac.jp/˜hara/G-stat/ [email protected] H. Hara (Niigata U.) 2 次元データの整理 May 27, 2015 1 / 18 2 次元データの整理 これまで 1 次元データの分布と特性値を学習 家賃, ビッグマック価格, GDP etc... ここでは 2 次元データを扱う 各都道府県の (大卒率, 平均月収) 各国の (GDP, 人口増加率), 各年の (消費者物価指数, 為替レート ) etc.. 変数間の関係の有無, 強弱を視覚的, 定量的に とらえる手法を学ぶ 散布図 共分散 相関係数 H. Hara (Niigata U.) 2 次元データの整理 May 27, 2015 2 / 18 記法 2 次元データが n 個得られているとする n 個の組を (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) とあらわす 各都道府県の (大卒率, 平均月収) 各国の (GDP, 人口増加率), 各年の (消費者物価指数, 為替レート ), etc.. データの種類ごとに x = (x1 , x2 , . . . , xn ), y = (y1 , y2 , . . . , yn ) ともあらわす H. Hara (Niigata U.) 2 次元データの整理 May 27, 2015 3 / 18 散布図 2 次元データを平面上にプロットした図 (例) 都道府県別男性の大卒率と平均月収 x 軸:大卒率 (2010 年国勢調査) y 軸:平均月収 (2010 年賃金構造基本統計調査報告) 350 大卒率が高 (低) ければ 月収も高 (低) い傾向 分布が右上がり 300 average salary 400 大卒率と平均月収は比例的 大卒率と月収は正の相関を持つと いう 0.15 0.20 0.25 0.30 percentage of collage grad H. Hara (Niigata U.) 2 次元データの整理 May 27, 2015 4 / 18 散布図 2 次元データを平面上にプロットした図 (例) 世界の一人当たり GDP と人口増加率の関係 データ:World Bank のデータ (2009 年) 貧しい国ほど人口増加率が高いのでは? 0.15 横軸:対数一人当 GDP 人口増加率の外れ値が 3 国 0.05 アラブ首長国連邦, カタール バーレーン 外国人労働者の流入が主原因 0.00 Population growth rate 0.10 縦軸:人口増加率 5 6 7 8 9 log(GDP per capita) H. Hara (Niigata U.) 10 11 12 今回の分析の目的からすると外れ値 ⇒ ここではこの 3ヶ国を除去 2 次元データの整理 May 27, 2015 5 / 18 散布図 2 次元データを平面上にプロットした図 (例) 世界の一人当たり GDP と人口増加率の関係 データ:World Bank のデータ (2009 年) 貧しい国ほど人口増加率が高いのでは? 0.05 横軸:対数一人当 GDP 0.03 一人当 GDP と人口増加率は反比例 0.01 0.02 一人当 GDP が高 (低) ければ 人口増加率も高 (低) い傾向 0.00 分布が右下がり −0.01 Population growth rate 0.04 縦軸:人口増加率 5 6 7 8 9 10 11 12 x と y は負の相関を持つという log(GDP per capita) H. Hara (Niigata U.) 2 次元データの整理 May 27, 2015 5 / 18 共分散 共分散 データ x = (x1 , . . . , xn ), y = (y1 , . . . , yn ) に対し 1∑ (xi − x¯)(yi − y¯) n i=1 n Sxy = . を x と y の共分散という 相関関係の定量化指標 Sxy = Syx x と y が正の相関 ⇔ Sxy > 0 x と y が負の相関 ⇔ Sxy < 0 x = y のときは x = y の分散 H. Hara (Niigata U.) 2 次元データの整理 . May 27, 2015 6 / 18 共分散と相関の正負 350 300 average salary 400 大卒率 (x) と平均月収 (y) 0.15 0.20 0.25 percentage of collage grad H. Hara (Niigata U.) 0.30 x1 − x¯, . . . , xn − x¯ を y1 − y¯, . . . , yn − y¯ に対してプロット 正の相関がある ⇒ xi − x¯ > 0 だと yi − y¯ > 0 xi − x¯ < 0 だと yi − y¯ < 0 の傾向が強い ⇒ 第 1, 3 象限にデータが集まる の傾向が強い ⇒ (xi − x¯)(yi − y¯) > 0 になる の傾向が強い ⇒ Sxy = 1.248 > 0 2 次元データの整理 May 27, 2015 7 / 18 共分散と相関の正負 −100 −50 0 50 100 大卒率 (x) と平均月収 (y) −0.10 −0.05 0.00 H. Hara (Niigata U.) 0.05 0.10 x1 − x¯, . . . , xn − x¯ を y1 − y¯, . . . , yn − y¯ に対してプロット 正の相関がある ⇒ xi − x¯ > 0 だと yi − y¯ > 0 xi − x¯ < 0 だと yi − y¯ < 0 の傾向が強い ⇒ 第 1, 3 象限にデータが集まる の傾向が強い ⇒ (xi − x¯)(yi − y¯) > 0 になる の傾向が強い ⇒ Sxy = 1.248 > 0 2 次元データの整理 May 27, 2015 7 / 18 共分散と相関の正負 −100 −50 0 50 100 大卒率 (x) と平均月収 (y) −0.10 −0.05 0.00 H. Hara (Niigata U.) 0.05 0.10 x1 − x¯, . . . , xn − x¯ を y1 − y¯, . . . , yn − y¯ に対してプロット 正の相関がある ⇒ xi − x¯ > 0 だと yi − y¯ > 0 xi − x¯ < 0 だと yi − y¯ < 0 の傾向が強い ⇒ 第 1, 3 象限にデータが集まる の傾向が強い ⇒ (xi − x¯)(yi − y¯) > 0 になる の傾向が強い ⇒ Sxy = 1.248 > 0 2 次元データの整理 May 27, 2015 7 / 18 0.03 0.02 0.01 0.00 −0.01 Population growth rate 0.04 0.05 共分散と相関の正負 5 6 7 8 9 log(GDP per capita) H. Hara (Niigata U.) 10 11 12 GDP (x) と人口増加率 (y) x1 − x¯, . . . , xn − x¯ を y1 − y¯, . . . , yn − y¯ に対してプロット 負の相関がある ⇒ xi − x¯ > 0 だと yi − y¯ < 0 xi − x¯ < 0 だと yi − y¯ > 0 の傾向が強い ⇒ 第 2, 4 象限にデータが集まる 傾向が強い ⇒ (xi − x¯)(yi − y¯) < 0 になる 傾向が強い ⇒ Sxy = −0.00460 < 0 2 次元データの整理 May 27, 2015 8 / 18 −0.03 −0.02 −0.01 0.00 0.01 0.02 0.03 共分散と相関の正負 −2 0 H. Hara (Niigata U.) 2 GDP (x) と人口増加率 (y) x1 − x¯, . . . , xn − x¯ を y1 − y¯, . . . , yn − y¯ に対してプロット 負の相関がある ⇒ xi − x¯ > 0 だと yi − y¯ < 0 xi − x¯ < 0 だと yi − y¯ > 0 の傾向が強い ⇒ 第 2, 4 象限にデータが集まる 傾向が強い ⇒ (xi − x¯)(yi − y¯) < 0 になる 傾向が強い ⇒ Sxy = −0.00460 < 0 2 次元データの整理 May 27, 2015 8 / 18 −0.03 −0.02 −0.01 0.00 0.01 0.02 0.03 共分散と相関の正負 −2 0 H. Hara (Niigata U.) 2 GDP (x) と人口増加率 (y) x1 − x¯, . . . , xn − x¯ を y1 − y¯, . . . , yn − y¯ に対してプロット 負の相関がある ⇒ xi − x¯ > 0 だと yi − y¯ < 0 xi − x¯ < 0 だと yi − y¯ > 0 の傾向が強い ⇒ 第 2, 4 象限にデータが集まる 傾向が強い ⇒ (xi − x¯)(yi − y¯) < 0 になる 傾向が強い ⇒ Sxy = −0.00460 < 0 2 次元データの整理 May 27, 2015 8 / 18 共分散の性質 データ x の各要素を a 倍したものを z とおく z = (z1 , . . . , zn ) = (ax1 , . . . , axn ) z と y の共分散は 1∑ = (zi − z¯)(yi − y¯) n i=1 n Szy 1∑ a(xi − x¯)(yi − y¯) n i=1 n = = aSxy 値が大きければ相関が強いというわけではない 相関の強さの指標としては不適切 単位を変えても相関関係は変わらない H. Hara (Niigata U.) 2 次元データの整理 May 27, 2015 9 / 18 相関係数 相関係数 データ x = (x1 , . . . , xn ), y = (y1 , . . . , yn ) に対し , Sx , Sy を それぞれ x, y の標準偏差, Sxy を x, y の共分散とする. そのとき, Sxy rxy = Sx Sy . を x と y の相関係数という 相関関係の定量化指標 Sxy = Syx x と y が正の相関 ⇔ Sxy > 0 ⇔ rxy > 0 x と y が負の相関 ⇔ Sxy < 0 ⇔ rxy < 0 H. Hara (Niigata U.) 2 次元データの整理 . May 27, 2015 10 / 18 相関係数の性質 xi の基準化変数 xi − x¯ yi − y¯ と yi の基準化変数 の共分散 Sx Sy −1 ≤ rxy ≤ 1 z = (z1 , . . . , zn ) = (ax1 , . . . , axn ) のとき rzy = rxy rxy の絶対値が大きいほど相関関係が強いと解釈する yi = axi + b とすると a > 0 のとき rxy = 1 a < 0 のとき rxy = −1 H. Hara (Niigata U.) 2 次元データの整理 May 27, 2015 11 / 18 相関係数 国別 GDP と人口増加率 −100 −0.03 −50 −0.02 −0.01 0 0.00 0.01 50 0.02 100 0.03 都道府県別大卒率と平均 月収 −2 −0.10 −0.05 0.00 0.05 2 rxy = −0.168 rxy = 0.831 H. Hara (Niigata U.) 0 0.10 2 次元データの整理 May 27, 2015 12 / 18 クラスの大きさと教育効果の関係 興味 700 . 小さいクラスは教育効果を上げるか? 660 640 データ 加州の小学校 420 校の 620 Test Score 680 テスト スコアと教師一人あたりの 生徒数 (STR:student-teacher ratio) は負の相関を持つか? 14 16 18 20 22 24 26 STR カリフォルニア州の 420 校の テスト スコアと生徒 / 教師比 (STR) H. Hara (Niigata U.) 縦軸:統一テスト の平均点 .. 横軸:STR 共分散・相関係数 Sxy = −8.159, rxy = −0.226 2 次元データの整理 May 27, 2015 13 / 18 たばこの値段と需要量の関係 興味 5.2 . たばこ税は喫煙を抑制するか? 4.6 4.8 価格と消費量には負の相関があるか? 4.2 4.4 データ 米国 48 州の’85 年と ’95 年における ..(対数) 一人当売上箱数 縦軸: 4.0 Packages per capita 5.0 価格が上がれば消費量が減るか? 4.8 5.0 5.2 5.4 5.6 5.8 6.0 Price 米国 48 州のたばこの平均価 格と一人当たりの売上げ箱数 (1985 年と 1995 年) H. Hara (Niigata U.) 横軸:(対数) 税込価格 ※ 米国は州によってたばこ税が異なる 共分散・相関係数 Sxy = −0.0532, rxy = −0.686 2 次元データの整理 May 27, 2015 14 / 18 因果関係と相関係数 (雑談) 通常の経済理論によれば・ ・ ・ 円高 (ド ル安) ⇒ 輸入品物価の下落 ⇒ 国産品の物価も下落 円高 (ド ル安) ⇔ 円 / ド ルレート は小 円 / ド ルレート と消費者物価指数は正の相関を持つだろう H. Hara (Niigata U.) 2 次元データの整理 May 27, 2015 15 / 18 因果関係と相関係数 (雑談) ところが・ ・ ・ 90 100 1972 年∼2004 年の円 /ド ルレート と消費者物価指数 (CPI) の関係 70 50 60 相関係数 = −0.901 ⇒ 強い負の相関?? 40 CPI 80 横軸:円 / ド ルレート 縦軸:CPI 理論が誤りなのか?? 100 150 200 250 300 Yen/US dollar rate H. Hara (Niigata U.) 2 次元データの整理 May 27, 2015 16 / 18 因果関係と相関係数 (雑談) 物価は円 /ド ルレート 以外の要因にも依存して決定している 賃金率 100 100 60 wage rate 80 70 CPI 40 50 40 60 70 40 50 60 CPI 80 80 90 90 100 賃金率と物価は正の相関 賃金率と円 / ド ルレート は負の相関 100 150 200 250 300 Yen/US dollar rate x : 円 / ド ル , y : CPI 相関係数 = −0.901 H. Hara (Niigata U.) 40 60 80 100 wage rate x : 賃金率, y : CPI 相関係数 = 0.984 2 次元データの整理 100 150 200 250 300 Yen/US dollar rate x : 円 / ド ル , y : 賃金率 相関係数 = −0.933 May 27, 2015 17 / 18 因果関係と相関係数 (雑談) 物価は円 /ド ルレート による 物価は賃金率にもよる 円 /ド ルレート は賃金率を介しても物価に影響する 円 /ド ルレートが下落 (円高に傾く) 1 2 直接的には物価を下げる効果 賃金が上昇 ⇒ 物価も上昇 円 /ド ルレート と CPI は負の相関 直接的な効果より賃金を介した 間接的な効果の方が大きい . 因果関係の正負と相関関係の正負は . 必ずしも符合しないので注意が必要 H. Hara (Niigata U.) 2 次元データの整理 May 27, 2015 18 / 18 .
© Copyright 2024 ExpyDoc