Ⅰ 表・グラフによる記述 1) 分割表(クロス集計表)と2次元ヒストグラム 2) 散布図 Ⅱ 特性値による記述 1) 相関係数 Ⅲ 2変量データの分析 1) 回帰分析 ⅰ) ⅱ) ⅲ) ⅳ) 相関関係と因果関係 最小2乗法 予測値と残差 決定係数 • 2変量データ → 2つの対になったデータ (例)サッカー日本代表の身長と体重 ※ 日本代表の身長と韓国代表の体重は2つのデータ であるが、対になっていない。 ※ 2変量データはその組合せを変えることはできない → 川島の身長と長谷部の体重を組み合わせても、 意味がない。 • 2変量データの記述 → それぞれ1変量の記述 + 2変量の関係の記述 1) 分割表(クロス集計表)・2次元ヒストグラム 2変量についてクロス集計した度数分布表のことを、分割表(また はクロス集計表)という。 質的変量、または離散変量で取りうる値の少ないものは、それぞれ に対応する度数を数えればよい。 例) 血液型と性別でクロス集計したもの A型 B型 O型 AB型 計 男 14 9 17 2 42 女 1 2 1 2 6 計 15 11 18 4 48 一方、連続データや離散データでとりうる値の多いものは、2次元 の度数分布表となる。 サッカー日本代表 南アW杯(2010)ベンチ入りメンバー 3 2 1 83-86 80-83 77-80 74-77 71-74 0 180-185 170-175 身長 68-71 体 重 62-65 65-68 68-71 71-74 74-77 77-80 80-83 83-86 計 身長 165-170 170-175 175-180 180-185 185-190 0 0 2 0 0 0 2 1 0 0 0 1 1 0 0 0 1 2 1 0 0 1 1 2 1 0 0 1 1 1 0 0 0 0 3 0 0 0 0 1 0 5 8 4 6 65-68 身長(cm) 体重(kg) 180 77 187 80 185 80 187 78 185 82 172 76 187 85 178 73 170 65 176 62 178 70 181 75 178 75 175 67 175 64 177 77 179 72 182 74 173 67 170 73 185 76 173 70 180 73 62-65 氏名 川口 能活 楢崎 正剛 川島 永嗣 中澤 佑二 田中 マルクス闘莉王 駒野 友一 岩政 大樹 今野 泰幸 長友 佑都 内田 篤人 中村 俊輔 稲本 潤一 遠藤 保仁 中村 憲剛 松井 大輔 阿部 勇樹 長谷部 誠 本田 圭佑 玉田 圭司 大久保 嘉人 矢野 貴章 岡崎 慎司 森本 貴幸 体重 計 2 3 2 4 5 3 3 1 23 2次元の度数分 布表は、右のよ うに2次元ヒスト グラム(グラフ は3D)であらわ すことができる。 2) 散布図 連続データや離散データでとりうる値の多いものは、横軸にX、縦軸にYを とった座標軸上に、個々のデータをあらわした散布図であらわされること も多い。 サッカー日本代表 南アW杯(2010)ベンチ入りメンバー 氏名 川口 能活 楢崎 正剛 川島 永嗣 中澤 佑二 田中 マルクス闘莉王 駒野 友一 岩政 大樹 今野 泰幸 長友 佑都 内田 篤人 中村 俊輔 稲本 潤一 遠藤 保仁 中村 憲剛 松井 大輔 阿部 勇樹 長谷部 誠 本田 圭佑 玉田 圭司 大久保 嘉人 矢野 貴章 岡崎 慎司 森本 貴幸 身長(cm) 体重(kg) 180 77 187 80 185 80 187 78 185 82 172 76 187 85 178 73 170 65 176 62 178 70 181 75 178 75 175 67 175 64 177 77 179 72 182 74 173 67 170 73 185 76 173 70 180 73 サッカー日本代表の身長と体重 85 80 体重(kg) 75 70 65 60 170 175 180 身長(cm) 185 190 1) 相関係数 r xとyの共分散 (x x )(y - y) (x x ) (y - y) i i 2 i i 2 1 (xi x )(yi - y) n 1 1 2 (x x ) (yi - y) 2 i n n Xの標準偏差 yの標準偏差 • 相関係数 r は2変量間の関連の強さを表す尺度であり、-1と1の間の 値をとる。 r>0 正の相関 1に近いほど関連度が強い r<0 負の相関 -1に近いほど関連度が強い r=0 無相関 12 11 Ⅰ Ⅱ 各点のx座標と平均との差 xi x 10 と、y座標と平均との差 を考える。 yi y 9 8 y 7 6 5 Ⅳ Ⅲ 4 3 3 5 7 9 11 13 15 x 点が、Ⅰの部分にあるとき xi x yi y は、+×+=+となる。 点が、Ⅱの部分にあるとき xi x yi y は、-×+=-となる。 点が、Ⅲの部分にあるとき xi x yi y は、-×-=+となる。 点が、Ⅳの部分にあるとき xi x yi y は、+×-=-となる。 xi x yi y • 相関係数と散布図は密接な関係があり、右上がりの散布 図は相関係数が+であり、右下がりの散布図は相関係 数が-である。 • また、相関係数が±1に近いほど、散布図は直線に近く なる。 正の相関(r>0) 負の相関(r<0) •Xが大きな値をとる ほど、Yも大きな値を とる。 •Xが大きな値をとる ほど、Yは小さな値を とる。 無相関(r=0) •Xの値とYの値に一 定の傾向がみられな い。 年 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 所得(X ) 消費(Y) 212 173 217 181 223 187 228 192 234 198 243 205 248 214 259 225 271 236 280 246 290 252 296 257 300 260 306 265 314 271 322 279 320 280 321 278 (単位: 兆円) データ出典: 内閣府経済社 会研究所『国民経済計算』 左の表は日本の実質家計可処分所得(所 得(X)と記述)と、実質家計最終消費支出 (消費(Y)と記述)の、1981年から1998年ま でのデータである。 このデータを横軸に所得、縦軸に消費を とった散布図であらわすと、下の図のよ うになる。 所得と消費 300 280 260 消費 1)回帰分析 ⅰ) 相関関係と因果関係 240 220 200 180 160 200 220 240 260 280 所得 300 320 340 所得と消費の散布図を見ると、「所得と消費の間には正の相関 がある」といえる。 – 所得が多くなれば、消費も多くなる。 – 所得が少なくなれば、消費も少なくなる。 さらに、所得と消費の関係は相関関係だけではなく、所得を原 因、消費を結果とする因果関係が成り立っている。 因果関係 › 一方が原因となって、もう一方が結果となる関係。原因と 結果を反対にすることはできない。 (例)所得が高い(原因)⇒消費が多い(結果) 相関関係 因果関係 ※ 風が吹くと桶屋が儲かる 風が吹くと砂ぼこりが立つ → 砂ぼこりで目を痛めて失明する人が増える → 失明した人はよく三味線を弾くのでその需要が増える → 三味線には猫の皮を張るので猫が捕獲されて数が減る → するとねずみが増えるので桶がたくさんかじられる → だから桶屋が儲かる いくつもの因果関係が連鎖したもの。 最終的には 風が吹く(原因)⇒ となる。 桶屋が儲かる(結果) 経済理論はこのような因果関係の積み重ねである。 (例) 「ある商品の価格を下げると、販売数量は増加する」 このような論理の積み重ねによって、経済の現状把握・予測 をおこなうことを定性的分析という。 これから一歩踏み込んで、 「ある商品の価格を○%下げると、販売数量が○%増加する」 というように、数量的な把握をするものが定量的分析である。 このような定量的分析をおこなうために、統計データが用い られる。 (例) 風速○メートルの風が吹けば、失明する人が○人増えて (中略) 桶屋が○○円儲かる。 統計データを用いた定量的分析のことを、計量分析と いう。経済分析における計量分析が計量経済分析であ る。 計量経済分析をおこなうことによって、経済理論が現 実経済に合致しているかどうかのチェックをおこなう ことができる。 因果関係の定量的分析には回帰分析という統計手法が よく用いられる。 ⅱ) 最小2乗法 回帰分析は、XとYとの関係を、数式をあてはめることによって分析す るものである。 回帰分析は、イギリスの遺伝学者ゴルトンが、父親の身長とその息子 の身長の関係に注目したところ、直線であらわすことができることを 発見したことが始まりである。 なお、「回帰」の語源は、父親と息子の身長を比較すると、息子の身 長の方がより親より平均に近くなること。すなわち非常に高身長な父 親の息子は、父親より低くなり、非常に低身長な父親の息子は、父親 より高くなることを見出したことによる。(平均への「回帰」が語源 である。) ⅱ) 最小2乗法 回帰分析では、最初に、最も適当と考えられる数式の形(回帰 モデルという)を選ぶことからおこなわれる。 回帰モデルの例 (どのような式が最適かは、散布図や経済理論などから総合的に判断さ れる) Y=a+bX Y=a+bX2 Y=a/(X+b) 3 2.5 2 1.5 1 0.5 Xを独立変数(説明変数)とよび、Yを従属変数(被説明変 数)とよぶ。 20 18 16 14 12 10 8 6 4 X 2 20 18 16 14 12 8 10 6 4 0 2 0 20 18 16 14 12 10 8 6 4 X Y=5/(X+2)のグラフ Y 900 800 700 600 500 400 300 200 100 0 2 50 45 40 35 30 25 20 15 10 5 0 0 Y=5+2X 2のグラフ Y 0 Y=5+2Xのグラフ Y X 回帰係数の推定値は最小2乗法という方法で求めること ができる。 最小2乗法はデータの各点と直線との距離(これを残差 という)の2乗和が最小となるように直線を引く方法で ある。 推定値は次のような式 で求められる。 n XY X Y bˆ n X ( X ) ( X X )(Y Y ) (X X ) X Y X XY aˆ n X ( X ) 11 10 9 2 2 8 7 2 6 2 5 2 4 3 6 9 12 15 Y bˆX 2 ⅲ) 予測値と残差 あるXに対応する直線上の点を予測値(または理論値)といい、 であらわす。 Yˆ 予測値は、すべてのデータが推定された回帰直線上にあると した場合に、あるXに対応したYの値であり、データとして 現有していないXに対するYの値の予測となる。 11 Y Yˆ 残差はYから Yˆ を引い たものである。 10 9 8 7 6 5 4 3 6 9 12 15 所得と消費の例ではY=a+bXという線形のモデルを考え る。このモデルはケインズ型消費関数といわれるモデ ルである。 回帰係数の推定値は 所得と消費 bˆ 0.945 aˆ 23.21 280 260 消費 となる。 1981年のXは212なので、 -23.21+0.945×212=177.13 が予測値となる。 残差は 173 - 177.13 = -4.13 である。 300 240 220 Y=-23.21+0.945X 200 180 160 200 220 240 260 280 所得 300 320 340 ⅳ) 決定係数 決定係数は回帰モデルのあてはまり具合を示す尺度であ る。次のような数値例を考えてみよう。 例1 X 例2 X Y 10 8 13 9 11 14 6 4 12 7 5 8.1 7.1 9.5 7.5 8.4 10 6 5 9 6.4 5.5 Y 10 8 13 9 11 14 6 4 12 7 5 9.3 8.3 8.2 7.5 7.1 10.7 6.7 5.7 9.7 5.1 4.2 この2つの例に回帰分析を適用すると、ともにY=3+0.5X という回帰直線が導出される。ところで、散布図に回帰 直線を書き入れたものが下図である。 11 11 10 10 9 9 8 8 7 7 6 6 5 5 4 3 6 9 12 15 4 3 6 9 12 15 この2つの図を比べると、データに対する回帰直線のあ てはまりが異なることがわかる。それを数値で表した ものが決定係数R2 であり、左はR2=0.998、右はR2=0.685 である。 決定係数は、 R2 回帰によって説明され る変動 Yの全変動 と解釈することができ、0と1の間の値をとる。決定係数 が1に近いほど回帰直線のあてはまりはよく、決定係数 の値が小さい場合(0.5とか0.6以下の場合)には、分析の 妥当性を検討する必要がある。 具体的には、すべての点のYの平均の線を引き、各点と平 均の差の2乗和と、回帰直線上の点(予測値)と平均の差 の2乗和の比をとったものである。 11 10 9 8 7 6 5 4 3 6 9 12 15 — Yの平均の線 } 各点と平均の差、これの2乗和がY の全変動となる。 { 回帰直線上の点(予測値)と平均の 差、この2乗和が回帰によって説明さ れる変動となる。 この2つの比が決定係数R2となる。 決定係数の式は次のようになる。 R 2 (Yˆ Y ) (Y Y ) 2 2
© Copyright 2024 ExpyDoc