Ⅰ 表・グラフによる記述 1) 分割表(クロス集計表)と2次元ヒストグラム 2) 散布図 Ⅱ 特性値による記述 1) 相関係数 Ⅲ 2変量データの分析 1) 不平等度の分析 ⅰ) ⅱ) ローレンツ曲線 ジニ係数 2) 回帰分析 ⅰ) ⅱ) ⅲ) ⅳ) 相関関係と因果関係 最小2乗法 予測値と残差 決定係数 Ⅳ 多変量データ分析の初歩 1) 重回帰分析入門 2) レーダーチャート • 2変量データ → 2つの対になったデータ (例)なでしこJAPANの身長と体重 ※ なでしこJAPANの身長と男子日本代表の体重は2 つのデータであるが、対になっていない。 ※ 2変量データはその組合せを変えることはできない → 澤の身長と川澄の体重を組み合わせても、意味 がない。 • 2変量データの記述 → それぞれ1変量の記述 + 2変量の関係の記述 1) 分割表(クロス集計表)・2次元ヒストグラム 2変量についてクロス集計した度数分布表のことを、分割表(また はクロス集計表)という。 質的変量、または離散変量で取りうる値の少ないものは、それぞれ に対応する度数を数えればよい。 例) 血液型と性別でクロス集計したもの 男 A型 B型 O型 AB型 計 女 16 9 16 3 44 計 1 2 3 3 9 17 11 19 6 53 一方、連続データや離散データでとりうる値の多いものは、2次元 の度数分布表となる。 なでしこジャパン ロンドン五輪予選ベンチ入りメンバー 身長(cm) 体重(kg) 165 66 170 64 161 53 164 55 157 54 162 54 162 53 164 52 171 59 164 55 157 50 157 50 165 58 168 63 164 57 163 56 154 50 168 60 165 58 165 59 体 重 48-51 51-54 54-57 57-60 60-63 63-66 66-69 計 身長 150-155 155-160 160-165 165-170 170-175 1 2 0 0 0 0 0 3 0 0 0 1 4 0 0 0 0 1 3 1 0 0 0 1 0 0 0 0 1 1 0 0 0 1 0 1 3 8 6 2 なでしこジャパンの身長と体重 4 3 度数 氏名 福元 美穂 海堀 あゆみ 近賀 ゆかり 矢野 喬子 上尾野辺 めぐみ 岩清水 梓 鮫島 彩 田中 明日菜 熊谷 紗希 澤 穂希 宮間 あや 川澄 奈穂美 阪口 夢穂 宇津木 瑠美 安藤 梢 丸山 桂里奈 大野 忍 永里 優季 永里 亜紗乃 高瀬 愛実 2 1 0 身長 体重 計 3 3 5 5 1 2 1 20 2次元の度数分 布表は、右のよ うに2次元ヒスト グラム(グラフ は3D)であらわ すことができる。 2) 散布図 連続データや離散データでとりうる値の多いものは、横軸にX、縦軸にYを とった座標軸上に、個々のデータをあらわした散布図であらわされること も多い。 なでしこジャパン ロンドン五輪予選ベンチ入りメンバー 身長(cm) 体重(kg) 165 66 170 64 161 53 164 55 157 54 162 54 162 53 164 52 171 59 164 55 157 50 157 50 165 58 168 63 164 57 163 56 154 50 168 60 165 58 165 59 なでしこジャパンの身長と体重 70 65 体重(kg) 氏名 福元 美穂 海堀 あゆみ 近賀 ゆかり 矢野 喬子 上尾野辺 めぐみ 岩清水 梓 鮫島 彩 田中 明日菜 熊谷 紗希 澤 穂希 宮間 あや 川澄 奈穂美 阪口 夢穂 宇津木 瑠美 安藤 梢 丸山 桂里奈 大野 忍 永里 優季 永里 亜紗乃 高瀬 愛実 60 55 50 45 150 155 160 165 身長(cm) 170 175 1) 相関係数 r xとyの共分散 (x x )(y - y) (x x ) (y - y) i i 2 i i 2 1 (xi x )(yi - y) n 1 1 2 (x x ) (yi - y) 2 i n n Xの標準偏差 yの標準偏差 • 相関係数 r は2変量間の関連の強さを表す尺度であり、-1と1の間の 値をとる。 r>0 正の相関 1に近いほど関連度が強い r<0 負の相関 -1に近いほど関連度が強い r=0 無相関 12 11 Ⅰ Ⅱ 各点のx座標と平均との差 xi x 10 と、y座標と平均との差 を考える。 yi y 9 8 y 7 6 5 Ⅳ Ⅲ 4 3 3 5 7 9 11 13 15 x 点が、Ⅰの部分にあるとき xi x yi y は、+×+=+となる。 点が、Ⅱの部分にあるとき xi x yi y は、-×+=-となる。 点が、Ⅲの部分にあるとき xi x yi y は、-×-=+となる。 点が、Ⅳの部分にあるとき xi x yi y は、+×-=-となる。 xi x yi y • 相関係数と散布図は密接な関係があり、右上がりの散布 図は相関係数が+であり、右下がりの散布図は相関係 数が-である。 • また、相関係数が±1に近いほど、散布図は直線に近く なる。 正の相関(r>0) 負の相関(r<0) •Xが大きな値をとる ほど、Yも大きな値を とる。 •Xが大きな値をとる ほど、Yは小さな値を とる。 無相関(r=0) •Xの値とYの値に一 定の傾向がみられな い。 1) 不平等度の分析 第2章で示した、貯蓄現在高階級別の世帯分布は、下のようになっていた。 • この分布は、少数の大 金持ちと多数の庶民が いる状態を示している。 • このような状態は不平 等であると考える。 • すべての人の資産†が 等しい状態を平等‡とし、 そこからどの程度離れ ているかを知りたい。 出典:総務省統計局『家計簿から見たファミリーライフ』 (http://www.stat.go.jp/data/kakei/family/4-5.htm#1) † 所得面から平等をみる こともある。 ‡ 平等を定義することは容 易ではないが、ここで はこのように定義する。 † 5人兄弟の遺産相続の例 5人兄弟が遺産を相続するとき、 (a) は、5人兄弟がそれぞれ5分の1ずつ相続するという例。 (b) は、5人兄弟がそれぞれ異なった取り分を相続する例。 (c) は、長男がすべての遺産を相続するという例。 (a) 長男 次男 三男 四男 五男 (b) 取り分 1/5 1/5 1/5 1/5 1/5 長男 次男 三男 四男 五男 (c) 取り分 5/15 4/15 3/15 2/15 1/15 長男 次男 三男 四男 五男 取り分 1 0 0 0 0 (a) は、5人が平等に相続しているのに対して、(b)や(c) は、 不平等である。 (b)のパターンを例に取り上げる。このパターンを、取 り分の小さい順に並べかえ、人数の比率と金額(遺産の 取り分)の比率の累積を計算してみる。 五男 四男 三男 二男 長男 計 人数 人数比率 累積人数比率 遺産額 金額比率 累積金額比率 1人 1人 1人 1人 1人 5人 1/5 1/5 1/5 1/5 1/5 1/5 2/5 3/5 4/5 5/5 1億円 2億円 3億円 4億円 5億円 15億円 1/15 2/15 3/15 4/15 5/15 1/15 3/15 6/15 10/15 15/15 累積-それ以前のものをすべて加えるということ。 (例) (b)の三男の累積金額比率 「五男の取り分」+「四男の取り分」+「三男の取り分」となる ので、1/15 + 2/15 + 3/15 = 6/15 となる。 ⅰ) ローレンツ曲線 横軸に累積人数比率を、縦軸に累積金額比率をとり、 線でつないだものが下の図である。 1 0.9 累積人数比率 累積金額比率 1/5 2/5 3/5 4/5 5/5 1/15 3/15 6/15 10/15 15/15 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.2 0.4 0.6 0.8 この曲線は、ローレンツ曲線とよばれ、不平等の度合いを表す 曲線である。 1 遺産相続の3つのパターンについて、取り分の小さい順 に並べかえ、人数の比率と金額(遺産の取り分)の比率の 累積を計算してみた。 (a) (b) 累積人数比率 累積金額比率 五男 四男 三男 次男 長男 1/5 2/5 3/5 4/5 1 (c) 累積人数比率 累積金額比率 1/5 2/5 3/5 4/5 1 五男 四男 三男 次男 長男 1/5 2/5 3/5 4/5 1 1/15 3/15 6/15 10/15 1 累積人数比率 累積金額比率 五男 四男 三男 次男 長男 1/5 2/5 3/5 4/5 5/5 0 0 0 0 1 遺産相続の例 1 (この例では(a)のグラフが該当す る。) 0.9 0.8 累積金額比率 45度線が完全平等線といわれる。 0.7 0.6 (a) (b) (c) 0.5 0.4 0.3 0.2 0.1 0 0 0.2 0.4 0.6 累積人数比率 0.8 1 不平等度が大きいほど、グラフが 完全平等線から右下方に離れる。 → (b)より(c)の方が不 平等 ⅱ) ジニ係数 ローレンツ曲線の完全平等線からの離れぐあい を数値で表したもの 完全平等線とローレンツ曲線で囲まれる部分の 面積を2倍したもの 遺産相続の例 1 0.9 0.8 累積金額比率 0.7 この面積の2倍 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.2 0.4 0.6 累積人数比率 0.8 1 灰色の四角の面積が1なので、0と1の 間の値をとり、1に近いほど不平等度 が大きい ジニ係数の計算方法 残りの部分を台形に分割し、正方形から引く 台形の面積の公式 (上底+下底)×高さ÷2 を使う。 下底 上底 高さ 遺産相続の例 (b) 遺産相続の例 1 0.9 0.8 0.7 累積金額比率 五男 四男 三男 次男 長男 累積人数比率 累積金額比率 1/5 1/15 2/5 3/15 3/5 6/15 4/5 10/15 1 1 0.267 0.6 0.5 0.4 0.3 0.2 0.1 遺産相続の(b)で、次のような台形がある。 上底 - 下底 - 高さ - (1/5) 三男までの累積金額比率(6/15) 次男までの累積金額比率(10/15) 三男と次男の累積人数比率の差 0 0 0.2 0.4 0.6 0.8 1 累積人数比率 この台形の面積は (6/15 + 10/15)×1/5÷2 = 8/75 このような台形(1番左は直角三角形)の面積を全部加え、その2倍を正方形から引く 1-(1/150 + 2/75 + 3/50 + 8/75 + 1/6) × 2 = 1-11/30×2 = 4/15 = 0.2666… 年間収入の例 (平成22年 家計調査 2人以上世帯) 階 200 250 300 350 400 450 500 550 600 650 700 750 800 900 1000 1250 2000 級 - 集計世帯数 200 250 300 350 400 450 500 550 600 650 700 750 800 900 1000 1250 1500 218 344 485 683 679 685 588 528 484 438 372 316 269 491 345 496 196 201 累積世帯数 累積世帯比率 年間収入 218 562 1047 1730 2409 3094 3682 4210 4694 5132 5504 5820 6089 6580 6925 7421 7617 7818 0.00000 0.02788 0.07189 0.13392 0.22128 0.30814 0.39575 0.47096 0.53850 0.60041 0.65643 0.70402 0.74444 0.77884 0.84165 0.88578 0.94922 0.97429 1.00000 158 226 275 323 373 423 473 524 573 621 672 721 773 844 945 1101 1360 1984 年収総額 累積年収総額 累積年収比率 34444 77744 133375 220609 253267 289755 278124 276672 277332 271998 249984 227836 207937 414404 326025 546096 266560 398784 0.00000 0.00725 0.02361 0.05169 0.09812 0.15143 0.21242 0.27096 0.32920 0.38757 0.44482 0.49744 0.54539 0.58916 0.67639 0.74501 0.85996 0.91606 1.00000 34444 112188 245563 466172 719439 1009194 1287318 1563990 1841322 2113320 2363304 2591140 2799077 3213481 3539506 4085602 4352162 4750946 計 (例) (0.00725+0.02361)×(0.07189-0.02788)÷2 = 0.00068 ジニ係数 1-0.35231×2 = 0.2954 台形面積 0.00010 0.00068 0.00234 0.00654 0.01084 0.01594 0.01818 0.02027 0.02219 0.02332 0.02242 0.02108 0.01952 0.03974 0.03136 0.05091 0.02226 0.02463 0.35231 2) 回帰分析 ⅰ) 相関関係と因果関係 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 所得(X ) 消費(Y) 212 173 217 181 223 187 228 192 234 198 243 205 248 214 259 225 271 236 280 246 290 252 296 257 300 260 306 265 314 271 322 279 320 280 321 278 (単位: 兆円) データ出典: 内閣府経済社 会研究所『国民経済計算』 左の表は日本の実質家計可処分所得(所 得(X)と記述)と、実質家計最終消費支出 (消費(Y)と記述)の、1981年から1998年ま でのデータである。 このデータを横軸に所得、縦軸に消費を とった散布図であらわすと、下の図のよ うになる。 所得と消費 300 280 260 消費 年 240 220 200 180 160 200 220 240 260 280 所得 300 320 340 所得と消費の散布図を見ると、「所得と消費の間には正の相関 がある」といえる。 – 所得が多くなれば、消費も多くなる。 – 所得が少なくなれば、消費も少なくなる。 さらに、所得と消費の関係は相関関係だけではなく、所得を原 因、消費を結果とする因果関係が成り立っている。 因果関係 › 一方が原因となって、もう一方が結果となる関係。原因と 結果を反対にすることはできない。 (例)所得が高い(原因)⇒消費が多い(結果) 相関関係 因果関係 ※ 風が吹くと桶屋が儲かる 風が吹くと砂ぼこりが立つ → 砂ぼこりで目を痛めて失明する人が増える → 失明した人はよく三味線を弾くのでその需要が増える → 三味線には猫の皮を張るので猫が捕獲されて数が減る → するとねずみが増えるので桶がたくさんかじられる → だから桶屋が儲かる いくつもの因果関係が連鎖したもの。 最終的には 風が吹く(原因)⇒ となる。 桶屋が儲かる(結果) 経済理論はこのような因果関係の積み重ねである。 (例) 「ある商品の価格を下げると、販売数量は増加する」 このような論理の積み重ねによって、経済の現状把握・予測 をおこなうことを定性的分析という。 これから一歩踏み込んで、 「ある商品の価格を○%下げると、販売数量が○%増加する」 というように、数量的な把握をするものが定量的分析である。 このような定量的分析をおこなうために、統計データが用い られる。 (例) 風速○メートルの風が吹けば、失明する人が○人増えて (中略) 桶屋が○○円儲かる。 統計データを用いた定量的分析のことを、計量分析と いう。経済分析における計量分析が計量経済分析であ る。 計量経済分析をおこなうことによって、経済理論が現 実経済に合致しているかどうかのチェックをおこなう ことができる。 因果関係の定量的分析には回帰分析という統計手法が よく用いられる。 ⅱ) 最小2乗法 回帰分析は、XとYとの関係を、数式をあてはめることによって分析す るものである。 回帰分析は、イギリスの遺伝学者ゴルトンが、父親の身長とその息子 の身長の関係に注目したところ、直線であらわすことができることを 発見したことが始まりである。 なお、「回帰」の語源は、父親と息子の身長を比較すると、息子の身 長の方がより親より平均に近くなること。すなわち非常に高身長な父 親の息子は、父親より低くなり、非常に低身長な父親の息子は、父親 より高くなることを見出したことによる。(平均への「回帰」が語源 である。) 回帰分析では、最初に、最も適当と考えられる数式の形(回帰 モデルという)を選ぶことからおこなわれる。 回帰モデルの例 (どのような式が最適かは、散布図や経済理論などから総合的に判断さ れる) Y=a+bX Y=a+bX2 Y=a/(X+b) 3 2.5 2 1.5 1 0.5 Xを独立変数(説明変数)とよび、Yを従属変数(被説明変 数)とよぶ。 20 18 16 14 12 10 8 6 4 X 2 20 18 16 14 12 8 10 6 4 0 2 0 20 18 16 14 12 10 8 6 4 X Y=5/(X+2)のグラフ Y 900 800 700 600 500 400 300 200 100 0 2 50 45 40 35 30 25 20 15 10 5 0 0 Y=5+2X 2のグラフ Y 0 Y=5+2Xのグラフ Y X 回帰係数の推定値は最小2乗法という方法で求めること ができる。 最小2乗法はデータの各点と直線との距離(これを残差 という)の2乗和が最小となるように直線を引く方法で ある。 推定値は次のような式 で求められる。 n XY X Y bˆ n X ( X ) ( X X )(Y Y ) (X X ) X Y X XY aˆ n X ( X ) 11 10 9 2 2 8 7 2 6 2 5 2 4 3 6 9 12 2 15 Y bˆX こうして、YとXの関係をもっともよくあらわす、 Y aˆ bˆX という式を求める。 Xが1増加したとき、Yはおおよそ bˆ 増加する。 ⅲ) 予測値と残差 あるXに対応する直線上の点を予測値(または理論値)といい、 Yˆ であらわす。 予測値は、すべてのデータが推定された回帰直線上にあると した場合に、あるXに対応したYの値であり、データとして 現有していないXに対するYの値の予測となる。 11 Y Yˆ 残差はYから Yˆ を引い たものである。 10 9 8 7 6 5 4 3 6 9 12 15 所得と消費の例ではY=a+bXという線形のモデルを考え る。このモデルはケインズ型消費関数といわれるモデ ルである。 この例において、回帰係数 の推定値を求めると、 所得と消費 bˆ 0.945 aˆ 23.21 1981年のXは212なので、 -23.21+0.945×212=177.13 が予測値となる。 280 260 消費 となる。 300 240 220 Y=-23.21+0.945X 200 180 160 200 220 240 260 280 所得 残差は 173 - 177.13 = -4.13 である。 300 320 340 ⅳ) 決定係数 例1 X 例2 X Y 10 8 13 9 11 14 6 4 12 7 5 右の表のような数値例 を考えてみよう。 この2つの例に回帰分析 を適用すると、ともに Y=3+0.5X という回帰直 線が導出される。 8.1 7.1 9.5 7.5 8.4 10 6 5 9 6.4 5.5 10 8 13 9 11 14 6 4 12 7 5 11 11 10 10 9 9 8 8 7 7 Y=3+0.5X 6 Y Y=3+0.5X 6 5 9.3 8.3 8.2 7.5 7.1 10.7 6.7 5.7 9.7 5.1 4.2 5 4 4 3 6 9 12 15 3 6 9 12 15 この2つの図を比べると、データに対する回帰直線のあ てはまりが異なること(データが直線の近くに位置して いるか、直線から離れて位置しているか)がわかる。そ のあてはまり具合を数値で表したものが決定係数R2 で ある。 この2つの例の、左はR2=0.998、右はR2=0.685となる(導 出方法は後述)。 決定係数は、 R2 回帰によって説明され る変動 Yの全変動 と解釈することができ、0と1の間の値をとる。決定係数 が1に近いほど回帰直線のあてはまりはよく、決定係数 の値が小さい場合(0.5とか0.6以下の場合)には、分析の 妥当性を検討する必要がある。 具体的には、すべての点のYの平均の線を引き、各点と平 均の差の2乗和と、回帰直線上の点(予測値)と平均の差 の2乗和の比をとったものである。 11 10 9 8 7 6 5 4 3 6 9 12 15 — Yの平均の線 } 各点と平均の差、これの2乗和がY の全変動となる。 { 回帰直線上の点(予測値)と平均の 差、この2乗和が回帰によって説明さ れる変動となる。 この2つの比が決定係数R2となる。 決定係数の式は次のようになる。 R 2 (Yˆ Y ) (Y Y ) 2 2 { ( X X )(Y Y )}2 ( X X ) (Y Y ) 2 2 1) 重回帰分析入門 所得と消費との間に、 Y(消費) = a + b X(所得) ↑ 結果 ↑ 原因 という因果関係が存在することを、ケインズが提唱した。 これは、 消費額の大小は、所得の大小が原因となっている。 ということである。 (例) 毎月のバイト代収入が5万円の人と、3万円の人では、一般的 に5万円の人のほうが多く使うことができる。 しかし、消費額の大小を決定する原因は所得だけでよいであろうか? (例) 毎月のバイト代収入が5万円の人と、3万円の人では、一般的 に5万円の人のほうが多く使うことができる。 ここで、毎月のバイト代が5万円の人が2人いたとしよう。そ の2人のうち1人は貯蓄が0円、もう1人は100万円の貯蓄があったと する。 この2人の所得は等しい。なので、消費額は同じぐらいにな るはずであるが、100万円の貯蓄がある人は、その貯蓄を崩して消 費することも可能である。 すなわち、消費額の大小は、所得だけでなく、資産(預貯金 以外に、株式などを含めたもの)の大小によって決定されるので はないであろうか? Y(消費) = a + b X(所得) + c W(資産) ↑ ↑ 結果 原因1 † このようなモデルはトービンによって提唱された ↑ 原因2 説明変数が複数ある回帰モデルのことを重回帰モデル といい、重回帰モデルを用いた分析のことを重回帰分 析という。 (説明変数が1つのモデルは単回帰モデル(または単純回帰モデ ル)といい、単回帰モデルを用いた分析のことを単回帰分析 (または単純回帰分析)という) 重回帰モデルは次のような式で表される。 1. Y = a + bX + cW + dZ + ・・・ 2. Y = a + b1X1 + b2X2 + b3X3 + ・・・ (説明変数とその係数を添え字つきの変数で表したもの) 3. Y = b0 + b1X1 + b2X2 + b3X3 + ・・・ (上の式の定数の部分も添え字つきの表現をしたもの) 重回帰モデルの中には説明変数が多数のモデルもある ので、別々のアルファベットで表現するには不十分と なり、添え字つきの変数で表現されることがある。 ※ 3変数(説明変数が2つ)の場合の重回帰モデル Y 3変数の場合には回帰直線ではなく、 回帰平面になる。 W × × × この場合、最小2乗法は各点と回帰平 面との垂直方向の距離(これが残差) の2乗和が最小になるように平面を描く ことである。 × 回帰平面 Y=a+bX+cW 最小2乗法で求めた回帰平面の係数推 定値は次のようになる。 X aˆ Y bˆX cˆW ( X X )(Y Y ) (W W ) ( X X )(W W ) (W W )(Y Y ) ( X X ) (W W ) ( ( X X )(W W )) (W W )(Y Y ) ( X X ) ( X X )(W W ) ( X X )(Y Y ) cˆ ( X X ) (W W ) ( ( X X )(W W )) bˆ 2 2 2 2 2 2 2 2 2) レーダーチャート •スポーツテストでは、多種目につ いてテストをおこなう。 •そのテストの結果(個人、クラス 平均など)をあらわすのに最適な ものがレーダーチャートである。 •レーダーチャートによって、その 個人やクラスの長所と弱点を一 目でとらえることが可能になる。 •他には、5教科のテストの成績や、 自治体の充実度などを表現する ときに用いられる。 スポーツテストの結果 握力 10 ソフト… 8 6 4 2 立ち幅とび 0 上体起こし 長座体前屈 反復横とび 50m走 往復持久走 クラス平均 全国平均
© Copyright 2025 ExpyDoc