統計学基礎Ⅱ

Ⅰ
表・グラフによる記述
1) 分割表(クロス集計表)と2次元ヒストグラム
2) 散布図
Ⅱ 特性値による記述
1) 相関係数
Ⅲ 2変量データの分析
1) 不平等度の分析
ⅰ)
ⅱ)
ローレンツ曲線
ジニ係数
2) 回帰分析
ⅰ)
ⅱ)
ⅲ)
ⅳ)
相関関係と因果関係
最小2乗法
予測値と残差
決定係数
Ⅳ 多変量データ分析の初歩
1) 重回帰分析入門
2) レーダーチャート
• 2変量データ → 2つの対になったデータ
(例)なでしこJAPANの身長と体重
※ なでしこJAPANの身長と男子日本代表の体重は2
つのデータであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ 澤の身長と川澄の体重を組み合わせても、意味
がない。
• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述
1) 分割表(クロス集計表)・2次元ヒストグラム


2変量についてクロス集計した度数分布表のことを、分割表(また
はクロス集計表)という。
質的変量、または離散変量で取りうる値の少ないものは、それぞれ
に対応する度数を数えればよい。
例) 血液型と性別でクロス集計したもの
男
A型
B型
O型
AB型
計
女
16
9
16
3
44
計
1
2
3
3
9
17
11
19
6
53

一方、連続データや離散データでとりうる値の多いものは、2次元
の度数分布表となる。
なでしこジャパン
ロンドン五輪予選ベンチ入りメンバー
身長(cm) 体重(kg)
165
66
170
64
161
53
164
55
157
54
162
54
162
53
164
52
171
59
164
55
157
50
157
50
165
58
168
63
164
57
163
56
154
50
168
60
165
58
165
59
体
重
48-51
51-54
54-57
57-60
60-63
63-66
66-69
計
身長
150-155 155-160 160-165 165-170 170-175
1
2
0
0
0
0
0
3
0
0
0
1
4
0
0
0
0
1
3
1
0
0
0
1
0
0
0
0
1
1
0
0
0
1
0
1
3
8
6
2
なでしこジャパンの身長と体重
4
3
度数
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
上尾野辺 めぐみ
岩清水 梓
鮫島 彩
田中 明日菜
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
宇津木 瑠美
安藤 梢
丸山 桂里奈
大野 忍 永里 優季
永里 亜紗乃
高瀬 愛実
2
1
0
身長
体重
計
3
3
5
5
1
2
1
20
2次元の度数分
布表は、右のよ
うに2次元ヒスト
グラム(グラフ
は3D)であらわ
すことができる。
2) 散布図

連続データや離散データでとりうる値の多いものは、横軸にX、縦軸にYを
とった座標軸上に、個々のデータをあらわした散布図であらわされること
も多い。
なでしこジャパン
ロンドン五輪予選ベンチ入りメンバー
身長(cm) 体重(kg)
165
66
170
64
161
53
164
55
157
54
162
54
162
53
164
52
171
59
164
55
157
50
157
50
165
58
168
63
164
57
163
56
154
50
168
60
165
58
165
59
なでしこジャパンの身長と体重
70
65
体重(kg)
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
上尾野辺 めぐみ
岩清水 梓
鮫島 彩
田中 明日菜
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
宇津木 瑠美
安藤 梢
丸山 桂里奈
大野 忍 永里 優季
永里 亜紗乃
高瀬 愛実
60
55
50
45
150
155
160
165
身長(cm)
170
175
1) 相関係数
r
xとyの共分散
 (x  x )(y - y)
 (x  x )  (y - y)
i
i
2
i
i
2

1
(xi  x )(yi - y)

n
1
1
2
(x

x
)
(yi - y) 2


i
n
n
Xの標準偏差
yの標準偏差
• 相関係数 r は2変量間の関連の強さを表す尺度であり、-1と1の間の
値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
12
11
Ⅰ
Ⅱ
各点のx座標と平均との差
xi  x
10
と、y座標と平均との差
を考える。
yi  y
9
8
y
7
6
5
Ⅳ
Ⅲ
4
3
3
5
7
9
11
13
15
x
点が、Ⅰの部分にあるとき xi  x  yi  y  は、+×+=+となる。
点が、Ⅱの部分にあるとき xi  x  yi  y  は、-×+=-となる。
点が、Ⅲの部分にあるとき xi  x  yi  y  は、-×-=+となる。
点が、Ⅳの部分にあるとき xi  x  yi  y  は、+×-=-となる。
xi  x
yi  y
• 相関係数と散布図は密接な関係があり、右上がりの散布
図は相関係数が+であり、右下がりの散布図は相関係
数が-である。
• また、相関係数が±1に近いほど、散布図は直線に近く
なる。
正の相関(r>0)
負の相関(r<0)
•Xが大きな値をとる
ほど、Yも大きな値を
とる。
•Xが大きな値をとる
ほど、Yは小さな値を
とる。
無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。
1) 不平等度の分析
第2章で示した、貯蓄現在高階級別の世帯分布は、下のようになっていた。
• この分布は、少数の大
金持ちと多数の庶民が
いる状態を示している。
• このような状態は不平
等であると考える。
• すべての人の資産†が
等しい状態を平等‡とし、
そこからどの程度離れ
ているかを知りたい。
出典:総務省統計局『家計簿から見たファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#1)
† 所得面から平等をみる
こともある。
‡ 平等を定義することは容
易ではないが、ここで
はこのように定義する。
† 5人兄弟の遺産相続の例
5人兄弟が遺産を相続するとき、
(a) は、5人兄弟がそれぞれ5分の1ずつ相続するという例。
 (b) は、5人兄弟がそれぞれ異なった取り分を相続する例。
 (c) は、長男がすべての遺産を相続するという例。

(a)
長男
次男
三男
四男
五男
(b)
取り分
1/5
1/5
1/5
1/5
1/5
長男
次男
三男
四男
五男
(c)
取り分
5/15
4/15
3/15
2/15
1/15
長男
次男
三男
四男
五男
取り分
1
0
0
0
0
(a) は、5人が平等に相続しているのに対して、(b)や(c) は、
不平等である。
(b)のパターンを例に取り上げる。このパターンを、取
り分の小さい順に並べかえ、人数の比率と金額(遺産の
取り分)の比率の累積を計算してみる。
五男
四男
三男
二男
長男
計
人数
人数比率
累積人数比率
遺産額
金額比率
累積金額比率
1人
1人
1人
1人
1人
5人
1/5
1/5
1/5
1/5
1/5
1/5
2/5
3/5
4/5
5/5
1億円
2億円
3億円
4億円
5億円
15億円
1/15
2/15
3/15
4/15
5/15
1/15
3/15
6/15
10/15
15/15
累積-それ以前のものをすべて加えるということ。
(例) (b)の三男の累積金額比率
「五男の取り分」+「四男の取り分」+「三男の取り分」となる
ので、1/15 + 2/15 + 3/15 = 6/15 となる。
ⅰ) ローレンツ曲線
横軸に累積人数比率を、縦軸に累積金額比率をとり、
線でつないだものが下の図である。
1
0.9
累積人数比率 累積金額比率
1/5
2/5
3/5
4/5
5/5
1/15
3/15
6/15
10/15
15/15
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0

0.2
0.4
0.6
0.8
この曲線は、ローレンツ曲線とよばれ、不平等の度合いを表す
曲線である。
1
遺産相続の3つのパターンについて、取り分の小さい順
に並べかえ、人数の比率と金額(遺産の取り分)の比率の
累積を計算してみた。
(a)
(b)
累積人数比率 累積金額比率
五男
四男
三男
次男
長男
1/5
2/5
3/5
4/5
1
(c)
累積人数比率 累積金額比率
1/5
2/5
3/5
4/5
1
五男
四男
三男
次男
長男
1/5
2/5
3/5
4/5
1
1/15
3/15
6/15
10/15
1
累積人数比率 累積金額比率
五男
四男
三男
次男
長男
1/5
2/5
3/5
4/5
5/5
0
0
0
0
1
遺産相続の例

1
(この例では(a)のグラフが該当す
る。)
0.9
0.8
累積金額比率
45度線が完全平等線といわれる。
0.7
0.6
(a)
(b)
(c)
0.5
0.4
0.3
0.2
0.1
0
0
0.2
0.4
0.6
累積人数比率
0.8
1

不平等度が大きいほど、グラフが
完全平等線から右下方に離れる。
→ (b)より(c)の方が不
平等
ⅱ) ジニ係数
ローレンツ曲線の完全平等線からの離れぐあい
を数値で表したもの
完全平等線とローレンツ曲線で囲まれる部分の
面積を2倍したもの
遺産相続の例
1
0.9
0.8
累積金額比率
0.7
この面積の2倍
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.2
0.4
0.6
累積人数比率
0.8
1
灰色の四角の面積が1なので、0と1の
間の値をとり、1に近いほど不平等度
が大きい
ジニ係数の計算方法
残りの部分を台形に分割し、正方形から引く
台形の面積の公式
(上底+下底)×高さ÷2
を使う。
下底
上底
高さ
遺産相続の例 (b)
遺産相続の例
1
0.9
0.8
0.7
累積金額比率
五男
四男
三男
次男
長男
累積人数比率 累積金額比率
1/5
1/15
2/5
3/15
3/5
6/15
4/5
10/15
1
1
0.267
0.6
0.5
0.4
0.3
0.2
0.1
遺産相続の(b)で、次のような台形がある。
上底 -
下底 -
高さ -
(1/5)
三男までの累積金額比率(6/15)
次男までの累積金額比率(10/15)
三男と次男の累積人数比率の差
0
0
0.2
0.4
0.6
0.8
1
累積人数比率
この台形の面積は (6/15 + 10/15)×1/5÷2
= 8/75
このような台形(1番左は直角三角形)の面積を全部加え、その2倍を正方形から引く
1-(1/150 + 2/75 + 3/50 + 8/75 + 1/6) × 2
= 1-11/30×2
= 4/15 = 0.2666…
年間収入の例 (平成22年 家計調査 2人以上世帯)
階
200
250
300
350
400
450
500
550
600
650
700
750
800
900
1000
1250
2000
級
-
集計世帯数
200
250
300
350
400
450
500
550
600
650
700
750
800
900
1000
1250
1500
218
344
485
683
679
685
588
528
484
438
372
316
269
491
345
496
196
201
累積世帯数 累積世帯比率 年間収入
218
562
1047
1730
2409
3094
3682
4210
4694
5132
5504
5820
6089
6580
6925
7421
7617
7818
0.00000
0.02788
0.07189
0.13392
0.22128
0.30814
0.39575
0.47096
0.53850
0.60041
0.65643
0.70402
0.74444
0.77884
0.84165
0.88578
0.94922
0.97429
1.00000
158
226
275
323
373
423
473
524
573
621
672
721
773
844
945
1101
1360
1984
年収総額
累積年収総額 累積年収比率
34444
77744
133375
220609
253267
289755
278124
276672
277332
271998
249984
227836
207937
414404
326025
546096
266560
398784
0.00000
0.00725
0.02361
0.05169
0.09812
0.15143
0.21242
0.27096
0.32920
0.38757
0.44482
0.49744
0.54539
0.58916
0.67639
0.74501
0.85996
0.91606
1.00000
34444
112188
245563
466172
719439
1009194
1287318
1563990
1841322
2113320
2363304
2591140
2799077
3213481
3539506
4085602
4352162
4750946
計
(例) (0.00725+0.02361)×(0.07189-0.02788)÷2 = 0.00068
ジニ係数 1-0.35231×2 = 0.2954
台形面積
0.00010
0.00068
0.00234
0.00654
0.01084
0.01594
0.01818
0.02027
0.02219
0.02332
0.02242
0.02108
0.01952
0.03974
0.03136
0.05091
0.02226
0.02463
0.35231
2) 回帰分析
ⅰ) 相関関係と因果関係
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
所得(X ) 消費(Y)
212
173
217
181
223
187
228
192
234
198
243
205
248
214
259
225
271
236
280
246
290
252
296
257
300
260
306
265
314
271
322
279
320
280
321
278
(単位: 兆円)
データ出典: 内閣府経済社
会研究所『国民経済計算』
左の表は日本の実質家計可処分所得(所
得(X)と記述)と、実質家計最終消費支出
(消費(Y)と記述)の、1981年から1998年ま
でのデータである。
このデータを横軸に所得、縦軸に消費を
とった散布図であらわすと、下の図のよ
うになる。
所得と消費
300
280
260
消費
年
240
220
200
180
160
200
220
240
260
280
所得
300
320
340



所得と消費の散布図を見ると、「所得と消費の間には正の相関
がある」といえる。
– 所得が多くなれば、消費も多くなる。
– 所得が少なくなれば、消費も少なくなる。
さらに、所得と消費の関係は相関関係だけではなく、所得を原
因、消費を結果とする因果関係が成り立っている。
因果関係
› 一方が原因となって、もう一方が結果となる関係。原因と
結果を反対にすることはできない。
(例)所得が高い(原因)⇒消費が多い(結果)
相関関係
因果関係
※
風が吹くと桶屋が儲かる
風が吹くと砂ぼこりが立つ
→ 砂ぼこりで目を痛めて失明する人が増える
→ 失明した人はよく三味線を弾くのでその需要が増える
→ 三味線には猫の皮を張るので猫が捕獲されて数が減る
→ するとねずみが増えるので桶がたくさんかじられる
→ だから桶屋が儲かる
いくつもの因果関係が連鎖したもの。
最終的には
風が吹く(原因)⇒
となる。
桶屋が儲かる(結果)

経済理論はこのような因果関係の積み重ねである。
(例)
「ある商品の価格を下げると、販売数量は増加する」
このような論理の積み重ねによって、経済の現状把握・予測
をおこなうことを定性的分析という。

これから一歩踏み込んで、
「ある商品の価格を○%下げると、販売数量が○%増加する」
というように、数量的な把握をするものが定量的分析である。

このような定量的分析をおこなうために、統計データが用い
られる。
(例) 風速○メートルの風が吹けば、失明する人が○人増えて
(中略) 桶屋が○○円儲かる。
統計データを用いた定量的分析のことを、計量分析と
いう。経済分析における計量分析が計量経済分析であ
る。
 計量経済分析をおこなうことによって、経済理論が現
実経済に合致しているかどうかのチェックをおこなう
ことができる。
 因果関係の定量的分析には回帰分析という統計手法が
よく用いられる。

ⅱ) 最小2乗法
回帰分析は、XとYとの関係を、数式をあてはめることによって分析す
るものである。
 回帰分析は、イギリスの遺伝学者ゴルトンが、父親の身長とその息子
の身長の関係に注目したところ、直線であらわすことができることを
発見したことが始まりである。
 なお、「回帰」の語源は、父親と息子の身長を比較すると、息子の身
長の方がより親より平均に近くなること。すなわち非常に高身長な父
親の息子は、父親より低くなり、非常に低身長な父親の息子は、父親
より高くなることを見出したことによる。(平均への「回帰」が語源
である。)



回帰分析では、最初に、最も適当と考えられる数式の形(回帰
モデルという)を選ぶことからおこなわれる。
回帰モデルの例
(どのような式が最適かは、散布図や経済理論などから総合的に判断さ
れる)
Y=a+bX
Y=a+bX2
Y=a/(X+b)
3
2.5
2
1.5
1
0.5
Xを独立変数(説明変数)とよび、Yを従属変数(被説明変
数)とよぶ。
20
18
16
14
12
10
8
6
4
X
2
20
18
16
14
12
8
10
6
4
0
2
0
20
18
16
14
12
10
8
6
4
X
Y=5/(X+2)のグラフ
Y
900
800
700
600
500
400
300
200
100
0
2
50
45
40
35
30
25
20
15
10
5
0
0
Y=5+2X 2のグラフ
Y
0
Y=5+2Xのグラフ
Y
X


回帰係数の推定値は最小2乗法という方法で求めること
ができる。
最小2乗法はデータの各点と直線との距離(これを残差
という)の2乗和が最小となるように直線を引く方法で
ある。
推定値は次のような式
で求められる。
n XY   X  Y
bˆ 
n X  ( X )
 ( X  X )(Y  Y )

(X  X )
 X  Y   X  XY
aˆ 
n X  ( X )
11
10
9
2
2
8
7
2
6
2
5
2
4
3
6
9
12
2
15
 Y  bˆX
こうして、YとXの関係をもっともよくあらわす、 Y  aˆ  bˆX という式を求める。
Xが1増加したとき、Yはおおよそ bˆ 増加する。
ⅲ) 予測値と残差
あるXに対応する直線上の点を予測値(または理論値)といい、
Yˆ であらわす。
 予測値は、すべてのデータが推定された回帰直線上にあると
した場合に、あるXに対応したYの値であり、データとして
現有していないXに対するYの値の予測となる。

11
Y
Yˆ
残差はYから Yˆ を引い
たものである。
10
9
8
7
6
5
4
3
6
9
12
15

所得と消費の例ではY=a+bXという線形のモデルを考え
る。このモデルはケインズ型消費関数といわれるモデ
ルである。
この例において、回帰係数
の推定値を求めると、
所得と消費
bˆ  0.945
aˆ  23.21
1981年のXは212なので、
-23.21+0.945×212=177.13
が予測値となる。
280
260
消費
となる。
300
240
220
Y=-23.21+0.945X
200
180
160
200
220
240
260
280
所得
残差は
173 - 177.13 = -4.13
である。
300
320
340
ⅳ) 決定係数


例1
X
例2
X
Y
10
8
13
9
11
14
6
4
12
7
5
右の表のような数値例
を考えてみよう。
この2つの例に回帰分析
を適用すると、ともに
Y=3+0.5X という回帰直
線が導出される。
8.1
7.1
9.5
7.5
8.4
10
6
5
9
6.4
5.5
10
8
13
9
11
14
6
4
12
7
5
11
11
10
10
9
9
8
8
7
7
Y=3+0.5X
6
Y
Y=3+0.5X
6
5
9.3
8.3
8.2
7.5
7.1
10.7
6.7
5.7
9.7
5.1
4.2
5
4
4
3
6
9
12
15
3
6
9
12
15



この2つの図を比べると、データに対する回帰直線のあ
てはまりが異なること(データが直線の近くに位置して
いるか、直線から離れて位置しているか)がわかる。そ
のあてはまり具合を数値で表したものが決定係数R2 で
ある。
この2つの例の、左はR2=0.998、右はR2=0.685となる(導
出方法は後述)。
決定係数は、
R2 
回帰によって説明され る変動
Yの全変動
と解釈することができ、0と1の間の値をとる。決定係数
が1に近いほど回帰直線のあてはまりはよく、決定係数
の値が小さい場合(0.5とか0.6以下の場合)には、分析の
妥当性を検討する必要がある。

具体的には、すべての点のYの平均の線を引き、各点と平
均の差の2乗和と、回帰直線上の点(予測値)と平均の差
の2乗和の比をとったものである。
11
10
9
8
7
6
5
4
3
6
9
12
15
— Yの平均の線
} 各点と平均の差、これの2乗和がY
の全変動となる。
{ 回帰直線上の点(予測値)と平均の
差、この2乗和が回帰によって説明さ
れる変動となる。
この2つの比が決定係数R2となる。
決定係数の式は次のようになる。
R
2
(Yˆ  Y )


 (Y  Y )
2
2

{ ( X  X )(Y  Y )}2
 ( X  X )  (Y  Y )
2
2
1) 重回帰分析入門
所得と消費との間に、
Y(消費) = a + b X(所得)
↑
結果
↑
原因
という因果関係が存在することを、ケインズが提唱した。
これは、
消費額の大小は、所得の大小が原因となっている。
ということである。
(例) 毎月のバイト代収入が5万円の人と、3万円の人では、一般的
に5万円の人のほうが多く使うことができる。
しかし、消費額の大小を決定する原因は所得だけでよいであろうか?
(例) 毎月のバイト代収入が5万円の人と、3万円の人では、一般的
に5万円の人のほうが多く使うことができる。
ここで、毎月のバイト代が5万円の人が2人いたとしよう。そ
の2人のうち1人は貯蓄が0円、もう1人は100万円の貯蓄があったと
する。
この2人の所得は等しい。なので、消費額は同じぐらいにな
るはずであるが、100万円の貯蓄がある人は、その貯蓄を崩して消
費することも可能である。
すなわち、消費額の大小は、所得だけでなく、資産(預貯金
以外に、株式などを含めたもの)の大小によって決定されるので
はないであろうか?
Y(消費) = a + b X(所得) + c W(資産)
↑
↑
結果
原因1
† このようなモデルはトービンによって提唱された
↑
原因2

説明変数が複数ある回帰モデルのことを重回帰モデル
といい、重回帰モデルを用いた分析のことを重回帰分
析という。
(説明変数が1つのモデルは単回帰モデル(または単純回帰モデ
ル)といい、単回帰モデルを用いた分析のことを単回帰分析
(または単純回帰分析)という)

重回帰モデルは次のような式で表される。
1. Y = a + bX + cW + dZ + ・・・
2. Y = a + b1X1 + b2X2 + b3X3 + ・・・
(説明変数とその係数を添え字つきの変数で表したもの)
3. Y = b0 + b1X1 + b2X2 + b3X3 + ・・・
(上の式の定数の部分も添え字つきの表現をしたもの)

重回帰モデルの中には説明変数が多数のモデルもある
ので、別々のアルファベットで表現するには不十分と
なり、添え字つきの変数で表現されることがある。
※ 3変数(説明変数が2つ)の場合の重回帰モデル
Y
3変数の場合には回帰直線ではなく、
回帰平面になる。
W
×
×
×
この場合、最小2乗法は各点と回帰平
面との垂直方向の距離(これが残差)
の2乗和が最小になるように平面を描く
ことである。
×
回帰平面 Y=a+bX+cW
最小2乗法で求めた回帰平面の係数推
定値は次のようになる。
X
aˆ  Y  bˆX  cˆW
 ( X  X )(Y  Y ) (W  W )   ( X  X )(W  W ) (W  W )(Y  Y )
 ( X  X )  (W  W )  ( ( X  X )(W  W ))
 (W  W )(Y  Y ) ( X  X )   ( X  X )(W  W ) ( X  X )(Y  Y )
cˆ 
 ( X  X )  (W  W )  ( ( X  X )(W  W ))
bˆ 
2
2
2
2
2
2
2
2
2) レーダーチャート
•スポーツテストでは、多種目につ
いてテストをおこなう。
•そのテストの結果(個人、クラス
平均など)をあらわすのに最適な
ものがレーダーチャートである。
•レーダーチャートによって、その
個人やクラスの長所と弱点を一
目でとらえることが可能になる。
•他には、5教科のテストの成績や、
自治体の充実度などを表現する
ときに用いられる。
スポーツテストの結果
握力
10
ソフト… 8
6
4
2
立ち幅とび
0
上体起こし
長座体前屈
反復横とび
50m走
往復持久走
クラス平均
全国平均