統計学基礎Ⅱ

Ⅰ
表・グラフによる記述
1) 分割表(クロス集計表)と2次元ヒストグラム
2) 散布図
Ⅱ 特性値による記述
1) 相関係数
Ⅲ
2変量データの分析
1) 回帰分析
ⅰ)
ⅱ)
ⅲ)
ⅳ)
相関関係と因果関係
最小2乗法
予測値と残差
決定係数
• 2変量データ → 2つの対になったデータ
(例)サッカー日本代表の身長と体重
※ 日本代表の身長と韓国代表の体重は2つのデータ
であるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ 川島の身長と長谷部の体重を組み合わせても、
意味がない。
• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述
1) 分割表(クロス集計表)・2次元ヒストグラム


2変量についてクロス集計した度数分布表のことを、分割表(また
はクロス集計表)という。
質的変量、または離散変量で取りうる値の少ないものは、それぞれ
に対応する度数を数えればよい。
例) 血液型と性別でクロス集計したもの
A型
B型
O型
AB型
計
男
14
9
17
2
42
女
1
2
1
2
6
計
15
11
18
4
48

一方、連続データや離散データでとりうる値の多いものは、2次元
の度数分布表となる。
サッカー日本代表
南アW杯(2010)ベンチ入りメンバー
3
2
1
83-86
80-83
77-80
74-77
71-74
0
180-185
170-175
身長
68-71
体
重
62-65
65-68
68-71
71-74
74-77
77-80
80-83
83-86
計
身長
165-170 170-175 175-180 180-185 185-190
0
0
2
0
0
0
2
1
0
0
0
1
1
0
0
0
1
2
1
0
0
1
1
2
1
0
0
1
1
1
0
0
0
0
3
0
0
0
0
1
0
5
8
4
6
65-68
身長(cm) 体重(kg)
180
77
187
80
185
80
187
78
185
82
172
76
187
85
178
73
170
65
176
62
178
70
181
75
178
75
175
67
175
64
177
77
179
72
182
74
173
67
170
73
185
76
173
70
180
73
62-65
氏名
川口 能活
楢崎 正剛
川島 永嗣
中澤 佑二
田中 マルクス闘莉王
駒野 友一
岩政 大樹
今野 泰幸
長友 佑都
内田 篤人
中村 俊輔
稲本 潤一
遠藤 保仁
中村 憲剛
松井 大輔
阿部 勇樹
長谷部 誠
本田 圭佑
玉田 圭司
大久保 嘉人
矢野 貴章
岡崎 慎司
森本 貴幸
体重
計
2
3
2
4
5
3
3
1
23
2次元の度数分
布表は、右のよ
うに2次元ヒスト
グラム(グラフ
は3D)であらわ
すことができる。
2) 散布図
連続データや離散データでとりうる値の多いものは、横軸にX、縦軸にYを
とった座標軸上に、個々のデータをあらわした散布図であらわされること
も多い。
サッカー日本代表
南アW杯(2010)ベンチ入りメンバー
氏名
川口 能活
楢崎 正剛
川島 永嗣
中澤 佑二
田中 マルクス闘莉王
駒野 友一
岩政 大樹
今野 泰幸
長友 佑都
内田 篤人
中村 俊輔
稲本 潤一
遠藤 保仁
中村 憲剛
松井 大輔
阿部 勇樹
長谷部 誠
本田 圭佑
玉田 圭司
大久保 嘉人
矢野 貴章
岡崎 慎司
森本 貴幸
身長(cm) 体重(kg)
180
77
187
80
185
80
187
78
185
82
172
76
187
85
178
73
170
65
176
62
178
70
181
75
178
75
175
67
175
64
177
77
179
72
182
74
173
67
170
73
185
76
173
70
180
73
サッカー日本代表の身長と体重
85
80
体重(kg)

75
70
65
60
170
175
180
身長(cm)
185
190
1) 相関係数
r
xとyの共分散
 (x  x )(y - y)
 (x  x )  (y - y)
i
i
2
i
i
2

1
(xi  x )(yi - y)

n
1
1
2
(x

x
)
(yi - y) 2


i
n
n
Xの標準偏差
yの標準偏差
• 相関係数 r は2変量間の関連の強さを表す尺度であり、-1と1の間の
値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
12
11
Ⅰ
Ⅱ
各点のx座標と平均との差
xi  x
10
と、y座標と平均との差
を考える。
yi  y
9
8
y
7
6
5
Ⅳ
Ⅲ
4
3
3
5
7
9
11
13
15
x
点が、Ⅰの部分にあるとき xi  x  yi  y  は、+×+=+となる。
点が、Ⅱの部分にあるとき xi  x  yi  y  は、-×+=-となる。
点が、Ⅲの部分にあるとき xi  x  yi  y  は、-×-=+となる。
点が、Ⅳの部分にあるとき xi  x  yi  y  は、+×-=-となる。
xi  x
yi  y
• 相関係数と散布図は密接な関係があり、右上がりの散布
図は相関係数が+であり、右下がりの散布図は相関係
数が-である。
• また、相関係数が±1に近いほど、散布図は直線に近く
なる。
正の相関(r>0)
負の相関(r<0)
•Xが大きな値をとる
ほど、Yも大きな値を
とる。
•Xが大きな値をとる
ほど、Yは小さな値を
とる。
無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。
年
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
所得(X ) 消費(Y)
212
173
217
181
223
187
228
192
234
198
243
205
248
214
259
225
271
236
280
246
290
252
296
257
300
260
306
265
314
271
322
279
320
280
321
278
(単位: 兆円)
データ出典: 内閣府経済社
会研究所『国民経済計算』
左の表は日本の実質家計可処分所得(所
得(X)と記述)と、実質家計最終消費支出
(消費(Y)と記述)の、1981年から1998年ま
でのデータである。
このデータを横軸に所得、縦軸に消費を
とった散布図であらわすと、下の図のよ
うになる。
所得と消費
300
280
260
消費
1)回帰分析
ⅰ) 相関関係と因果関係
240
220
200
180
160
200
220
240
260
280
所得
300
320
340



所得と消費の散布図を見ると、「所得と消費の間には正の相関
がある」といえる。
– 所得が多くなれば、消費も多くなる。
– 所得が少なくなれば、消費も少なくなる。
さらに、所得と消費の関係は相関関係だけではなく、所得を原
因、消費を結果とする因果関係が成り立っている。
因果関係
› 一方が原因となって、もう一方が結果となる関係。原因と
結果を反対にすることはできない。
(例)所得が高い(原因)⇒消費が多い(結果)
相関関係
因果関係
※
風が吹くと桶屋が儲かる
風が吹くと砂ぼこりが立つ
→ 砂ぼこりで目を痛めて失明する人が増える
→ 失明した人はよく三味線を弾くのでその需要が増える
→ 三味線には猫の皮を張るので猫が捕獲されて数が減る
→ するとねずみが増えるので桶がたくさんかじられる
→ だから桶屋が儲かる
いくつもの因果関係が連鎖したもの。
最終的には
風が吹く(原因)⇒
となる。
桶屋が儲かる(結果)

経済理論はこのような因果関係の積み重ねである。
(例)
「ある商品の価格を下げると、販売数量は増加する」
このような論理の積み重ねによって、経済の現状把握・予測
をおこなうことを定性的分析という。

これから一歩踏み込んで、
「ある商品の価格を○%下げると、販売数量が○%増加する」
というように、数量的な把握をするものが定量的分析である。

このような定量的分析をおこなうために、統計データが用い
られる。
(例) 風速○メートルの風が吹けば、失明する人が○人増えて
(中略) 桶屋が○○円儲かる。



統計データを用いた定量的分析のことを、計量分析と
いう。経済分析における計量分析が計量経済分析であ
る。
計量経済分析をおこなうことによって、経済理論が現
実経済に合致しているかどうかのチェックをおこなう
ことができる。
因果関係の定量的分析には回帰分析という統計手法が
よく用いられる。
ⅱ) 最小2乗法
回帰分析は、XとYとの関係を、数式をあてはめることによって分析す
るものである。
 回帰分析は、イギリスの遺伝学者ゴルトンが、父親の身長とその息子
の身長の関係に注目したところ、直線であらわすことができることを
発見したことが始まりである。
 なお、「回帰」の語源は、父親と息子の身長を比較すると、息子の身
長の方がより親より平均に近くなること。すなわち非常に高身長な父
親の息子は、父親より低くなり、非常に低身長な父親の息子は、父親
より高くなることを見出したことによる。(平均への「回帰」が語源
である。)

ⅱ) 最小2乗法
回帰分析では、最初に、最も適当と考えられる数式の形(回帰
モデルという)を選ぶことからおこなわれる。
回帰モデルの例


(どのような式が最適かは、散布図や経済理論などから総合的に判断さ
れる)
Y=a+bX
Y=a+bX2
Y=a/(X+b)
3
2.5
2
1.5
1
0.5
Xを独立変数(説明変数)とよび、Yを従属変数(被説明変
数)とよぶ。
20
18
16
14
12
10
8
6
4
X
2
20
18
16
14
12
8
10
6
4
0
2
0
20
18
16
14
12
10
8
6
4
X
Y=5/(X+2)のグラフ
Y
900
800
700
600
500
400
300
200
100
0
2
50
45
40
35
30
25
20
15
10
5
0
0
Y=5+2X 2のグラフ
Y
0
Y=5+2Xのグラフ
Y
X


回帰係数の推定値は最小2乗法という方法で求めること
ができる。
最小2乗法はデータの各点と直線との距離(これを残差
という)の2乗和が最小となるように直線を引く方法で
ある。
推定値は次のような式
で求められる。
n XY   X  Y
bˆ 
n X  ( X )
 ( X  X )(Y  Y )

(X  X )
 X  Y   X  XY
aˆ 
n X  ( X )
11
10
9
2
2
8
7
2
6
2
5
2
4
3
6
9
12
15
 Y  bˆX
2
ⅲ) 予測値と残差
あるXに対応する直線上の点を予測値(または理論値)といい、
であらわす。
Yˆ
 予測値は、すべてのデータが推定された回帰直線上にあると
した場合に、あるXに対応したYの値であり、データとして
現有していないXに対するYの値の予測となる。

11
Y
Yˆ
残差はYから Yˆ を引い
たものである。
10
9
8
7
6
5
4
3
6
9
12
15

所得と消費の例ではY=a+bXという線形のモデルを考え
る。このモデルはケインズ型消費関数といわれるモデ
ルである。
回帰係数の推定値は
所得と消費
bˆ  0.945
aˆ  23.21
280
260
消費
となる。
1981年のXは212なので、
-23.21+0.945×212=177.13
が予測値となる。
残差は
173 - 177.13 = -4.13
である。
300
240
220
Y=-23.21+0.945X
200
180
160
200
220
240
260
280
所得
300
320
340
ⅳ) 決定係数

決定係数は回帰モデルのあてはまり具合を示す尺度であ
る。次のような数値例を考えてみよう。
例1
X
例2
X
Y
10
8
13
9
11
14
6
4
12
7
5
8.1
7.1
9.5
7.5
8.4
10
6
5
9
6.4
5.5
Y
10
8
13
9
11
14
6
4
12
7
5
9.3
8.3
8.2
7.5
7.1
10.7
6.7
5.7
9.7
5.1
4.2

この2つの例に回帰分析を適用すると、ともにY=3+0.5X
という回帰直線が導出される。ところで、散布図に回帰
直線を書き入れたものが下図である。
11
11
10
10
9
9
8
8
7
7
6
6
5
5
4
3
6
9
12
15
4
3
6
9
12
15


この2つの図を比べると、データに対する回帰直線のあ
てはまりが異なることがわかる。それを数値で表した
ものが決定係数R2 であり、左はR2=0.998、右はR2=0.685
である。
決定係数は、
R2 
回帰によって説明され る変動
Yの全変動
と解釈することができ、0と1の間の値をとる。決定係数
が1に近いほど回帰直線のあてはまりはよく、決定係数
の値が小さい場合(0.5とか0.6以下の場合)には、分析の
妥当性を検討する必要がある。

具体的には、すべての点のYの平均の線を引き、各点と平
均の差の2乗和と、回帰直線上の点(予測値)と平均の差
の2乗和の比をとったものである。
11
10
9
8
7
6
5
4
3
6
9
12
15
— Yの平均の線
} 各点と平均の差、これの2乗和がY
の全変動となる。
{ 回帰直線上の点(予測値)と平均の
差、この2乗和が回帰によって説明さ
れる変動となる。
この2つの比が決定係数R2となる。
決定係数の式は次のようになる。
R
2
(Yˆ  Y )


 (Y  Y )
2
2