平成 26 年度経済統計分析入門
.
第 4 回 「データ分布の特性値」
原 尚幸
.
新潟大・経済
http://www.econ.niigata-u.ac.jp/˜hara/G-stat/
[email protected]
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
1 / 27
データの分布の特性値
分布を特徴付ける数値のことをデータ分布の
特性値と言う
分布の中心の指標 (先週)
平均, 中央値, 加重平均
分位点 (先週)
分位点, 四分位点
データ分布の散らばりの指標 (今週)
範囲, 四分位偏差, 分散, 標準偏差
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
2 / 27
データの散らばりの指標
平均が同じ分布はいくらでもある
分布の情報を知る場合, データの散らばり具合を
定量的に評価することも必要
データの散らばりの指標
1
2
3
4
範囲 (レンジ )
四分位偏差
分散
標準偏差
.
.
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
3 / 27
範囲 (レンジ )
範囲 (レンジ )
最大値と最小値の差
Rd := x(n) − x(1)
.
をデータ分布の範囲 (またはレンジ ) という
素朴な散らばりの指標
範囲が大きければ分布の散らばりも大きい
外れ値の影響を受けやすい
.
公営住宅家賃
Rd = x(47) − x(1) = 3521 − 854 = 2667
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
4 / 27
四分位偏差 (範囲)
四分位偏差 (範囲)
第 3 四分位点と第 1 四分位点の差を 2 で割ったもの
Qd :=
Q3 − Q1
2
.
をデータ分布の四分位偏差 (範囲) という
値が大きければ分布の散らばりも大きい
外れ値の影響は範囲に比べると受けにくい
公営住宅家賃
x(36) − x(12)
1622 − 1040 .
Qd =
=
= 291
2
2
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
5 / 27
分散
偏差・分散
xi − x¯ : xi の偏差という
偏差の 2 乗平均
1∑
(xi − x¯)2
V (x) =
n i=1
n
を x1 , . . . , xn の分散という
H. Hara (Niigata U.)
データ分析の特性値 (2)
.
Oct 22, 2014
6 / 27
分散
分散:平均からの 2 乗距離
の平均
分散が大きいほどばらつき
が大きい
公営賃貸住宅家賃:
V = 381500.7
単位が (円/3.3m2 )2
⇒ やや解釈がしづらい
H. Hara (Niigata U.)
データ分析の特性値 (2)
¯
X
¯
X
Oct 22, 2014
7 / 27
分散
分散:平均からの 2 乗距離
の平均
分散が大きいほどばらつき
が大きい
公営賃貸住宅家賃:
V = 381500.7
単位が (円/3.3m2 )2
⇒ やや解釈がしづらい
H. Hara (Niigata U.)
データ分析の特性値 (2)
¯
X
¯
X
Oct 22, 2014
7 / 27
分散の公式
以下の公式は非常に重要なので覚えること
(宿題:試験に出題するかも!
?)
1
1∑
1∑ 2
V (x) =
(xi − x¯)2 =
xi − x¯2
n i=1
n i=1
n
.
.
n
分散 = 2 乗の平均 − 平均の 2 乗
2
a, b を定数としたときに, yi = axi + b の分散は
1∑
(yi − y¯)2 = a2 V (x)
n i=1
n
V (y) =
.
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
8 / 27
標準偏差
標準偏差
分散の正の平方根
S :=
√
V (x)
.
を x1 , . . . , xn の 標準偏差 と言う
原データと同一の単位を持つ指標
公営賃貸住宅家賃:S = 617.6574
単位は 円/3.3m2
.
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
9 / 27
シグマ区間
シグマ区間
区間 [¯
x − S, x¯ + S] を 1 シグマ区間
区間 [¯
x − 2S, x¯ + 2S] を 2 シグマ区間
区間 [¯
x − 3S, x¯ + 3S] を 3 シグマ区間
より一般に区間 [¯
x − kS, x¯ + kS] を k シグマ区間
という
.
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
10 / 27
シグマ区間
3
.
くらいのデータが含まれると
言われている.
150
100
Frequency
1 シグマ区間に 68.3 %
2 シグマ区間に 95.4 %
3 シグマ区間に 99.7 %
50
2
0
1
200
データ分布が左右対称で
「きれいな」分布の場合,
−4
−2
0
2
4
x
.
.
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
11 / 27
シグマ区間
公営賃貸住宅家賃
1
.
.
.
2
3
.
一般の分布の場合でも
.
1
2
.
1 シグマ区間:[843.13, 2078.45] ⇒ 40 道府県 (85.1 %)
2 シグマ区間:[225.47, 2696.10] ⇒ 44 道府県 (93.6 %)
3 シグマ区間:[−392.19, 3313.76] ⇒ 46 道府県 (97.9
%)
3
1 シグマ区間に 68.3 %
2 シグマ区間に 95.4 %
3 シグマ区間に 99.7 %
はひとつの目安にはなりえる
.
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
12 / 27
演習 1:ビッグマック指数
2011 年世界のビッグマック価格 (円)
ノルウェー
スイス
スウェーデン
ブラジル
デンマーク
カナダ
オースト リア
ユーロ圏
アルゼンチン
コロンビア
イスラエル
ニュージーランド
H. Hara (Niigata U.)
652
632
599
483
430
392
387
387
380
372
366
346
日本
アメリカ
チェコ
ハンガリー
チリ
イギリス
ト ルコ
シンガポール
ペルー
韓国
ポーランド
南アフリカ
データ分析の特性値 (2)
320
319
319
317
314
305
296
286
286
275
242
225
フィリピン
メキシコ
ロシア
サウジアラビア
インド ネシア
台湾
マレーシア
パキスタン
エジプト
タイ
中国
香港
218
215
212
209
207
204
190
187
185
184
178
152
Oct 22, 2014
13 / 27
演習 1:ビッグマック指数
1
2
3
4
ビッグマック価格の中央値を計算せよ (先週)
第 1 四分位点, 第 3 四分位点を計算せよ (先週)
範囲, 四分位偏差を計算せよ
平均は x
¯ = 313.083, 標準偏差は S = 124.41 で
ある.
1
2
3
1 シグマ区間 [¯
x − S, x¯ + S]
2 シグマ区間 [¯
x − 2S, x¯ + 2S]
3 シグマ区間 [¯
x − 3S, x¯ + 3S]
にそれぞれデータの何パーセントが含まれるか
計算せよ
.
.
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
14 / 27
解答例
1
2
3
4
データ数が 36 なので中央値は
(x(18) +(19) )/2 = 300.5
第 1 四分位点 : (x(9) +(10) )/2 = 210.5
第 3 四分位点 : (x(27) +(28) )/2 = 376
範囲:500, 四分位偏差:82.75
シグマ区間はそれぞれ
1
2
3
.
1 シグマ区間:[188.67, 437.50]
⇒ 27ヶ国 = 75.0%
2 シグマ区間:[64.254, 561.91]
⇒ 33ヶ国 = 91.7%
3 シグマ区間:[−60.16, 686.33]
⇒ 100ヶ国 = 100%
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
15 / 27
基準化変量
分布の特性値
分布全体の特徴を数値に定量化したもの
特定のデータ xi の分布全体の中での相対的な
位置に関心がある場合がある
自分のテスト の得点の相対的位置など
個別のデータ xi の相対的な位置を定量化できな
いか?
⇒ 基準化変量
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
16 / 27
基準化変量
基準化変量
データ x1 , . . . , xn の
平均を x
¯
標準偏差を S
とあらわすとき,
zi :=
xi − x¯
S
を xi の 基準化変量, あるいは標準化変量という.
また x1 , . . . , xn から z1 , . . . , zn を求める操作を
.
基準化, あるいは標準化という.
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
17 / 27
基準化変量とシグマ区間
xi − x¯
⇔ xi = x¯ + zi · S
S
zi は xi が平均から何シグマ離れているかを
あらわす指標
zi :=
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
18 / 27
演習 2
演習 2
.
xi − x¯
基準化変量 zi =
の平均と分散を求めよ
S
n
1∑
.
x¯ =
xi
n i=1
v
u n
u1 ∑
S=t
(xi − x¯)2
n i=1
1∑
zi ,
z¯ =
n i=1
n
H. Hara (Niigata U.)
1∑
V (z) =
(zi − z¯)2
n i=1
n
データ分析の特性値 (2)
Oct 22, 2014
19 / 27
解答例
平均:
n
n
1∑
1 ∑ xi − x¯
z¯ :=
zi =
n i=1
n i=1 S
)
( n
n
1 1∑
1∑
=
xi −
x¯ = 0
S n
n
i=1
i=1
分散:
n
1∑ 2
V (z) =
zi
n
1
=
n
H. Hara (Niigata U.)
i=1
n
∑
i=1
(xi − x¯)2
1 ∑ (xi − x¯)2
=
=1
S2
n i=1 V (x)
n
データ分析の特性値 (2)
Oct 22, 2014
20 / 27
偏差値
偏差値
10(xi − x¯)
+ 50 = 10zi + 50
S
.
をデータ xi の 偏差値という
wi :=
平均 50, 標準偏差 10 になるように基準化
100 点満点の試験に合わせた基準
.
1 シグマ区間に 68.3%
⇔ 偏差値 40∼60 に 68.3%
⇔ それ以外に 31.7%
⇔ 分布が対称なら偏差値 60 以上と 40 以下
にそれぞれ 15.87%
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
21 / 27
演習 3
演習 3
1
2
3
偏差値の平均が 50, 標準偏差が 10 になることを
示せ
2 シグマ区間は偏差値いくつからいくつの範囲に
対応するか?
分布は対称であるとして, 2 シグマ区間に入る確率
を 95.4% とする. そのとき偏差値 70 以上の人は
何% くらいいるか
.
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
22 / 27
解答例
1
偏差値の平均は
1∑
w¯ :=
wi
n i=1
∑
10 ni=1 (xi − x¯)
=
+ 50 = 50
nS
n
したがって, 平均は 50
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
23 / 27
解答例
1
偏差値の分散は
1∑
(wi − w)
¯ 2
V [w] :=
n i=1
)2
n (
1 ∑ 10(xi − x¯)
=
n i=1
S
n
100 1 ∑
= 2 ·
(xi − x¯)2 = 100
S
n i=1
n
したがって, 標準偏差は 10
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
24 / 27
解答例
2
偏差値
wi :=
10(xi − x¯)
+ 50 = 10zi + 50
S
2 シグマ区間は基準化定数が −2 ≤ zi ≤ 2 をとる
区間なので , 偏差値が 30∼70 の区間
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
25 / 27
解答例
3
2 シグマ区間に入る確率が 95.4%
⇒ 偏差値が 70 以上 or 30 以下の割合は 4.6%
分布が対称なので ,
偏差値が 70 以上の割合 = 30 以下の割合
したがって偏差値が 70 以上の割合は 2.3%
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
26 / 27
まとめ
分布の特性値のうち, 「データの散らばり具合の
指標」について学習した.
特定のデータの, 全体における相対的位置関係を
あらわす指標として, 「基準化変量」, またその応
用例として「偏差値」についても学習した.
簡単なデータと練習問題による演習を行なった.
用語
範囲, 四分位偏差, 分散, 標準偏差, シグマ区間
基準化変量, 偏差値
H. Hara (Niigata U.)
データ分析の特性値 (2)
Oct 22, 2014
27 / 27