スライド

2015 年 4 月 13 日
第 2 回 1 変量データの整理(2)
村澤 康友
前回のキーワード
統計学,記述統計学,統計的推測,推測統計学,母集団,標
本,実験データ,調査データ,横断面データ,時系列デー
タ,パネル・データ,全数調査,標本調査,1 変量データ,
多変量データ,質的変量,量的変量
1
目次
1
変量の尺度(p. 27)
3
2
度数分布(p. 18)
6
3
記述統計量(p. 28)
2
20
1 変量の尺度(p. 27)
変量の尺度によりデータ整理の方法が異なる.
4 種類の尺度
1.
2.
3.
4.
名義尺度
順序尺度
間隔尺度
比尺度
3
質的変量の尺度
定義 1. 順序がない類別を名義尺度という.
注:
「最大値」「最小値」「平均」は無意味.
例:婚姻状態(未婚・既婚・離別・死別)
定義 2. 順序がある類別を順序尺度という.
注:
「平均」は無意味.
例:学歴(中卒・高卒・大卒)
4
量的変量の尺度
定義 3. 間隔のみが意味をもつ量を間隔尺度という.
例:摂氏・華氏,時刻
定義 4. 比率が意味をもつ量を比尺度という.
例:身長,体重,時間,絶対温度
5
2 度数分布(p. 18)
まず最初に観測値の範囲をいくつかの階級に分割する.
定義 5. ある階級に含まれる観測値の数を,その階級の度
数という.
定義 6. (度数)/(観測値の総数)を相対度数という.
6
例:試験の得点の度数分布表(p. 18)
階級
0∼10
10∼20
20∼30
30∼40
40∼50
50∼60
60∼70
70∼80
80∼90
90∼100
計
度数
相対度数
12
10
19
42
72
82
54
38
25
19
373
7
.032
.027
.051
.113
.193
.220
.145
.102
.067
.051
1.000
ヒストグラム(p. 19)
定義 7. 横軸に値をとり,各階級の(相対)度数を柱の面積
で表したグラフをヒストグラム(柱状グラフ)という.
注:柱の高さで表す棒グラフとは異なる.階級分けしない離
散変量は棒グラフでよい.
注:ヒストグラムの印象は階級の取り方により異なる.粗す
ぎても細かすぎてもいけない.
8
15
10
5
0
Frequency
20
25
30
例:[0,1] 上の一様乱数(階級幅 0.2)
0.0
0.2
0.4
0.6
data
9
0.8
1.0
10
5
0
Frequency
15
例:[0,1] 上の一様乱数(階級幅 0.1)
0.0
0.2
0.4
0.6
data
10
0.8
1.0
6
4
2
0
Frequency
8
10
例:[0,1] 上の一様乱数(階級幅 0.05)
0.0
0.2
0.4
0.6
data
11
0.8
1.0
累積(相対)度数(p. 19)
定義 8. ある階級以下の度数の和を,その階級までの累積度
数という.
注:名義尺度なら無意味.
定義 9. (累積度数)/(観測値の総数)を累積相対度数と
いう.
12
例:試験の得点の累積度数分布表
階級
0∼10
10∼20
20∼30
30∼40
40∼50
50∼60
60∼70
70∼80
80∼90
90∼100
累積度数
累積相対度数
12
22
41
83
155
237
291
329
354
373
.032
.059
.110
.223
.416
.635
.780
.882
.949
1.000
13
累積(相対)度数グラフ(p. 26)
定義 10. 累積(相対)度数の折れ線グラフを累積(相対)
度数グラフという.
注:階級を細かくしたほうが良い.
14
60
40
20
0
cumfreq
80
100
例:[0,1] 上の一様乱数(階級幅 0.2)
0.0
0.2
0.4
0.6
class
15
0.8
1.0
60
40
20
0
cumfreq
80
100
例:[0,1] 上の一様乱数(階級幅 0.1)
0.0
0.2
0.4
0.6
class
16
0.8
1.0
60
40
20
0
cumfreq
80
100
例:[0,1] 上の一様乱数(階級幅 0.05)
0.0
0.2
0.4
0.6
class
17
0.8
1.0
ローレンツ曲線(p. 26)
定義 11. 横軸に累積相対度数,縦軸に(その階級以下の観
測値の総和)/(全観測値の総和)をとった折れ線グラフ
をローレンツ曲線という.
注:全観測値が等しければ 45 度線に一致.下に行くほど
「不平等」な分布.
18
例:45 度線とローレンツ曲線
vsat
1
Lorenz curve
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
19
0.6
0.7
0.8
0.9
1
3 記述統計量(p. 28)
1. 位置
(算術)平均,中位数,最頻値
2. 散らばり
分散,標準偏差,変動係数
20
(算術)平均(p. 28)
定義 12. (観測値の総和)/(観測値の総数)を(算術)平
均という.
注:質的変量なら無意味.
注:観測値を (x1 , . . . , xn ) として式で表すと
x1 + · · · + xn
µ :=
n
21
中位数(p. 32)
定義 13. 観測値を小さい方から順に並べたときの中央の値
を中位数という.
注:データの総数が偶数で中央の値が存在しない場合は両隣
の間をとる.
注:順序尺度でも意味をもつ.
注:対称な分布なら平均=中位数.
22
分位点(p. 33)
定義 14. 観測値を小さい方から順に並べたときの αn 番目の
値を α 分位点という.
注:αn 番目の値が存在しない場合は両隣の間をとる.
例:0.5 分位点(中位数),四・五・十分位点,百分位(パー
セント)点.
23
最頻値(p. 33)
定義 15. 度数が最大となる値を最頻値という.
注:階級の取り方に依存する.
注:名義尺度でも意味をもつ.
注:対称で単峰な分布なら平均=中位数=最頻値.
24
分散・標準偏差・変動係数(pp. 37–38)
定義 16. 平均からの偏差の 2 乗の平均を分散という.
注:式で表すと
2
2
(x
−
µ)
+
·
·
·
+
(x
−
µ)
1
n
2
σ :=
n
定義 17. 分散の平方根を標準偏差という.
定義 18. (標準偏差)/(平均)を変動係数という.
注:変動係数は測定単位の影響を受けない.
25
ジニ係数(p. 39)
定義 19. (ローレンツ曲線と 45 度線の間の面積)/(45 度
線の下の面積)をジニ係数という.
注:45 度線の下の面積は 1/2
注:不平等度(格差)を表す
26
今日のキーワード
名義尺度,順序尺度,間隔尺度,比尺度,度数,相対度数,
ヒストグラム(柱状グラフ),累積度数,累積相対度数,累
積(相対)度数グラフ,ローレンツ曲線,
(算術)平均,中位
数,分位点,最頻値,分散,標準偏差,変動係数,ジニ係数
27