第2章 統計データの記述

第2章 統計データの記述

データについての理解

度数分布表の作成
データについての理解
フローデータ(flow data)
売上高、所得のように、四半期とか1年間
などの一定期間の変化量を計測する数値。
(表1.1)
 ストック(stock date)
人口、預金残高のように、その一定時点で
の水準を示す数値。(表1.2)

データについての理解



時系列データ(time series data)
(表1.1、表1.2)
クロスセクションデータ(cross section data)
ある期間や時点(t)を固定して、幾つかの異なっ
た対象について調査・実験を行い、観測値を得
た場合のデータ。
パネル・データ(panel data)
(表1.3)
データについての理解
離散的データ(discrete data)
一般に各データに対して、その取りうる値として概
念的に有限個もしくは加算個の数値
a1 , a2 , a3 ... しか存在しない場合、
そのデータは離散的データであるという。


連続的データ(continuous data)
ある範囲で連続的どのような値でも取りうるような
データ
データの整理

試験点数の事例
60 70 60 45 80 60 30 30 55 64
72 24 35 50 65 40 42 10 30 40
データの整理

小さい順に並べてみれば
10 24 30 30 30 35 40 40 42 45
50 55 60 60 60 64 65 70 72 80
順序統計量

Order statistic: 以上のデータを一つの変
数 x を用いて、 x1, x2, ......xn
(ただし、 xi  xi 1 、n=20)と表現する。
この大きさの順に並べたデータを順序統
計量の値が呼ばれる。
Maximum(x)=80 Minimum(x)=10
試験得点の度数分布表
階 級
度 数 相対度数
0以上20未満
1
0.05
20-40
5
0.25
40-60
6
0.30
60-80
7
0.35
80-100
1
0.05
100-
0
0.00
合 計
20
1.00
累積相対度数
0.05
0.30
0.60
0.95
1.00
1.00
専門用語
階級(class)とは、データを分類するための
区間である。
 上限値と下限値:区間両側の境界値
 右半開区間:区間の取り方を左側を含んで、
右側を含まない半開区間。
例えば, [0, 20).
 第6階級[100, ∞)オ―プンエンドという。
必要に応じて、左半開く区間を用いてもよい。

専門用語


度数(frequency)とは各階級に含まれる
データの数である 。
相対度数(relative)は、各階級 i の度数
n
をデータの合計数で割った比率である。
i
ni
pi 
n
p1  p2      pm  1
nは度数の合計、 mは階級数、
上例ではn=20, m=6
累積相対度数

Cumulative relative frequencyは、相
対度数を階級の順に加えていくもので、
第k階級の累積相対度数は第k階級まで
の相対度数の和となる。
rk  p1  p2      pk
度数分布

Frequency distributionは、データを大き
さによっていくつかの階級に分け、各
階級に入る度数を明らかにしたもので
ある。度数分布表を通じて、データの
全体の分布状況を表すことができる。
度数分布のグラフ
8
7
1.2000
1.0000
6
5
0.8000
4
3
2
0.6000
0.4000
0.2000
1
0
0.0000
0
20
40
60
80
度数分布表作成の注意点



標本数nに対応して、階級数mを適切
に定める。
階級幅は第1階級と最後の第m階級を
除いて、均一幅にとる。
階級の端点はなるべく簡単な数字とす
る
階級数に関するスタージェス式


(Sturges, 1926)の公式が参考になる。観測
値の数をnとしたとき、階級数m
m=1+log2n=1+(log10n)/(log102)
上記の例では、n=20,
常用対数表からlog1020=1.3, log102=0.3
m=1+log1020/log102=5.3
階級数m≒5とする。