第2章 統計データの記述 データについての理解 順序統計量 度数分布表の作成 データについての理解 フローデータ(flow data) 売上高、所得のように、四半期とか1年間 などの一定期間の変化量を計測する数値。 (表1.1) ストック(stock data) 人口、預金残高のように、その一定時点で の水準を示す数値。(表1.2) データについての理解 時系列データ(time series data, 表1.1;表1.2) クロスセクションデータ(cross section data) ある期間や時点(縦に)を固定して、幾つかの異 なった対象(横に)について調査・実験を行い、観 測値を得た場合のデータ(表1.3) パネル・データ(panel data):横に並べたデータ (横断面データ)がたくさんある場合をパネル データと呼んでいる(表1.3) データについての理解 離散的データ(discrete data) 一般に各データに対して、その取りうる値として概 念的に有限個もしくは加算個の数値 a1 , a2 , a3 ... しか存在しない場合、 そのデータは離散的データであるという。 連続的データ(continuous data) ある範囲で連続的どのような値でも取りうるような データ データの整理 試験点数の事例:n=20 60 70 60 45 80 60 30 30 55 64 72 24 35 50 65 40 42 10 30 40 データの整理 小さい順に並べてみれば 10 24 30 30 30 35 40 40 42 45 50 55 60 60 60 64 65 70 72 80 順序統計量 Order statistic: 以上のデータを一つの変 数 x を用いて、 x1, x2, ......xn (ただし、 xi xi 1 、n=20)と表現する。 この大きさの順に並べたデータを順序統 計量の値が呼ばれる。 Maximum(x)=80 Minimum(x)=10 試験得点の度数分布表 階 級 度 数 相対度数 0以上20未満 1 0.05 20-40 5 0.25 40-60 6 0.30 60-80 7 0.35 80-100 1 0.05 100- 0 0.00 合 計 20 1.00 累積相対度数 0.05 0.30 0.60 0.95 1.00 1.00 専門用語 階級(class)とは、データを分類するための 区間である。 上限値と下限値:区間両側の境界値 右半開区間:区間の取り方を左側を含んで、 右側を含まない半開区間。 例えば, [0, 20). 第6階級[100, ∞)オープンエンドという。 必要に応じて、左半開区間を用いてもよい。 専門用語 度数(frequency)とは各階級に含まれる データの数であり、ni と記す 。 相対度数(relative)は、各階級 i の度数 ni をデータの合計数で割った比率である。 ni pi n p1 p2 pm 1 P:相対度数、 n:度数の合計、 m:階級数、 上例ではn=20, m=6 累積相対度数 Cumulative relative frequencyは、相 対度数を階級の順に加えていくもので、 第 k 階級の累積相対度数は第 k 階級 までの相対度数の和となる。 rk p1 p2 pk 度数分布 Frequency distributionは、データを大き さによっていくつかの階級に分け、各 階級に入る度数を明らかにしたもので ある。度数分布表を通じて、データの 全体の分布状況を表すことができる。 度数分布のグラフ 8 7 1.2000 1.0000 6 5 0.8000 4 3 2 0.6000 0.4000 0.2000 1 0 0.0000 0 20 40 60 80 度数分布表作成の注意点 標本数nに対応して、階級数mを適切 に定める。 階級幅は第1階級と最後の第m階級を 除いて、均一幅にとる。 階級の端点はなるべく簡単な数字とす る 階級数に関するスタージェス式 (Sturges, 1926)の公式が参考になる。観測 値の数をnとしたとき、階級数m m=1+log2n=1+(log10n)/(log102) 上記の例では、n=20, 常用対数表からlog1020=1.3, log102=0.3 m=1+log1020/log102=5.3 階級数m≒5とする。 予習:p24-28
© Copyright 2024 ExpyDoc