統計的なデータ指標について

1. 平均値
1
2014 年 05 月 07 日
統計的なデータ指標について
針を落してデータを取って評価する実験に対しては、過去に「図が山形になった」
「真中に集
まった個数が多い」といったような定性的な評価をしたレポートを見ることがあったが、工学
ではこういった場合定量的な評価、すなわち感覚的な評価ではなく、数字による評価が求めら
れることが多い。
データの定量的な指標としては、例えば統計学で使われる、平均値、メジアン、モード、標準
偏差などがある。
例えばデータが以下のようなものであったとして、それを例に取り各指標について説明する。
階級値 (代表値) (mm)
度数 (針穴の個数)
1
−10 −5 0 5 10
3
8 15 14 10
合計
50
平均値
平均値 x
¯ は、最も良く使われる指標で、階級値 xk 、各階級の度数 fk (k = 1, 2, . . . , n)、総度
数 N (=f1 + f2 + · · · + fn ) の場合、
x¯ =
n
1 ∑
x1 f1 + x2 f2 + · · · + xn fn
xk fk =
N k=1
N
で定義される。すなわち、各階級値の値はあくまで代表値なのだが、その度数個分の階級値の
値があったと考えて平均を計算することになる。例えば、上の例の場合は −10 (mm) の階級値
の度数は 3 であるが、これは丁度 −10 (mm) の所に 3 回落ちたと考えて平均を求める。よっ
て、この例の場合の平均値 x
¯ は、
となる。
2
メジアン
メジアン M e は中央値を指す。すなわち、小さい方から順にデータを並べて、真ん中の順番
にあたるデータ値がメジアンとなる。
総度数 N が奇数の場合は、丁度真ん中は一つなので、その階級値がメジアンとなるが、N が
偶数の場合は真ん中のデータが 2 つある。その場合は、その両者の階級値の平均値がメジアン
となる。
上の例の場合、小さい方から順番に番号をつけると
中になり、その階級値は
(mm) と
番目と
(mm) だから M e =
番目とが全体の真ん
(mm) となる。
3. モード
3
2
モード
モード M o は最頻値を指す。すなわち、最も度数が大きい階級値がモードとなる。モード M o
は複数ある場合もあるが、M e のようにそれらの平均値を取ったりはしない。
上の例では、
4
(mm) の度数が
(回) で最も大きいので、M o =
(mm) となる。
標準偏差
各データと平均値 x
¯ との差の自乗平均を分散 (V ) と言い、その平方根、すなわち、各データ
と平均値 x
¯ との差の (自乗平均平方根の意味での) 平均値を 標準偏差 (s) と言う。式で書けば、
V
=
s =
n
1 ∑
(x1 − x¯)2 f1 + (x2 − x¯)2 f2 + · · · + (xn − x¯)2 fn
(xk − x¯)2 fk =
,
N k=1
N
√
v
u
n
u1 ∑
V =t
(xk − x¯)2 fk
N
k=1
となる。V の単位は xk の単位の自乗で、s の単位は xk と同じになる。
標準偏差 s は、各データと平均値 x
¯ とのずれが平均してどれくらいであるかを指すので、ま
とまり具合を表す指標となる。標準偏差が小さいほどデータは平均のところにまとまっていて、
大きいほど広がっているものとなる。上の例の場合の V の値は、
となる。
なお、V の計算には、定義式の自乗の部分を展開して得られる
V =
n
1 ∑
x2 fk − x¯2 (= (データの自乗の平均) − (データの平均の自乗))
N k=1 k
を用いることも多い。
これらのような指標を用いれば、他グループとのデータを定量的に比較し分析することが可
能となる。