分散と変動係数

データのバラツキの測度



レンジと四分位偏差
分散と標準偏差
変動係数
例

158 160 162 164 164 168 170 220
8人の平均身長が170.75cmとなるが、
220という異常なデータを外したら
7人の平均身長は163.71cmとなる。
レンジ(Range)

与えられたデータから順序統計量
x(1)  x(2)  x(3)      x( n)
を作ったとき、その最大値と最小値の差と
して定義される。
R  x(n)  x(1)
四分位偏差(Quartile Deviation)

順序統計量の数列を四等分し、はじめから四分
の一のところにある値をX(n/4);四分の三のところ
にある値をX(3n/4)とすれば、四分位偏差が

項数が奇数:
Q  ( x3(n1) / 4  x(n1) / 4 ) / 2

項数が偶数:
Q  ( x(3n / 4)  x(n / 4) ) / 2
8人身長の例:Q=(168-160)/2=4
レンジと四分位偏差の限界

データの散らばりの度合いを表現するのに、
たかだか2個ないし4個の観測値しか使わ
れなく、すべての観測値をもちいていない。
AD  ( x1  x )  ( x2  x ) ( xn  x ) / n  ?
平均偏差
d  x1  x  x2  x     xn  x / n

平均偏差が平均絶対偏差とも呼ばれる。
その測度が数学的に扱いにくいなどの欠
点がある。
分散(Variance)


S  ( x1  x )  ( x2  x )    ( xn  x ) / n
2
2
2
n
1
2
  ( xi  x )
n i 1
n

x
i 1
n
2
i
x
2
2
標準偏差(Standard Deviation)
n
1
2
S S 
( xi  x )

n i 1
2
度数系列の分散の計算式
m
m
S   f i ( xi  x ) /  f i
2
2
i 1
i 1
m


i 1
m
fi x

i 1
2
i
fi
x
2
分散の性質

平均値の性質3より、つまり
n
n
i 1
i 1
2
2
(
x

x
)

(
x

a
)
 i
 i
n


2
(
x

a
)
より  i
は
i 1
ax
のとき最小値となる。分散(標準偏差)は平均値
からの散らばりをみる自然な測度である。標準偏
差が小さいほど、データは平均値の近くに集中し
て分布する。
分散の性質1
S
2
x c
S
S x c  S x
2
x
分散の性質2
S
2
xc
c S
2
S xc | c | S x
2
x
分散の性質3

多くのデータでは、平均値から標準偏差の
3倍以上離れた値を取ることはあまりない。
即ち、殆どのデータは区間
x  3s, x  3s
の中に入る。
変動係数(Coefficient of
variation)

異なる母集団の代表値を比較するとき、
変動係数という相対的分散度でみることに
よって、適正な比較測定が可能となる。
S
CV 
x
変動係数の値が小さいほど、分散はせま
い範囲に密であることを意味する。