データ分布の特徴

データ分布の特徴
基準化変量
 歪度
 尖度

基準化変量(Standardization)

与えられたデータ x1 , x2 ,  , xn に対して.
xi  x
Zi 
Sx
で定義される変量を基準化変量という。
基準化変量の性質

Zはn個あるが、Zの平均値と標準偏差を求めると
z 0

Sz  1
この基準化の意味はデータの平均値を0にし、そこ
からの散らばりを1にして、データの持っている他の
特徴を調べる基礎を作ることが狙いである。
基準化の効果



データのバラツキ状況を絶対値1の中にある程度
集中される。
異なる単位のデータに対して比較可能性を与える。
基準化変量Zに対して
Z  Z    Z  n
2
1
2
2
2
n
したがって、ΣZ=0より、|Z|が取りうる値の最大値が
たかだか
n/2
歪度(Skewness)

データの分布が左右対称かどうかを示す歪
度は次の式で定義される。
n
n
1
3
3   Zi 
n i 1
 (x  x)
i 1
i
3
x
nS
3
左右対称分布の判断基準

歪度=0のとき、データが左右対称分布
Mo  Me  X

歪度>0のとき、データが右に歪んだ分布
Mo  Me  X

歪度<0のとき、データが左に歪んだ分布
Mo  Me  X
尖度(Kurtosis)

基準化変量に基づいたデータ分布の峰が一
つの場合、その分布の尖りを測る統計量が
以下のように定義される。
n
n
1
4
 4   Zi 
n i 1
 (x
i 1
i
 x)
4
x
nS
4
データ分布の尖りの判断基準

尖度>3 鋭峰分布

尖度=3 正規分布

尖度<3 鈍峰分布
度数系列の歪度と尖度

歪度
3 
1
f
尖度
4 
fZ
n
i 1

n
i 1
i
n
1
fZ
n
f
i 1
i
3
i
i 1
i
i
4
i