分散と標準偏差 分散の定義:データのバラつきの尺度 ① ② 標準偏差

分散と標準偏差
分散の定義:データのバラつきの尺度
分散には標本分散と不偏分散の2つがある
データXを𝑥1 , 𝑥2 , … , 𝑥𝑛 とする (つまりデータの個数は n)
また Xの平均を mとする。つまり
𝑚=
1
𝑛
𝑛
𝑖=1 𝑥𝑖
データXの標本分散の定義:
1
( 𝑥1 − 𝑚 2 + 𝑥2 − 𝑚 2 + ⋯ +
𝑛
1 𝑛
2
=
𝑥
−
𝑚
𝑛 𝑖=1 𝑖
1 𝑛
2 − 2𝑚𝑥 + 𝑚2
=
𝑥
𝑖
𝑖
𝑛 𝑖=1
1 𝑛
1 𝑛
2
2
=
𝑥
−2𝑚
𝑥
+
𝑚
𝑛 𝑖=1 𝑖
𝑛 𝑖=1 𝑖
1 𝑛
2 − 𝑚2
=
𝑥
𝑛 𝑖=1 𝑖
𝑥𝑛 − 𝑚 2 )
①
②
標準偏差
標準偏差の定義: 分散の平方根
標準偏差は、個々のデータが平均に対してどのくらい散らばって
いるか、という尺度を与える(それに対し、大雑把に言えば、分
散はその2乗)
分散のプログラム:
①
1
( 𝑥1 − 𝑚
𝑛
2
+ 𝑥2 − 𝑚
2
+ ⋯ + 𝑥𝑛 − 𝑚 2 )
float var1(int ar[], int n) {
float ans=0.0, m=average(ar, n); // mはデータの平均
int i;
for (i=0; i < n; i++) {
ans += (ar[i] – m)*(ar[i] – m);
}
return ans/n;
}
分散のプログラム:
②
1
=
𝑛
𝑛
𝑥𝑖 2 − 𝑚2
𝑖=1
float var2(int ar[], int n) {
float w=0.0, m=average(ar, n); // mはデータの平均
int i;
for (i=0; i < n; i++) {
w += ar[i] *ar[i];
}
return (w/n – m*m);
}
どちらがよいのだろうか?
• 数学的には等価
• しかし、精度に差がある。
どちらがよいと考えるだろうか?