分散と標準偏差 分散の定義:データのバラつきの尺度 分散には標本分散と不偏分散の2つがある データXを𝑥1 , 𝑥2 , … , 𝑥𝑛 とする (つまりデータの個数は n) また Xの平均を mとする。つまり 𝑚= 1 𝑛 𝑛 𝑖=1 𝑥𝑖 データXの標本分散の定義: 1 ( 𝑥1 − 𝑚 2 + 𝑥2 − 𝑚 2 + ⋯ + 𝑛 1 𝑛 2 = 𝑥 − 𝑚 𝑛 𝑖=1 𝑖 1 𝑛 2 − 2𝑚𝑥 + 𝑚2 = 𝑥 𝑖 𝑖 𝑛 𝑖=1 1 𝑛 1 𝑛 2 2 = 𝑥 −2𝑚 𝑥 + 𝑚 𝑛 𝑖=1 𝑖 𝑛 𝑖=1 𝑖 1 𝑛 2 − 𝑚2 = 𝑥 𝑛 𝑖=1 𝑖 𝑥𝑛 − 𝑚 2 ) ① ② 標準偏差 標準偏差の定義: 分散の平方根 標準偏差は、個々のデータが平均に対してどのくらい散らばって いるか、という尺度を与える(それに対し、大雑把に言えば、分 散はその2乗) 分散のプログラム: ① 1 ( 𝑥1 − 𝑚 𝑛 2 + 𝑥2 − 𝑚 2 + ⋯ + 𝑥𝑛 − 𝑚 2 ) float var1(int ar[], int n) { float ans=0.0, m=average(ar, n); // mはデータの平均 int i; for (i=0; i < n; i++) { ans += (ar[i] – m)*(ar[i] – m); } return ans/n; } 分散のプログラム: ② 1 = 𝑛 𝑛 𝑥𝑖 2 − 𝑚2 𝑖=1 float var2(int ar[], int n) { float w=0.0, m=average(ar, n); // mはデータの平均 int i; for (i=0; i < n; i++) { w += ar[i] *ar[i]; } return (w/n – m*m); } どちらがよいのだろうか? • 数学的には等価 • しかし、精度に差がある。 どちらがよいと考えるだろうか?
© Copyright 2024 ExpyDoc