平均と分散の計算

平均と分散の計算
代表値とは
散布度とは
分布のパラメータ
母集団とサンプル
(C) Katsuhiro Yamada
次のデータがあります
80 75 65 90 83 80 73
問題: こんなデータをどう表現しますか?
とりあえず小さい順に並べます
65 73 75 80 80 83 90
真ん中の値は 80 です。
これを中央値(median)と言います。
度数を調べます
65 73 75 80 80 83 90
65 73 75 80 83 90
1
1
1
2
1
1
一番多く出たのは2回の 80 です。
これを最頻値(mode)と言います。
おなじみの平均を考えましょう
65 73 75 80 80 83 90
65+73+75+80+80+83+90
7
総和 546 をデータ数 7 で割ります。78 です。
これを算術平均(arithmetic mean)と言います。
ちなみに,平均 はこれだけではありません!
幾何平均 (geometric mean)
調和平均 (harmonic mean)
加重平均 (weighted mean)
などなど
まとめ
80 75 65 90 83 80 73
大きさ 7 のデータがありました。
中央値 = 80
最頻値 = 80
算術平均 = 78
これらは 代表値 と呼ばれます。
代表値 と言えば通常,
計算しやすい 算術平均
を考えればよいでしょう。
次の2組のデータを考えましょう
80 75 65 90 83 80 73
78 77 77 78 79 78 79
算術平均は両方とも 78 です。
明らかに違うのに,同じ代表値 ですよ!
差異を考えます
80 75 65 90 83 80 73
100
50
78 77 77 78 79 78 79
50
100
上の例 は下の例 より散らばっています。
散らばりの指標を考えます
平均 78
80 75 65 90 83 80 73
50
78 77 77 78 79 78 79
個々のデータが
平均からどれだ
50
け離れているか
を計算します。
100
100
個々のデータの平均からの差の二乗
平均 78
80 75 65 90 83 80 73
50
100
(80-78)2+ (75-78)2+ (65-78)2
+ (90-78)2+ (83-78)2+ (80-78)2
+ (73-78)2
= 380
同様に計算すると
平均 78
78 77 77 78 79 78 79
50
2×(77-78)2+ 3×(78-78)2
+ 2×(79-78)2=2+0+2
=4
100
データ1個当たりの散らばり
80 75 65 90 83 80 73
100
50
78 77 77 78 79 78 79
50
100
上の例 は 380/7= 54.28…
下の例 は 4/7= 0.57…
データ 1個当たりの偏差の2乗を
分散 (Variance)
と言います。
分散の平方根をとったものを
標準偏差 (Standard deviation)
と言います。
まとめ
代表値 → 平均
散布度 → 分散
で表せます。
平均と分散がわかれば,
正規分布のような分布では
分布を特定化できます。
この意味で,平均や分散を
分布のパラメータ
と言います。
標準正規分布~N(0,1)
0.45
0.4
平均= 0
分散= 1
標準偏差= 1
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-5
-4
-3
-2
-1
0
1
2
3
4
5
母集団
母平均
母分散
サンプル
(標本)
サンプル平均
サンプル分散
*