確率と統計2004

確率と統計2010
平成22年10月7日(木)
第3日目おまけ
本資料の内容
1. 平均(算術平均)の性質
2. 平均偏差の性質
3. 分散の性質
平均の性質
定義:
平均=(データの総量)÷(データの個数)
m=T/N
m: 平均(mean)
T: データの総量
T = x 1 + x2 + … + x N
N: データの個数
定義:
平均=(データの総量)÷(データの個数)
m=T/N
m = ( x1 + x2 + … + xN )÷N
m = ( x1 + x2 + … + xN ) / N
m = (Σxi ) / N
書き方はいろいろですが、どれも同じ!
慣れてください。
例(あるいはProblem)
• わかりきった話ですが…
実際に計算し考えることは大切です。
常に練習(計算・思考)をしましょう。
• Problem
次のようなデータが得られた。
平均mを求めてみよう。
データ: 16, 45, 39, 53, 67
• Answer:
平均m = ( 16 + 45 + 39 + 53 + 67 ) / 5
= 220 / 5
= 44
図形的考察:
10
20
30
40
50
60
70
• 考察
xi
10
20
30
40
50
60
70
xi - m
A = (x1 – m) + ( x2 – m) + … + (x5 – m)
を計算してみると…
A = (x1 – m) + ( x2 – m) + … + (x5 – m)
= ( x1 + x2 + … + xN ) – N×m
= ( x 1 + x 2 + … + xN ) –
N×( x1 + x2 + … + xN ) / N
=0
これは平均の性質の1つ!
定理:
関数f(a) = (x1 – a) + ( x2 – a) + …
+ (xN – a)
に対して、f(a) = 0 となるのは、a=mのと
きである。
Problem:
関数g(a) = |x1 – a| + |x2 – a| + …
+ |xN – a|
に対して、g(a) を最小にするaを求めよ。
Answer: a = ? (考えてみてください。)
Comment: 平均偏差と関係あり?
(参考)
平均偏差MDとは
MD =
(|x1 – m| + |x2 – m| + … + |xN – m|) / N
でしたね。
Problem:
関数h(a) = |x1 – a|2 + |x2 – a|2 + …
+ |xN – a|2
に対して、h(a) を最小にするaを求めよ。
Comment: これも平均mの性質の1つ。
具体的に計算してみよう!
1. データ: 16, 45, 39, 53, 67
2. 平均m = (16 + 45 + 39 + 53 + 67)/5=44
3. A = (16 - m) + (45 – m) + … + (67 – m)
= 220 – 5×44 = 0
4. f(a) = (16 – a) + (45 – a) + … + (67 – a)
= 220 – 5a
従って、f(a)=0
a = 44 = m
5. g(a) = |16 - a| + |45 - a| + |39 - a| +
|53 - a| + |67 - a|
= |16 - a| + |39 - a| + |45 - a| +
|53 - a| + |67 - a|
i.
ii.
iii.
iv.
v.
vi.
a ≦ 16
16 ≦ a ≦39
39 ≦ a ≦45
45 ≦ a ≦53
53 ≦ a ≦67
a ≧ 67
g(a) = -5a + 220
g(a) = -3a + 188
g(a) = -a + 110
g(a) = a + 20
g(a) = 3a - 86
g(a) = 5a – 220
最小値はa=45のとき。
45は16, 39, 45, 53, 67の中央値!
(参考)
中央値(median)とは、
データを大きさの順に並べたとき、真ん中
にくるデータのこと。
16, 39, 45, 53, 67
これが中央値
6. h(a) = |16 - a|2 + … + |67 - a|2
= (16 - a)2 + (39 - a)2 + (45 - a)2
+ (53 - a)2 + (67 - a)2
ちょっと計算すると…
h(a)を最小にするaは、a=m。
平均
ここまでのまとめ
次のスライドの通り。
平均と中央値の性質
1. 基準点をmとするとき、(xi - m)の総和
は常にゼロとなる。
2. |xi – a|の総和は、a=中央値(median)
のとき最小になる。
3. |xi – a|2の総和は、a=m(平均)のとき最
小となる。
平均=(Σxi)/N の妥当性
を示している。
以上のような事実を踏まえて,...
各種統計量の考察
1. m = (Σxi ) / N の定義は妥当
2. 平均偏差MD= (|xi – m|の平均)
3. 平均偏差の式において、中央値(median)に
は意味がある。(平均偏差の定義には中央値
を用いるべきか?)
4. 分散=(|xi – m|2の平均)
5. 分散の式において、mが平均のとき最小となる
ので、平均mを基準とするのは妥当である。
単純な練習問題
Problem:
次のデータは50人
の成人男性の血圧
値である。平均m、
中央値me、モード
mode(最頻値)、
分散s2、標準偏差s
をそれぞれ求めよ。
Advice: EXCELを使おう!
表.成人男性50人の血圧
120
132
126
123
114
135
125
155
96
122
115
93
124
124
126
110
136
132
112
168
108
107
117
117
133
100
142
110
120
160
111
114
102
152
120
120
113
136
118
126
116
118
155
130
148
108
147
125
115
154
まとめ
•
データ群が与えられたとき、
データの代表値:
1. 平均(mean)
2. 中央値(median)
3. モード(mode) or 最頻値
データのバラツキ:
1. 範囲(range) or レンジ
2. 分散(variance)
3. 標準偏差(standard deviation)
赤字のものは、基本統計量とも呼ばれる。
• データが与えられたら、指定されなくても
基本統計量は常に計算するもの。
– 平均・中央値・モード・分散(or 標準偏差)
度数分布表やヒストグラムも
言われなくても描きましょう!
おわり