モジュール1のまとめ

統計学
西 山
前回の続き
練習問題【2】<合計の問題>
旅客機利用客の体重は、全体として平均55Kg、標準
偏差10Kgで正規分布していると言われる。では、定
員400人が満席の時の旅客総ウェイトの最大値をいく
らと見込むとよいか?
次回この問題から
6/11
合計値と平均値
は本質的に同じ問
題
総ウェイト= 400 
(400人の平均体重 )
定理8―母集団の確認から
  55
  10
2
2
正規分布の
3シグマの法則
400人がサンプル
E  X   55
100
V X  
 0.25
400
10
SD X  
 0.5
400
平均56.5Kgを
超えないはず!
合計は
22600Kg
-5
3.
53
.83 83
-5
4.
54
.14 14
-5
4.
54
.44 44
-5
4.
54
.75 75
-5
5.0
55
5
.05
-5
5.
55
.35 35
-5
5.
55
.66 66
-5
5.
55
.96 96
-5
6.
56
.26 26
-5
6.5
7
53
.53
解答 400人の平均体重では
コンピューター実験で解答しましょう・・・400人のデータ抽出を1000回反復
標本平均の分布
250
200
150
100
50
0
最大値
最小値
平均値
分散
56.56709
53.53117
55.00031
0.256368
【まとめ】ルートNの法則
全体(=母集団)としては平均がμ、標準偏差がσ
N個のサンプルをとると
定理8
合計値
ゲタの公式
期待値  N  
標準偏差  N  
平均値=合計÷N
期待値  
標準偏差 

N
合計を直接予測する<ルートN法則>
1人ずつを見ると、平均55Kg、標準偏差10Kg
400人の合計は?
平均値=400  55  22000
標準偏差  400 10  200
正規分布を当てはめて、最大22000+3×200、22600Kgまで
0‐1データの平均値
社会全体で視聴率が30%である人気ドラマ
がある。100世帯(=100台)のTVを無作為
に選んで、視聴率調査をする場合、結果とし
て得られる数字は、どんな範囲におさまるだ
ろうか。
これは
スキップするかも
しれません
解答・・・①
30人はみて、70人は見ていないと回答するサ
みた=1、みない=0
0、1データの合計=
 (標本)視聴率
1の数
データの合計

X
100
サンプル平均の確率法則を使え
0‐1母集団と0‐1サンプル
0、1サンプルの母集団は?
視聴率は母平均μのこと
母集団の特徴
EX   0.3  
V X   0.3  0.7  0.21  
2
ノーマル法則を使う
母集団の分布
  0.3
  0.21
2
E X     0.30
100人

0.21
V X  

 0.0021
n 100
SDX   0.0021 0.046
2
反復実験してみると
100個の0‐1データの平均値は?
3000回データ抽出を反復しました.
最大値: 0.45
最小値: 0.15
平均: 0.3002
分散: 2.037346e-03
標準偏差: 0.0451
サンプル誤差
この反復結果が理論通りか、前のスライドを
確認しておいてください
第3章・2番目の要点
標本分散S2の分布の特徴
分散の求め方に二通りあり
教科書: 3.3節(119~127ページ)
特に、分散の不偏推定式は重要!
平均と分散の標本分布
指定した値はμ=170、σ2=102、データ数は5個で反復
カイ二乗分布
標本平均の分布
700
600
500
400
300
200
100
0
187.33
152.9773
169.9806
20.43845
0.007936
0.042042
<=
33
7.
89
18
9-
3.8
18
3.
46
データの分散の値
18
18
0.4
6-
0.
02
18
2-
7.0
17
9-
17
7.
59
17
3.5
17
3.
15
17
0.1
5-
0.
72
17
2-
6.7
16
8-
16
6.
28
16
3.2
16
3.
85
最大値
最小値
平均値
分散
歪み度
尖り度
5-
9.
15
9.8
15
1-
6.4
15
15
2.9
8-
15
6.
41
0
頻度
900
800
700
600
500
400
300
200
100
0
不偏
標本分散の分布
25
-5
0
75
-1
00
12
515
0
17
520
0
22
525
0
27
530
0
32
535
0
37
540
0
42
545
0
47
550
0
正規分布
最大値
最小値
平均値
分散
歪み度
尖り度
477.6252
0.448268
79.85362
3114.514
1.367639
2.805332
偏り(バイアス)
なぜ分散は小さくなる?
母集団です
170
2
S : バイアスの計算
5
 X
i 1
 170

2
i
真の偏差二乗和

 X
i 1
5
 X
i 1

 X
5
i 1
 X  X  170
i
 X   5  X  170
2
2
2
 X     X i  170  5  X  170
2
i
i
5
5
2
2
i 1
データの偏差二乗和
上の両辺を5で割ってから、期待値を求めてください。
S2は下方バイアスをもちます
式で書くと
 
ES
2
n 1 2


n
教科書162ページ
の(4.19)式まで
に説明されていま
す。
いまの例で言うと
 
ES
2
4
2
  10  80
5
データから分散を
計算すると、実際
には100でも80前
後の値になる・・・
不偏分散を使うとき
言葉の定義どおりだと
1
2
S 
N
 X
N
i 1
 X
2
i
母集団の分散を知りたいなら
不偏分散、と呼んで
います
N
1
2
2
X i  X 
ˆ 

N  1 i 1
 
2
2
ˆ
E 
【例題】不偏分散を使うとき
ランダムに5個のデータをとると
1,2,3,4,5
★ このデータが母集団;ほかにはない
二乗偏差の合計 10
S 

2
データ 数
5
2
★ これはサンプル;どんな母集団からとられたか?
ˆ 2 
二乗偏差の合計 10

 2.5
データ 数-1
4
練習問題: 推定入門<点推定>
ある高校の1年からランダムに5名を選んで100メートル走
の記録をとると、
12.32、15.28、14.19、13.72、13.26
だった。
学年全体の平均値、分散はいくら位でしょう?
X  13.754
S  0.964
2
Ⅰ限:イントロ済
Ⅱ限:ここから
解答: バイアスをとって推定する
点推定‐誤差は無視
合計
平均
分散推定
記録(X)
12.32
15.28
14.19
13.72
13.26
68.770
13.754
偏差
-1.434
1.526
0.436
-0.034
-0.494
0.000
0.000
二乗偏差
2.056356
2.328676
0.190096
0.001156
0.244036
4.820
0.964
これはS2だか
ら小さめのは
ず!
1.205
5

4.820÷(5-1)  0.964  
4
