モジュール1のまとめ

数理統計学
西 山
【まとめ】<ルートNの法則>とは?
1個ずつにわけてデータの特徴を確認すると、平均がμ、標準偏差がσ
N個のサンプルをとると
合計値
期待値  N  
標準偏差  N  
平均値
期待値  
標準偏差 

N
正規分布を当てはめる! << 中心極限定理(データは30~100個以上が目安)
練習問題【1】
2号館に設置されているエレベーターの定員は11名であ
り、最大積載量は750Kgと明示されている。定員一杯の
とき、平均68.2Kgだと「乗れない!」ということになる。そ
んなことがあるのか?統計上の観点にたって、考えると
ころを自由に述べなさい。 但し、上のエレベータに乗る
かもしれない人たち(=母集団)の体重分布は、
N(55,225)としておく。
簡単のため11人満員の時の状況だけを考える
【解答】
合計値の分析=平均値の分析
11人の総体重=11人 11人の平均体重
EX   55
11人の平均体重は最大の
ときで
225
V X  
 20.45
55  3  411
.52  68.56
SDX   20.45  4.52
3シグマで最大値を予測しておけばよい。ないし、4シグマ。
練習問題【2】
600
下図はIBMの株価を1961年5月からから62年11月まで記録したものです。
(出所)Box, Jenkins, Reinsel,”Time Series Analysis”
300
450
100営業日後に200ドル
を割る可能性は考慮して
おくべきでしょうか?
0
100
200
300
20
Day
-40
-10
前日比の分布
平均値
-0.3
標準偏差
7.3
直近値は357ドルです。
0
100
200
Day
300
練習問題
【3】
ある番組の視聴率は社会全体で30%であ
る。ランダムに100人をとって「見た=1」、
「見なかった=0」を聞くとします。設問に答
えなさい。
1. データの合計値は何を表しますか?
2. 合計値の確率分布の特徴を答えなさ
い。
3. 100人の視聴率について期待値と標準
偏差を答えなさい。
考え方の基本
30人はみて、70人は見ていないと回答する
0、1データの合計=
 (標本)視聴率
1の数
データの合計

X
100
視聴率は、サンプル平均値です!
今回の標本分布
0、1サンプルの母集団は?
母集団の分布を確認します
EX   0.3  
V X   0.3  0.7  0.21  
2
解答
  0.3
個別の値は
  0.21
2
E X     0.30
100人

0.21
V X  

 0.0021
n 100
SDX   0.0021 0.046
2
反復実験してみると
100個の0‐1データの平均値は?
3000回データ抽出を反復しました.
最大値: 0.45
最小値: 0.15
平均: 0.3002
分散: 2.037346e-03
標準偏差: 0.0451
サンプル誤差
この反復結果は理論どおり?
【3】の類題
視聴率、新聞社の行う○○支持率調査などは、概ね
1000人前後のランダム・サンプル(=無作為標本)を
対象にしています。調査結果に含まれる誤差はどの程
度でしょう?
とりあえず1000人、
社会全体の支持率等は50%として、
サンプルの結果のばらつきを調べてください
母集団はこうなっています
  0.5
 2  0.5  0.5  0.25
母集団のμとσ2はいくら?
母集団では50%の場合
授業はここまで
5/31
E X   0.5
0.25
V X  
 0.00025
1000
SDX   0.016
ほぼ確実に、結果は47%から53%の範囲にはおさまる。
サンプル(=標本)誤差は、確率95%で3%だ。
練習問題【4】 誤差を小さくしたい
何人かの人を無作為に選び、現在の内閣を支持す
るか、支持しないかを聞き、日本全体の内閣支持率
を調べる。通常含まれる誤差は、1%以内としたい。
最低、何人の人をアンケート対象に含めるべきか?
練習問題【4】の解答・・・未知数N
社会全体の支持率を50%
と仮定すると
  0.5
  0.25
2
アンケート対象を
N人として
EX   0.5
2
0.25
V X  

N
N
0.25
SDX  
N
【2】の解答・・・Nを求める
0.25
SDX  
 0.01
N
N  2500 人
50%以外の場合
いま社会全体の比率を50%でやった。
それ以外の比率を仮定するとσが小さい
2500人も必要ない
答えは2500人以上