モジュール1のまとめ

数理統計学
西 山
推定には手順がある
信頼係数を決める
標準誤差を求める ← 定理8
標準値の何倍の誤差を考慮するか
 95%信頼区間なら、概ね±2以内
 68%信頼区間なら、標準誤差以内
教科書:151~156ページ
区間推定のまとめ: 95%信頼区間
標準誤差
母平均 =サンプル平均  X   1.96 

n
1.96を四捨五入して2としても、推定結果はほぼ同じ
母集団の分散が分らない場合は、不偏分散を使う
サンプル数が10個未満なら、必ずT分布の数値表を見て、
1.96を修正しないといけない
練習問題
ある弁当屋で売っている幕の内弁当を5個買って、
重量を測ったところ、以下のデータが得られた。
718, 717, 722, 703, 714 (グラム)
この幕の内弁当全体では、平均何グラムにして
いるのだろうか?
【解答】
サンプル(5個)の結果をまとめると
X  714.8 ˆ 2  51.7 ˆ  7.19
結論
全体の平均重量は、▲▲グラムか
ら〇〇グラムの範囲にある確率が
95%である。
【例題】○○率の推定
ある人気ドラマをみたかどうかを、300人の
サンプルに対して質問したところ、90人の人
が「みた」と答えた。社会全体では、何%程
度の人がこのドラマを見ただろうか。
信頼係数は95%で答えてください。
知りたいのは社会全体の視聴率です
視聴率は30%だと、
いまわかった
社会全体のことは調べてませんから、
分かりません
▲▲率調査のデータはゼロイチ・データ
300人のデータ
[1] 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0
[35] 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 1 0 0 0 1 1 0 1 0 0 0 0 0 0 0 1
[69] 1 1 0 1 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 1 0 0 1 0 0 1
[103] 0 0 0 0 0 0 0 0 0 1 1 1 1 1 0 1 0 0 0 1 1 1 0 1 0 1 0 0 0 0 0 0 0 0
[137] 0 1 0 1 0 0 0 0 0 1 0 0 1 1 0 0 0 1 1 0 0 0 1 0 0 0 1 0 1 0 1 0 0 0
[171] 0 1 1 1 0 1 0 0 0 0 0 0 0 1 0 0 0 1 0 0 1 0 0 1 1 0 0 0 1 1 0 0 0 0
[205] 1 0 0 0 1 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 1 0 0 0 0 1 0
[239] 0 0 1 0 1 1 1 0 1 0 1 0 0 0 0 1 0 0 0 1 1 0 0 0 1 1 1 1 0 1 0 0 0 1
[273] 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 1 0 1 0 0 1 0 0 1 0 1
0:みない、1:みた
合計
視聴率 
 平均値
人数
▲▲率調査の標準誤差
母集団(=日本国内)で30%で実験
1万回のサンプリング実験
[1] 0.3002947
> sd(jikken)
[1] 0.02619087
不偏で標準誤差0.026
X
母集団分布
➡
標準誤差が基本のロジック
定理8
母集団
値
0
1
割合
0.7
0.3
 
0.3
2
  0.3  0.7
サンプル300人の平均のサンプリング分布
1. 正規分布
2. 期待値 𝐸 𝑋 = 0.3
3. 標準誤差 𝑆𝐷 𝑋 =
0.3×0.7
300
= 0.026
ゼロイチ・データから分かること
問題への解答
点推定
90
視聴率は30%位である( )
300
誤差
標準誤差は2.6%位である
1
90 210


300 300 300
最大誤差
標準誤差の2倍まで考慮する(信頼係数95%)
区間推定のまとめ: 95%信頼区間
標準誤差
母平均 =サンプル平均 X   2 

n
正規分布で当てはめるなら1.96倍が厳密
母集団の分散が分らない場合は
推定値を作って、代わりに使う
サンプル数が10個未満なら、必ずT分布の数値表を見て、
2倍より大きな誤差を考える
練習問題
札幌地区在住者を対象に、ある人気ドラマ
をみたかどうかを、300人のサンプルに対し
て質問したところ、60人の人が「みた」と答
えた。札幌圏では、何%程度の人がこのドラ
マを見ただろうか。区間推定をしなさい。
信頼係数は95%で答えてください。
解答のポイント
サンプルの結果
60
 0.20
300
標準誤差
2
n

p1  p 
0.20 0.80

 0.023
n
300
母平均(μ)=0.20±2×0.023
95%信頼区間
(統計的)仮説検定
ある弁当屋で売っている幕の内弁当は、重さが
720グラム、標準偏差が3グラムであるように作ら
れている。いま無作為に5個の弁当の重さを測る
と下のデータが得られた。
718, 717, 722, 703, 714 (グラム)
2
ˆ
X  714.8   51.7 ˆ  7.19
おかしなところ、問題(ミス、手抜きなど)はないか?
実験が最近主流の方法
要するに『こんなサンプルは出るのか』を問う
前提: 母平均 µ=720、(母)標準偏差 σ=3
> mean(jikken2); sd(jikken2)
[1] 720.0082
[1] 1.328692
> min(jikken2)
[1] 715.5866
誤差
1万回サンプリング
をしても、平均
714.8グラムという
結果は出ない。どこ
かおかしい!
R:
実験の手順
> rnorm(5,720,3)
[1] 723.0571 720.1133 725.3042 722.4727 725.7328
> mean(rnorm(5,720,3))
[1] 719.2437
> jikken2 <- replicate(10000,mean(rnorm(5,720,3)))
> hist(jikken2,main="",xlab="",ylab="",breaks="FD")
> mean(jikken2); sd(jikken2)
[1] 720.0082
[1] 1.328692
> min(jikken2)
[1] 715.5866
『仮説検定』のキーワード
 帰無仮説
前提していること:母平均(720)、母分散(32 )
 有意
大すぎる誤差、「出ないはずの結果である」
 有意水準
十分小さな確率、有意と判断する基準
 棄却と採択
有意と判断➡前提を「誤り」と結論
採択=結果は「誤差の範囲」とみなす
今回の結論
帰無仮説
正常な状態(平均720グラム、標準偏差3グラム)
有意性(Significance)
5個のサンプルの平均714.8グラムは有意である
結論
サンプルによれば、製造には問題が発生している