第17回(6月21日)

数理統計学
西 山
前回の問題
ある高校の1年生からランダムに5名を選ん
で50メートル走の記録をとると、
12.32、15.28、14.19、13.72、13.26
だった。学年全体の平均を推定しなさい.信
頼係数は90%とする。
X  13.75
ˆ  1.205
2
点推定
当分、 は元の分散と一致
していると仮定する
点推定と区間推定
ここまで
6/16
区間推定は、
ここをどれだけ広くとるか
2
 標準誤差
1.645

 1.205
  13.75  

1
5


0

誤差を評価しない推定を点推定といいます
練習問題【1】
ある高校の1年生からランダムに20名を選
んで100メートル走の記録をとると、
X  13.75
ˆ  1.205
2
だった。学年全体の平均について推定し
なさい。但し、信頼係数は95%とする。
練習問題【1】の解答
0.95
 P 1.96  Z  1.96


X 
 P  1.96 
 1.96 
2 /n


2
2 




 P X  1.96 
   X  1.96 


n
n



1.205
1.205 

 P13.75  1.96 
   13.75  1.96 

20
20


 P13.27    14.23
推定には手順がある
信頼係数を決める
標準誤差を求める=標準偏差「ルー
トNの公式」
標準値で区間をつくる
 95%信頼区間なら、±2以内
標準値の定義式で置き換える
未知数μの区間に変形する
教科書:151~156ページ
区間推定のまとめ: 95%信頼区間
標準誤差
母平均 =サンプル平均  X   1.96 

n
1.96を四捨五入して2としても、推定結果はほぼ同じです
母集団の分散が分らない場合は、不偏分散を求めて、代わりに使う
サンプル数が10個未満なら、必ずT分布の数値表を見て、
1.96を修正しないといけない
【例題】○○率の推定
この例題は
あとまわし
6/21
ある人気ドラマをみたかどうかを、100人の
サンプルに対して質問したところ、40人の人
が「みた」と答えた。社会全体では、何%程
度の人がこのドラマを見ただろうか。
信頼係数は95%で答えてください。
知りたいのは社会全体の視聴率です
視聴率は40%だと、
いまわかったじゃない
社会全体のことは調べてませんから、
分かりません
ゼロイチ母集団の特徴
みた → 1
みない → 0
社会全体では
30%(=0.30)がみた
本当の視聴率は
母平均(μ)のこと
1の確率を未知数Pとして
平均
分散
  1 p  0  1  p  p
  p  1  p 
2
100人サンプルの視聴率は
こうなる(30%の場合)
0  0 1 0
X
 サンプルの視聴率
100
サンプル平均と標準誤差を求めよ!
サンプル平均
40
 0.40
100
標準誤差

2
n

p1  p 
0.40  0.60

 0.049
n
100
母平均(μ)=0.40±2×0.049
95%信頼区間
練習問題【2】
札幌地区在住者を対象に、ある人気ドラマ
をみたかどうかを、300人のサンプルに対し
て質問したところ、60人の人が「みた」と答
えた。札幌圏では、何%程度の人がこのドラ
マを見ただろうか。区間推定をしなさい。
信頼係数は95%で答えてください。
解答のポイント
サンプル平均
60
 0.20
300
標準誤差
2
n

p1  p 
0.20  0.80

 0.023
n
300
母平均(μ)=0.20±2×0.023
95%信頼区間
今までのポイント
母平均(μ)の区間推定
標準誤差が決め手。元の母集団の分
散σ2はわからない。不偏推定を母分
散のつもりで使う。
正規分布の性質から標準値で割り切
る。
95%信頼区間ならZが±2以内 →
誤差は標準誤差の2倍まで
不偏分散は正しくはない!
指定した値はμ=170、σ2=102、データ数は5個で反復
カイ二乗
分布
正規分布
標本分散の分布
標本平均の分布
187.33
152.9773
169.9806
20.43845
0.007936
0.042042
<=
33
7.
89
18
9-
3.8
18
3.
46
データの分散の値
18
18
0.4
6-
0.
02
18
2-
7.0
17
9-
17
7.
59
17
3.5
17
3.
15
17
0.1
5-
0.
72
17
2-
6.7
16
8-
16
6.
28
16
3.2
16
3.
85
15
9.8
5-
9.
41
15
6.
1-
15
6.4
815
2.9
15
最大値
最小値
平均値
分散
歪み度
尖り度
25
-5
0
75
-1
00
12
515
0
17
520
0
22
525
0
27
530
0
32
535
0
37
540
0
42
545
0
47
550
0
700
600
500
400
300
200
100
0
0
頻度
900
800
700
600
500
400
300
200
100
0
最大値
最小値
平均値
分散
歪み度
尖り度
477.6252
0.448268
79.85362
3114.514
1.367639
2.805332
不偏分散を使っていますが
サンプルから求めた不偏分散を、
母集団の分散の代わりに使う
T値の定義
T
X 
ˆ
2
n
Gosset, W. S.
母集団のσ2に近ければ
大したことではない
データ数が十分多け
ればよい
1906年にペンネームStudentでT分布の存在を発見しました
T値のポイント: Zより大きめに!
とにかく細かい話
サンプル5人
170
平均=170センチ
標準偏差=10センチ
X  170
100
ˆ 2 5
正規分布÷カイ二乗→T分布
T分布は正規分布とカイ二乗分布の
子どもです。フィッシャーが1920年
までに数学的基礎を与えました。
フィッシャーの公式
T
Fisher, R.A.
Z

2
k
Tの値は自由度kのT分布
k
T値のイメージ
標準値(正規分布)
0.5
0.5
 0.45
5
4
カイ二乗値(自由度4)
5
自由度は4
T値とT分布
①
②
X 

2

Zとなって N (0,1)
n
 Xi  X 






i 1 

n
2


2
n 1
②
①
は T値になるはず
n 1
Fisher の公式
T分布の特徴 ±2以内とはいえない
5個のサンプル=自由度4
T値の標本分布
平均値
分散
標準偏差
最大値
最小値
1200
1000
600
400
200
T値
9
8
~
7
6
~
5
4
~
3
2
~
1
0
~
-1
~
-3
2
~
-5
4
~
6
~
-7
0
8
頻度
800
0.0166
1.9796
1.4070
9.2665
-7.5530
T値の95%区間、90%区間
これは自由度(n-1)
90%圏 95%圏
練習問題【3】
この問題のイン
トロまで
6/21
ある高校の1年生からランダムに5名を選ん
で50メートル走の記録をとると、
12.32、15.28、14.19、13.72、13.26
だった。学年全体の平均を推定しなさい.信
頼係数は95%とする。
X  13.75
ˆ  1.205
2
しばらくの間、不偏分散が学年
全体の分散に一致していると、
前提します
ヒント: まず下の形で答えて下さい
0.95  P-①  T  ①




X 


 P-① 
 ①
2
ˆ



n


2
2 

ˆ
ˆ



 P X  ① 
   X  ①


n
n


自由度は、データ数-1
例題【1】の解答
0.95  P-2.776  T  2.776 ←違いはここだけ




X 


 P-2.776 
 2.776 
2
ˆ



n



1.205
1.205 

 P13.75  2.776 
   13.75  2.776 

5
5


自由度は、5ー1=4