第2章 確率と確率分布

第3章 統計的推定
(その1)
統計学 2006年度
Ⅰ 標本分布
a) 母集団と標本
1) 標本調査の利点
2) 標本調査における誤差
b) 標本平均の標本分布
c) 標本分散の標本分布
Ⅱ 点推定
(その1)
a) 点推定
b) 統計量の特性
1)
2)
不偏性
その他の統計量特性
Ⅲ 区間推定
a) 母平均の区間推定
1)
2)
3)
4)
中心極限定理
信頼区間
母分散が既知の場合の区間推定
母分散が未知の場合の区間推定
b) 母比率の区間推定
1)
2)
標本比率の標本分布
母比率の区間推定
c) 標本数の決定
1)
2)
母平均の区間推定における標本数の決定
母比率の区間推定における標本数の決定
(その2)
Ⅰ 標本分布
a) 母集団と標本
母集団(個体数 N)
標本(個体数 n)
× ×
×
× ×
× ×
×
×
× × ×
• ある集団についての調査をおこなうとき、調査対象となる集
団(母集団)からその一部を標本として選び、調査する方法
がある。これを標本調査という。
1) 標本調査の利点
• 費用・時間の削減
• 得られる情報の増加、精度の向上
• 全数調査が不可能な場合にも調査可能
2) 標本調査における誤差
標本調査における誤差には次の2つの種類がある
– 標本誤差 - 標本の偏りによるもの
⇒ 統計理論によりコントロール可能
– 非標本誤差 - 調査もれ、無回答、記入ミスなど
⇒ 統計理論によりコントロール不可能
• 標本の偏りによる誤差がどの程度の範囲に収まるかを、
統計理論によって知ることができる。⇒確率の問題
b) 標本平均の標本分布
母集団(大きさ N)
標本(大きさ n)
×
×
×
標本平均 x
×
×
×
×
×
×
×
×
標本平均 x
×
×
標本平均 x
×
× ×
母平均 μ
•
•
標本調査をおこなう場合、通常は1つの標本についての特性値(標本平
均や標本平均など)がわかり、それから母集団の特性値についての推論
をおこなう。母集団全体の情報はわからない。
しかし母集団全体の情報が分かり、とりうるすべての標本について考え
ることができたなら、標本の特性値についての分布を考えることができる。
これを標本分布という。
• 500人受講している科目の採点に、25人だけ採点して全体
の平均点を推定しようとするとき、25人の組み合わせ全てか
ら標本平均が計算でき、その分布を考えることができる。
• 一般にN個の母集団からn個の標本を選ぶ組み合わせの数
はNCnとあらわすことができる。
N
Cn 
N!
n!( N  n)!
N  ( N  1)  1
n  (n  1)  1 ( N  n)  ( N  n  1)  1
N  ( N  1)   ( N  n  1)  ( N  n)  ( N  n  1) 1

n  (n  1)  1 ( N  n)  ( N  n  1)  1
N  ( N  1)   ( N  n  1)

 分母も分子も n個ずつ
n  (n  1)  1

<簡単な例>
中国地方5県の中古車登録台数(乗用車)(2000年)は次の
ようになっている。
鳥取
21594
島根
22306
岡山
79048
広島
98070
山口
50639
これを10000未満を切り捨て、各都道府県の頭文字をアル
ファベットで表すと
T
2
となる。
母平均、母分散は
S
2
O
7
H
9
Y
5
22795
5
5
(2  5) 2  (2  5) 2  (7  5) 2  (9  5) 2  (5  5) 2
2
 
5
9  9  4  16  0

 7.6
5

• この5県を母集団とし、その中から2県を選んで標本とする
と、選び方はNCn=10通りとなる。それぞれの標本につい
て、標本平均を求め、その分布をあらわすと次のようにな
る。
x
2
4.5
5.5
3.5
4.5
5.5
3.5
8
6
7
標本平均の標本分布
2.5
2
度数
パターン
T,S
2,2
T,O
2,7
T,H
2,9
T,Y
2,5
S ,O
2,7
S ,H
2,9
S ,Y
2,5
O ,H
7,9
O ,Y
7,5
H ,Y
9,5
1.5
1
0.5
0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8
標本平均
• 次に標本平均の平均と分散について考えよう。
標本平均の度数分布表から、次のように計算できる。
x
fi(度数)
2
3.5
4.5
5.5
6
7
8
計
E( x ) 
1
2
2
2
1
1
1
10
f i x i2
f i xi
2
7
9
11
6
7
8
50
4
24.5
40.5
60.5
36
49
64
278.5
f i xi 50

5
f i
10
f i xi2
278.5 2
V (x) 
 ( E ( x ))2 
 5  2.85
f i
10
※ 度数分布表からの平均の計算は、(度数×階級値)の総和を度数
の合計で割れば良い
なお、この分散の式は計算式であり、次のようにして求
めたものである。
f i ( xi  E ( x ))2
V (x) 
f i
f i xi2  2 E ( x )f i xi  n( E ( x ))2

f i
f i xi2  2nE( x )  n( E ( x ))2

f i
f i xi2

 ( E ( x ))2
f i
※ 分散については、{度数×(階級値-平均)2}の総和を度数の
合計で割ったものとなる
• 標本平均の平均、分散と、母平均、母分散の関係として
E( x)  
V (x)   2
が成り立つ。分散に関しては
N n 2
V (x ) 
N 1 n
である。この例では、
V (x) 
5  2 7.6 3 7.6

 
 2.85
5 1 2
4 2
※全国規模の統計調査などを考えた場合、母集団の大きさNは非常に
2
大きいので、N  n は1に近くなり、V ( x )   とみなせる。
N 1
n
視聴率調査の場合、関東地区1580万世帯から600世帯を選ぶので
N  n 15800000  600

 0.999962≒1
N 1
15800000  1
c) 標本分散の標本分布
• 次に10通りの標本について、標本分散を求め、その分布
をあらわすと次のようになる。
s2
2.5
2
1.5
1
0.5
12
11.3
10.5
9.75
9
8.25
7.5
6.75
6
5.25
4.5
3.75
3
2.25
1.5
0
0.75
0
6.25
12.25
2.25
6.25
12.25
2.25
1
1
4
標本分散の標本分布
0
パターン
T,S
2,2
T,O
2,7
T,H
2,9
T,Y
2,5
S ,O
2,7
S ,H
2,9
S ,Y
2,5
O ,H
7,9
O ,Y
7,5
H ,Y
9,5
• 標本分散の平均について考えると、
標本平均の度数分布表から、次のように計算できる。
2
s
2
fi
0
1
2.25
4
6.25
12.25
fis
1
2
2
1
2
2
計
0
2
4.5
4
12.5
24.5
47.5
f i si2 47.5
E(s ) 

 4.75
f i
10
2
となる。標本分散の平均と母分散の関係は次のようになっ
ている。
E( s 2 ) 
N n 1 2

N 1 n
Ⅱ 点推定
a) 点推定
母集団(個体数 N)
標本(個体数 n)
× ×
×
×
×
× ×
× ×
× × ×
母平均μ
母分散σ2
母数θ
推論
標本平均x
標本分散s2
標本統計量t
標本から計算された1つ
の数値によって、母集団
の数値を推定することを
点推定という。
たとえば、標本平均を母
平均の推定値と考えるこ
とや、標本メディアンを母
集団のメディアンの推定
値と考えることである。
ただし、一般に t≠θであ
る。
b) 統計量の特性
1) 不偏性
• 点推定をおこなう場合、推定量の持つ望ましい特性をいく
つか考えてみよう。
• まず、E(t)=θとなることである。
• このような性質を不偏性といい、「tはθの不偏推定量であ
る」という。
(例1) 標本平均 x は E(x )   となるので、母平均μの不
偏推定量である。
(例2) 標本メディアンmeは、母集団メディアンMeの不偏推
定量とはならない。
(例3) 標本分散s2は、 E(s 2 )   2 となり母分散σ2の不偏推定
量とはならない。
N
n 1 2

n
N
1
N 1
しかし、E( s 2 )  N  1
分大きいとき、
であった。母集団の個体数が十
とみなせるので、
n 1 2  1  2
2
2
E(s ) 
  1     
n
n
 n
2
と変形できる。
• 一般にE(t)=θ+偏りと表すことができ、「偏り=0」となる推定
量のことを不偏推定量という。
ところで、母分散の不偏推定量は存在しないのであろうか?
n  1 2 の両辺に n をかけると
E( s 2 ) 

n 1
n 2
E(
s )  2
n 1
n
となって、不偏推定量となる。
標本分散s2は
n
( x1  x ) 2  ( x2  x ) 2    ( xn  x ) 2
s 

n
であったので、これに n をかけると、
n 1
2
2
(
x

x
)
 i
i 1
n
n
sˆ 2 
( x1  x )  ( x2  x )    ( xn  x )

n 1
2
2
2
 (x  x)
i 1
2
i
n 1
となる。これを標本不偏分散という。
※ 統計学の書籍によっては、最初の分散の定義から、n-1で割ったも
のを用いているものもある。
2) その他の統計量特性
• 効率性 - 不偏推定量がt1, t2 の2つあったとす
る。このとき、分散の小さいほうが母数θを推定す
るのにより効率的である。
t1
t2
t2の方が効率的
• 一致性 - 標本数を大きくしたときに、t がθに
近づく。
• 十分性 - tは標本に含まれるすべての情報を
含んでいる。