第2章 確率と確率分布

第3章 統計的推定
統計学 2014年度
Ⅰ 標本分布
a) 母集団と標本
1) 標本調査の利点
2) 標本調査における誤差
b) 標本平均の標本分布
c) 標本分散の標本分布
Ⅱ 点推定
a) 点推定
b) 統計量の特性
1)
2)
不偏性
その他の統計量特性
Ⅲ 区間推定
a) 母平均の区間推定
1)
2)
3)
4)
中心極限定理
信頼区間
母分散が既知の場合の区間推定
母分散が未知の場合の区間推定
b) 母比率の区間推定
1)
2)
標本比率の標本分布
母比率の区間推定
c) 標本の大きさの決定
1)
2)
母平均の区間推定における標本の大きさの決定
母比率の区間推定における標本の大きさの決定
Ⅰ 標本分布
a) 母集団と標本
母集団(個体数N)
標本(個体数n)
×
×
×
×
×
×
×
×
×
×
• ある集団についての調査をおこなうとき、調査対象となる集
団(母集団)からその一部を標本として選び、調査する方法
がある。これを標本調査という。
• 標本調査の例として次のようなものが挙げられる。
 労働力調査(完全失業率はこの調査の結果求められ
る)
⇒ 全国の15歳以上(約1億1千万人)の母集団から、
約10万人を標本として選ぶ調査
 内閣支持率調査などの世論調査
⇒ 全国の有権者(20歳以上の日本国民)(約1億人)の
母集団から、約1000人(新聞社のおこなう内閣支持率
調査の場合)
その他、視聴率調査、街頭でのアンケート、製品の品質
管理のための抜き取り調査など、数多くの標本調査がお
こなわれている。
1) 標本調査の利点
標本調査をおこなうメリットとして、次のようなことが挙げられる。
• 費用・時間の削減
→ 調査票を配布回収する調査では、調査票の印刷費、集計にか
かる機械処理費用、人件費などと全部を集計しおえるまでの時
間がだいぶ削減できる。
• 得られる情報の増加、精度の向上
→ 調査には調査員が使われることが多いが、ベテランの調査員
は調査の内容をきちんと説明できるので、答えづらい内容を聞い
たり、正しい結果を導いたりすることができる。
• 全数調査が不可能な場合にも調査可能
→ ガラスの耐久性についての品質管理を調査するなどの場合、
全数調査をおこなうことは不可能である。
2) 標本調査における誤差
標本調査の結果と、真の状態との間にはズレがある。こ
のズレのことを誤差というが、標本調査における誤差に
は次の2つの種類のものが組み合わさったものである。
1. 非標本誤差 - 調査もれ、無回答、記入ミスなど
⇒ 全数調査でも起こりうる
統計理論によりコントロール不可能
2. 標本誤差 - 標本の偏りによるもの
⇒ 標本調査に固有のもの
統計理論によりコントロール可能
•
標本の偏りによる誤差がどの程度の範囲に収まるかを、
統計理論によって知ることができる。⇒確率の問題
<第2次安倍内閣発足直後の支持率の例>
母集団(有権者1億人)
×
×
×
×
×
×
×
×
×
×
標本1(朝日990人)
59%
標本2(読売1039人)
65%
×
×
2012年12月28日付の朝刊
各紙に掲載された第2次安倍
内閣支持率を見ると、異なっ
た結果になっている。
同じ対象に同じ調査をおこ
なっても、標本によってその結
果が異なる。
これが、標本の偏りである。
×
×
×
×
×
×
標本3(毎日856人)
52%
標本4(日経872人)
62%
標本5(共同1031人)
62%
b) 標本平均の標本分布
母集団(大きさ N)
標本(大きさ n)
×
×
×
標本平均 x
×
×
×
×
×
×
×
×
標本平均 x
×
×
標本平均 x
×
× ×
母平均 μ
•
•
標本調査をおこなう場合、通常は1つの標本についての特性値(標本平
均や標本分散など)がわかり、それから母集団の特性値についての推論
をおこなう。母集団全体の情報はわからない。
しかし母集団全体の情報が分かり、とりうるすべての標本について考え
ることができたなら、標本の特性値についての分布を考えることができる。
これを標本分布という。
• 500人受講している科目の採点に、25人だけ採点して全体
の平均点を推定しようとするとき、25人の組み合わせ全て
(その数は1.04×1042通りという天文学的数字になる!)か
ら標本平均が計算でき、その分布を考えることができる。
• 一般にN個の母集団からn個の標本を選ぶ組み合わせの数
はNCnとあらわすことができる。
𝑁!
𝑁𝐶𝑛 =
𝑛! 𝑁 − 𝑛 !
𝑁 × 𝑁 − 1 ×⋯× 1
=
𝑛 × 𝑛 − 1 × ⋯× 1 × 𝑁 − 𝑛 × 𝑁 − 𝑛 − 1 × ⋯× 1
𝑁 × 𝑁 − 1 × ⋯× 𝑁 − 𝑛 + 1 × 𝑁 − 𝑛 × 𝑁 − 𝑛 − 1 × ⋯× 1
=
𝑛 × 𝑛 − 1 × ⋯× 1 × 𝑁 − 𝑛 × 𝑁 − 𝑛 − 1 × ⋯× 1
𝑁 × 𝑁 − 1 × ⋯× 𝑁 − 𝑛 + 1
=
←分母も分子もn個ずつ
𝑛 × 𝑛 − 1 × ⋯× 1
<簡単な例>
中国地方5県の乗用車登録台数(2010年4月末現在、軽自動車
除く)は次のようになっている。(単位: 台)
鳥取
184958
島根
216744
岡山
651448
広島
863016
山口
474582
出典: 中国運輸局『管内保有車両数』
これを10万台単位で四捨五入し、各都道府県の頭文字をア
ルファベットで表すと
T
2
S
2
O
7
H
9
Y
5
となる。
母平均、母分散は
2+2+7+9+5
𝜇=
=5
5
2+ 2−5 2+ 7−5 2+ 9−5
2
−
5
𝜎2 =
5
9 + 9 + 4 + 16 + 0
=
= 7.6
5
2
+ 5−5
2
• この5県を母集団とし、その中から2県を選んで標本とする
と、選び方は5C2=10通りとなる。それぞれの標本につい
て、標本平均を求め、その分布をあらわすと次のようにな
る。
𝑥
2
4.5
5.5
3.5
4.5
5.5
3.5
8
6
7
標本平均の標本分布
2.5
2
度数
パターン
T,S
2,2
T,O
2,7
T,H
2,9
T,Y
2,5
S,O
2,7
S,H
2,9
S,Y
2,5
O,H
7,9
O,Y
7,5
H,Y
9,5
1.5
1
0.5
0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8
標本平均
• 次に標本平均の平均と分散について考えよう。
標本平均の度数分布表から、次のように計算できる。
𝑥
2
3.5
4.5
5.5
6
7
8
計
𝑓𝑖 (度数)
1
2
2
2
1
1
1
10
𝑓𝑖 𝑥𝑖2
4
24.5
40.5
60.5
36
49
64
278.5
𝑓𝑖 𝑥𝑖
2
7
9
11
6
7
8
50
𝐸 𝑥 =
𝑓𝑖 𝑥𝑖 50
=
=5
𝑓𝑖
10
𝑉 𝑥 =
𝑓𝑖 𝑥𝑖2
− 𝐸 𝑥
𝑓𝑖
2
278.5
=
− 52 = 2.85
10
※ 度数分布表からの平均の計算は、(度数×階級値)の総和を度数
の合計で割れば良い
なお、この分散の式は計算式であり、次のようにして求
めたものである。
2
𝑓𝑖 𝑥𝑖 − 𝐸 𝑥
𝑉 𝑥 =
𝑓𝑖
𝑓𝑖 𝑥𝑖2 − 2𝐸 𝑥 𝑓𝑖 𝑥𝑖 + 𝑛(𝐸 𝑥 )2
=
𝑓𝑖
𝑓𝑖 𝑥𝑖2 − 2𝑛𝐸 𝑥 + 𝑛(𝐸 𝑥 )2
=
𝑓𝑖
𝑓𝑖 𝑥𝑖2
=
− (𝐸 𝑥 )2
𝑓𝑖
※ 分散については、{度数×(階級値-平均)2}の総和を度数の
合計で割ったものとなる
• 標本平均の平均、分散と、母平均、母分散の関係として
𝐸 𝑥 =𝜇
𝑉 𝑥 ≠ 𝜎2
が成り立つ。分散に関しては
である。この例では、
𝑉 𝑥 =
𝑁 − 𝑛 𝜎2
𝑉 𝑥 =
𝑁−1 𝑛
5 − 2 7.6 3 7.6
×
= ×
= 2.85
5−1
2
4
2
※全国規模の統計調査などを考えた場合、母集団の大きさNは非常に
𝑁−𝑛
大きいので、
は1に近くなり、
𝑁−1
𝑉 𝑥 =
𝜎2
𝑛
とみなせる。
視聴率調査の場合、関東地区1580万世帯から600世帯を選ぶので
𝑁 − 𝑛 15800000 − 600
=
= 0.999962 ≒ 1
𝑁−1
15800000 − 1
c) 標本分散の標本分布
• 次に10通りの標本について、標本分散を求め、その分布
をあらわすと次のようになる。
標本分散の標本分布
2.5
2
1.5
1
0.5
12
11.3
10.5
9.75
9
8.25
7.5
6.75
6
5.25
4.5
3.75
3
2.25
1.5
0
0.75
𝑠2
0
6.25
12.25
2.25
6.25
12.25
2.25
1
1
4
0
パターン
T,S
2,2
T,O
2,7
T,H
2,9
T,Y
2,5
S,O
2,7
S,H
2,9
S,Y
2,5
O,H
7,9
O,Y
7,5
H,Y
9,5
• 標本分散の平均について考えると、
標本平均の度数分布表から、次のように計算できる。
𝑠2
0
1
2.25
4
6.25
12.25
計
𝑓𝑖 (度数)
1
2
2
1
2
2
10
𝑓𝑖 𝑠 2
0
2
4.5
4
12.5
24.5
47.5
2
𝑓
𝑠
47.5
𝑖
2
𝐸 𝑠 =
=
= 4.75
𝑓𝑖
10
となる。標本分散の平均と母分散の関係は次のようになっ
ている。
𝑁 𝑛−1 2
2
𝐸 𝑠 =
𝜎
𝑁−1 𝑛
Ⅱ 点推定
a) 点推定
母集団(個体数 N)
標本(個体数 n)
× ×
×
×
×
× ×
× ×
× × ×
母平均μ
母分散σ2
母数θ
推論
標本平均x
標本分散s2
標本統計量t
標本から計算された1つ
の数値によって、母集団
の数値を推定することを
点推定という。
たとえば、標本平均を母
平均の推定値と考えるこ
とや、標本メディアンを母
集団のメディアンの推定
値と考えることである。
ただし、一般に t≠θであ
る。
b) 統計量の特性
1) 不偏性
• 点推定をおこなう場合、推定量の持つ望ましい特性をいく
つか考えてみよう。
• まず、E(t)=θとなることである。
• このような性質を不偏性といい、「tはθの不偏推定量であ
る」という。
(例1) 標本平均 𝑥 は 𝐸 𝑥 = 𝜇 となるので、母平均μの不
偏推定量である。
(例2) 標本メディアンmeは、母集団メディアンMeの不偏推
定量とはならない。
(例3) 標本分散s2は、 𝐸 𝑠 2 ≠ 𝜎 2 となり母分散σ2の不偏推
定量とはならない。
しかし、 𝐸 𝑠 2 =
𝑁 𝑛−1 2
𝜎
𝑁−1 𝑛
𝑁
十分大きいとき、
𝑁−1
𝐸 𝑠2
であった。母集団の個体数が
= 1 とみなせるので、
2
𝑛−1 2
1 2
𝜎
=
𝜎 = 1−
𝜎 = 𝜎2 −
𝑛
𝑛
𝑛
偏り
と変形できる。
• 一般にE(t)=θ+偏りと表すことができ、「偏り=0」となる推定
量のことを不偏推定量という。
ところで、母分散の不偏推定量は存在しないのであろうか?
𝐸 𝑠2 =
𝑛−1 2
𝑛
𝜎 の両辺に をかけると
𝑛
𝑛−1
𝑛
𝐸
𝑠2 = 𝜎 2
𝑛−1
となって、不偏推定量となる。
標本分散s2は
𝑠2 =
𝑥1 − 𝑥
2
+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛
2
=
𝑛
𝑖=1
𝑥𝑖 − 𝑥
𝑛
2
𝑥𝑖 − 𝑥
𝑛−1
2
𝑛
をかけると、
𝑛−1
であったので、これに
𝑠2 =
𝑥1 − 𝑥
2
+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1
2
=
𝑛
𝑖=1
となる。これを標本不偏分散という。
※ 統計学の書籍によっては、最初の分散の定義から、n-1で割ったも
のを用いているものもある。
2) その他の統計量特性
• 一致性 - 標本の大きさを大きくしたときに、t がθに近づ
く。(母数θから離れた標本統計量tが出現する可能性は低くなる)
• 効率性 - 不偏推定量がt1, t2 の2つあったとする。この
とき、分散の小さい推定量の方が母数θを推定するのによ
り効率的(母数θの近くの値を取る可能性が高い)である。
t1
t2
t2の方が効率的
⇒ 不偏性、効率性、一致性は望ましい推定量の基準であり、
このすべてを持ち合わせた推定量は非常に望ましい。
例: 正規母集団の母平均の推定における標本平均はこれらの基準をす
べて満たしている。
また、推定量の性質としては次のようなものも考えられる。
• 十分性 - tは標本に含まれるすべての情報を含んでい
る。
⇒ 刈り込み平均(上位と下位の一部を除いて平均を求めたもの。体操
競技の採点などで、最高点と最低点を除いた平均が得点となるが、こ
れは刈り込み平均の1種である)などは、標本のすべての情報を含ん
でいないので、十分性を満たさない。
ただし、刈り込み平均の方が算術平均より母平均に近い値を取る可
能性はある。
Ⅲ 区間推定
• 点推定で母数θをピタリと推定することは難しい。そのため、標本統計量t
の近くの区間を設定し、その区間内に母数θが含まれることを推定する。
これを区間推定という。
母集団(個体数N)
×
×
×
×
×
×
標本(個体数n)
×
×
×
×
母平均μ
標本平均x
区間推定
• たとえば、日本全国全世帯の家計の平均年収を知りたいとき、1万世帯
を標本として調査し、500万円という標本平均を得たとする。この500万円
±10万円という区間をとればよいのか、±30万円という区間を取ればよ
いのかを考えていく。(区間が広がれば母平均が含まれる可能性は高く
なるが、実用性に劣る)
母集団(大きさ N)
標本(大きさ n)
×
×
×
標本平均 x
×
×
×
×
×
×
×
×
標本平均 x
×
×
標本平均 x
×
× ×
•
標本調査をおこなう場合、
通常は1つの標本について
の標本平均がわかるだけで
あるが、とりうるすべての標
本について標本平均を知る
ことができたなら、その分布
を考えることができる。これ
を標本分布という。
母平均 μ
a) 母平均の区間推定
1) 中心極限定理
• 𝑥 の標本分布について、
𝐸 𝑥 =𝜇
𝑁 − 𝑛 𝜎2
𝑉 𝑥 =
𝑁−1 𝑛
が成り立っていた。
さらに、母集団の個体数(N)が十分大きいとき、
が成り立つ
𝜎2
𝑉 𝑥 =
𝑛
次に、標本平均 𝑥 の分布がどのような形になるのか考えてみよう。
ⅰ) 母集団の分布が正規分布の場合
母集団が平均μ、分散σ2の正規分布にしたがっているとする。
標本平均 𝑥 は
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑥=
=
𝑛
𝑛
𝑖=1 𝑥𝑖
𝑛
であり、正規分布にしたがう変数の和(をnという定数で割ったもの)と
なっている。
したがって、正規分布の再生性†より、𝑥 は正規分布にしたがう。
† 確率変数XとYがそれぞれN(μx,σ2x), N(μy,σ2y) にしたがうとき、その1次結
合α X+βY はN(αμx+βμy,α2σ2x+β2σ2y )にしたがう。これを正規分布の再生性と
いう。
ⅱ ) 母集団の分布が正規分布ではない場合
母集団の分布が正規分布でない場合でも、標本の個体数 n が大きいと
き、次のような定理によって標本平均 𝑥 の分布は正規分布となる。
<中心極限定理>
算術平均μ, 分散σ2をもつ母集団からとられた大きさ n の標
本の平均 𝑥 の分布は、母集団の分布がどのようなものであ
𝜎2
っても、 n が大きくなるとき、正規分布 𝑁(𝜇, ) に近づく。
𝑛
※ 以上 ⅰ), ⅱ) より、nが大きい時には母集団の分布にかかわらず、標
本平均 𝑥 の分布は正規分布となり、標準化された変数
𝑥−𝜇
𝑧=
𝜎 𝑛
の分布は、標準正規分布 N(0, 1) に近づく。
2) 信頼区間
標準正規分布にしたがう変数が、-1.96と1.96の間の値をとる確率は
95%である。
よって、 𝑧 =
𝑥−𝜇
はnが大きいときには、中心極限定理により標準正規
𝜎 𝑛
分布にしたがうので、
𝑃(−1.96 ≤
𝑥−𝜇
≤ 1.96) = 0.95
𝜎 𝑛
となる。この式のカッコ内を変形すると
𝜎
𝜎
𝜇 − 1.96
≤ 𝑥 ≤ 𝜇 + 1.96
𝑛
𝑛
となり、標本平均 𝑥 は 𝜇 ± 1.96
𝜎
𝑛
の区間内に95%の確率で含まれる。
𝑥 の分布
𝜇 − 1.96
𝜎 μ
𝑛
また 𝑃 −1.96 ≤
る。
𝑥−𝜇
𝜎 𝑛
𝜇 + 1.96
標準化
𝑥−𝜇
𝑧=
𝜎 𝑛
𝜎
𝑛
zの分布
-1.96
0
1.96
≤ 1.96 = 0.95 のカッコ内は次のようにも変形でき
𝑥−𝜇
−1.96 ≤
≤ 1.96
𝜎 𝑛
𝜎
𝜎
⟺ −1.96
≤ 𝑥 − 𝜇 ≤ 1.96
𝑛
𝑛
𝜎
𝜎
⟺ 1.96
≥ 𝜇 − 𝑥 ≥ −1.96
𝑛
𝑛
𝜎
𝜎
⟺ 𝑥 + 1.96
≥ 𝜇 ≥ 𝑥 − 1.96
𝑛
𝑛
𝜇 − 1.96
𝜎
𝑛
≤ 𝑥 ≤ 𝜇 + 1.96
𝜎
𝑛
と 𝑥 − 1.96
𝜎
𝑛
≤ 𝜇 ≤ 𝑥 + 1.96
ようなことを意味している。
𝜎
𝜇 − 1.96
𝑛
μ
𝜎
𝑥 − 1.96
𝑛
𝜇 + 1.96
×
𝑥
𝜎
𝑛
𝜎
𝑥 + 1.96
𝑛
×
×
𝜎
𝑛
は次の
𝑥 を中心に、 𝑥 ± 1.96
𝜎
𝑛
という区間を考えると、とりうる標本のうち95%
がこの区間内に母平均μを含む。
• このように母数が含まれると考えられる区間を信頼区間とい
い、その区間に母数が入ると信頼できる程度を信頼係数と
いう。
• この場合、 𝑥 − 1.96
の信頼区間である。
𝜎
,𝑥
𝑛
+ 1.96
𝜎
𝑛
はμの信頼係数95%
(例) 20歳男性の身長を調べるために、100人を標本として選
んだところ、標本平均 𝑥 =170であった。σ=8であるとき、母平
均μの95%信頼区間を求めよ。
(解) μの95%信頼区間は
𝜎
𝜎
, 𝑥 + 1.96
𝑛
𝑛
8
8
170 − 1.96
, 170 + 1.96
100
100
170 − 1.568, 170 + 1.568
168.43, 171.57
𝑥 − 1.96
となる。
4) 母分散が未知の場合の区間推定
母集団(大きさ N)
×
標本(大きさ n)
×
×
×
×
×
×
×
×
×
× ×
母平均 μ
標本平均
x
標本分散
s2
信頼区間を求める場合、
𝑥−𝜇
𝑧=
が標準正規分
𝜎 𝑛
布にしたがうという性質を用
いる。しかし、母平均の推定
をおこなう場合に、母分散σ2
が分かっているということは、
あまり多くない。 (過去の調
査において母分散のおおよそ
の値が分かり、それを用いる
などの例外はあるが)
母分散 σ2
母分散σ2がわからないとき、代わりに標本分散s2を用いる。
このとき、 𝑡 =
𝑥−𝜇
𝑠 𝑛−1
が自由度n-1のt分布にしたがう。
正規分布とt分布
0.45
0.40
0.35
0.30
normal
t1
t5
t10
0.25
0.20
0.15
0.10
0.05
0.00
-3.00
-2.00
-1.00
0.00
1.00
2.00
3.00
※ t分布は標準正規分布を上からつぶしたような、左右対称の形をしている。
自由度が小さいほどつぶれ具合が大きく、自由度が大きいほど標準正規
分布に近くなっている。
※ 標本分散s2の代わりに標本不偏分散
𝑠2 =
𝑥1 − 𝑥
を用いれば、 𝑡 =
2
𝑥−𝜇
𝑠 𝑛
+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1
2
が自由度n-1のt分布にしたがう。
=
𝑥𝑖 − 𝑥
𝑛−1
2
<自由度について>
自由度とは、自由に値を取ることのできる個体数のこと
である。
この場合は、t統計量の自由度は標本分散 s2 の分子に
含まれる xi のうち、自由に値を取ることのできる個数で
ある。
𝑠2 =
𝑥1 − 𝑥
2
+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛
2
=
𝑥𝑖 − 𝑥
𝑛
2
なので、x1, …, xn-1 は自由に値をとることができるが、xn
は
𝑥𝑖
=𝑥
𝑛
を満たすように決められ、自由度はn-1となる。
• 母集団の分散が分からないとき、母平均μの95%信頼区
間は、t分布の95%点をt0.95とあらわすと、
𝑥 − 𝑡0.95
𝑠
𝑛−1
, 𝑥 + 𝑡0.95
𝑠
𝑛−1
となる。 t0.95はt分布表からその値を求める。
※ より正確には、母集団の分布が正規分布にしたがうとき、𝑡 =
𝑥−𝜇
が自由度n-1のt分布にしたがう。
𝑠
𝑛−1
しかし、母集団の分布が正規分布にしたがわない場合でも、標本の
𝑥−𝜇
大きさがある程度大きければ、𝑡 =
は近似的に自由度n-1のt
𝑠
𝑛−1
分布にしたがうとみなせる。
また、nが十分大きい場合、t分布は正規分布に近づくので、𝑡 =
𝑥−𝜇
が正規分布にしたがうと考えることもある。
𝑠
𝑛−1
𝑥 の分布
zの分布
標準化
𝑥−𝜇
𝑧=
𝜎 𝑛
𝜎 μ
𝜇 − 1.96
𝑛
𝜎
𝜇 + 1.96
𝑛
-1.96
0
1.96
tの分布
母分散が分からない場合、
𝑡=
𝑥−𝜇
𝑠 𝑛−1
変換
が自由度n-1のt
分布にしたがう。
𝑡=
(自由度n-1のt分布)
𝑥−𝜇
𝑠
𝑛−1
t統計量の95%が含まれる区
間の境界値であるt0.95の値を、
t分布表から探し出す。
-t0.95
t0.95
(例) 20歳女性の身長を調べるために、10人を標本として選ん
だところ、標本平均 𝑥 =160であった。s=9であるとき、母平
均μの95%信頼区間を求めよ。
(解) 自由度10-1=9のt分布のt0.95=2.262なので、 μの95%信
頼区間は
𝑥 − 𝑡0.95
160 − 2.262
𝑠
𝑛−1
9
, 𝑥 + 𝑡0.95
𝑠
𝑛−1
, 160 + 2.262
9
10 − 1
10 − 1
160 − 2.262 × 3, 160 + 2.262 × 3
160 − 6.79, 160 + 6.79
153.21, 166.79
となる。
2) 母比率の区間推定
ⅰ) 標本比率の標本分布
母集団(大きさ N)
×
標本(大きさ n)
×
×
×
×
×
×
×
×
×
× ×
母比率
p
標本比率 pˆ
まず、標本比率𝑝 の標本
分布を考えよう。
内閣支持率を例にとると、
標本比率 𝑝 とは、標本n
人のうちのx人が「内閣を
支持する」と答えた割合
𝑥
であり、 𝑝 = である。
𝑛
よって 𝑝 の標本分布を考えるためには、まずxの標本分布を
考えればよい。
• 標本として選ばれた人の答えは、それぞれ「内閣を支持する
」か「内閣を支持しない」かのいずれである。
また選ばれた人が 「内閣を支持する」人である確率は、母
比率pに等しい。
よって、n人の標本を選ぶことは、AかBかという2つの結果し
か起こらない試行 をn回繰り返すこととみなすことができ、 「
内閣を支持する」人の人数xは2項分布にしたがう。
• 2項分布の期待値は E(x) = np、分散は V(x) = npq である
ので、これを用いて、 𝑝 の平均、分散を考えてみると、
𝑥
𝐸 𝑥
𝑛𝑝
𝐸 𝑝 =𝐸
=
=
=𝑝
𝑛
𝑛
𝑛
𝑥
𝑉 𝑥
𝑛𝑝𝑞 𝑝𝑞
𝑉 𝑝 =𝑉
= 2 = 2 =
𝑛
𝑛
𝑛
𝑛
となる。
• また、「内閣を支持する」人を1、「内閣を支持しない」人を0と
表すことを考える。n人の標本の中に「内閣を支持する」人は
𝑥
𝑛
をx人含まれるので、このようにあらわした場合、 𝑝 = は大
きさnの標本の平均とみなすことができ、中心極限定理が適
用できる。
よって、𝑝 の分布は、平均𝑝
標準化された変数 𝑧 =
𝑝−𝑝
𝑝𝑞
𝑛
𝑝𝑞
、分散
𝑛
の正規分布にしたがう。
は標準正規分布にしたがう。
ⅱ) 母比率の区間推定
𝑧=
𝑝−𝑝
𝑝𝑞
𝑛
が標準正規分布にしたがうことから、母比率pの95%信頼区間
は 𝑝 − 1.96
𝑝𝑞
,𝑝
𝑛
+ 1.96
𝑝𝑞
𝑛
となる。
(例) 2014年3月31日放送の「笑っていいとも!グランドフィナーレ感謝の
超特大号」の視聴率は28.1%であった。この数値は関東地区の約1600
万世帯から600世帯をサンプルとして選んだ結果である。このデータから
、関東地区全世帯の視聴率の95%信頼区間を求めよう。
(解) pの代わりに𝑝 を用いてpの95%信頼区間を計算すると
𝑝 − 1.96
0.281 − 1.96
𝑝𝑞
𝑝𝑞
, 𝑝 + 1.96
𝑛
𝑛
0.281 × 0.719
0.281 × 0.719
, 0.281 + 1.96
600
600
0.281 − 0.036, 0.281 + 0.036
0.245, 0.317
となる。
c) 標本の大きさの決定
「笑っていいとも!グランドフィナーレ感謝の超特大号」の視聴率を信頼
係数95%で区間推定すると、7%程度の幅ができる。そのため、1%ぐら
いの差で、勝った負けたを考えるのはナンセンスである。
では、視聴率調査の精度を高めるには、推定量の一致性から標本の大
きさを大きくすることが考えられる。しかし、標本の大きさを大きくすること
はコストの増加を意味している。よって、目標となる精度(どの程度のズレ
まで許容できるか)を設定し、それに必要な標本の大きさを計算する必要
がある。
1) 母平均の推定における標本の大きさの決定
𝑥 − 𝜇 の許容限度を E とする。
μ の区間推定を信頼係数 95% でおこなうとき、 𝑥 の分布について、
𝑥−𝜇
≤ 1.96
𝜎 𝑛
が成り立つので、
𝜎
𝑥 − 𝜇 ≤ 1.96
≤𝐸
𝑛
となればよい。よって
𝜎
1.96
≤𝐸
𝑛
𝜎
1.96 ≤ 𝑛
𝐸
𝜎 2
1.96
≤𝑛
𝐸
となり、
𝜎 2
𝑛 = 1.96
𝐸
が必要な標本の大きさであることが分かる。
これを求めるために、母標準偏差σが必要となるが、標本の大きさを決定
するということは、データ収集をおこなう前のことであり通常はわからない。
そのため、過去の経験などからσ2 の推定値を求め、それを利用する。
(例) ある大都市の大学生の1ヶ月平均生活費を1000円以内の誤差で推
定するという問題を考える。ただし、母集団の標準偏差は8000円であっ
たと見当がつけられているとする。
(解) 信頼係数を95%とすると、必要な標本の大きさは
2
8000
𝑛 = 1.96 ×
= 1.96 × 8 2 = 15.68 2 = 245.8624
1000
となるので、246人となる。
2) 母比率の推定における標本の大きさの決定
𝑝 − 𝑝 の許容限度を E とする。
pの区間推定を信頼係数 95% でおこなうとき、𝑝 の分布について、
𝑝−𝑝
≤ 1.96
𝑝𝑞
𝑛
が成り立つので、
𝑝𝑞
𝑝 − 𝑝 ≤ 1.96
≤𝐸
𝑛
となればよい。よって
𝑝𝑞
1.96
≤𝐸
𝑛
𝑝𝑞
1.96
≤ 𝑛
𝐸
2
1.96
𝑝𝑞 ≤ 𝑛
𝐸
となり、
1.96
𝑛=
𝐸
2
𝑝𝑞
が必要な標本の大きさであることが分かる。
これを求めるために、母比率pが必要となる。Pについて何らかの見当が
つくなら、その数値を用いるが、pについて何の情報もない場合には𝑝 =
1
1
を用いる。なぜなら、𝑝 = 𝑞 = のときに、pqが最大となるからである。
2
2
(例) 視聴率調査において、1%以内の誤差で推定するために必要な標本
の大きさを求めよ。
(解) 信頼係数を95%とする。また、母比率についてはあらゆる可能性が考
1
えられるので、 𝑝 = とすると、必要な標本の大きさは
2
1.96
𝑛=
0.01
2
1 1
× × = 196
2 2
となるので、9604世帯となる。
2
1
× = 9604
4