c) 確率分布

3. 統計的推定
保健統計 2013年度
Ⅰ 母集団と標本
a) 標本調査の利点
b) 標本調査における誤差
Ⅱ 確率と確率分布
a) 確率の公理
b) 確率の計算定理
1) 加法定理
2) 条件つき確率と乗法定理
c) 確率分布
1)
2)
3)
4)
確率変数
期待値と分散
2項分布
正規分布
Ⅲ 統計的推定
a) 標本平均の標本分布
b) 点推定
c) 区間推定
1) 母平均の区間推定
ⅰ) 中心極限定理
ⅱ) 母分散が既知の場合の区間推定
ⅲ) 母分散が未知の場合の区間推定
2) 母比率の区間推定
ⅰ) 標本比率の標本分布
ⅱ) 母比率の区間推定
Ⅰ 母集団と標本
母集団(個体数N)
標本(個体数n)
×
×
×
×
×
×
×
×
×
×
• ある集団についての調査をおこなうとき、調査対象となる集
団(母集団)からその一部を標本として選び、調査する方法
がある。これを標本調査という。
• 標本調査の例として次のようなものが挙げられる。
 労働力調査(完全失業率はこの調査の結果求められ
る)
⇒ 全国の15歳以上(約1億1千万人)の母集団から、
約10万人を標本として選ぶ調査
 内閣支持率調査などの世論調査
⇒ 全国の有権者(20歳以上の日本国民)(約1億人)の
母集団から、約1000人(新聞社のおこなう内閣支持率
調査の場合)
その他、視聴率調査、街頭でのアンケート、製品の品質
管理のための抜き取り調査など、数多くの標本調査がお
こなわれている。
a) 標本調査の利点
標本調査をおこなうメリットとして、次のようなことが挙げられる。
• 費用・時間の削減
→ 調査票を配布回収する調査では、調査票の印刷費、集計にか
かる機械処理費用、人件費などと全部を集計しおえるまでの時
間がだいぶ削減できる。
• 得られる情報の増加、精度の向上
→ 調査には調査員が使われることが多いが、ベテランの調査員
は調査の内容をきちんと説明できるので、答えづらい内容を聞い
たり、正しい結果を導いたりすることができる。
• 全数調査が不可能な場合にも調査可能
→ ガラスの耐久性についての品質管理を調査するなどの場合、
全数調査をおこなうことは不可能である。
b) 標本調査における誤差
標本調査の結果と、真の状態との間にはズレがある。こ
のズレのことを誤差というが、標本調査における誤差に
は次の2つの種類のものが組み合わさったものである。
1. 非標本誤差 - 調査もれ、無回答、記入ミスなど
⇒ 全数調査でも起こりうる
統計理論によりコントロール不可能
2. 標本誤差 - 標本の偏りによるもの
⇒ 標本調査に固有のもの
統計理論によりコントロール可能
•
標本の偏りによる誤差がどの程度の範囲に収まるかを、
統計理論によって知ることができる。⇒確率の問題
<第2次安倍内閣発足直後の支持率の例>
母集団(有権者1億人)
×
×
×
×
標本1(朝日990人)
59%
×
×
×
×
×
×
×
×
2012年12月28日付の朝刊
各紙に掲載された第2次安倍
内閣支持率を見ると、異なっ
た結果になっている。
同じ対象に同じ調査をおこ
なっても、標本によってその結
果が異なる。
これが、標本の偏りである。
×
×
×
×
×
×
標本2(読売1039人)
65%
標本3(毎日856人)
52%
標本4(日経872人)
62%
標本5(共同1031人)
62%
Ⅱ 確率と確率分布
a) 確率の公理
1. どのような事象Aに対しても、確率の値は常に0と1の間の値
をとる。すなわち、
0 ≤ 𝑃(𝐴) ≤ 1
2. おこりうる事象全体の集合をSとすれば、Sの確率は1である。
𝑃 𝑆 =1
3. A,B,… が同時に起こらない事象(このとき、A,B,… を排反
事象という)のとき、A,B,… のいずれかが起こる確率はそれ
ぞれの事象が起こる確率の和に等しい。すなわち
𝑃 𝐴∪𝐵∪⋯ =𝑃 𝐴 +𝑃 𝐵 +⋯
b) 確率の計算定理
バレンティンがホー
ムランを打つ(A1)
スワローズが勝つ(B1)
引き分け(B2)
スワローズが負ける(B3)
計
バレンティンがホーム
ランを打たない(A2)
計
0.165
0.245
0.41
0.01
0.02
0.03
0.165
0.395
0.56
0.34
0.66
1
• バレンティンがホームランを打ち、スワローズが勝つ確率 →
A1とB1がともに起きる確率である。これをA1とB1の同時確率
といい、P(A1∩B1)とあらわす。(∩は「かつ」(and)を表す記号。cap
とよぶ。)
• バレンティンがホームランを打つかどうかに関わらず、 スワ
ローズが勝つ確率 → A1が起こるかどうかに関わらず、B1が
起きる確率である。これをB1の周辺確率といい、P(B1)とあら
わす。
1) 加法定理
バレンティンがホー
ムランを打つ(A1)
スワローズが勝つ(B1)
引き分け(B2)
スワローズが負ける(B3)
計
バレンティンがホーム
ランを打たない(A2)
計
0.165
0.245
0.41
0.01
0.02
0.03
0.165
0.395
0.56
0.34
0.66
1
(例) バレンティンがホームランを打つか、スワローズが勝つ確率
加法定理
𝑃 𝐴1 ∪ 𝐵1 = 𝑃 𝐴1 + 𝑃 𝐵1 − 𝑃 𝐴1 ∩ 𝐵1
= 0.34 + 0.41 − 0.165 = 0.585
(∪は「または」(or)を表す記号。cupとよぶ。)
<排反事象の場合>
(例) スワローズが勝つか、引き分ける確率
排反事象の場合の
𝑃 𝐵1 ∪ 𝐵2 = 𝑃 𝐵1 + 𝑃 𝐵2
加法定理
= 0.41 + 0.03 = 0.44
2) 条件つき確率と乗法定理
•
P(E)>0のとき、事象Eの起こることを条件として、事象Fが起こることを、
(Eを条件とする)Fの条件つき確率といい、P(F|E)であらわす。
(例) 袋の中に、赤球3個、白球2個の計5個の球が入っている。この袋から
球を続けて2個取り出すとき、2個とも赤球となる確率を考えてみよう。
1個目が赤球となる確率は、
𝑃 赤1
3
=
5
1個目が赤球であったという条件のもとで、
2個目が赤球となる確率は、
𝑃 赤2 |赤1
2
=
4
よって、2個とも赤球となる確率は、
𝑃 赤1 ∩ 赤2 = 𝑃 赤1 × 𝑃 赤2 |赤1
1個目
2個目
3 2
3
= × =
乗法定理
5 4 10
(例) バレンティンがホームランを打ったときに、 スワローズが勝つ確率
⇒ A1を条件とするB1の条件つき確率P(B1|A1)である。
この条件つき確率を用いて、バレンティンがホームランを打ち、 スワ
ローズが勝つ確率を考えると、乗法定理により
𝑃 𝐴1 ∩ 𝐵1 = 𝑃 𝐴1 × 𝑃 𝐵1 |𝐴1
となる。よって条件つき確率P(B1|A1)は同時確率を周辺確率で割ること
によって求めることができ、
𝑃 𝐴1 ∩ 𝐵1
0.165
𝑃 𝐵1 |𝐴1 =
=
= 0.485 …
𝑃 𝐴1
0.34
となる。
バレンティンがホー
ムランを打つ(A1)
スワローズが勝つ(B1)
引き分け(B2)
スワローズが負ける(B3)
計
バレンティンがホーム
ランを打たない(A2)
計
0.165
0.245
0.41
0.01
0.02
0.03
0.165
0.395
0.56
0.34
0.66
1
<独立事象の乗法定理>
•
事象Eが起こっても起こらなくても事象Fの確率に変化がないとき、すな
わちP(F|E) = P(F|Ec) = P(F)のとき、事象Eと事象Fは独立であるという。
( Ec はEが起こらないという状況をあらわす)
雨が降る (A1)
白鵬が勝つ(B1)
雨が降らない (A2)
計
0.2
0.6
0.8
白鵬が負ける(B2)
0.05
0.15
0.2
計
0.25
0.75
1
この例で雨が降った場合の白鵬が勝つ条件つき確率は
𝑃 𝐵1 |𝐴1 =
𝑃 𝐴1 ∩ 𝐵1
0.2
=
= 0.8
𝑃 𝐴1
0.25
雨が降らない場合の白鵬が勝つ条件つき確率は
𝑃 𝐵1 |𝐴2
𝑃 𝐴2 ∩ 𝐵1
0.6
=
=
= 0.8
𝑃 𝐴2
0.75
となり、 P(B1|A1) = P(B1|A2) = P(B1)であることから、雨が降るか降らな
いかと、白鵬が勝つか負けるかは独立である。
• 事象Eと事象Fが独立である場合、乗法定理は
となる。
𝑃 𝐸∩𝐹 =𝑃 𝐸 ×𝑃 𝐹
c) 確率分布
1) 確率変数
• サイコロを3回振る実験を考える。
• 1の目が出た場合を○、1の目以外が出た場合を×とあらわ
すと、起こりうる結果は
○○○, ○○×, ○×○, ×○○, ○××, ×○×, ××○, ×××
の8通りである。
• ここで、1の
目が何回出
たかによって
分類するなら
右図のように
なる。
• 2回目に振っ
たサイコロの
目は1回目に
振ったさいこ
ろの目とは
独立である
ので、独立事
象の乗法定
理が用いら
れる。
1の目が出た回数
パターン
確率
3
0回
×××
1回
××○
1 5 5
1
× × =
6 6 6
6
5
6
2
×○×
5 1 5
1
× × =
6 6 6
6
5
6
2
○××
5 5 1
1
× × =
6 6 6
6
5
6
2
○○×
1 1 5
1
× × =
6 6 6
6
2
5
6
○×○
1 5 1
1
× × =
6 6 6
6
2
5
6
×○○
5 1 1
1
× × =
6 6 6
6
2
5
6
2回
3回
×××
5 5 5
5
× × =
6 6 6
6
1 1 1
1
× × =
6 6 6
6
3
• 1の目が出た回数を x 回とし、それに対応する確率を P(x)
とあらわすと、次のように整理できる。
𝒙
0
𝑃(𝑥)
5
6
(0.579)
1
3
1 5
3
6 6
(0.347)
2
2
3
2
1
5
3
6
6
(0.069)
3
1
6
(0.005)
サイコロを3回振った時の1の目の出る回数
0.8
確率
0.6
0.4
0.2
0
0
1
2
1の目の出る回数
3
• このようにとりうる値†のそれぞれにある確率が対応してい
る変数を確率変数といい、その対応関係を確率分布という。
† 連続変数の場合はその値を含む微小な区間を考える。
2) 期待値と分散
• 右のような確率で賞金がもらえるくじ
等
があったとする。
1等
• このくじを1枚購入した時点で、いくら
の賞金がもらえるかはわからない。
2等
• しかし、大体いくらぐらいもらえるか
を知りたい。
3等
• そのとき、
はずれ
もらえる金額×当たる確率
の総和がもらえると期待できる金額
となる。
1
1
1
もらえる金額
1000000円
20000円
100円
0円
44949
当たる確率
1
50000
1
1000
1
10
44949
50000
1000000 × 50000 + 20000 × 1000 + 100 × 10 + 0 × 50000 = 20 + 20 + 10 + 0 =50(円)
このくじの期待値は50(円)であるという
• このことは、次のように考えることができる。
• 主催者が、全部で5万本の
𝑥𝑖
等
くじを作成したとする。当た
1000000
る確率を考えると、このとき 1等
20000
2等
くじの中に、1等を1本、2等
を50本、3等を5000本入れ
100
3等
る必要がある。このくじが、 はずれ
0
全部で5万本あったとすると、
右のような度数分布表であ
らわすことができる。
𝑓𝑖
𝑓𝑖 𝑥𝑖
1
1000000
50
1000000
5000
500000
44949
0
2500000
• ある人がこのくじを5万本全部買い占めたとする。くじの当選
番号が発表された後で当選金の払い戻しを受ける場合、そ
の合計金額は確実に2500000(円)であり、1枚あたりの当選
金(すなわち算術平均)を考えると、2500000÷50000=50
(円)であり、期待値に一致する。
期待値=確率変数の算術平均
† このことから、期待値のことを、「平均」「平均値」などと呼ぶこともある。
• サイコロを3回振る実験で1の目が出た回数をxとするなら、x
の期待値は
125
75
15
1
75
30
3
108 1
0×
+1×
+2×
+3×
=0+
+
+
=
=
216
216
216
216
216 216 216 216 2
となり、1の目が出る回数の期待値は0.5回である。
• またサイコロを6回振る実験をおこなうと
𝑥
𝑃(𝑥)
0
1
2
3
4
5
6
30
1
15625 18750 9375 2500 375
46656 46656 46656 46656 46656 46656 46656
となるので、 1の目が出る回数の期待値は
0×
15625
18750
9375
2500
375
30
1
+1×
+2×
+3×
+4×
+5×
+6×
46656
46656
46656
46656
46656
46656
46656
=0+
18750 18750 7500
1500
150
6
46656
+
+
+
+
+
=
=1
46656 46656 46656 46656 46656 46656 46656
となり、6回ふれば1の目が1回ぐらい出るという直感に一致
する。
• 期待値は𝐸 𝑥 =
• 分散は 𝑉 𝑥 =
𝑥𝑃 𝑥 とあらわすことができる。
𝑥−𝐸 𝑥
2
𝑃 𝑥 となる。
• 連続型確率変数の場合は
𝐸 𝑥 =
𝑉 𝑥 =
となる。
𝑥𝑓 𝑥 𝑑𝑥
𝑥−𝐸 𝑥
2
𝑓 𝑥 𝑑𝑥
• 確率分布は、いくつかの種類に分類することができる。
– 離散型確率分布
2項分布、ポアソン分布、負の2項分布、超幾何分布、・・・
– 連続型確率分布
正規分布、t分布、カイ2乗分布、・・・
3) 2項分布
[定義] 起こりうる結果がAかBかという2つの結果しか起こらな
い試行† をn回繰り返したとき、Aという結果がx回おこったと
する。このxの確率分布を2項分布という。
† このような試行をベルヌーイ試行という
[分布関数] Aが起こる確率をp、Bが起こる確率をq(=1-p)とす
ると、2項分布は
p(x)=nCxpxqn-x
という式であらわすことができる。この式を2項分布の分布関
数という。
(例) サイコロを3回振る実験では、A(1の目が出る)かB(1の
目が出ない)かという2つの結果しか起こらない試行をn(=3)
回繰り返したとき、A (1の目が出る)という結果がx回おこっ
た。このxの確率分布は2項分布(にしたがう)といわれる。
• この例では、𝑝 =
1
,𝑝
6
てはめると、 𝑝 𝑥 =
5
= , 𝑛 = 3 であるので、分布関数にあ
6
1 𝑥 5 3−𝑥
となる。
3𝐶𝑥 6
6
• xのとりうる値は0,1,2,3の4つであるので、この分布関数は次
のような関係を表している。
𝑥
𝑃(𝑥)
0
3𝐶0
1
6
0
1
5
6
3−0
3𝐶1
1
6
1
2
5
6
3−1
3𝐶2
1
6
2
3
5
6
3−2
3𝐶3
1
6
3
5
6
3−3
◎数学補足 nCxについて
• nCxはn個の中からx個を選ぶ組み合わせの数であり、次の
ように定義される。
𝑛!
𝑛𝐶𝑥 =
𝑥! 𝑛 − 𝑥 !
• ここで、!は階乗を表す記号であり、次のようなものである。
n! = n ×(n-1)×・・・×2×1
よって、nCxは次のように計算できる。
𝑛 × 𝑛 − 1 × ⋯ 𝑛 − 𝑥 + 1 × 𝑛 − 𝑥 × ⋯× 2 × 1
𝑛𝐶𝑥 =
𝑥 × 𝑥 − 1 × ⋯× 2 × 1 × 𝑛 − 𝑥 × ⋯× 2 × 1
x個
𝑛× 𝑛−1 ×⋯ 𝑛−𝑥+1
=
𝑥 × 𝑥 − 1 × ⋯× 2 × 1
x個
たとえば、5人の班の中から2人の委員を選ぶ組み合わせは
5 × 4 20
=
= 10 通り
5𝐶2 =
2×1
2
となる。
• サイコロを3回振る実験において、1の目が1回出るパターン
は、 ○××, ×○×, ××○ の3通りあるが、これはサイコロを
振る3回のうち、何回目に1の目が出るかを考えたものであり、
3
= 3 通り
3𝐶1 =
1
である。
• また、nC0は定義のように計算できないので、 nC0=1と特別
に定義する。
[期待値と分散] 2項分布の期待値(平均)は E(x)=np
分散は
V(x)=npq
となる。
• 離散型確率変数の期待値は、一般に 𝐸 𝑥 =
よって求めることができるので、
125
75
15
1
+1×
+2×
+3×
216
216
216
216
75
30
3
108 1
=0+
+
+
=
= = 0.5
216 216 216 216 2
𝑥𝑃 𝑥 に
𝐸 𝑥 =0×
となる。
• 確率変数が2項分布にしたがう場合、期待値は 𝐸 𝑥 = 𝑛𝑝
として求めることができる。すなわち、すべてのとりうる値と対
応する確率が得られなくても、期待値が計算できるのである。
1
6
1
×
6
1
2
• この例の場合 𝐸 𝑥 = 3 × = = 0.5 となる。
• また分散は、 𝑉 𝑥 = 3 ×
5
6
=
5
12
となる。
2項分布(n=10)
2項分布(n=5)
0.2
0.1
0
0
1
2
3
4
5
0
2項分布(n=100)
1
2
3
4
5
6
7
8
9
10
20
0.3
18
0.4
16
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0.5
0.12
0.1
0.08
14
12
10
8
30
27
24
21
33
6
20
18
16
14
12
10
8
6
4
2
0
0
4
0.05
2
0.1
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0
0.15
18
15
0.2
12
9
2項分布(n=50)
6
0
0.25
3
0.06
0.04
0.02
2項分布(n=20)
0
4) 正規分布
• 2項分布において、nを大きくしていくと、左右対称のつりがね
型の正規分布といわれる分布に近づく。
• 2項分布は離散型確率変数の分布であるが、nを無限に大き
くしたとき、xのとりうる値は無限に大きくなる。すなわちxは連
続型確率変数として扱われる。
n=500のとき
P (x)
0.06
0.05
0.04
0.03
0.02
0.01
144
136
128
120
112
104
96
88
80
72
64
56
48
40
32
24
16
8
0
0
x
• 正規分布は数学的に望ましい性質を持った分布
• 身長や知能指数などがこの分布にしたがうといわれている。
• 密度関数
𝑓 𝑥 =
1
2𝜋𝜎 2
1 𝑥−𝜇 2
−
𝑒 2 𝜎
𝑒 = 2.718 …(自然対数の底)
正規分布の平均は𝜇、分散は𝜎 2
• 正規分布は平均μ、分散σ2の値によって、中心の位置や山
の高さが変わってくる。
<平均の異なる正規分布>
σ=1の正規分布
0.5
μ=0
μ=3
μ=-4
0.4
0.3
0.2
0.1
0
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
<分散の異なる正規分布>
μ=0の正規分布
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
σ=1
σ=2
σ=1/2
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
• これらの正規分布は、中心の位置を移動させたり、目盛りの
幅を変える(横に伸ばしたり、縮めたりする)ことによって、全
て同じ正規分布となる。
<標準化と標準正規分布>
• A君は、あるテストで英語が90点、数学が65点であった。 ⇒
英語の方が数学より成績が良かった??
• 英語の平均点が80点、数学の平均点が50点だった。⇒ 英
語は平均点より10点高い、数学は平均点より15点高い。数
学の方が良い??
• 英語と数学のどちらが成績が良かったのだろうか?⇒ 標準
化の必要性(これを応用したものが偏差値)
• 英語が平均80、標準偏差10の正規分布、数学が平均50、
標準偏差20の正規分布にそれぞれしたがうとする。
英語と数学の成績の分布
f(x)
0.05
数学
英語
0.04
0.03
0.02
0.01
0
0
10
20
30
40
50
60
70
80
90
100
点数
• 平均や分散の異なるものを比較するとき、平均や分散をそろ
え、その相対的な位置によって比較しようというのが標準化
の考えである。
• 標準化は次のような変換である。
𝑥−𝜇
𝑧=
𝜎
• この例で、英語は(90-80)/10=1
数学は(65-50)/20=0.75
となり英語の方が成績が良いことになる。
• 偏差値は、このzを用いて 50+10×z で求められる。この人
の英語の偏差値は60、数学の偏差値は57.5である。
<標準正規分布>
• 正規分布にしたがう変数について、このような変換をおこなう
と、標準正規分布(平均0、分散1の正規分布)になる。
• 標準正規分布では±1の範囲に68.3%、±2の範囲に95.4%、
±3の範囲に99.7%が含まれる。
標準正規分布
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-3.5 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
3 3.5
Ⅲ 統計的推定
a) 標本平均の標本分布
母集団(大きさ N)
標本(大きさ n)
×
×
×
標本平均 x
×
×
×
×
×
×
×
×
標本平均 x
×
×
標本平均 x
×
× ×
母平均 μ
•
•
標本調査をおこなう場合、通常は1つの標本についての特性値(標本平
均や標本平均など)がわかり、それから母集団の特性値についての推論
をおこなう。母集団全体の情報はわからない。
しかし母集団全体の情報が分かり、とりうるすべての標本について考え
ることができたなら、標本の特性値についての分布を考えることができる。
これを標本分布という。
• 500人受講している科目の採点に、25人だけ採点して全体
の平均点を推定しようとするとき、25人の組み合わせ全てか
ら標本平均が計算でき、その分布を考えることができる。
• 一般にN個の母集団からn個の標本を選ぶ組み合わせの数
はNCnとあらわすことができる。
𝑁!
𝑁𝐶𝑛 =
𝑛! 𝑁 − 𝑛 !
𝑁 × 𝑁 − 1 ×⋯× 1
𝑛 × 𝑛 − 1 × ⋯× 1 × 𝑁 − 𝑛 × 𝑁 − 𝑛 − 1 × ⋯× 1
𝑁 × 𝑁 − 1 × ⋯× 𝑁 − 𝑛 + 1 × 𝑁 − 𝑛 × 𝑁 − 𝑛 − 1 × ⋯× 1
=
𝑛 × 𝑛 − 1 × ⋯× 1 × 𝑁 − 𝑛 × 𝑁 − 𝑛 − 1 × ⋯× 1
𝑁 × 𝑁 − 1 × ⋯× 𝑁 − 𝑛 + 1
=
←分母も分子もn個ずつ
𝑛 × 𝑛 − 1 × ⋯× 1
=
<簡単な例>
中国地方5県の乗用車登録台数(2010年4月末現在、軽自動車
除く)は次のようになっている。(単位: 台)
鳥取
184958
島根
216744
岡山
651448
広島
863016
山口
474582
出典: 中国運輸局『管内保有車両数』
これを10万台単位で四捨五入し、各都道府県の頭文字をア
ルファベットで表すと
T
2
S
2
O
7
H
9
Y
5
となる。
母平均、母分散は
2+2+7+9+5
𝜇=
=5
5
2+ 2−5 2+ 7−5 2+ 9−5
2
−
5
𝜎2 =
5
9 + 9 + 4 + 16 + 0
=
= 7.6
5
2
+ 5−5
2
• この5県を母集団とし、その中から2県を選んで標本とする
と、選び方は5C2=10通りとなる。それぞれの標本につい
て、標本平均を求め、その分布をあらわすと次のようにな
る。
𝑥
2
4.5
5.5
3.5
4.5
5.5
3.5
8
6
7
標本平均の標本分布
2.5
2
度数
パターン
T,S
2,2
T,O
2,7
T,H
2,9
T,Y
2,5
S,O
2,7
S,H
2,9
S,Y
2,5
O,H
7,9
O,Y
7,5
H,Y
9,5
1.5
1
0.5
0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8
標本平均
• 次に標本平均の平均と分散について考えよう。
標本平均の度数分布表から、次のように計算できる。
𝑥
2
3.5
4.5
5.5
6
7
8
計
𝑓𝑖 (度数)
1
2
2
2
1
1
1
10
𝑓𝑖 𝑥𝑖2
4
24.5
40.5
60.5
36
49
64
278.5
𝑓𝑖 𝑥𝑖
2
7
9
11
6
7
8
50
𝐸 𝑥 =
𝑓𝑖 𝑥𝑖 50
=
=5
𝑓𝑖
10
𝑉 𝑥 =
𝑓𝑖 𝑥𝑖2
− 𝐸 𝑥
𝑓𝑖
2
278.5
=
− 52 = 2.85
10
※ 度数分布表からの平均の計算は、(度数×階級値)の総和を度数
の合計で割れば良い
なお、この分散の式は計算式であり、次のようにして求
めたものである。
2
𝑉
=
=
=
𝑓𝑖 𝑥𝑖 − 𝐸 𝑥
𝑥 =
𝑚
𝑓𝑖 𝑥𝑖2 − 2𝐸 𝑥 𝑓𝑖 𝑥𝑖 + 𝑚 𝐸 𝑥
𝑚
𝑓𝑖 𝑥𝑖2 − 2𝐸 𝑥 𝑓𝑖 𝑥𝑖 + 𝑚 𝐸 𝑥
𝑚
2
𝑓𝑖 𝑥𝑖
2
− 𝐸 𝑥
𝑚
2
2
※ 分散については、{度数×(階級値-平均)2}の総和を度数の
合計で割ったものとなる
• 標本平均の平均、分散と、母平均、母分散の関係として
𝐸 𝑥 =𝜇
𝑉 𝑥 ≠ 𝜎2
が成り立つ。分散に関しては
である。この例では、
𝑉 𝑥 =
𝑁 − 𝑛 𝜎2
𝑉 𝑥 =
𝑁−1 𝑛
5 − 2 7.6 3 7.6
×
= ×
= 2.85
5−1
2
4
2
※全国規模の統計調査などを考えた場合、母集団の大きさNは非常に
𝑁−𝑛
大きいので、
は1に近くなり、
𝑁−1
𝑉 𝑥 =
𝜎2
𝑛
とみなせる。
視聴率調査の場合、関東地区1580万世帯から600世帯を選ぶので
𝑁 − 𝑛 15800000 − 600
=
= 0.999962 ≒ 1
𝑁−1
15800000 − 1
<補足>
母分散σ2について、ここでは個々の値から平均を引いた
ものを2乗して加え、個数で割った。すなわち、
𝜎2 =
2−5
2
+ 2−5
2
+ 7−5
5
2
+ 9−5
2
+ 5−5
2
とした。
教科書の分散の定義によると、この分母は5-1=4になる
はずである。
この教科書の定義は標本不偏分散といわれることもあり、
あとで説明する「母分散がわからない場合の区間推定」
をおこなうときに、計算が簡単になる。
b) 点推定
母集団(個体数 N)
標本(個体数 n)
× ×
×
×
×
× ×
× ×
× × ×
母平均μ
母分散σ2
母数θ
推論
標本平均x
標本分散s2
標本統計量t
標本から計算された1つ
の数値によって、母集団
の数値を推定することを
点推定という。
たとえば、標本平均を母
平均の推定値と考えるこ
とや、標本メディアンを母
集団のメディアンの推定
値と考えることである。
ただし、一般に t≠θであ
る。
c) 区間推定
• 点推定で母数θをピタリと推定することは難しい。そのため、
標本統計量tの近くの区間を設定し、その区間内に母数θが
含まれることを推定する。これを区間推定という。
※ たとえば、日本全国全世帯の家計の平均年収を知りたいとき、1万世帯を標
本として調査し、500万円という標本平均を得たとする。この500万円±10万
円という区間をとればよいのか、±30万円という区間を取ればよいのかを考
えていく。(区間が広がれば母平均が含まれる可能性は高くなるが、実用性
に劣る)
1) 母平均の区間推定
ⅰ) 標本平均の標本分布の形状
𝑥 の標本分布について、 𝐸 𝑥 = 𝜇
𝑁 − 𝑛 𝜎2
𝑉 𝑥 =
𝑁−1 𝑛
が成り立っていた。母集団の個体数が十分大きいとき、
𝜎2
𝑉 𝑥 =
𝑛
が成り立つ
次に、標本平均 𝑥 の分布がどのような形になるのか考えてみよう。
ア) 母集団の分布が正規分布の場合
母集団が平均μ、分散σ2の正規分布にしたがっているとする。
標本平均 𝑥 は
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑥𝑖
𝑥=
=
𝑛
𝑛
であり、正規分布にしたがう変数の和(をnという定数で割ったもの)と
なっている。
したがって、正規分布の再生性†より、 𝑥 は正規分布にしたがう。
† 確率変数XとYがそれぞれN(μx,σ2x), N(μy,σ2y) にしたがうとき、その1次結
合α X+βY はN(αμx+βμy,α2σ2x+β2σ2y )にしたがう。これを正規分布の再生性と
いう。
イ) 母集団の分布が正規分布ではない場合
母集団の分布が正規分布でない場合でも、標本の個体数 n が大きいと
き、次のような定理によって標本平均 𝑥 の分布は正規分布となる。
<中心極限定理>
算術平均μ, 分散σ2をもつ母集団からとられた大きさ n の標
本の平均 𝑥 の分布は、母集団の分布がどのようなもので
𝜎2
あっても、 n が大きくなるとき、正規分布 𝑁(𝜇, ) に近づく。
𝑛
※ 以上 ア), イ) より、nが大きい時には母集団の分布にかかわらず、標
本平均 𝑥 の分布は正規分布となり、標準化された変数
𝑥−𝜇
𝑧=
𝜎 𝑛
の分布は、標準正規分布 N(0, 1) に近づく。
ⅱ) 母分散が既知の場合の区間推定
標準正規分布にしたがう変数が、-1.96と1.96の間の値をとる確率は
95%である。よって、 𝑧 =
𝑥−𝜇
はnが大きいときには、中心極限定理に
𝜎 𝑛
より標準正規分布にしたがうので、
𝑥−𝜇
𝑃(−1.96 ≤
≤ 1.96) = 0.95
𝜎 𝑛
となる。この式のカッコ内を変形すると
𝜎
𝜎
𝜇 − 1.96
≤ 𝑥 ≤ 𝜇 + 1.96
𝑛
𝑛
𝜎
となり、標本平均 𝑥 は 𝜇 ± 1.96
の区間内に95%の確率で含まれる。
𝑛
𝑥 の分布
𝜇 − 1.96
𝜎
𝑛
また 𝑃(−1.96 ≤
μ
𝑥−𝜇
𝜎 𝑛
𝜇 + 1.96
標準化
𝑥−𝜇
𝑧=
𝜎 𝑛
𝜎
𝑛
zの分布
-1.96
0
1.96
≤ 1.96) = 0.95 のカッコ内は次のようにも変形できる。
𝑥−𝜇
−1.96 ≤
≤ 1.96
𝜎 𝑛
𝜎
𝜎
⟺ −1.96
≤ 𝑥 − 𝜇 ≤ 1.96
𝑛
𝑛
𝜎
𝜎
⟺ 1.96
≥ 𝜇 − 𝑥 ≥ −1.96
𝑛
𝑛
𝜎
𝜎
⟺ 𝑥 + 1.96
≥ 𝜇 ≥ 𝑥 − 1.96
𝑛
𝑛
𝜇 − 1.96
𝜎
𝑛
≤ 𝑥 ≤ 𝜇 + 1.96
𝜎
𝑛
と 𝑥 − 1.96
𝜎
𝑛
≤ 𝜇 ≤ 𝑥 + 1.96
ようなことを意味している。
𝜎
𝜇 − 1.96
𝑛
μ
𝜎
𝑥 − 1.96
𝑛
𝜇 + 1.96
×
𝑥
𝜎
𝑛
𝜎
𝑥 + 1.96
𝑛
×
×
𝜎
𝑛
は次の
𝑥 を中心に、 𝑥 ± 1.96
𝜎
𝑛
という区間を考えると、とりうる標本のうち95%
がこの区間内に母平均μを含む。
• このように母数が含まれると考えられる区間を信頼区間とい
い、その区間に母数が入ると信頼できる程度を信頼係数と
いう。
• この場合、 𝑥 − 1.96
の信頼区間である。
𝜎
,𝑥
𝑛
+ 1.96
𝜎
𝑛
はμの信頼係数95%
(例) 20歳男性の身長を調べるために、100人を標本として選
んだところ、標本平均 𝑥 =170であった。σ=8であるとき、母平
均μの95%信頼区間を求めよ。
(解) μの95%信頼区間は
𝜎
𝜎
𝑥 − 1.96
, 𝑥 + 1.96
𝑛
𝑛
8
8
170 − 1.96
, 170 + 1.96
100
100
170 − 1.568, 170 + 1.568
168.43, 171.57
となる。
ⅲ) 母分散が未知の場合の区間推定
母集団(大きさ N)
標本(大きさ n)
信頼区間を求める場合、
𝑧=
×
×
×
×
×
×
×
×
×
×
× ×
母平均 μ
標本平均
x
標本分散
s2
𝑥−𝜇
𝜎 𝑛
したがうという性質を用いる。
しかし、母平均の推定をおこ
なう場合に、母分散σ2が分
かっているということは、あま
り多くない。 (過去の調査に
おいて母分散のおおよその
値が分かり、それを用いるな
どの例外はあるが)
母分散 σ2
母分散σ2がわからないとき、代わりに標本分散s2を用いる。
このとき、𝑡 =
𝑥−𝜇
𝑠 𝑛
が標準正規分布に
が自由度n-1のt分布にしたがう。
正規分布とt分布
0.45
0.40
0.35
0.30
normal
t1
t5
t10
0.25
0.20
0.15
0.10
0.05
0.00
-3.00
-2.00
-1.00
0.00
1.00
2.00
3.00
※ t分布は標準正規分布を上からつぶしたような、左右対称の形をしている。
自由度が小さいほどつぶれ具合が大きく、自由度が大きいほど標準正規
分布に近くなっている。
<自由度について>
自由度とは、自由に値を取ることのできる個体数のことである。
この場合は、t統計量の自由度は標本分散 s2 の分子に含まれる xi のうち、自由
に値を取ることのできる個数である。
𝑥1 −𝑥 2 + 𝑥2 −𝑥 2 +⋯+ 𝑥𝑛 −𝑥 2
𝑥𝑖 −𝑥 2
=
= 𝑛−1 なので、x1, …, xn-1 は自由に値をとること
𝑛−1
𝑥
ができるが、xn は 𝑛 𝑖 = 𝑥 を満たすように決められ、自由度はn-1となる。
𝑠2
• 母集団の分散が分からないとき、母平均μの95%信頼区
間は、t分布の95%点をt0.95とあらわすと、
𝑠
𝑠
𝑥 − 𝑡0.95
, 𝑥 + 𝑡0.95
𝑛
𝑛
となる。 t0.95はt分布表からその値を求める。
※ より正確には、母集団の分布が正規分布にしたがうとき、 𝑡 =
𝑥−𝜇
𝑠 𝑛
が自由度n-1のt分布にしたがう。
しかし、母集団の分布が正規分布にしたがわない場合でも、標本の
𝑥−𝜇
大きさがある程度大きければ、𝑡 =
は近似的に自由度n-1のt分
𝑠
𝑛
布にしたがうとみなせる。
また、nが十分大きい場合、t分布は正規分布に近づくので、 𝑡 =
𝑥−𝜇
が正規分布にしたがうと考えることもある。
𝑠
𝑛
𝑥 の分布
zの分布
標準化
𝑥−𝜇
𝑧=
𝜎 𝑛
𝜎
𝜇 − 1.96
𝑛
μ
𝜎
𝜇 + 1.96
𝑛
-1.96
0
1.96
tの分布
母分散が分からない場合、
𝑡=
𝑥−𝜇
𝑠 𝑛
が自由度n-1のt分
布にしたがう。
変換
(自由度n-1のt分布)
𝑥−𝜇
𝑡=
𝑠 𝑛
t統計量の95%が含まれる区
間の境界値であるt0.95の値を、
t分布表から探し出す。
-t0.95
t0.95
(例) 20歳女性の身長を調べるために、9人を標本として選ん
だところ、標本平均 𝑥 =160であった。s=9であるとき、母平
均μの95%信頼区間を求めよ。
(解) 自由度9-1=8のt分布のt0.95=2.306なので、 μの95%信
頼区間は
𝑠
𝑠
𝑥 − 𝑡0.95
, 𝑥 + 𝑡0.95
𝑛
𝑛
9
9
160 − 2.306
, 160 + 2.306
9
9
160 − 6.92, 160 + 6.92
153.08, 166.92
となる。
2) 母比率の区間推定
ⅰ) 標本比率の標本分布
母集団(大きさ N)
×
標本(大きさ n)
×
×
×
×
×
×
×
×
×
× ×
母比率
p
標本比率 pˆ
まず、標本比率𝑝 の標本
分布を考えよう。
内閣支持率を例にとると、
標本比率 𝑝 とは、標本n
人のうちのx人が「内閣を
支持する」と答えた割合
𝑥
であり、 𝑝 = である。
𝑛
よって 𝑝 の標本分布を考えるためには、まずxの標本分布を
考えればよい。
• 標本として選ばれた人の答えは、それぞれ「内閣を支持す
る」か「内閣を支持しない」かのいずれである。
また選ばれた人が 「内閣を支持する」人である確率は、母
比率pに等しい。
よって、n人の標本を選ぶことは、AかBかという2つの結果し
か起こらない試行 をn回繰り返すこととみなすことができ、
「内閣を支持する」人の人数xは2項分布にしたがう。
• 2項分布の期待値は E(x) = np、分散は V(x) = npq である
ので、これを用いて、 𝑝 の平均、分散を考えてみると、
𝑥
𝐸 𝑥
𝑛𝑝
𝐸 𝑝 =𝐸
=
=
=𝑝
𝑛
𝑛
𝑛
𝑥
𝑉 𝑥
𝑛𝑝𝑞 𝑝𝑞
𝑉 𝑝 =𝑉
= 2 = 2 =
𝑛
𝑛
𝑛
𝑛
となる。
• また、「内閣を支持する」人を1、「内閣を支持しない」人を0と
表すことを考える。n人の標本の中に「内閣を支持する」人は
𝑥
𝑛
をx人含まれるので、このようにあらわした場合、 𝑝 = は大
きさnの標本の平均とみなすことができ、中心極限定理が適
用できる。
よって、𝑝 の分布は、平均𝑝
標準化された変数 𝑧 =
𝑝−𝑝
𝑝𝑞
𝑛
𝑝𝑞
、分散
𝑛
の正規分布にしたがう。
は標準正規分布にしたがう。
ⅱ) 母比率の区間推定
𝑧=
𝑝−𝑝
𝑝𝑞
𝑛
が標準正規分布にしたがうことから、母比率pの95%信頼区間
は 𝑝 − 1.96
𝑝𝑞
,𝑝
𝑛
+ 1.96
𝑝𝑞
𝑛
となる。
(例) 日曜劇場 半沢直樹 最終回(2013.9.22放送)の視聴率は42.2%で
あった。この数値は関東地区の約1600万世帯から600世帯をサンプルと
して選んだ結果である。このデータから、関東地区全世帯の視聴率の
95%信頼区間を求めよう。
(解) pの代わりに𝑝 を用いてpの95%信頼区間を計算すると
𝑝 − 1.96
0.422 − 1.96
𝑝𝑞
𝑝𝑞
, 𝑝 + 1.96
𝑛
𝑛
0.422 × 0.578
0.422 × 0.578
, 0.422 + 1.96
600
600
0.422 − 0.040, 0.422 + 0.040
0.382, 0.462
となる。