第2章 確率と確率分布

第2章 確率と確率分布
統計学 2006年度
Ⅰ 確率の定義
a) 先験的確率
1) 先験的確率の定義
2) 先験的確率の誤用
b) 経験的確率
1) 経験的確率の定義
2) 経験的確率の特徴
c) 主観的確率
1) 主観的確率の定義
2) 主観的確率の特徴
Ⅱ 確率の公理と計算定理
a) 確率の公理
b) 確率の計算定理
1) 加法定理
2) 条件つき確率と乗法定理
Ⅲ 確率分布
a)
b)
c)
d)
e)
確率変数
確率分布と確率密度
期待値と分散
2項分布
正規分布
1) 標準化
2) 標準正規分布
Ⅰ 確率の定義
• 確率 - ある事象が起こるか起こらないか確実に
は分からないとき、その事象の起こる「確からしさ」
を数値で表したもの
• 確率の定義には次の3とおりの方法がある。
– 先験的確率
– 経験的確率
– 主観的確率
a) 先験的確率(古典的確率、数学的確率などともいう)
1) 先験的確率の定義
• ある行動の起こりうる結果が全部でn通りあり、そのうち
事象Aにあてはまる結果がa通りあるとする。それらが同
様に確からしく、互いに重複しない場合、P(A)  a を事象
n
Aの確率とする。
(例1) コインを1枚投げたときに表の出る確率
– 起こりうる結果 - 表、裏の2通り(n=2)
– 事象A - 表が出る
– あてはまる結果 - 1通り(a=1)
⇒
P(A) 
1
2
(例2) サイコロを1個投げたときに5以上の目の出る確率
– 起こりうる結果 - 1,2,3,4,5,6の6通り(n=6)
– 事象A - 5以上の目が出る
– あてはまる結果 - 5,6の2通り(a=2)
⇒
P(A) 
2 1

6 3
• これらの例では、おこりうるすべての結果が分かり、同様
に確からしいとみなせるので、実験を実際におこなってみ
なくても、確率を評価できる。
よって、先験的確率といわれる。
2) 先験的確率の誤用
• 2枚のコインを同時に投げたときに少なくとも1枚が表である確率を考
える。
– 起こりうる結果 - 表表、表裏、裏裏の3通り(n=3)
– 事象A - 少なくとも1枚が表である
– あてはまる結果 - 表表、表裏の2通り(a=2)
⇒ P(A)  2
起こりうる結果が「同様に確からしい」とはいえない
3
「ローベルバルの過ち」といわれる問題
• 正しくは次の通り(パスカルがこのように修正した)
– 起こりうる結果 - 表表、表裏、裏表、裏裏の3通り(n=4)
– 事象A - 少なくとも1枚が表である
– あてはまる結果 - 表表、表裏、裏表の3通り(a=3)
⇒ P(A)  3
4
• 明日、雨が降る確率(降水確率)
– 起こりうる結果 - 雨が降る、雨が降らないの2通り(n=2)
– 事象A - 雨が降る
– あてはまる結果 - 1通り(a=1)
⇒
P(A) 
1
2
• 「雨が降る」と「雨が降らない」は同様に確からしいとはい
えない。
⇒ 先験的確率によって確率を定義することの限界
b) 経験的確率
1) 経験的確率の定義
• 同じ条件のもとで繰り返し十分大きい観察がおこなわれ
たとき、観察総数nの中で、特定の事象Aとなる場合の数
a
がaであったならば、 P(A)  n を事象Aの経験的確率とい
う。
(例1) 男児の出産確率
P(A) 
21
41
多数の出産例を観察した結果求められたもの。
(例2) 降水確率
同様な天気図(雲の配置など)を多数観察し、それから降水確率を
求めている。
2) 経験的確率の特徴
• すべての結果がわからない場合でも確率を求めることが
できる。
• おこりうるすべての結果が同様に確からしいとはいえな
い。
• 同じ条件のもとで繰り返し十分大きい観察が不可能な事
象については経験的確率が定義できない。
c) 主観的確率
1) 主観的確率の定義
• 事象Aに対する個人の確信の度合いを数値で表したもの
P(A)を事象Aの主観的確率という。
(例) 春の天皇賞でディープインパクトが勝つ確率は90%
である。
⇒ 競馬には対戦相手、枠順、血統、騎手、馬の調子、ローテーション、
馬場状態、開催競馬場などの条件がある。これら同一の条件で、繰
り返し十分な観察をすることは不可能である。
2) 主観的確率の特徴
• 主観的確率は個人の確信によって定まるので、同じ事象
に対しても確率の評価は異なる。
⇒ このことから賭けがはじめて成立する。
(例) 日本シリーズで千葉ロッテと阪神のどちらが勝つか。
• 千葉ロッテに賭ける人 - 千葉ロッテが勝つ確率(主観的確率)が高
い。
• 阪神に賭ける人- 阪神が勝つ確率(主観的確率)が高い。
この両者が存在することによって、初めて賭けが成立する。
全員が「千葉ロッテが勝つ確率が高い」と思っていたら賭けは成立しない。
しかし、勝つ確率が低い方に賭けることもある。それは当たった時にもらえ
る金額が多くなるからである。 ⇒ 期待値の大きさで判断している。
主観的確率
経験的確率
先験的確率
Ⅱ 確率の公理と計算定理
a) 確率の公理
1. どのような事象Aに対しても、確率の値は常に0と1の間の値
をとる。すなわち、
0  P( A)  1
2. おこりうる事象全体の集合をSとすれば、Sの確率は1である。
P( S )  1
3. A,B,… が同時に起こらない事象(このとき、A,B,… を排反
事象という)のとき、A,B,… のいずれかが起こる確率はそれ
ぞれの事象が起こる確率の和に等しい。すなわち
P( A  B )  P( A)  P( B)  
b) 確率の計算定理
松中がホームランを 松中がホームランを
打つ(A1)
打たない(A2)
ホークスが勝つ(B1)
0.1
0.495
引き分け(B2)
0.01
0.05
ホークスが負ける(B3)
0.04
0.305
計
0.15
0.85
計
0.595
0.06
0.345
1
• 松中がホームランを打ち、ホークスが勝つ確率 → A1とB1が
ともに起きる確率である。これをA1とB1の同時確率といい、
P(A1∩B1)とあらわす。(∩は「かつ」(and)を表す記号。capとよぶ。)
• 松中がホームランを打つかどうかに関わらず、ホークスが勝
つ確率 → A1が起こるかどうかに関わらず、B1が起きる確率
である。これをB1の周辺確率といい、P(B1)とあらわす。
1) 加法定理
松中がホームランを 松中がホームランを
打つ(A 1)
打たない(A 2)
ホークスが勝つ(B 1)
0.1
0.495
引き分け(B 2)
0.01
0.05
ホークスが負ける(B 3)
0.04
0.305
計
0.15
0.85
(例) 松中がホームランを打つか、ホークスが勝つ確率
P( A1  B1 )  P( A1 )  P( B1 )  P( A1  B1 )
 0.15  0.595 0.1  0.645
計
0.595
0.06
0.345
1
加法定理
(∪は「または」(or)を表す記号。cupとよぶ。)
<排反事象の場合>
(例) ホークスが勝つか、引き分ける確率
P( B1  B2 )  P( B1 )  P( B2 )
 0.595 0.06  0.655
排反事象の場合の
加法定理
2) 条件つき確率と乗法定理
•
P(E)>0のとき、事象Eの起こることを条件として、事象Fが起こることを、
(Eを条件とする)Fの条件つき確率といい、P(F|E)であらわす。
(例) 松中がホームランを打ったときに、ホークスが勝つ確率
⇒ A1を条件とするB1の条件つき確率P(B1|A1)である。
この条件つき確率を用いて、松中がホームランを打ち、ホークスが勝
つ確率を考えると、
P( A1  B1 )  P( A1 )  P( B1 | A1 )
とあらわすことができる。これを乗法定理という。
よって条件つき確率P(B1|A1)は
P( B1 | A1 ) 
P( A1  B1 ) 0.1

 0.67
P( A1 )
0.15
となる。
松中がホームランを 松中がホームランを
打つ(A 1)
打たない(A 2)
ホークスが勝つ(B 1)
0.1
0.495
引き分け(B 2)
0.01
0.05
ホークスが負ける(B 3)
0.04
0.305
計
0.15
0.85
計
0.595
0.06
0.345
1
<独立事象の乗法定理>
•
事象Eが起こっても起こらなくても事象Fの確率に変化がないとき、すな
わちP(F|E) = P(F|Ec) = P(F)のとき、事象Eと事象Fは独立であるという。
( Ec はEが起こらないという状況をあらわす)
雨が降る(A 1)
朝青龍が勝つ(B 1)
朝青龍が負ける(B 3)
計
雨が降らない(A 2)
0.2
0.6
0.05
0.15
0.25
0.75
計
0.8
0.2
1
この例で雨が降った場合の朝青龍が勝つ条件つき確率は
P( B1 | A1 ) 
P( A1  B1 ) 0.2

 0.8
P( A1 )
0.25
雨が降らない場合の朝青龍が勝つ条件つき確率は
P( B1 | A2 ) 
P( A2  B1 ) 0.6

 0.8
P( A2 )
0.75
となり、 P(B1|A1) = P(B1|A2) = P(B1)であることから、雨が降るか降らな
いかと、朝青龍が勝つか負けるかは独立である。
• 事象Eと事象Fが独立である場合、乗法定理は
P( E  F )  P( E )  P( F )
となる。
Ⅲ 確率分布
a) 確率変数
• サイコロを3回振る実験を考える。
• 1の目が出た場合を○、1の目以外が出た場合を×とあらわ
すと、起こりうる結果は
○○○, ○○×, ○×○, ×○○, ○××, ×○×, ××○, ×××
の8通りである。
• ここで、1の目が何回出たかによって分類するなら
• 2回目に振ったサイコロの目は1回目に振ったさいころの目と
は独立であるので、独立事象の乗法定理が用いられる。
• 1の目が出た回数を x 回とし、それに対応する確率を P(x)
とあらわすと、次のように整理できる。
サイコロを3回振った時の1の目の出る回数
0.8
確率
0.6
0.4
0.2
0
0
1
2
1の目の出る回数
3
• このようにとりうる値のそれぞれにある確率が対応している
変数を確率変数といい、その対応関係を確率分布という。
b) 確率密度
• 右の図のようなルーレットがある。
x
ルーレットの針と真上とのなす角を
x度とする。ここで、x=60度となる確
率を考えると、
P(x  60) 
1
360
• xは連続変数なので、0から359までの360通り以外に、
42.75, 108.268 などとりうる値が無限にある。
• そのため、P(x=60)の確率を求めることはできない
• 連続型確率変数の場合には、x=60といった確率を求めるこ
とはできないので、代わりに P(59.5  x  60.5) といった微小
区間に入る確率を考える。
• この確率を確率密度という。
• 連続型確率変数の確率分布は、確率密度を線で結んだ密
度関数 f(x)によってあらわす。(グラフの場合も、数式の場
合もある)
• ルーレットの例の場合の密度関数は次のようになる。
f(x)
1/360
0
360
c) 期待値と分散
• 次のようなくじがあったとする。
等
もらえる金額
当たる確率
1等
1000000円
2等
20000円
3等
100円
はずれ
0円
1
50000
1
1000
1
10
44949
50000
• このくじを1枚購入したときに、もらえると期待できる金額は
1000000 
1
1
1
44949
 20000 
 100   0 
 20  20  10  0  50(円)
50000
1000
10
50000
このくじの期待値は50(円)であるという
• このくじが、全部で5万本あったとすると、下のような度数分
布表であらわすことができる。
1等
2等
3等
はずれ
計
xi
1000000
20000
100
0
fi
fixi
1 1000000
50 1000000
5000
500000
44949
0
2500000
• もらえる金額の算術平均は2500000÷50000=50(円)であ
り、期待値に一致する。
期待値=確率変数の算術平均
• サイコロを3回振る実験で1の目が出た回数をxとするなら、x
の期待値は
0
125
75
15
1
75
30
3
108 1
 1
 2
 3
 0




216
216
216
216
216 216 216 216 2
となり、1の目が出る回数の期待値は0.5回である。
• またサイコロを6回振る実験をおこなうと
x
P(x)
0
15625
46656
1
18750
46656
2
9375
46656
3
2500
46656
4
375
46656
5
30
46656
6
1
46656
となるので、 1の目が出る回数の期待値は
15625
18750
9375
2500
375
30
1
 1
 2
 3
 4
 5
 6
46656
46656
46656
46656
46656
46656
46656
18750 18750 7500 1500
150
6
46656
 0






1
46656 46656 46656 46656 46656 46656 46656
0
となり、6回ふれば1の目が1回ぐらい出るという直感に一致
する。
• 期待値は E(x)   x P(x) とあらわすことができる。
• 分散は V( x)  ( x  E(x))2 P(x) となる。
• 連続型確率変数の場合は
E( x)   x f( x)dx
V( x)   ( x  E( x)) 2 f( x)dx
となる。
d) 2項分布
• サイコロを3回振る実験は、A(1の目が出る)かB(1の目が出
ない)かという2つの結果しか起こらない試行をn回繰り返し
たとき、Aという結果がx回おこるということである。このような
xの確率分布は2項分布といわれる。
• Aが起こる確率をp、Bが起こる確率をq(=1-p)とすると、
p(x)=nCxpxqn-x
となる。
• 2項分布の期待値(平均) E(x)=np
分散
V(x)=npq
となる。
• 期待値について考える。
• サイコロを3回振る実験では、n=3, p=1/6, q=5/6 であるので、
E(x) = 3×1/6 = 1/2 となる。
• 一般に確率変数xの期待値はΣxP(x)であるので、この実験
では
E(x) = 0×0.579+1×0.347+2×0.069+3×0.005
= 0+0.347+0.138+0.015 = 0.5
となる。これはnpの値に等しい。
2項分布(n=10)
2項分布(n=5)
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0.5
0.4
0.3
0.2
0.1
0
0
1
2
3
4
5
0
1
2
4
5
6
7
8
9
10
2項分布(n=50)
2項分布(n=20)
20
18
16
14
12
10
20
18
16
14
12
10
8
6
4
2
0
8
0.05
6
0.1
4
0.15
2
0.2
0
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0.25
0
3
2項分布(n=100)
0.12
0.1
0.08
33
30
27
24
21
18
15
12
9
6
3
0
0.06
0.04
0.02
0
e) 正規分布
• 2項分布において、nを大きくしていくと、左右対称のつりがね
型の分布に近づく。
• これが正規分布といわれる分布である。
0.12
0.1
2項分布
(n=100)
正規分布
0.12
0.1
0.08
0.08
0.06
0.06
0.04
0.04
0.02
0.02
0
0
1 3 5 7 9 1113 15 17 19 21 23 25 27 29 31 33 35
• 正規分布は数学的に望ましい性質を持った分布
• 身長や知能指数などがこの分布にしたがうといわれている。
• 密度関数
f ( x) 
1
e
1  x 
 

2  
2
2
e  2.718(自然対数の底)
2
正規分布の平均は、分散は  2
1) 標準化
• A君は、あるテストで英語が90点、数学が65点であった。 ⇒
英語の方が数学より成績が良かった??
• 英語の平均点が80点、数学の平均点が50点だった。⇒ 英
語は平均点より10点高い、数学は平均点より15点高い。数
学の方が良い??
• 英語と数学のどちらが成績が良かったのだろうか?⇒ 標準
化の必要性(これを応用したものが偏差値)
• 英語が平均80、標準偏差10の正規分布、数学が平均50、
標準偏差20の正規分布にそれぞれしたがうとする。
英語と数学の成績の分布
f(x)
0.05
数学
英語
0.04
0.03
0.02
0.01
0
0
10
20
30
40
50
60
70
80
90
100
点数
• 平均や分散の異なるものを比較するとき、平均や分散をそろ
え、その相対的な位置によって比較しようというのが標準化
の考えである。
• 標準化は次のような変換である。
z
x

• この例で、英語は(90-80)/10=1
数学は(65-50)/20=0.75
となり英語の方が成績が良いことになる。
• 偏差値は、このzを用いて 50+10×z で求められる。この人
の英語の偏差値は60、数学の偏差値は57.5である。
2) 標準正規分布
• 正規分布にしたがう変数について、このような変換をおこなう
と、標準正規分布(平均0、分散1の正規分布)になる。
• 標準正規分布では±1の範囲に68.7%、±2の範囲に95.4%、
±3の範囲に99.7%が含まれる。
標準正規分布
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-3.5 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
3 3.5