スライド 1

富山大学知能情報工学科
「統計学」第６回
ホーエル『初等統計学』
第４章確率分布
高尚策（コウショウサク）准教授
Email: [email protected]
前回の復習：確率の諸公式
• P(A∪B) = P(A) + P(B) – P(A∩B)
• P(A∪B) = P(A) + P(B)
（加法の定理）
（排反事象の加法の定理）
• P(A∩B) = P(A)×P(B | A)
= P(B)×P(A | B)
• P(A∩B) = P(A)×P(B)
(乗法の定理)
（独立事象の乗法の定理）
• ベイズの定理（事後確率を計算するための公式）
𝑃(𝐷|𝐻) × 𝑃(𝐻)
P HD =
𝑃(𝐷)
事後確率
尤度
事前確率
前回演習課題の答え
• 課題
A,B,Cの工場で、全製品の20％,35％,45%が作られ各工場の
5%,7%,4%が不良品であるという．ある製品が不良品である
とき,それがA,B,Cの製品である割合は,それぞれいくらか．
知識補足：全確率の定理（Total Probability Theorem）
A1、A2、・・・、Ai、・・・ Aｎ（i=1、2、・・・、ｎ）を、標本空間全体を分割したものとする。
つまり、 𝑛𝑖=1 𝐴𝑖 = Ω , 𝐴𝑖 ∩ 𝐴𝑗 = ∅ 𝑖 ≠ 𝑗 ,
このとき事象Bに対して、
𝑛
𝑃 𝐵 =
𝑃 𝐴𝑖 ∩ 𝐵 =
𝑖=1
𝐴1
𝑛
𝐴2
𝑃 𝐵 𝐴𝑖 𝑃(𝐴𝑖 )
𝑖=1
n=3の場合 P B = 𝑃 𝐴1 ∩ 𝐵 + 𝑃 𝐴2 ∩ 𝐵 + 𝑃(𝐴3 ∩ 𝐵)
𝐴3
𝑩
・・・
𝐴𝑛
Ω
• 課題
A,B,Cの工場で、全製品の20％,35％,45%が作られ各工場の5%,7%,4%が不良
品であるという．ある製品が不良品であるとき,それがA,B,Cの製品である割合
は,それぞれいくらか．
知識補足： n=3の場合 P 𝐸 = 𝑃 𝐴1 ∩ 𝐸 + 𝑃 𝐴2 ∩ 𝐸 + 𝑃 𝐴3 ∩ 𝐸
= 𝑃 𝐴1 𝑃 𝐸 𝐴1 + 𝑃 𝐴2 𝑃 𝐸 𝐴2 + 𝑃 𝐴3 𝑃(𝐸|𝐴3 )
答え：
事象A1 ：製品が工場Aで生産した
𝐴2
𝐴3
𝐴1
事象A2 ：製品が工場Bで生産した
事象A3 ：製品が工場Cで生産した
𝑬
事象E：製品が不良品である
とすると、
Ω = 𝐴1 ∪ 𝐴2 ∪ 𝐴3
𝐴1 , 𝐴2 , 𝐴3 は互いに排反である
P 𝐴1 = 0.2, P 𝐴2 = 0.35, P 𝐴3 = 0.45
𝑃 𝐸 𝐴1 = 0.05, 𝑃 𝐸 𝐴2 = 0.07, 𝑃 𝐸 𝐴3 = 0.04
𝑃 𝐴1 𝐸 =
Ω
𝑃 𝐸|𝐴1 𝑃(𝐴1 )
𝑃 𝐸|𝐴1 𝑃(𝐴1 )
=
𝑃(𝐸)
𝑃 𝐴1 𝑃 𝐸 𝐴1 + 𝑃 𝐴2 𝑃 𝐸 𝐴2 + 𝑃 𝐴3 𝑃(𝐸|𝐴3 )
0.05 × 0.2
0.01
=
=
≈ 0.19
0.2 × 0.05 + 0.35 × 0.07 + 0.45 × 0.04 0.0525
同様に、𝑃 𝐴2 𝐸 = 0.467, 𝑃 𝐴3 𝐸 = 0.343
１．序説
• 第２章で学んだヒストグラムは，得られたデー
タの分布を示したもの．経験分布（empirical
distribution）と呼ばれる．
• 第４章で学ぶ確率分布（probability
distribution）は，母集団での分布．
– 母集団ではこうなっているだろうと仮定する，理
論的な分布．
確率分布
経験分布
経験分布の極限としての確率分布
• 確率分布は理論的に想定される数学的モデ
ルである．
– 推測統計では，母集団での分布として，特定の
確率分布が仮定される．
• 標本の大きさ（sample size）を十分に大きくす
れば，相対度数を用いた経験分布は，確率
分布に収束する．（今日の実践で確認する）
２．確率変数
• 事象を観察し，なんらかの測定を行う．
– さいころを２回投げたときの，出た目の和
– 学生の，１週間あたりの学習時間
• こうした測定は繰り返し行うことができる．繰
り返しのたびに，変数 X の値が具体的に測
定されると考える．
– 注意：テキストでは変数を小文字の x で表してい
るが，ここでは大文字を用いる．
• 例：硬貨を３回投げる実験での，表の出る回
数X
3
2
2
2
1
1
1
0
HHH
HHT
HTH
THH
HTT
THT
TTH
TTT
• 実験のたびに，X は 0, 1, 2, 3 のいずれかの
値をとる．ひとつの標本点にひとつの実数が
対応．
• X が特定の値をとる確率を考えることができ
る．
• 確率変数（random variable）：
– 定義：標本空間の上で定義された実数値関数．
標本点それぞれに実数を対応させる．
– 直感的には，とりうる値それぞれについて，その
値が出現する確率が与えられている変数．
• 「変数」なのに「関数」？ y = f(x) が，対応規則 f と，対
応先の変数 y を表現していたのと同じ．
標本空間
X
TTT
実数（表が出た
回数）
0
TTH
HTT
THH
1
THT
HTH
HHT
HHH
2
3
確率変数（離散型）の表記法
• 確率変数は，X のような，アルファベットの大
文字を用いて表す．実現値は小文字で表す．
• 確率変数が特定の値 xi をとる確率を，
P{X=xi} あるいは単に P{xi} と表す．
– 例：さいころを１回投げ，「１の目が出る」という事
象に実数の１，「２の目が出る」という事象に実数
の２，・・・と対応させた確率変数 X を考えると，
1
1
1
P{ X  1}  , P{ X  2}  ,  , P{ X  6} 
6
6
6
確率分布（離散型）
• とびとびの値 x1, x2, … をとる確率変数 X を，
離散型（discrete type）の確率変数と呼ぶ．た
いていは有限個の値を考える．
• 確率変数と確率との対応の全体を，確率分
布（probability distribution）と呼ぶ．
– 横軸に確率変数 X，縦軸に確率 P{X} をとって図
3/8
3/8
示する．
1/8
0
1/8
1
2
3
x
図：硬貨投げる実験で表の出る回数 Xの確率分布
３．確率分布の性質
• 経験分布について平均と分散を考えたのと同
様に，確率分布の平均と分散を考えることが
できる．
母集団平均：μ
母集団分散：σ２
母集団（確率分布）
無作為
抽出
標本平均：m
標本分散：s2
標本（経験分布）
母集団平均：確率分布の平均
• 第２章で学んだ，分類されたデータから標本
平均を求める式を書き換える．
（n 回の試行で xi という値が fi 回観察された）
k
fi
1 k
x   xi f i   xi
n i 1
n
i 1
• 経験分布での相対度数 fi / n は，標本の大き
さ（n）を十分に大きくすれば，母集団での確
率 P{X=xi} に収束する．
母集団平均：確率分布の平均
• 標本の大きさを十分に大きくすると，標本平
均は母集団平均に収束する．
• 母集団平均（つまり，確率分布の平均）をギリ
シア文字 μ （ミュー）で表す．
k
   xi P{ X  xi }
i 1
テキスト p.79
(1) 式
母集団分散
• 分類されたデータから分散を求める式を変形
する．
（n 回の試行で xi という値が fi 回観察された）
k
1
2
2
s 
( xi  x ) f i

n  1 i 1
k
fi
  ( xi  x )
n 1
i 1
2
k
  ( xi   ) 2 P{ X  xi }
i 1
n が大きいとき
母集団分散
• 標本の大きさを十分に大きくすると，標本から
計算される分散は母集団分散に収束する．
• 母集団分散（つまり，確率分布の分散）を σ2
で表す．（ギリシア文字シグマ）
k
   ( xi   ) P{ X  xi }
2
2
i 1
テキスト p.79
(2) 式
• 分散＝２乗の平均 – 平均の２乗
k
 2   ( xi   ) 2 P{ X  xi }
テキスト p.81
(3) 式
i 1
k


  xi2  2 xi   2 Pxi 
i 1
k
k
k
i 1
i 1
i 1
  xi2 Pxi  2   xi Pxi   2  Pxi 
k
k
i 1
i 1
  xi2 Pxi  2  2   2   xi2 Pxi   2
４．期待値
• 確率分布の平均は，期待値（expected value）
とも呼ばれる．
– 確率分布の期待値といえば，確率分布の平均と
いう意味である．
• 例：硬貨を１枚投げて，表が出れば100円がも
らえるゲームをする．期待値は50円．
– 非常に多数回の試行を行えば，平均的には50円
もらえると期待できる．
確率変数（標本点と実数との対応規則）
「表」→100 「裏」→0
1
1
  100   0   50  0  50
2
2
確率分布：
期待値（expectation）：
P{X=100} = 1/2 確率変数の値それぞれと，
P{X=0} = 1/2
その値が出現する確率との
積和
テキスト p.82
(4) 式
E[ X ] 
 x P{X  x }
i 1, 2,
i
i
確率変数の変換
• 確率変数 X に何らかの変換 g を行って得ら
れる変数 Y は，やはり確率変数である．
Y  g (X )
• Y の期待値は，
E[Y ]  E[ g ( X )]
  g ( x i )P{Y  g ( xi )}
i
  g ( x i )P{ X  xi }
i
テキスト p.83
(5) 式
• 確率分布の分散は，「平均からの偏差の２乗
の期待値」であると言える．
k
   x i PX  xi 
i 1
  E[( X   ) ]
2
2
k
   ( xi   ) P{ X  xi }
2
2
i 1
gX   X   
2
という変換であると考えることができる．
期待値の性質１
• 確率変数に定数を加えると，期待値にも定数
が加えられる．
E[ X  c]  E[ X ]  c
テキスト p.83
(6) 式
• 確率変数を定数倍すると，期待値も定数倍さ
れる
E[c  X ]  c  E[ X ]
テキスト p.83
(7) 式
E[ X  c]
  ( xi  c)  P{ X  c  xi  c}
  ( xi  c)  P{ X  xi }
  ( xi  P{ X  xi }  c  P{ X  xi })
  xi  P{ X  xi }   c  P{ X  xi }
 E[ X ]  c P{ X  xi }
 E[ X ]  c 1
 E[ X ]  c
E[cX ]
  cxi  P{cX  cxi }
  cxi  P{ X  xi }
 c   xi  P{ X  xi }
 c  E[ X ]
期待値の性質２
• 和の期待値は期待値の和（証明は，やや難）
E[ X  Y ]  E[ X ]  E[Y ]
テキスト p.83
(8) 式
• ２つの確率変数が独立の場合に限り，
積の期待値は期待値の積
（これはテキストにはない．証明省略）
E[ XY ]  E[ X ]  E[Y ]
E[ X  Y ]   ( xi  y j )  P{ X  xi and Y  y j }
i
j
  [ xi  P{ X  xi and Y  y j }  y j  P{ X  xi and Y  y j }]
i
j
  xi  P{ X  xi and Y  y j }
i
j
  y j  P{ X  xi and Y  y j }
i
j
第１項について考える（スライド次ページ）
 x P{X  x and Y  y }
i
i
i
j
j
  [ x1 P{ X  x1 and Y  y j }  x2 P{ X  x2 and Y  y j }  ]
j
  x1 P{ X  x1 and Y  y j }   x2 P{ X  x2 and Y  y j }  
j
j
ここでも，第１項について考える
（スライド次ページ）
 x P{ X  x
1
1
and Y  y j }
j
 x1   P{ X  x1 and Y  y j }
j
 x1  P{ X  x1}
したがって，
 x P{ X  x
i
i
i
and Y  y j }
j
 x1  P{ X  x1}  x2  P{ X  x2 }  
 E[ X ]
同様に，
 y P{ X  x
i
i
i
and Y  y j }
j
 y1  P{Y  y1}  y2  P{Y  y2 }  
 E[Y ]
したがって，
E[ X  Y ]  E[ X ]  E[Y ]
参考：『よくわかる統計学 I 基礎編』p.59
例：（テキストP.83）ある慈善団体の主催する基金募集事業に参
加した個人がパンチボードを1回はじくごとに４ドルを支払い,幸
運の輪を1回まわすごとに5ドルを支払うものとする．
このパンチボードには100個の穴があって,そのうちの20個
の穴に入れば10ドルの賞金がもらえ,これとは別の特別な1個の
穴に入れば100ドルがもらえる．
一方,幸運の輪のほうは輪全体が5つの等面積なセクターに
分かれ,各セクターには0から4までの数が１つずつ書き込んであ
る．輪をまわし,輪がある点にとまればそのセクターの数の2倍だ
けのドルが支払われる．
個人が支払った9ドルの出費に対して,彼の手に戻ってくる
金額の期待値はいくらか．
パンチボード
幸運の輪
答え： Xをパンチボードを1回はじいたとき勝ちとる金額とし,
Yを幸運の輪を1回まわして得られるセクターの数とする．
Xが取りうる値と,それに対応する確率は,
次に、Yが取りうる値と,それに対応する確率は,
ゆえに,
E[X]＝０×0.79＋10×0.2＋100×0.1＝3,
E[2Y]＝２E[Y]＝2×[0×0.2+1×0.2+2×0.2+3×0.2+4×0.2]＝４．
勝ちとる金額の合計を表す確率変数をZ＝X+2Yとすれば、
E[Z]＝E[X]＋E[２Y]＝７となる．
従って,この慈善団体は募金募集に参加した個人が各ゲームを1回
行うたびに,平均9-7＝２ドルの利益を得ることになる．
５．連続型変数
• ある範囲の実数すべてを取りうる確率変数を
連続型（continuous type）の確率変数と呼
ぶ．
– 身長
– テストの点数
– 工場で生産される鋼棒の直径
• 「真の値」を考える．測定に限界があるので，
見かけ上は離散型になる．
確率変数（連続型）の表記法
• 離散型の確率変数の場合と同様に， X のよ
うな，アルファベットの大文字を用いて表す．
• 連続型の確率変数は，ある範囲の実数すべ
てをとりうるので，特定のひとつの値に対する
確率は考えることができない．
• 確率変数が特定の範囲の値をとる確率（たと
えば，P{a≦X≦b} ）を考える．
ヒストグラムの極限としての確率分布
• 柱すべてを合わせた面積が１になるようにヒ
ストグラムを描くことにする．
– ひとつの柱の面積は，その階級に属する測定値
の，相対度数となる．面積=相対度数
• 標本の大きさを十分に大きくして，かつ，階級
の幅を十分に小さくすれば，ヒストグラムの上
端は次第に滑らかな曲線に近づく．
– この曲線を表す関数 f(x) があるとする.テキスト図
8（p.86）参照．
確率密度関数
• 連続型の確率変数 X がある範囲の値をとる
確率が，関数 f(x)によって次のようにあらわさ
れるとき，この関数を確率変数 X の確率密
度関数（probability density function）と呼ぶ．
b
P{a  X  b}   f ( x) dx
a
• 面積＝確率：面積が確率に対応する．
• 連続型変数の確率分布は，確率密度関数に
よって与えられる．
b
P{a  X  b}   f ( x) dx
a
a
b
確率密度関数の性質
• 値は必ず０以上（離散型確率分布のグラフと
同様）
f ( x)  0
• 全面積は１（全事象の確率は１）



f ( x) dx  1
経験分布の極限としての
確率密度関数
• 確率密度関数は理論的に想定される数学的
モデルである．
– 推測統計では，母集団での分布として，特定の
確率密度関数が仮定される．
• 標本の大きさ（sample size）を十分に大きくす
れば，相対度数を用いたヒストグラム（全面積
＝１）は，確率密度関数に収束する．
• 確率密度関数によって与えられる確率分布
の平均を μ，分散を σ2 で表す．
• 標本の大きさ（sample size）を十分に大きくす
れば，相対度数を用いた経験分布は，確率
分布に収束する？
例で確認する
• 例（テキストP.６９問１０）
赤球が4個,黒球が3個,緑球が2個,白球が1個入った箱
がある．この箱から球を1個取り出し,次にそれをもとへ戻す．こ
のとき、取り出した球が赤、黒、緑、白である確率P(赤)、 P(黒)、
P(緑)、P(白)を求めよ．
更に、数字0，1，2，3を赤球とよび,数字4,5,6を黒球とよ
び,数字7,8を緑球とよび,数字9を白球とよぶことによって,乱数
表から１けたの数字を選ぶ実験のシミュレーションを行うとして,
乱数表から数字を選ぶ実験を
1回、10回、50回、100回、400回、1000回、2000回繰り返し
実行せよ．
0
1
2
3
4
5
6
7
8
9
0
1
2
3
母集団平均：μ
母集団分散：σ２
4
5
無作為
抽出
6
7
8
9
標本平均：m
標本分散：s2
標本（経験分布）
母集団（確率分布）
P(赤)＝４/１０
P(黒)＝３/１０
P(緑)＝２/１０
P(白)＝１/１０
標本の大きさ N＝
乱数表から数字を
選ぶ実験を繰り返す回数
つまり、
N＝１、１０、５０、１００、４００、１０００、
２０００
Eｘcelでシミュレーションを行う
説明：
１）乱数の生成関数 =RANDBETWEEN(0,9)
２）確率モデル：母集団確率分布
３）実際に取った数字の回数：赤球（０，１，２，３）黒球（４，５，６）
緑球（７，８）白球（９）
＝実際/N
=COUNTIF(A2:A401
=E3/$E$7
==COUNTIF(A2:A401
,"<=3")
==COUNTIF(A2:A401
=COUNTIF(A2:A401
,"<=6"),"<=8"),９)
COUNTIF(A2:A401,"
COUNTIF(A2:A401,"
<=3")
<=6")
=RANDBETWEEN(0,9)
0.4
0.3
0.2
0.1
VBAでシミュレーションを行う
乱数を何回発生させますか？
100
7
乱数→
集計
1
0-3
4-6
7-8
9
発生回数
36
29
23
12
100
カウンタ
100
0-3
4-6
7-8
9
合計
スタート
相対度数確率分布
0.4
0.36
0.3
0.29
0.2
0.23
0.1
0.12
1
1
0.9
0.8
0.7
0.6
確 0.5
率
相対度数
0.3
確率分布
0.4
0.2
0.1
0
0-3
4-6
7-8
乱数の値
9
演習課題
• 「標本の大きさを十分に大きくすれば，相対
度数を用いた経験分布は，確率分布に収束
する」であることを VBA によりもう一回確か
めよ
• VBAは下記のURLからダウンロードしてください
http://www3.u-toyama.ac.jp/tanglab/content51/content51.html
ファイル名： ProbaDis.xlsm
提出形式：A4レポート用紙（表紙をつけること）。
「確かめました」等だけのものは不可。
簡単でいいので説明文（や必要なら計算式）を書いてください。
名前と学籍番号をご記入のうえ、レポート用紙（A4）を提出する。
提出先：工学部大学院棟７階
締め切り時間：
NO.７７０８室のドアのポストに入れてください
来週月曜日（６月８日）午後５時まで

Download Report