スライド 1

確率の考え方の基礎
二項分布と正規分布
2006年1月25日
作成:本間聡
アウトライン
 設問1:打者はヒットを打てるのか?

演習問題1:設問1の内容の繰り返し
 二項分布から正規分布へ
 設問2:サイコロを170回振る.
1の目が25~35回出る確率は?
 正規分布表の使い方


演習問題2:設問2の内容の繰り返し
例題:試験で上位の人の得点を求める
設問1
 打率が1/3のバッターがいる.3打席で少な
くとも1本のヒットを打つ確率は?
 その確率は1となるか?
「打率が1/3」の本質
 ヒットを○,アウトを×とする.
ある打者の成績
1
2
3
○
7
8
9
4
5
○
○
10
11
6
打率=
12
ヒットを打った打席数
13
14
15
16
17
○
○
○
18
全打席数
成績を見ると,打率1/3と言っても,
3打席中に必ず1本のヒットが出るわけではないことがわかる
設問内容:打率が1/3のバッターがいる.3打席で少なくとも1本のヒットを打つ確率は?
3打席で,ヒット・アウトはどのように
発生するのか?
 発生する事象と確率
ヒット・アウトになる確率
ヒット:1/3
アウト:1-1/3=2/3
各事象の発生確率は
1打席
2打席
3打席
×
×
×
2/3× 2/3× 2/3=(2/3)3
○
×
×
1/3× 2/3× 2/3= (1/3) (2/3)2
×
○
×
2/3× 1/3× 2/3= (1/3) (2/3)2
×
×
○
2/3× 1/3× 2/3= (1/3) (2/3)2
○
○
×
1/3× 1/3× 2/3= (1/3)2 (2/3)
○
×
○
1/3× 2/3× 1/3= (1/3)2 (2/3)
×
○
○
2/3× 1/3× 1/3= (1/3)2 (2/3)
○
○
○
1/3× 1/3× 1/3= (1/3)3
設問内容:打率が1/3のバッターがいる.3打席で少なくとも1本のヒットを打つ確率は?
3打席で少なくとも1本のヒットを
打つ確率は?
 少なくとも1本のヒットを打つ確率
=1ー(1本もヒットを打たない確率)
=1-(2/3)3
=0.704
つまり,3打席で少なくとも1本のヒットを打つ確率は約70%
打率1/3というのは,3打席中に必ず1本のヒットを打つことではない.
データ(成績)にはばらつきがあることを頭に入れること.
設問内容:打率が1/3のバッターがいる.3打席で少なくとも1本のヒットを打つ確率は?
数学としての整理1
ヒットになる確率p,アウトになる確率q(=1-p)とする
各事象の確率
1打席
2打席
3打席
×
×
×
q3
○
×
×
pq2
×
○
×
pq2
×
×
○
pq2
○
○
×
p2q
○
×
○
p2q
×
○
○
p2q
○
○
○
p3
ヒット0本の確率
q3
ヒット1本の確率
3pq2
ヒット2本の確率
3p2q
ヒット3本の確率
p3
0q3
3C0 p
1q2
C
p
3 1
2q1
3C2 p
3q0
C
p
3 3
設問内容:打率が1/3のバッターがいる.3打席で少なくとも1本のヒットを打つ確率は?
数学としての整理2
 1回の試行で,事柄Aの起こる確率がpの試行を独立にn
回繰り返した時,事柄Aの起こる回数Xとするとその確率
は
P(X=k)=nCkpkqn-k (k=0,1…, n)
 Xに対するP(X)の分布を2項分布Bin(n,p)と呼ぶ
 二項分布の大原則は,試行毎に確率が変動しない.また,
事象が起こる,起こらないと事のみを対象とする.
(つまりは,先の打席の問題で,二塁打,ホームランなど
とは考えず,ヒットを打ったかどうかが重要)
数学としての整理3
 打率が1/3のバッターがいる.p=1/3,q=2/3

3打席で0本のヒットを打つ確率は? →P(0)=3C0p0q3 = 0.296

3打席で1本のヒットを打つ確率は? →P(1)=3C1p1q2 = 0.444

3打席で2本のヒットを打つ確率は? →P(2)=3C2p2q1 = 0.222

3打席で3本のヒットを打つ確率は? →P(3)=3C3p3q0 = 0.037
0.5
0.4
確率P(X)
Bin(3, 1/3)
0.3
0.2
0.1
0.0
0
1
2
X
3
MATLABで関数を定義する
 自分で定義する関数はmファイ
ルとして保存する必要がある.
 ファイル→新規作成→mファイ
ル



編集画面が出てくる
Mファイルの書き方
 function[出力変数リスト]=関
数名(入力引数リスト)
関数名と同じファイル名をつけて保
存する
 例) 「ファイル→新規作成→mファイ
ル」で編集画面を出す.以下の文を入
力する
function y=test(x)
h=0;
for k=0:x
h=h+k;
end
y=h
ファイル名はtest.mとして保存
通常のmatlabの画面で
test(3)と入力する.結果を表示する
MATLAB覚え書き
 Mファイル作成
 Command Windowで<ファイル><新規作成><M-file>を実行する
 M-fileを記述する.
 関数のファイルをc:\MATLABR11\WORKにセーブして実行を確認し,
シャットダウン前に個人のフォルダにコピーして実行する .
 ↑自分でパスを設定してもよい.Webページなどを参考に
組み合わせの関数のプログラム
(MATLAB)
nCr

mファイルを作成する.







を計算する関数staticC(n,r)の定義
新規作成→mファイル
function result=staticsC(n,r)
k=1;
for m=0:r-1
k=k*(n-m)/(r-m);
end
result=k;
ファイルの名前はstaticsC.mとする
n!
r!(n  r )!
n  (n  1)    (n  r  1)  (n  r )  (n  r  1)    1

r  (r  1)  (r  2)    1 (n  r )  (n  r  1)    1
n  (n  1)  (n  2)    (n  r  1)
約分

r  (r  1)  (r  2)    1
n Cr 
staticC(5,3)と打てば,5C3の結果を出力する
組み合わせの関数のプログラム
(octave)
nCr







を計算する関数C(n,r)の定義
>>function y=staticC(n,r)
k=1;
for m=0:r-1
k=k*(n-m)/(r-m);
end
y=k;
end
Mファイルを作成せずに出来ます.
ただし保存しないと,プログラム終了後
関数情報は消える
n!
r!(n  r )!
n  (n  1)    (n  r  1)  (n  r )  (n  r  1)    1

r  (r  1)  (r  2)    1 (n  r )  (n  r  1)    1
n  (n  1)  (n  2)    (n  r  1)
約分

r  (r  1)  (r  2)    1
n Cr 
staticC(5,3)と打てば,5C3の結果を出力する
カレントディレクトリにmファイルを作成すれば,matlabと同様通常の関数として使用可能.
ファイルはテキストエディタで作成すること.ファイル名は関数名と同じ,拡張子はmとする
スライド9のグラフ作成のプログラム
 >>n=3;
 >>p=1/3;
 >>q=1-p;
 >>for m=0:n
 B(m+1)=staticC(n,m)*p^m*q^(n-m);
←試行回数を入力
←事象Aが起きる確率
←事象Aが起こらない確率
←事象Aの起きる回数X
←Xに対する発生する確率
 end
 >>X=0:1:n;
 >>stem(X,B)
BはP(X=k)=nCkpkqn-k (k=0,1…, n)を
計算している
試行回数を100回にした場合の結果を表示すること
演習問題1
 セールスマンがある製品を売るために20件の家庭を訪問
する.この製品が売れる確率は10%(p = 0.1) であるとい
う.以下の問題に答えよ.



全く売れない確率を求めよ.
2 個売れる確率を求めよ.
3 個以上売れる確率を求めよ.
 サイコロを10回振る.1の目がX回出る確率P(X)を求めよ.
さらにXに対するP(X)のグラフを作成せよ.
試行回数が増えるとどうなる?
 打率1/3の打者の話に戻そう.スライド9を見直すと,3
回の打席で1本のヒットを打つ確率が最も高い値と
なったが,次に高い値となったのが1本もヒットを打て
ない場合.
 打席数を増やしたらどうなるだろうか?
試行回数が増えるとどうなる?2
 試行回数に対する確率分布の形状変化
試行数nが大きくなると
n/3を中心とする
対称な分布になる.
→正規分布で近似される
確率 P (X)
0.4
n=50
n=20
n=10
n=5
0.3
0.2
0.1
0.0
10
20
30
X
40
50
設問2
 サイコロを170回振る.
1の目が25~35回出る確率は?
設問2の一つの回答(1)
 スライド8より,1回の試行で,事柄Aの起こる確率がpの試行
を独立にn回繰り返した時,事柄Aの起こる回数Xとするとそ
の確率は
P(X=k)=nCkpkqn-k (k=0,1…, n)
 先ほどのプログラムで,1回の試行で事柄A
が起こる確率をp=1/6とし,試行回数を170と
して,回数X(=25~35)に対するP(X)を計算
し,ぞれぞれを足し合わせる.
設問2の内容:サイコロを170回振る.1の目が25~35回出る確率は?
設問2の一つの回答(2)
0.09
0.08
約0.709
つまりは 約71%
0.07
0.06
確率P(X)
右図のX=25~35の範囲
の確率を足し合わせる
Bin(170,1/6)
0.05
0.04
0.03
0.02
0.01
0
0
20
40
60
80
100
120
回数X
設問2の内容:サイコロを170回振る.1の目が25~35回出る確率は?
140
160
180
演習問題2
 サイコロを100回振る
 1. 奇数の出る回数に対する確率分布を
計算し,図示せよ.
 2. 10回~20回出る確率を求めよ
演習問題追加2-2
 1,2,3の数字を記したカードがそれぞれ1枚,2枚
,3枚合計6枚ある.Aさんが一枚のカードを引き,
そのカードの数字をXとする.次にそのカードを戻し
てから,Bさんが一枚のカードを引き,そのカードの
数字をYとする
 X+Yの確率分布を求めよ
正規分布を利用する理由
 試行回数が多い場合,条件となるXについてすべての
確率を求め,足し合わせるのは非常に時間と労力がか
かる.
 スライド14と17を比較すると,試行回数が多い場合は
設問1,設問2の確率分布は形が非常によく似ている.
→正規分布で近似

期待値と分散値:
正規分布を利用するために必要なパラメータ
 正規分布に行く前に,期待値と分散値について


二項分布Bin(n,p)に従う確率変数Xの期待値と分散を求める
確率pで起こる事柄Aが,n回の試行で起こる回数がX
 第i回目の試行の結果について,以下の確率変数X1,X2・・・Xnを考える
)
1 ( Aが起こったとき
Xi  
0 ( Aが起こらないとき)

事象Aが起きるか起きないかが
重要で,事象自体には値はな
い物とする
各Xi の確率分布は
Xi
P
1
p
0 計
q 1
但しq=1-p
2項分布の期待値と分散値
 第i回目の試行の結果について,以下の確率変数X1,X2・・・Xnを考
える

各Xiの期待値:
E ( X i )   xk  pk  1  p  0  q  p
k
V ( X i )   xk  E ( X i )   pk  1  p  p  0  p  q
2

各Xiの分散値
2
k
 pqq  p 
 pq
 n回試行を繰り返した場合(n倍して)

期待値及び分散値は
E ( X )  np
V ( X )  npq
2
正規分布と確率
 スライド12より試行回数nが大きくなると,期待値を中心に左右
対称の確率分布になる.
 これは期待値E(x)=μ,分散値V(x)=σ2とした場合の正規曲線で近
似される.
y
1
2 
N ( , )
2

x   2

e
2 2
変曲点
変曲点
積分すると1となる
μ-σ
 μ+σ
Y Axis Title
正規分布の特性
μ-σ

μ+σ
約68%が含まれる
μ-2σ

μ+2σ
約95%が含まれる
μ-3σ

μ+3σ
約99.7%が含まれる
二項分布と正規分布の比較
 サイコロを170回振った場合の1の目が出る確率に
ついて
0.09
line 3
0.08
赤:二項分布Bin(170,1/6)
青:正規分布N(28.33,23.61)
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
0
20
40
60
80
100
120
140
160
180
正規分布の標準化(1)
 正規分布N(μ,σ2)を標準正規分布N(0,1)に変換す
ることで,より使い勝手が良くなる
X
μ-σ
μ
μ+σ
Y
-σ
0
①μだけずらして平均を0とする(Y=X-μ)
σ
Z
-1
0
1
②σで割って標準偏差を1とする
Z=Y/σ=(X-μ)/σ
正規分布の標準化(2)
 標準正規分布に変換するとは
X   とすること.その場合,
Z
期待値,分散値は→

XはN(μ,σ2)に従う
1
 X  1
E (Z )  E
  E ( X )          0

   
1 2
 X  1
V (Z )  V 
  2 V (X )  2  1

   
ZはN(1,0)に従う
P ( a  X  b)  P ( a    X    b   )
重要!
a X  b
 P




 
 
b
a
 P
Z

 
 
正規分布表の使用方法(1)
 横軸上のメモリzから,色がつ
いている領域の面積 I (z)を求
めるものが正規分布表
使用例)
z
1.25
正規分布表よりz=1.25
に対する値を探してみま
しょう.
縦軸より 1.2
横軸より 0.05
→青の範囲の確率は
0.3944となる
正規分布表の使用方法(2)
 Zが負となる領域も含む場合
+
z=-0.67
z=-0.67
z=1.12
z=1.12
+
I (0.67)
=0.2486
zが負の領域は
正に折り返して計算する
z=0.67
I (1.12)
=0.3686
z=1.12
合計:0.6172
設問2の解法(1)
 サイコロを170回振る.
1の目が25~35回出る確率は?
まず,期待値E,分散値Vを求める.
 E=npより,E=28.33・・・
 V=npqより,V=23.61・・・
 いま求める確率はP(25≤X ≤35).
b
a
 25  28.33
35  23.61
P ( a  X  b)  P 
Z
 より, P 

Z 
 
 
23.61 
 23.61

設問2の内容:サイコロを170回振る.1の目が25~35回出る確率は?
設問2の解法(2)
 25  28.33
35  23.61

P 
Z 
23.61 
 23.61
P  0.686  Z  1.372
青の領域の面積を求める
+
z=-0.69
z=-0.69
z=1.37
I (0.69)
=???
z=1.37
I (1.37)
=???
+
z=0.69
z=1.37
設問2の解法(3)
 標準正規分布表より求めた結果は? →0.668
 二項分布より求めた結果は


→0.709
試行回数が小さいと誤差が生じる.
試行回数が小さい場合は,以下のように補正値を加えると良い
b    0.5 
 a    0.5
P
Z 





→0.715
 試行回数が大きい場合は補正は必要ない
設問2の内容:サイコロを170回振る.1の目が25~35回出る確率は?
演習問題3
 10000人を対象にテストを実施した.その結
果,平均点75点(満点は100ではない).標
準偏差が10点であった.
 75点以上100点未満の人数を推定せよ.
 60点以下の人数を推定しなさい.
 点数をXとし,75-Y≦X ≦75+Yの範囲に入
る確率を0.95とする.Yを求めよ
演習問題3-1
1. まずZ=(X-75)/10で変換
 75  75 X  75 100 75 
P(75  X  100)  P


  P0  Z  1.5
10
10 
 10
 0  I (2.5)  0  0.4938
人数は10000×0.4938=4938人と推定
 X  75 60  75 
P( X  60)  P

  PZ  1.5
10 
 10
 0.5  I (1.5)  0.5  0.4332 0.0668
人数は10000×0.0668=668人と推定
2
Y 
 Y
P(75  Y  X  75  Y )  P   Z   
10 
 10
Y 
 2 P 
 10 
 0.95
Y 
P   0.475を満たす
 10 
Y
Z  を正規分布表から求め ると
10
Y
Z
 1.96
10
よってY=19.6となる
演習問題4
 打率0.25の打者がいる.年間500回打席がまわってく
る.ヒット(ホームランも含む)を140本以上打つ確率
を求めよ.


標準正規分布表を使って
余裕のある方は二項分布を使って真の値を求めよ.
(計算機を使って)
 サイコロを360回振って,1または2の目の出る回数
がX=100~120となる確率を求めよ.
追加)センター試験の例題
 ある年の大学入試センター試験のある科目で,受験者数
450000人の得点は,平均点65点,標準偏差20点の正規分
布に従うものとする.



70~90点の受験生は,ほぼ何人と考えられるか?
 P(70≤X ≤90)を求めればよい →自分でやること
得点上位50000人目の得点はいくらか?
 50000人目とは上位から50000/450000=0.111である.
(次のスライドに解法を書いているので参照すること)
得点上位10000人目の得点はいくらか?
 自分で求めること
追加)センター試験の例題の続き
上位
ヒント)Z1はいくらになるか? これを求めるには赤
の領域を考える
0.5-0.111
=0.389
0.111
Z1
となるので,I(Z1)=0.389より,正規分布表で
条件に合うZ1の値を求める.→Z1=1.22
最後にZからXの値に変換する. Z 
X  65
 1.22
20
Xは約89点
設問の内容:得点上位50000人目の得点はいくらか?
50000人目とは上位から50000/450000=0.111である.