統計学

統計学入門(1)
第12回
確率分布モデル
正規分布、2項分布、ポワソン分布
今日の話題

確率分布モデル



正規分布
2項分布
ポワソン分布
ベルヌーイ実験


2種類の結果を持つ実験
例:コイン投げ 裏・表
成功・失敗
買う・買わない
好む・好まない
2項確率変数


複数のベルヌイ実験(n 回)を行っ
たときの、成功の回数を示す確率
変数
この確率変数の分布を2項分布
という
2項分布
成功の確率 p
 実験の回数 N


成功の回数を表す変数 X
2項分布

X = k の確率
P( X  k ) N Ck p (1  p)
k
N Ck
N k
は、N から k 取り出す組み合わせの数
例: コインを5回投げて表の出る数 : N=5, p=0.5
1.00
確率
累積確率
0.75
0.50
0.25
0.00
0
1
2
3
4
5
p=0.1
N=10
0.50
0.50
0.50
0.40
0.40
0.40
0.30
0.30
0.30
0.30
0.20
0.20
0.20
0.20
0.10
0.10
0.10
0.10
0.00
0.00
0.00
1
2
3
4
5
X
6
7
8
9
10
0
1
2
3
4
5
X
6
7
8
9
10
0.00
0
1
2
3
4
5
X
6
7
8
9
0
10
0.30
0.30
0.30
0.25
0.25
0.25
0.25
0.20
0.20
0.20
0.20
0.15
0.15
0.15
0.15
0.10
0.10
0.10
0.10
0.05
0.05
0.05
0.05
0.00
0.00
0.00
0.25
0.25
0.25
0.20
0.20
0.20
0.20
0.15
0.15
0.15
0.15
0.10
0.10
0.10
0.10
0.05
0.05
0.05
0.05
0.00
0.00
0.00
8
12
16
20
24
28
0
4
8
12
X
16
20
24
4
8
12
16
20
24
28
0
0.20
0.20
0.20
0.15
0.15
0.15
0.15
0.10
0.10
0.10
0.10
0.05
0.05
0.05
0.05
0.00
0.00
4
8
12
16
20
24 28
X
32
36
40
44
48
0
4
8
12
16
20
24 28
X
32
36
40
44
48
5
6
7
8
9
10
8
12
16
20
24
28
X
0.20
0
4
X
X
0.00
4
0.00
0
28
3
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
X
0.25
4
2
0.00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
X
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
X
1
X
0.30
0
N=50
p=0.7
0.40
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
X
N=30
p=0.5
0.50
0
N=20
p=0.3
0.00
0
4
8
12
2項分布の確率関数
16
20
24 28
X
32
36
40
44
48
0
4
8
12
16
20
24 28
X
32
36
40
44
48
2項分布の期待値
P( X  k ) N Ck p (1  p)
k
N k
N
E ( X )   k P( X  k )
k 0
N
  k N Ck p (1  p )
k
k 0
N k
2項分布の期待値
N
E ( X )   k P( X  k )
k 0
N p
期待値が N p


成功の確率と実験回数の積
例: p = 1/6, N = 3
E(X) = 0.5
期待値が N p


成功の確率と実験回数の積
例: p = 1/6, N = 6
E(X) = 1
個数の分布

ポワソン分布

少数個の個数分布のモデル

例:



事故の回数
得点の分布
...
個数データの分析

事故の件数
購入個数
…

離散データ(特に数字が小さい場合)



大きな数字をとる場合は「正規分布」の想
定が可能
ポワソン分布

平均がθのポワソン分布の確率関数
P( X  k )  e


k
k!

Excelでは、 =POISSON()

平均はθ、分散もθ
ポワソン分布
0.60
0.60
0.60
0.50
0.50
0.50
0.40
0.40
0.40
0.30
0.30
0.30
0.20
0.20
0.20
0.10
0.10
0.10
0.00
0.00
0.00
0
1
2
3
4
5
6
7
8
0
9 10 11 12 13 14 15
1
2
3
4
5
6
7
8
0
9 10 11 12 13 14 15
平均=0.5
0.60
0.50
0.50
0.40
0.40
0.40
0.30
0.30
0.30
0.20
0.20
0.20
0.10
0.10
0.10
0.00
0.00
3
4
5
6
7
8
4
5
6
7
9
X
平均=4.0
10 11 12 13 14 15
0
1
2
3
4
5
6
7
8
8
9 10 11 12 13 14 15
平均=2.0
0.50
2
3
平均=1.0
0.60
1
2
X
0.60
0
1
X
X
9 10 11 12 13 14 15
X
平均=3.0
0.00
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15
X
平均=5.0
平均が大きくなるにつれ分布が対称になっていきます
例:Jリーグの得点分布
0.40
0.35
0.30
Pisson with mean 1.5377
0.25
0.20
0.15
0.10
0.05
0.00
0
1
2
3
4
5
6
7
バスケットボールの得点分布
(San Antonio Spurs )
25
20
15
10
5
0
75-79 80-84 85-89 90-94 95-99
100104
105109
110114
120124
125129
個数データの分析

購入個数の分布
レシート数
4500
4000
3500
3000
2500
2000
1500
1000
500
0
0
1
2
3
4
5
購買個数
6
7
8
9
10
個数データの分析

ポワソン分布の混合モデル
レシート数
4500
4000
2つの混合モデル
3500
3000
2500
2000
1500
1000
500
0
0
1
2
3
4
5
購買個数
6
7
8
9
10
個数データの分析


平均個数:0.7881
1クラスモデル
4500
4000
3500
3000
2500
2000

平均0.7881のポワソンモデル
1500
1000
500
0

2クラスモデル
0
1
2
3
4
5
6
7
8
9
10
クラス1 クラス2:
サイズ
0.7456 0.2544
平 0.7456×Poisson(0.4285)+0.2544Poisson(1.8420)
均
0.4285 1.8420
補足:3クラスモデル、zero-inflated modelも…
量的データの分布モデル

正規分布

対称な分布
誤差のモデル

中心極限定理


複数の変数の和の分布が正規分布
正規分布(Normal Distribution)
N(, )
2
確率密度
σ
標準偏差
μ
f ( x) 

1
2
2
e
( x )
2 2
2
平均
データの値
パラメータ
正規分布

ドイツの科学者ガウスが発見した理論分布(ガウス分布
と呼ばれることも)

連続的なデータの理論分布として
誤差分布として
...
ドイツ10マルク紙幣には、ガウスの肖像画と正規分布が

.



松坂投手(2006年シーズン)の
直球の球速の分布
200
180
0.93
0.07
160
147.0
141.4
140
2.4
2.8
度数
120
100
80
60
40
20
0
133 135 137 139 141 143 145 147 149 151 153 155
球速
スライダーの場合
180
160
0.07*N(136.9, 1.7^2)+0.93*N(128.8, 3.3^2))
140
120
N(129.3, 3.8^2)
100
度数
80
180
60
160
140
40
N(128.8, 3.3^2)
120
N(136.9, 1.7^2)
20
度数
0
100
80
60
116 118 120 122 124 126 128 130 132 134 136 138 140 142 144 146
40
球速
20
0
116 118 120 122 124 126 128 130 132 134 136 138 140 142 144 146
球速
正規分布の場合のシグマの法則