第6回

データ解析入門 第 6 回
http://www.mis.it-chiba.ac.jp/~shiina/lecture.html
連続的な確率分布
定義 連続的な確率変数 X が、任意の実数 a, b (a<b) に対して、
b
P(a < X ≤ b) = ∫ f ( x)dx
a
となるような関数 f(x) (f(x)≧0) をもつとき、 f(x)を確率変数 X の確率密度関数といい、X
は確率分布 f(x)に従うという。
定義 連続的な確率変数 X が、確率密度関数
2
f ( x) =
1
2π σ
e
1  x−µ 
− 

2 σ 
をもつとき、確率変数 X は正規分布 N(μ, σ2)に従うという。
定理 2.9 正規分布 N(μ, σ2)に従う
確率変数 X について、次のようになる。
E[X]=μ, V[X]= σ2
0.5
0.4
0.3
平均μ=0, 分散σ2=1 の正規分布
N(0, 12)を標準正規分布という。
標準正規分布に対しては、数表が
与えられている。
0.2
0.1
0
-4
-3
-2
-1
0
1
2
3
4
定理 2.10 確率変数 X が正規分布 N(μ, σ2)に従うとき、確率変数 Y=(X-μ)/σ
は標準正規分布 N(0, 12)に従う。
以前の定理 2.3 の結果を用いると、確率変数 Y について次が成り立つ。
E[ X ] − µ
X −µ
=0
=
E[Y ] = E 

σ
 σ

1
X −µ
= 2 V[X ] = 1
V [Y ] = V 

 σ
 σ
定理 2.3 連続的な確率変数 X および、定数 a,b に対して次が成立する。
E[aX + b] = aE[ X ] + b
V [aX + b] = a 2V [ X ]
偏差値: ある試験で、受験者の点数が N(μ, σ2)に従うとき、受験者が得点 X をとった
ときの偏差値 Y は以下の式で計算できる。
Y =
10( X − µ )
σ
+ 50
問題 偏差値 Y の平均、分散を求めよ。偏差値 70 の人は上位何%以上に属するか?
定義 連続的な確率変数 X が、確率密度関数
 1

a≤ x≤b
f ( x) =  b − a
 0
それ以外の場合
をもつとき、確率変数 X は連続一様分布 U (a,b)に従うという。
例 a=0, b=10 の場合
0.2
E[ X ] =
0.1
E[ X ] =
2
0
V[X ] =
-2
以下 P(0 ≤ X ≤ z ) =
1
2π
∫
z
0
e
1
− x2
2
0
2
4
6
8
10
12
dx の表を表す。z の値に対して、確率 P (0 ≤ X ≤ z )
を求める。これは、EXCEL で NORMDIST(z,0,1,TRUE)-0.5 の値を表している。
Z
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2
0
0.000
0.040
0.079
0.118
0.155
0.191
0.226
0.258
0.288
0.316
0.341
0.364
0.385
0.403
0.419
0.433
0.445
0.455
0.464
0.471
0.477
0.01
0.004
0.044
0.083
0.122
0.159
0.195
0.229
0.261
0.291
0.319
0.344
0.367
0.387
0.405
0.421
0.434
0.446
0.456
0.465
0.472
0.478
0.02
0.008
0.048
0.087
0.126
0.163
0.198
0.232
0.264
0.294
0.321
0.346
0.369
0.389
0.407
0.422
0.436
0.447
0.457
0.466
0.473
0.478
0.03
0.012
0.052
0.091
0.129
0.166
0.202
0.236
0.267
0.297
0.324
0.348
0.371
0.391
0.408
0.424
0.437
0.448
0.458
0.466
0.473
0.479
0.04
0.016
0.056
0.095
0.133
0.170
0.205
0.239
0.270
0.300
0.326
0.351
0.373
0.393
0.410
0.425
0.438
0.449
0.459
0.467
0.474
0.479
0.05
0.020
0.060
0.099
0.137
0.174
0.209
0.242
0.273
0.302
0.329
0.353
0.375
0.394
0.411
0.426
0.439
0.451
0.460
0.468
0.474
0.480
0.06
0.024
0.064
0.103
0.141
0.177
0.212
0.245
0.276
0.305
0.331
0.355
0.377
0.396
0.413
0.428
0.441
0.452
0.461
0.469
0.475
0.480
0.07
0.028
0.067
0.106
0.144
0.181
0.216
0.249
0.279
0.308
0.334
0.358
0.379
0.398
0.415
0.429
0.442
0.453
0.462
0.469
0.476
0.481
0.08
0.032
0.071
0.110
0.148
0.184
0.219
0.252
0.282
0.311
0.336
0.360
0.381
0.400
0.416
0.431
0.443
0.454
0.462
0.470
0.476
0.481
0.09
0.036
0.075
0.114
0.152
0.188
0.222
0.255
0.285
0.313
0.339
0.362
0.383
0.401
0.418
0.432
0.444
0.454
0.463
0.471
0.477
0.482
例 正規分布
(1)標準正規分布 N(0,1)に従う確率変数 X について P(0.5≦X≦0.7)を求めよ。
(2)正規分布 N(0.5, 22)に従う確率変数 X について P(-1≦X≦0.2)を求めよ。
(1) P(0.6≦X≦0.7)=0.258-0.1915=0.0665
(2) P(-1≦Y≦0.2)= P((-1-0.5)/2≦( Y-0.5)/2≦(0.2-0.5)/2)
= P(-0.75≦( Y-0.5)/2≦-0.15)=0.2734-0.0596=0.2138
偏差値
10( X − µ )
 10
( E[ X ] − µ ) + 50 = 50
E[Y ] = E 
+ 50 =
σ
σ


10 2
V [Y ] =
V [ X ] = 10 2
2
σ
70 − 50 Y − 50
Y − 50
Y − 50
≤
) = P(2 ≤
) = 1 − P(
< 2)
10
10
10
10
= 1 − (0.5 + 0.477) = 0.023
P (70 ≤ Y ) = P (
例 a=0, b=10 の場合
0.2
10
x 
x
100
dx =   =
=5
0
10
20
20
 100
2
 x3 
10 x
100
2
E[ X ] = ∫
dx =   =
0 10
3
 30  0
100
25
− 5×5 =
V[X ] =
3
3
2
10
E[ X ] = ∫
0.1
0
-2
0
2
4
6
8
10
12
問 一様分布に従う確率変数 X の確率密度関数 f(x)が以下のように与えられている。 (ただし a<b)
 1

f ( x) =  b − a
 0
(a ≤ x ≤ bのとき)
( x < a または b < x のとき)
+∞
(1) E[X]= ∫ xf ( x)dx の値を a と b を用いて表せ.
−∞
(2) µ =
+∞
∫ xf ( x)dx とするとき, V[X]=
−∞
+∞
∫ (x − µ)
2
f ( x)dx の値を a と b を用いて表せ.
−∞
x
b2 − a 2 b + a
x
b
∫ xf ( x)dx =∫a b − a dx = [ 2(b − a) ]a = 2(b − a) = 2
−∞
+∞
b
+∞
∫ (x − µ)
−∞
+∞
=
∫
−∞
+∞
2
+∞
+∞
f ( x)dx = ∫ ( x − 2µx + µ ) f ( x)dx = ∫ x f ( x)dx − 2µ ∫ xf ( x)dx + µ
2
2
−∞
x 2 f ( x )dx − µ 2 = ∫
a
(b − 2ab + a )
2
12
2
−∞
b
2
=
2
=
x
2
b−a
(b − a )
12
2
dx − µ 2 = [
x
−∞
3
3(b − a )
]ba − µ 2 =
(b − a )
3
3(b − a )
+∞
2
∫
µ 2 f ( x)dx
−∞
(b + ab + a 2 )
2
− µ2 =
3
−
(b 2 + 2ab + a 2 )
4
定義 連続的な確率変数 X が、確率密度関数
f ( x ) = λ e − λx , x ≥ 0
をもつとき、確率変数 X は指数分布 Ex (λ)に従うという。
参考: λを単位時間におけるある事象の発生率を表すものとする。その事象が時間間
隔 t 以内に x 回発生する確率 g(x)は次のポアソン分布で表される(単位時間ではなく、
時間間隔 t を考えていることに注意)場合を考える。
g ( x) = e
− λt
(λ t ) x
x!
このとき、当該事象の発生間隔 T の確率分布を求める。この事象が時間間隔 t の間に発
生しないとすると
− λt が成り立つ。
P(T > t ) = g (0) = e
t
P(T ≤ t ) = ∫ h(t )dt =1 − e − λt
これより、確率変数 T の密度関数を h(t)とすると
すなわち h(t)=λe-λt となるため、発生間隔は指数分布に従う。
0