数理統計学(第三回) 多次元分布

数理統計学(第三回)
多次元分布
浜田知久馬
数理統計学第3回
1
キーワード
独立
3つの分布
同時(結合)
条件付
周辺
independence
distribution
joint
conditional
marginal
数理統計学第3回
2
多次元の確率変数
例 連続分布:身長(X)と体重(Y)の分布
離散分布:血液型(X)と星座(Y)
同時確率(密度)関数
p(x,y), f(x,y)
累積分布関数
F ( x, y)  Pr(X  x, Y  y )

 p( x, y)
X xY  y
数理統計学第3回
3
連続分布の累積分布関数
x y
F ( x, y) 
  f ( X , Y )dYdX

分布関数→確率密度関数
2
d F ( x, y )
f ( x, y ) 
dxdy
区間(a1,a2]× (b1,b2]に入る確率
a 2b 2
  f ( X , Y )dYdX
a1 b1
数理統計学第3回
4
同時確率
連続分布
身長が180cm,体重が69kgの確率密度
身長が180cm以下,体重が69kg以下である
確率
離散分布
水瓶座で,AB型である確率
AB型の人が,牡羊座~水瓶座に属する確率
数理統計学第3回
5
p(x,y)血液型と星座
数理統計学第3回
6
f(x,y) 相関係数=0.6の
2次元正規分布
数理統計学第3回
7
条件付分布と周辺分布
周辺分布(marginal distribution)
Yの値を無視したXの分布

p( x)   p( x, y), f ( x)   f ( x, y)dy
y

条件付分布(conditional distribution)
Y=yが与えられた下での条件付分布
p( x, y)
f ( x, y)
p( x | y ) 
, f ( x | y) 
p( y )
f ( y)
数理統計学第3回
8
血液型と星座の同時分布
A
牡羊
0.0333
牡牛
0.0333
双子
0.0333
蟹
0.0333
獅子
0.0333
乙女
0.0333
天秤
0.0333
蠍
0.0333
射手
0.0333
山羊
0.0333
水瓶座 0.0333
魚
0.0333
計
0.4000
B
0.0167
0.0167
0.0167
0.0167
0.0167
0.0167
0.0167
0.0167
0.0167
0.0167
0.0167
0.0167
0.2000
O
AB
0.025
0.0083
0.025
0.0083
0.025
0.0083
0.025
0.0083
0.025
0.0083
0.025
0.0083
0.025
0.0083
0.025
0.0083
0.025
0.0083
0.025
0.0083
0.025
0.0083
0.025
0.0083
0.3000
0.1000
数理統計学第3回
計
0.0833
0.0833
0.0833
0.0833
0.0833
0.0833
0.0833
0.0833
0.0833
0.0833
0.0833
0.0833
9
周辺分布
血液型の周辺分布
A
B
0.4000
0.2000
O
AB
0.3000 0.1000
星座の周辺分布
牡羊 牡牛 双子
蟹
獅子 乙女
0.0833 0.0833 0.0833 0.0833 0.0833
0.0833
天秤 蠍
射手 山羊
水瓶 魚
0.0833 0.0833 0.0833 0.0833 0.0833
数理統計学第3回
0.0833
10
条件付分布
水瓶座の人の血液型の分布
p(A|水瓶)=p(A,水瓶)/p(水瓶)
=0.0333/0.0833=0.4000
p(B|水瓶)=p(B,水瓶)/p(水瓶)
=0.0167/0.0833=0.2000
p(O|水瓶)=p(O,水瓶)/p(水瓶)
=0.0250/0.0833=0.3000
p(AB|水瓶)=p(AB,水瓶)/p(水瓶)
=0.0083/0.0833=0.1000
数理統計学第3回
11
周辺分布と条件付分布
血液型と星座の例では周辺分布と条件付分布
が等しかった.
このための条件は何か?
Xの周辺確率= Xの条件付確率
XとYが独立であること.
p( x, y)
p( x)  p ( x | y ) 
 p( x, y)  p( x) p( y)
p( y )
数理統計学第3回
12
チームとポジションの同時分布
日本ハム
T
E
A
M
8
4.0%
中日
7
西武
6
阪神
9
4.5%
広島
7
近鉄
9
4.5%
6
2
10
5.1%
9
4.5%
8
2
3
1.5%
3
1.5%
2
8
4
2.0%
8
ヤクルト
6
ダイエー
6
オリック
5
7
3
1.5%
2
3
1.5%
2
3
1.5%
外野手
内野手
捕手
巨人
横浜
ロッテ
7
8
4.0%
5
8
6
8
POSITION
数理統計学第3回
13
チームとポジションの周辺分布
日本ハム
T
E
A
M
16
中日
19
9.6%
西武
18
阪神
20
10.1%
広島
12
近鉄
21
10.6%
巨人
15
T
横浜
17
I
ロッテ
16
O
ヤクルト
14
N
ダイエー
17
オリック
13
捕手
30
P
O
S
内野手
I
外野手
88
44.4%
80
40.4%
POSITION
TEAM
数理統計学第3回
14
巨人という条件付での
ポジションの分布
P
O
S
I
T
I
O
N
捕手
3
20.0%
内野手
8
53.3%
外野手
4
26.7%
POSITION
数理統計学第3回
15
通算打点とホームランの同時分布
1000
D
A
800
T
E
600
N
_
400
C
200
0
200
400
HOME_C
数理統計学第3回
16
通算打点とホームランの周辺分布
100
100
度
数
度
数
50
0
-25
25
75
125 175 225 275 325 375
HOME_C
50
0
0
360
720
1080
DATEN_C
数理統計学第3回
17
通算ホームラン数が100本以上の
条件付分布
1000
D
A
T
800
E
N
_
600
C
400
200
300
400
HOME_C
数理統計学第3回
18
二次元正規分布の概形
数理統計学第3回
19
2次元正規分布の同時密度関数
標準二次元正規分布
μx=0, μy=0
σx=1, σy=1
 x 2  y 2  2 xy 

f ( x, y ) 
exp 
2
2
2(1   ) 
2 (1   )

1
数理統計学第3回
20
1
 1

f ( x) 
exp  ( x   ) 2 ( x   ) 
2

 2

2 ( )
1
1
f ( x) 
2
 1

T
1
exp  (x  μ) Σ (x  μ) 
 2

Σ
2


 x

 x
x



x   , μ   , Σ 


y
y
 
 
   x y
  x y 
2 
y 
Σ   x  y    x  y   x  y (1   )
2
2
2
2
2
数理統計学第3回
2
2
2
21
(x  μ)T Σ 1 (x  μ)
2


  x y  x   x 
1
y



 x   x y   y  2 2
2
 x  y   y 
 x  y (1   2 )    x y
2
2
(
y


)
 ( x   x )( y   y )
(x  x )
y
 2
 2
2
2
2
2
(
1


) x y
 x (1   )  y (1   )
f ( x) 
1
2  x  y (1   2 )
2
2
  1  ( x   ) 2 ( y   y ) 2



(
x


)(
y


)

x
y
x

 exp


2


2
 2(1   2 )   x 2





x
y
y



数理統計学第3回
22
2次元正規分布の同時密度関数
(x-μx)2+ (y-μx)2 =C
は円の式→同心円状は同じ確率
(x -  x ) (y -  y ) (x -  x )(y -  y )


C
a
b
d
2
2
は傾いた楕円の式→同心楕円状は同じ確率
数理統計学第3回
23
平均0,分散1,相関係数ρの
二次元正規分布の周辺分布
 x 2  y 2  2 xy 

f ( x, y ) 
exp 
2
2(1   )
2 1   2


1
 x 2   2 x 2  ( y  x) 2

exp 
2
2
2
(
1


)
2 1  

1



 x2 
 ( y  x) 2 
 exp 


exp 
2
2 1   2
 2 
 2(1   ) 
1

 x2 
 
exp 
2
 2 
1
 ( y  x) 2 

exp 
2
2 (1   2 )
 2(1   ) 
1
数理統計学第3回
24
平均0,分散1,相関係数ρの
二次元正規分布の周辺分布
f ( x)  


f ( x, y )dy

 ( y  x) 2 
 x 
1
dy
exp 
exp    

2
2
 2(1   ) 
 2   2 (1   2 )
1
2
 x2 
exp  

2
 2
1
第2項は,N(ρx,1-ρ2 )
の正規分布の確率の和
数理統計学第3回
25
 x 2  y 2  2 xy 

exp 
2
2
2(1   ) 
2 1  

1
f ( x, y )
f ( y x) 

f ( x)
2

1
x 
exp  
2
 2 
 x2 
 ( y  x) 2 

exp   exp 
2
2
2 1  
 2 
 2(1   ) 
1

2

1
x 
exp  
2
 2 
 ( y  x) 2 


exp 
2
(1   ) 
2 (1   2 )
 2数理統計学第3回
1
26
平均0,分散1,相関係数ρの
二次元正規分布の条件付分布
条件付分布は平均ρx,分散1-ρ2 の正規分布
ρ=0のときは,条件付分布は周辺分布に等しい.
(正規分布のときは,独立=相関0)
数理統計学第3回
27
条件付分布の利用
条件付分布を用いて,他の変数の情報を考慮す
ることにより,バラツキを減らし精度の高い推
測を行なうことができる.
相関ρ 0 .5
.7
.8
.9
分散 σ2 .75σ2 .51σ2 .36σ2 .19σ2
数理統計学第3回
28
身長と体重(相関0.4)
数理統計学第3回
29
多項分布
ある患者にある薬剤を投与すると,3種類の結
果が生じる.A)疾患が改善する,B)副作用が
生じる,C)不変.それぞれの事象が生じる確
率をπA , πB , πc =1- πA - πBとして,n人に薬
剤を投与して,それぞれの事象が生じる人数
が,x,y,n-x人になる確率p(x、y)は,次の多項
分布にしたがう.
n!
x
y
n x y
p( x, y) 
 A  B (1   A   B )
x! y!(n  x  y)!
数理統計学第3回
30
多項分布
1)疾患が改善する人数Xの周辺分布を求めよ
n
p( x)   p( x, y)
y 0
2)副作用の発生人数yが与えられたときのXの
条件付分布を求めよ.
p( x | y)  p( x, y) / p( y)
3)疾患が改善する人数Xの期待値を求めよ.
n
E[ X ]   x p( x)
x 0
数理統計学第3回
31
同時,周辺,条件付
1)条件付確率=同時確率/周辺確率
p(x|y)=p(x,y)/p(y)
p(x,y) = p(y) p(x|y)
2)独立であれば, p(x|y)= p(x)
同時確率は周辺確率の積:p(x,y) =p(x) p(y)
条件付確率=周辺確率:p(x|y)=p(x)
数理統計学第3回
32
共分散
確率変数X,Yの関連の強さを測る指標
xy=Cov(X,Y)=E[(X-μX) (Y-μY)]
=E[XY-μXY-XμY+μXμY]
=E[XY]-E[μXY]-E[XμY ] +μXμY
=E[XY]-μXμY- μXμY+μXμY
=E[XY]-μXμY
(Cov(X, X)=V[X])
数理統計学第3回
33
共分散のイメージ
• 2次元の
分布の
確率 (密
度) 関数
f(x, y)
の等高
線表示
f(x, y)
y
x
この図だと,
xy = ∬(x  x)(y数理統計学第3回
 y) f(x, y) dx dy は正
34
確率変数の独立性
確率変数:X,Y
周辺密度関数:f(x),f(y)
同時密度関数:f(x,y)
XとYが独立なときは,
f(x,y)=f(x)×f(y)
F(x,y)=F(x)×F(y)
e.g.)親子の身長は独立だろうか?
隣の人と統計の成績は独立だろうか.
数理統計学第3回
35
X, Y はど
んな確率
変数?
X
2
同時分布は?
周辺分布は?
2
Y
2
2
2
2
2
数理統計学第3回
36
問題
袋の中に,青の玉が3個,赤の玉が2個入ってい
る.この中からランダムに玉を抜き取ったとき
の玉の色をXとする.
玉を戻さないで,またランダムに玉を抜き取った
ときの玉の色をYとする.
1)XとYの同時分布の確率を示すこと.
2)XとYの周辺分布を示すこと.
3)XとYは独立であるかどうか,理由を示して
論じること.
数理統計学第3回
37
非復元抽出
21
22
24
数理統計学第3回
23
25
38
復元抽出
21
22
24
数理統計学第3回
23
25
39
X:1個目 Y:2個目(復元抽出)
Y
青
赤 周辺確率
X青
9/25
6/25 15/25=3/5
赤
6/25
4/25 10/25=2/5
周辺確率 15/25
10/25
=3/5
=2/5
p(x,y)=p(x)・p(y)が成り立つので,
XとYは独立
数理統計学第3回
40
X:1個目 Y:2個目(非復元抽出)
Y
青
赤 周辺確率
X青
6/20
6/20 12/20=3/5
赤
6/20
2/20
8/20=2/5
周辺確率 12/20
8/20
=3/5
=2/5
p(x,y)≠p(x)・p(y)なので,XとYは独立ではな
い(無相関)
数理統計学第3回
41
説明のための例(1)
現実のどのような状況が
独立という概念に対応する?
• 壺のモデルの例で説明しよう.
– 壺の中に,青の玉が a1 個,赤の玉が
a2 個入っている.
– この中からランダムに玉を抜き取ったと
きの玉の色をX とする.
– 玉を戻さないで,またランダムに玉を抜
き取ったときの玉の色をY とする.
• X と Y は独立か?
数理統計学第3回
42
説明のための例(1)
• Pr{X =青, Y =青} = Pr{X =青} Pr{Y =青}
だろうか?
• n = a1+ a2 とおく
– Pr{X =青} = a1/n, Pr{X =赤} = a2/n
– Pr{Y =青} = a1/n, Pr{Y =赤} = a2/n
• Pr{X =青, Y =青} = [a1(a11)]/[n(n1)]
• Pr{X =青, Y =赤} = [a1a2]/[n(n1)]
数理統計学第3回
43
説明のための例(2)
• 壺のモデル
– 壺の中に,青の玉が a1 個,赤の玉が
a2 個入っている.
– この中からランダムに玉を抜き取ったと
きの玉の色をX とする.
– 玉を戻した上で,またランダムに玉を抜
き取ったときの玉の色をX とする.
• X とY は独立か?
数理統計学第3回
44
説明のための例(2)
• Pr{X =青, Y =赤} = Pr{X =青} Pr{Y =赤}
だろうか?
– Pr{X =青} = a1/n, Pr{X =赤} = a2/n
– Pr{Y =青} = a1/n, Pr{Y =赤} = a2/n
• Pr{X =青, Y =青} = a12/n2
• Pr{X =青, Y =赤}= a1a2/n2
数理統計学第3回
45
非復元抽出と復元抽出
• 何が違うか?
– X の実現結果によって,Y の実現結果が影響を
受けるか受けないか
– 受ければ独立でない
– 受けなければ独立
• 現実のどんな状況を“独立”と定式化すべき
か
数理統計学第3回
46
独立という概念は
確率的な変動部分の問題
• 例:ある人の血圧を1ヶ月おきに3回測った
ときの測定値を X1, X2, X3 としよう.
• 高血圧の人なら、いつも大きめの値になる.
– しかしこの人だけに注目しているときは,
測定値の変動は独立としてよい.
• Y2 = X2  X1, Y3 = X3  X1 (変化量) だと,
X1, Y2, Y3 は独立でない
数理統計学第3回
47
独立性
復元抽出:復元するのでXはYに影響しない
非復元抽出:非復元なのでXはYに影響するX
に赤が出ると,Yは赤が出にくくなる.
「実現値の出方に直接の相互影響がない状況
では,確率変数は独立となる」
数理統計学第3回
48
問題
1. トランプ(52枚)の“神経衰弱”で開ける2枚
のカードの数字を X1,X2 とする.
X1,X2 は独立か?
2. A さんがさいころをある目 a にして伏せる
– A さんは B さんに,その目が何か尋ねた.
– B さんが答えた数値を X1 とする.
– X1 が a ではなかったので,A さんは C さ
んに X1が間違いであることを知らせた上
で,壺の中の目が何であるか尋ねた.
– C さんが答えた数値を X2 とする.
X1 X2 は独立か?
数理統計学第3回
49
独立性が成り立つ場合の性質
独立な事象の生起確率は各確率の積となる.
1)周辺分布と条件付分布は等しくなる.
f(x|y)=f(x,y)/f(y)=f(x)・f(y)/f(y)=f(x)
2)E[XY]=∫∫xy・f(x,y)dxdy
= ∫x・f(x)dx・∫y・f(y)dy= E[X]E[Y]
3) 共分散 Cov(X,Y)=0 ρ=0
ただし無相関だから独立とはいえない.
数理統計学第3回
50