数理統計学(第三回) 多次元分布 浜田知久馬 数理統計学第3回 1 キーワード 独立 3つの分布 同時(結合) 条件付 周辺 independence distribution joint conditional marginal 数理統計学第3回 2 多次元の確率変数 例 連続分布:身長(X)と体重(Y)の分布 離散分布:血液型(X)と星座(Y) 同時確率(密度)関数 p(x,y), f(x,y) 累積分布関数 F ( x, y) Pr(X x, Y y ) p( x, y) X xY y 数理統計学第3回 3 連続分布の累積分布関数 x y F ( x, y) f ( X , Y )dYdX 分布関数→確率密度関数 2 d F ( x, y ) f ( x, y ) dxdy 区間(a1,a2]× (b1,b2]に入る確率 a 2b 2 f ( X , Y )dYdX a1 b1 数理統計学第3回 4 同時確率 連続分布 身長が180cm,体重が69kgの確率密度 身長が180cm以下,体重が69kg以下である 確率 離散分布 水瓶座で,AB型である確率 AB型の人が,牡羊座~水瓶座に属する確率 数理統計学第3回 5 p(x,y)血液型と星座 数理統計学第3回 6 f(x,y) 相関係数=0.6の 2次元正規分布 数理統計学第3回 7 条件付分布と周辺分布 周辺分布(marginal distribution) Yの値を無視したXの分布 p( x) p( x, y), f ( x) f ( x, y)dy y 条件付分布(conditional distribution) Y=yが与えられた下での条件付分布 p( x, y) f ( x, y) p( x | y ) , f ( x | y) p( y ) f ( y) 数理統計学第3回 8 血液型と星座の同時分布 A 牡羊 0.0333 牡牛 0.0333 双子 0.0333 蟹 0.0333 獅子 0.0333 乙女 0.0333 天秤 0.0333 蠍 0.0333 射手 0.0333 山羊 0.0333 水瓶座 0.0333 魚 0.0333 計 0.4000 B 0.0167 0.0167 0.0167 0.0167 0.0167 0.0167 0.0167 0.0167 0.0167 0.0167 0.0167 0.0167 0.2000 O AB 0.025 0.0083 0.025 0.0083 0.025 0.0083 0.025 0.0083 0.025 0.0083 0.025 0.0083 0.025 0.0083 0.025 0.0083 0.025 0.0083 0.025 0.0083 0.025 0.0083 0.025 0.0083 0.3000 0.1000 数理統計学第3回 計 0.0833 0.0833 0.0833 0.0833 0.0833 0.0833 0.0833 0.0833 0.0833 0.0833 0.0833 0.0833 9 周辺分布 血液型の周辺分布 A B 0.4000 0.2000 O AB 0.3000 0.1000 星座の周辺分布 牡羊 牡牛 双子 蟹 獅子 乙女 0.0833 0.0833 0.0833 0.0833 0.0833 0.0833 天秤 蠍 射手 山羊 水瓶 魚 0.0833 0.0833 0.0833 0.0833 0.0833 数理統計学第3回 0.0833 10 条件付分布 水瓶座の人の血液型の分布 p(A|水瓶)=p(A,水瓶)/p(水瓶) =0.0333/0.0833=0.4000 p(B|水瓶)=p(B,水瓶)/p(水瓶) =0.0167/0.0833=0.2000 p(O|水瓶)=p(O,水瓶)/p(水瓶) =0.0250/0.0833=0.3000 p(AB|水瓶)=p(AB,水瓶)/p(水瓶) =0.0083/0.0833=0.1000 数理統計学第3回 11 周辺分布と条件付分布 血液型と星座の例では周辺分布と条件付分布 が等しかった. このための条件は何か? Xの周辺確率= Xの条件付確率 XとYが独立であること. p( x, y) p( x) p ( x | y ) p( x, y) p( x) p( y) p( y ) 数理統計学第3回 12 チームとポジションの同時分布 日本ハム T E A M 8 4.0% 中日 7 西武 6 阪神 9 4.5% 広島 7 近鉄 9 4.5% 6 2 10 5.1% 9 4.5% 8 2 3 1.5% 3 1.5% 2 8 4 2.0% 8 ヤクルト 6 ダイエー 6 オリック 5 7 3 1.5% 2 3 1.5% 2 3 1.5% 外野手 内野手 捕手 巨人 横浜 ロッテ 7 8 4.0% 5 8 6 8 POSITION 数理統計学第3回 13 チームとポジションの周辺分布 日本ハム T E A M 16 中日 19 9.6% 西武 18 阪神 20 10.1% 広島 12 近鉄 21 10.6% 巨人 15 T 横浜 17 I ロッテ 16 O ヤクルト 14 N ダイエー 17 オリック 13 捕手 30 P O S 内野手 I 外野手 88 44.4% 80 40.4% POSITION TEAM 数理統計学第3回 14 巨人という条件付での ポジションの分布 P O S I T I O N 捕手 3 20.0% 内野手 8 53.3% 外野手 4 26.7% POSITION 数理統計学第3回 15 通算打点とホームランの同時分布 1000 D A 800 T E 600 N _ 400 C 200 0 200 400 HOME_C 数理統計学第3回 16 通算打点とホームランの周辺分布 100 100 度 数 度 数 50 0 -25 25 75 125 175 225 275 325 375 HOME_C 50 0 0 360 720 1080 DATEN_C 数理統計学第3回 17 通算ホームラン数が100本以上の 条件付分布 1000 D A T 800 E N _ 600 C 400 200 300 400 HOME_C 数理統計学第3回 18 二次元正規分布の概形 数理統計学第3回 19 2次元正規分布の同時密度関数 標準二次元正規分布 μx=0, μy=0 σx=1, σy=1 x 2 y 2 2 xy f ( x, y ) exp 2 2 2(1 ) 2 (1 ) 1 数理統計学第3回 20 1 1 f ( x) exp ( x ) 2 ( x ) 2 2 2 ( ) 1 1 f ( x) 2 1 T 1 exp (x μ) Σ (x μ) 2 Σ 2 x x x x , μ , Σ y y x y x y 2 y Σ x y x y x y (1 ) 2 2 2 2 2 数理統計学第3回 2 2 2 21 (x μ)T Σ 1 (x μ) 2 x y x x 1 y x x y y 2 2 2 x y y x y (1 2 ) x y 2 2 ( y ) ( x x )( y y ) (x x ) y 2 2 2 2 2 2 ( 1 ) x y x (1 ) y (1 ) f ( x) 1 2 x y (1 2 ) 2 2 1 ( x ) 2 ( y y ) 2 ( x )( y ) x y x exp 2 2 2(1 2 ) x 2 x y y 数理統計学第3回 22 2次元正規分布の同時密度関数 (x-μx)2+ (y-μx)2 =C は円の式→同心円状は同じ確率 (x - x ) (y - y ) (x - x )(y - y ) C a b d 2 2 は傾いた楕円の式→同心楕円状は同じ確率 数理統計学第3回 23 平均0,分散1,相関係数ρの 二次元正規分布の周辺分布 x 2 y 2 2 xy f ( x, y ) exp 2 2(1 ) 2 1 2 1 x 2 2 x 2 ( y x) 2 exp 2 2 2 ( 1 ) 2 1 1 x2 ( y x) 2 exp exp 2 2 1 2 2 2(1 ) 1 x2 exp 2 2 1 ( y x) 2 exp 2 2 (1 2 ) 2(1 ) 1 数理統計学第3回 24 平均0,分散1,相関係数ρの 二次元正規分布の周辺分布 f ( x) f ( x, y )dy ( y x) 2 x 1 dy exp exp 2 2 2(1 ) 2 2 (1 2 ) 1 2 x2 exp 2 2 1 第2項は,N(ρx,1-ρ2 ) の正規分布の確率の和 数理統計学第3回 25 x 2 y 2 2 xy exp 2 2 2(1 ) 2 1 1 f ( x, y ) f ( y x) f ( x) 2 1 x exp 2 2 x2 ( y x) 2 exp exp 2 2 2 1 2 2(1 ) 1 2 1 x exp 2 2 ( y x) 2 exp 2 (1 ) 2 (1 2 ) 2数理統計学第3回 1 26 平均0,分散1,相関係数ρの 二次元正規分布の条件付分布 条件付分布は平均ρx,分散1-ρ2 の正規分布 ρ=0のときは,条件付分布は周辺分布に等しい. (正規分布のときは,独立=相関0) 数理統計学第3回 27 条件付分布の利用 条件付分布を用いて,他の変数の情報を考慮す ることにより,バラツキを減らし精度の高い推 測を行なうことができる. 相関ρ 0 .5 .7 .8 .9 分散 σ2 .75σ2 .51σ2 .36σ2 .19σ2 数理統計学第3回 28 身長と体重(相関0.4) 数理統計学第3回 29 多項分布 ある患者にある薬剤を投与すると,3種類の結 果が生じる.A)疾患が改善する,B)副作用が 生じる,C)不変.それぞれの事象が生じる確 率をπA , πB , πc =1- πA - πBとして,n人に薬 剤を投与して,それぞれの事象が生じる人数 が,x,y,n-x人になる確率p(x、y)は,次の多項 分布にしたがう. n! x y n x y p( x, y) A B (1 A B ) x! y!(n x y)! 数理統計学第3回 30 多項分布 1)疾患が改善する人数Xの周辺分布を求めよ n p( x) p( x, y) y 0 2)副作用の発生人数yが与えられたときのXの 条件付分布を求めよ. p( x | y) p( x, y) / p( y) 3)疾患が改善する人数Xの期待値を求めよ. n E[ X ] x p( x) x 0 数理統計学第3回 31 同時,周辺,条件付 1)条件付確率=同時確率/周辺確率 p(x|y)=p(x,y)/p(y) p(x,y) = p(y) p(x|y) 2)独立であれば, p(x|y)= p(x) 同時確率は周辺確率の積:p(x,y) =p(x) p(y) 条件付確率=周辺確率:p(x|y)=p(x) 数理統計学第3回 32 共分散 確率変数X,Yの関連の強さを測る指標 xy=Cov(X,Y)=E[(X-μX) (Y-μY)] =E[XY-μXY-XμY+μXμY] =E[XY]-E[μXY]-E[XμY ] +μXμY =E[XY]-μXμY- μXμY+μXμY =E[XY]-μXμY (Cov(X, X)=V[X]) 数理統計学第3回 33 共分散のイメージ • 2次元の 分布の 確率 (密 度) 関数 f(x, y) の等高 線表示 f(x, y) y x この図だと, xy = ∬(x x)(y数理統計学第3回 y) f(x, y) dx dy は正 34 確率変数の独立性 確率変数:X,Y 周辺密度関数:f(x),f(y) 同時密度関数:f(x,y) XとYが独立なときは, f(x,y)=f(x)×f(y) F(x,y)=F(x)×F(y) e.g.)親子の身長は独立だろうか? 隣の人と統計の成績は独立だろうか. 数理統計学第3回 35 X, Y はど んな確率 変数? X 2 同時分布は? 周辺分布は? 2 Y 2 2 2 2 2 数理統計学第3回 36 問題 袋の中に,青の玉が3個,赤の玉が2個入ってい る.この中からランダムに玉を抜き取ったとき の玉の色をXとする. 玉を戻さないで,またランダムに玉を抜き取った ときの玉の色をYとする. 1)XとYの同時分布の確率を示すこと. 2)XとYの周辺分布を示すこと. 3)XとYは独立であるかどうか,理由を示して 論じること. 数理統計学第3回 37 非復元抽出 21 22 24 数理統計学第3回 23 25 38 復元抽出 21 22 24 数理統計学第3回 23 25 39 X:1個目 Y:2個目(復元抽出) Y 青 赤 周辺確率 X青 9/25 6/25 15/25=3/5 赤 6/25 4/25 10/25=2/5 周辺確率 15/25 10/25 =3/5 =2/5 p(x,y)=p(x)・p(y)が成り立つので, XとYは独立 数理統計学第3回 40 X:1個目 Y:2個目(非復元抽出) Y 青 赤 周辺確率 X青 6/20 6/20 12/20=3/5 赤 6/20 2/20 8/20=2/5 周辺確率 12/20 8/20 =3/5 =2/5 p(x,y)≠p(x)・p(y)なので,XとYは独立ではな い(無相関) 数理統計学第3回 41 説明のための例(1) 現実のどのような状況が 独立という概念に対応する? • 壺のモデルの例で説明しよう. – 壺の中に,青の玉が a1 個,赤の玉が a2 個入っている. – この中からランダムに玉を抜き取ったと きの玉の色をX とする. – 玉を戻さないで,またランダムに玉を抜 き取ったときの玉の色をY とする. • X と Y は独立か? 数理統計学第3回 42 説明のための例(1) • Pr{X =青, Y =青} = Pr{X =青} Pr{Y =青} だろうか? • n = a1+ a2 とおく – Pr{X =青} = a1/n, Pr{X =赤} = a2/n – Pr{Y =青} = a1/n, Pr{Y =赤} = a2/n • Pr{X =青, Y =青} = [a1(a11)]/[n(n1)] • Pr{X =青, Y =赤} = [a1a2]/[n(n1)] 数理統計学第3回 43 説明のための例(2) • 壺のモデル – 壺の中に,青の玉が a1 個,赤の玉が a2 個入っている. – この中からランダムに玉を抜き取ったと きの玉の色をX とする. – 玉を戻した上で,またランダムに玉を抜 き取ったときの玉の色をX とする. • X とY は独立か? 数理統計学第3回 44 説明のための例(2) • Pr{X =青, Y =赤} = Pr{X =青} Pr{Y =赤} だろうか? – Pr{X =青} = a1/n, Pr{X =赤} = a2/n – Pr{Y =青} = a1/n, Pr{Y =赤} = a2/n • Pr{X =青, Y =青} = a12/n2 • Pr{X =青, Y =赤}= a1a2/n2 数理統計学第3回 45 非復元抽出と復元抽出 • 何が違うか? – X の実現結果によって,Y の実現結果が影響を 受けるか受けないか – 受ければ独立でない – 受けなければ独立 • 現実のどんな状況を“独立”と定式化すべき か 数理統計学第3回 46 独立という概念は 確率的な変動部分の問題 • 例:ある人の血圧を1ヶ月おきに3回測った ときの測定値を X1, X2, X3 としよう. • 高血圧の人なら、いつも大きめの値になる. – しかしこの人だけに注目しているときは, 測定値の変動は独立としてよい. • Y2 = X2 X1, Y3 = X3 X1 (変化量) だと, X1, Y2, Y3 は独立でない 数理統計学第3回 47 独立性 復元抽出:復元するのでXはYに影響しない 非復元抽出:非復元なのでXはYに影響するX に赤が出ると,Yは赤が出にくくなる. 「実現値の出方に直接の相互影響がない状況 では,確率変数は独立となる」 数理統計学第3回 48 問題 1. トランプ(52枚)の“神経衰弱”で開ける2枚 のカードの数字を X1,X2 とする. X1,X2 は独立か? 2. A さんがさいころをある目 a にして伏せる – A さんは B さんに,その目が何か尋ねた. – B さんが答えた数値を X1 とする. – X1 が a ではなかったので,A さんは C さ んに X1が間違いであることを知らせた上 で,壺の中の目が何であるか尋ねた. – C さんが答えた数値を X2 とする. X1 X2 は独立か? 数理統計学第3回 49 独立性が成り立つ場合の性質 独立な事象の生起確率は各確率の積となる. 1)周辺分布と条件付分布は等しくなる. f(x|y)=f(x,y)/f(y)=f(x)・f(y)/f(y)=f(x) 2)E[XY]=∫∫xy・f(x,y)dxdy = ∫x・f(x)dx・∫y・f(y)dy= E[X]E[Y] 3) 共分散 Cov(X,Y)=0 ρ=0 ただし無相関だから独立とはいえない. 数理統計学第3回 50
© Copyright 2024 ExpyDoc