富山大学知能情報工学科 「統計学」第6回 ホーエル『初等統計学』 第4章 確率分布 高 尚策 (コウ ショウサク) 准教授 Email: [email protected] 前回の復習:確率の諸公式 • P(A∪B) = P(A) + P(B) – P(A∩B) • P(A∪B) = P(A) + P(B) (加法の定理) (排反事象の加法の定理) • P(A∩B) = P(A)×P(B | A) = P(B)×P(A | B) • P(A∩B) = P(A)×P(B) (乗法の定理) (独立事象の乗法の定理) • ベイズの定理(事後確率を計算するための公式) 𝑃(𝐷|𝐻) × 𝑃(𝐻) P HD = 𝑃(𝐷) 事後確率 尤度 事前確率 前回演習課題の答え • 課題 A,B,Cの工場で、全製品の20%,35%,45%が作られ各工場の 5%,7%,4%が不良品であるという.ある製品が不良品である とき,それがA,B,Cの製品である割合は,それぞれいくらか. 知識補足: 全確率の定理(Total Probability Theorem) A1、A2、・・・、Ai、・・・ An (i=1、2、・・・、n)を、標本空間全体を分割したものとする。 つまり、 𝑛𝑖=1 𝐴𝑖 = Ω , 𝐴𝑖 ∩ 𝐴𝑗 = ∅ 𝑖 ≠ 𝑗 , このとき事象Bに対して、 𝑛 𝑃 𝐵 = 𝑃 𝐴𝑖 ∩ 𝐵 = 𝑖=1 𝐴1 𝑛 𝐴2 𝑃 𝐵 𝐴𝑖 𝑃(𝐴𝑖 ) 𝑖=1 n=3の場合 P B = 𝑃 𝐴1 ∩ 𝐵 + 𝑃 𝐴2 ∩ 𝐵 + 𝑃(𝐴3 ∩ 𝐵) 𝐴3 𝑩 ・・・ 𝐴𝑛 Ω • 課題 A,B,Cの工場で、全製品の20%,35%,45%が作られ各工場の5%,7%,4%が不良 品であるという.ある製品が不良品であるとき,それがA,B,Cの製品である割合 は,それぞれいくらか. 知識補足: n=3の場合 P 𝐸 = 𝑃 𝐴1 ∩ 𝐸 + 𝑃 𝐴2 ∩ 𝐸 + 𝑃 𝐴3 ∩ 𝐸 = 𝑃 𝐴1 𝑃 𝐸 𝐴1 + 𝑃 𝐴2 𝑃 𝐸 𝐴2 + 𝑃 𝐴3 𝑃(𝐸|𝐴3 ) 答え: 事象A1 :製品が工場Aで生産した 𝐴2 𝐴3 𝐴1 事象A2 :製品が工場Bで生産した 事象A3 :製品が工場Cで生産した 𝑬 事象E:製品が不良品である とすると、 Ω = 𝐴1 ∪ 𝐴2 ∪ 𝐴3 𝐴1 , 𝐴2 , 𝐴3 は互いに排反である P 𝐴1 = 0.2, P 𝐴2 = 0.35, P 𝐴3 = 0.45 𝑃 𝐸 𝐴1 = 0.05, 𝑃 𝐸 𝐴2 = 0.07, 𝑃 𝐸 𝐴3 = 0.04 𝑃 𝐴1 𝐸 = Ω 𝑃 𝐸|𝐴1 𝑃(𝐴1 ) 𝑃 𝐸|𝐴1 𝑃(𝐴1 ) = 𝑃(𝐸) 𝑃 𝐴1 𝑃 𝐸 𝐴1 + 𝑃 𝐴2 𝑃 𝐸 𝐴2 + 𝑃 𝐴3 𝑃(𝐸|𝐴3 ) 0.05 × 0.2 0.01 = = ≈ 0.19 0.2 × 0.05 + 0.35 × 0.07 + 0.45 × 0.04 0.0525 同様に、𝑃 𝐴2 𝐸 = 0.467, 𝑃 𝐴3 𝐸 = 0.343 1.序説 • 第2章で学んだヒストグラムは,得られたデー タの分布を示したもの.経験分布(empirical distribution)と呼ばれる. • 第4章で学ぶ確率分布(probability distribution)は,母集団での分布. – 母集団ではこうなっているだろうと仮定する,理 論的な分布. 確率分布 経験分布 経験分布の極限としての確率分布 • 確率分布は理論的に想定される数学的モデ ルである. – 推測統計では,母集団での分布として,特定の 確率分布が仮定される. • 標本の大きさ(sample size)を十分に大きくす れば,相対度数を用いた経験分布は,確率 分布に収束する.(今日の実践で確認する) 2.確率変数 • 事象を観察し,なんらかの測定を行う. – さいころを2回投げたときの,出た目の和 – 学生の,1週間あたりの学習時間 • こうした測定は繰り返し行うことができる.繰 り返しのたびに,変数 X の値が具体的に測 定されると考える. – 注意:テキストでは変数を小文字の x で表してい るが,ここでは大文字を用いる. • 例:硬貨を3回投げる実験での,表の出る回 数X 3 2 2 2 1 1 1 0 HHH HHT HTH THH HTT THT TTH TTT • 実験のたびに ,X は 0, 1, 2, 3 のいずれかの 値をとる.ひとつの標本点にひとつの実数が 対応. • X が特定の値をとる確率を考えることができ る. • 確率変数(random variable): – 定義:標本空間の上で定義された実数値関数. 標本点それぞれに実数を対応させる. – 直感的には,とりうる値それぞれについて,その 値が出現する確率が与えられている変数. • 「変数」なのに「関数」? y = f(x) が,対応規則 f と,対 応先の変数 y を表現していたのと同じ. 標本空間 X TTT 実数(表が出た 回数) 0 TTH HTT THH 1 THT HTH HHT HHH 2 3 確率変数(離散型)の表記法 • 確率変数は,X のような,アルファベットの大 文字を用いて表す.実現値は小文字で表す. • 確率変数が特定の値 xi をとる確率を, P{X=xi} あるいは単に P{xi} と表す. – 例:さいころを1回投げ,「1の目が出る」という事 象に実数の1, 「2の目が出る」という事象に実数 の2,・・・と対応させた確率変数 X を考えると, 1 1 1 P{ X 1} , P{ X 2} , , P{ X 6} 6 6 6 確率分布(離散型) • とびとびの値 x1, x2, … をとる確率変数 X を, 離散型(discrete type)の確率変数と呼ぶ.た いていは有限個の値を考える. • 確率変数と確率との対応の全体を,確率分 布(probability distribution)と呼ぶ. – 横軸に確率変数 X,縦軸に確率 P{X} をとって図 3/8 3/8 示する. 1/8 0 1/8 1 2 3 x 図:硬貨投げる実験で表の出る回数 Xの確率分布 3.確率分布の性質 • 経験分布について平均と分散を考えたのと同 様に,確率分布の平均と分散を考えることが できる. 母集団平均:μ 母集団分散:σ2 母集団(確率分布) 無作為 抽出 標本平均:m 標本分散:s2 標本(経験分布) 母集団平均:確率分布の平均 • 第2章で学んだ,分類されたデータから標本 平均を求める式を書き換える. (n 回の試行で xi という値が fi 回観察された) k fi 1 k x xi f i xi n i 1 n i 1 • 経験分布での相対度数 fi / n は,標本の大き さ(n)を十分に大きくすれば,母集団での確 率 P{X=xi} に収束する. 母集団平均:確率分布の平均 • 標本の大きさを十分に大きくすると,標本平 均は母集団平均に収束する. • 母集団平均(つまり,確率分布の平均)をギリ シア文字 μ (ミュー)で表す. k xi P{ X xi } i 1 テキスト p.79 (1) 式 母集団分散 • 分類されたデータから分散を求める式を変形 する. (n 回の試行で xi という値が fi 回観察された) k 1 2 2 s ( xi x ) f i n 1 i 1 k fi ( xi x ) n 1 i 1 2 k ( xi ) 2 P{ X xi } i 1 n が大きいとき 母集団分散 • 標本の大きさを十分に大きくすると,標本から 計算される分散は母集団分散に収束する. • 母集団分散(つまり,確率分布の分散)を σ2 で表す.(ギリシア文字シグマ) k ( xi ) P{ X xi } 2 2 i 1 テキスト p.79 (2) 式 • 分散 = 2乗の平均 – 平均の2乗 k 2 ( xi ) 2 P{ X xi } テキスト p.81 (3) 式 i 1 k xi2 2 xi 2 Pxi i 1 k k k i 1 i 1 i 1 xi2 Pxi 2 xi Pxi 2 Pxi k k i 1 i 1 xi2 Pxi 2 2 2 xi2 Pxi 2 4.期待値 • 確率分布の平均は,期待値(expected value) とも呼ばれる. – 確率分布の期待値といえば,確率分布の平均と いう意味である. • 例:硬貨を1枚投げて,表が出れば100円がも らえるゲームをする.期待値は50円. – 非常に多数回の試行を行えば,平均的には50円 もらえると期待できる. 確率変数(標本点と実数との対応規則) 「表」→100 「裏」→0 1 1 100 0 50 0 50 2 2 確率分布: 期待値(expectation): P{X=100} = 1/2 確率変数の値それぞれと, P{X=0} = 1/2 その値が出現する確率との 積和 テキスト p.82 (4) 式 E[ X ] x P{X x } i 1, 2, i i 確率変数の変換 • 確率変数 X に何らかの変換 g を行って得ら れる変数 Y は,やはり確率変数である. Y g (X ) • Y の期待値は, E[Y ] E[ g ( X )] g ( x i )P{Y g ( xi )} i g ( x i )P{ X xi } i テキスト p.83 (5) 式 • 確率分布の分散は,「平均からの偏差の2乗 の期待値」であると言える. k x i PX xi i 1 E[( X ) ] 2 2 k ( xi ) P{ X xi } 2 2 i 1 gX X 2 という変換であると考えることができる. 期待値の性質1 • 確率変数に定数を加えると,期待値にも定数 が加えられる. E[ X c] E[ X ] c テキスト p.83 (6) 式 • 確率変数を定数倍すると,期待値も定数倍さ れる E[c X ] c E[ X ] テキスト p.83 (7) 式 E[ X c] ( xi c) P{ X c xi c} ( xi c) P{ X xi } ( xi P{ X xi } c P{ X xi }) xi P{ X xi } c P{ X xi } E[ X ] c P{ X xi } E[ X ] c 1 E[ X ] c E[cX ] cxi P{cX cxi } cxi P{ X xi } c xi P{ X xi } c E[ X ] 期待値の性質2 • 和の期待値は期待値の和(証明は,やや難) E[ X Y ] E[ X ] E[Y ] テキスト p.83 (8) 式 • 2つの確率変数が独立の場合に限り, 積の期待値は期待値の積 (これはテキストにはない.証明省略) E[ XY ] E[ X ] E[Y ] E[ X Y ] ( xi y j ) P{ X xi and Y y j } i j [ xi P{ X xi and Y y j } y j P{ X xi and Y y j }] i j xi P{ X xi and Y y j } i j y j P{ X xi and Y y j } i j 第1項について考える(スライド次ページ) x P{X x and Y y } i i i j j [ x1 P{ X x1 and Y y j } x2 P{ X x2 and Y y j } ] j x1 P{ X x1 and Y y j } x2 P{ X x2 and Y y j } j j ここでも,第1項について考える (スライド次ページ) x P{ X x 1 1 and Y y j } j x1 P{ X x1 and Y y j } j x1 P{ X x1} したがって, x P{ X x i i i and Y y j } j x1 P{ X x1} x2 P{ X x2 } E[ X ] 同様に, y P{ X x i i i and Y y j } j y1 P{Y y1} y2 P{Y y2 } E[Y ] したがって, E[ X Y ] E[ X ] E[Y ] 参考:『よくわかる統計学 I 基礎編』p.59 例: (テキストP.83)ある慈善団体の主催する基金募集事業に参 加した個人がパンチボードを1回はじくごとに4ドルを支払い,幸 運の輪を1回まわすごとに5ドルを支払うものとする. このパンチボードには100個の穴があって,そのうちの20個 の穴に入れば10ドルの賞金がもらえ,これとは別の特別な1個の 穴に入れば100ドルがもらえる. 一方,幸運の輪のほうは輪全体が5つの等面積なセクターに 分かれ,各セクターには0から4までの数が1つずつ書き込んであ る.輪をまわし,輪がある点にとまればそのセクターの数の2倍だ けのドルが支払われる. 個人が支払った9ドルの出費に対して,彼の手に戻ってくる 金額の期待値はいくらか. パンチボード 幸運の輪 答え: Xをパンチボードを1回はじいたとき勝ちとる金額とし, Yを幸運の輪を1回まわして得られるセクターの数とする. Xが取りうる値と,それに対応する確率は, 次に、Yが取りうる値と,それに対応する確率は, ゆえに, E[X]=0×0.79+10×0.2+100×0.1=3, E[2Y]=2E[Y]=2×[0×0.2+1×0.2+2×0.2+3×0.2+4×0.2]=4. 勝ちとる金額の合計を表す確率変数をZ=X+2Yとすれば、 E[Z]=E[X]+E[2Y]=7 となる. 従って,この慈善団体は募金募集に参加した個人が各ゲームを1回 行うたびに,平均9-7=2ドルの利益を得ることになる. 5.連続型変数 • ある範囲の実数すべてを取りうる確率変数を 連続型(continuous type)の確率変数と呼 ぶ. – 身長 – テストの点数 – 工場で生産される鋼棒の直径 • 「真の値」を考える.測定に限界があるので, 見かけ上は離散型になる. 確率変数(連続型)の表記法 • 離散型の確率変数の場合と同様に, X のよ うな,アルファベットの大文字を用いて表す. • 連続型の確率変数は,ある範囲の実数すべ てをとりうるので,特定のひとつの値に対する 確率は考えることができない. • 確率変数が特定の範囲の値をとる確率(たと えば,P{a≦X≦b} )を考える. ヒストグラムの極限としての確率分布 • 柱すべてを合わせた面積が1になるようにヒ ストグラムを描くことにする. – ひとつの柱の面積は,その階級に属する測定値 の,相対度数となる.面積=相対度数 • 標本の大きさを十分に大きくして,かつ,階級 の幅を十分に小さくすれば,ヒストグラムの上 端は次第に滑らかな曲線に近づく. – この曲線を表す関数 f(x) があるとする.テキスト図 8(p.86)参照. 確率密度関数 • 連続型の確率変数 X がある範囲の値をとる 確率が,関数 f(x)によって次のようにあらわさ れるとき,この関数を確率変数 X の確率密 度関数(probability density function)と呼ぶ. b P{a X b} f ( x) dx a • 面積=確率:面積が確率に対応する. • 連続型変数の確率分布は,確率密度関数に よって与えられる. b P{a X b} f ( x) dx a a b 確率密度関数の性質 • 値は必ず0以上(離散型確率分布のグラフと 同様) f ( x) 0 • 全面積は1(全事象の確率は1) f ( x) dx 1 経験分布の極限としての 確率密度関数 • 確率密度関数は理論的に想定される数学的 モデルである. – 推測統計では,母集団での分布として,特定の 確率密度関数が仮定される. • 標本の大きさ(sample size)を十分に大きくす れば,相対度数を用いたヒストグラム(全面積 =1)は,確率密度関数に収束する. • 確率密度関数によって与えられる確率分布 の平均を μ,分散を σ2 で表す. • 標本の大きさ(sample size)を十分に大きくす れば,相対度数を用いた経験分布は,確率 分布に収束する? 例で確認する • 例(テキストP.69 問10) 赤球が4個,黒球が3個,緑球が2個,白球が1個入った箱 がある.この箱から球を1個取り出し,次にそれをもとへ戻す.こ のとき、取り出した球が赤、黒、緑、白である確率P(赤)、 P(黒)、 P(緑)、P(白)を求めよ. 更に、数字0,1,2,3を赤球とよび,数字4,5,6を黒球とよ び,数字7,8を緑球とよび,数字9を白球とよぶことによって,乱数 表から1けたの数字を選ぶ実験のシミュレーションを行うとして, 乱数表から数字を選ぶ実験を 1回、10回、50回、100回、400回、1000回、2000回繰り返し 実行せよ. 0 1 2 3 4 5 6 7 8 9 0 1 2 3 母集団平均:μ 母集団分散:σ2 4 5 無作為 抽出 6 7 8 9 標本平均:m 標本分散:s2 標本(経験分布) 母集団(確率分布) P(赤)=4/10 P(黒)=3/10 P(緑)=2/10 P(白)=1/10 標本の大きさ N= 乱数表から数字を 選ぶ実験を繰り返す回数 つまり、 N=1、10、50、100、400、1000、 2000 Excelでシミュレーションを行う 説明: 1)乱数の生成関数 =RANDBETWEEN(0,9) 2)確率モデル: 母集団確率分布 3)実際に取った数字の回数: 赤球(0,1,2,3) 黒球(4,5,6) 緑球(7,8) 白球(9) =実際/N =COUNTIF(A2:A401 =E3/$E$7 ==COUNTIF(A2:A401 ,"<=3") ==COUNTIF(A2:A401 =COUNTIF(A2:A401 ,"<=6"),"<=8"),9) COUNTIF(A2:A401," COUNTIF(A2:A401," <=3") <=6") =RANDBETWEEN(0,9) 0.4 0.3 0.2 0.1 VBAでシミュレーションを行う 乱数を何回発生させますか? 100 7 乱数→ 集計 1 0-3 4-6 7-8 9 発生回数 36 29 23 12 100 カウンタ 100 0-3 4-6 7-8 9 合計 スタート 相対度数 確率分布 0.4 0.36 0.3 0.29 0.2 0.23 0.1 0.12 1 1 0.9 0.8 0.7 0.6 確 0.5 率 相対度数 0.3 確率分布 0.4 0.2 0.1 0 0-3 4-6 7-8 乱数の値 9 演習課題 • 「標本の大きさを十分に大きくすれば,相対 度数を用いた経験分布は,確率分布に収束 する」であることを VBA によりもう一回確か めよ • VBAは下記のURLからダウンロードしてください http://www3.u-toyama.ac.jp/tanglab/content51/content51.html ファイル名: ProbaDis.xlsm 提出形式:A4レポート用紙(表紙をつけること)。 「確かめました」等だけのものは不可。 簡単でいいので説明文(や必要なら計算式)を書いてください。 名前と学籍番号をご記入のうえ、レポート用紙(A4)を提出する。 提出先:工学部大学院棟7階 締め切り時間: NO.7708室のドアのポストに入れてください 来週月曜日(6月8日) 午後5時まで
© Copyright 2024 ExpyDoc