第 14 講 確率・統計(電子2年) • 小標本理論と区間推定(χ2 分布,F 分布,t 分布) • 統計的検定 • 後半模擬テストの解説 前回復習 コインを 400 回投げて,表が 220 回(裏が 180 回)出た.このコインの「表の出 る確率 p」を標本平均で推定し,その 95% 信頼区間を求めよ. 1 j 回目に表が出る運命ω と置くと, 「表の出る確率 p」は 0 j 回目に裏が出る運命ω 「X1 の期待値 E[X1 ]」に等しい(X1 でも X2 でも同じであるが). Xj (ω) = {X1 , X2 , . . .} は互いに独立とすると,これは,ある実験(ある運命 ω = ω0 )で,{X1 (ω0 ), X2 (ω0 ), . . . , X400 (ω0 )} の内,220 個の Xj (ω0 ) が 1(残 りの 180 個が 0)だったとして,期待値 p を「標本平均」を使って区間 推定する問題である. 1 n Xi (ω) が標本平均による E[X1 ] = p の推定である.n が n i=1 大きい場合(n = 400 は大きいとして扱える),Mn は,正規分布で近似でき(中 心極限定理),任意の c > 0 に対し,Mn が c から決まるある範囲に収まる確率の 近似計算: def 復習: Mn (ω) = ⎛ ⎞ c V [X1 ] c V [X1 ] √ √ ≤ Mn (ω) ≤ p + }⎠ ≈ P ⎝{ω|p − n n c −c t2 1 √ exp(− )dt 2 2π が成り立つ.この値が,約 95% になるのは c = 1.96 であり,書き換えると, ⎛ ⎞ 1.96 V [X1 ] 1.96 V [X1 ] √ √ ≤ p ≤ Mn (ω) + }⎠ ≈ 0.95 P ⎝{ω|Mn (ω) − n n 1つの実験(ある ω = ω0 )で得た def • 標本平均(p = E[X1 ] の推定値)を pˆ = Mn (ω0 ), n 1 def • 不偏分散(V [X1 ] の推定値)を σ ˆ2 = (Xj (ω0 ) − pˆ)2 , n − 1 j=1 とする時, • 1.96ˆ σ 1.96ˆ σ pˆ − √ , pˆ + √ n n 1 を「標本平均による p の推定値の 95% 信頼区間」と呼んだ. 上の実験では, • pˆ = 220 ˆ= = 0.55, σ 400 1 (220(1 − 0.55)2 + 180(0 − 0.55)2 ) ≈ 0.498, 399 なので, 「標本平均による p の推定値の 95% 信頼区間」は, 0.55 − 1.96 · 0.498 1.96 · 0.498 ≈ [0.501, 0.599] , 0.55 + 20 20 なお,分散:V [X1 ] = E[X12 ] − E[X1 ]2 = p − p2 = p(1 − p) なので,分散の 推定値として,pˆ(1 − pˆ) = 0.55 · 0.45 を使う方法もある.これは「標本分散」と 等しく,上の「不偏分散」と分母の 399 と 400 が違うだけなので大差ない.実際, √ def σ ˆ = pˆ(1 − pˆ) = 0.55 · 0.45 ≈ 0.497 となり,最終解答には差が出ない. 21. 小標本理論と区間推定 前章までの,中心極限定理に基づく標本平均の区間推定は,元の X の分布(母 分布)には拠らないが,標本(観測データ)数 n が大きいことが前提. 一方それに対し,母分布の形(族)に事前の仮定を置き,その形を詳細を決め るパラメタを,少数の標本(観測データ)から推定する手法を一般的に小標本理 論と呼ぶ.母分布に仮定を置くので精密な評価・推定が可能.特に,確率変数が 元々,正規分布 N (μ, σ 2) に従う(近似できる)ことが判っている場合の,未知の μ と σ 2 の推定が古くから研究されてきた.本講では,得られた1つの実験結果(運 命 ω0 )に基づく区間推定を検討する. • 分散 σ 2 を不偏分散:Vn (ω0 ) = n 1 (Xj (ω0 ) − Mn (ω0 ))2 で推定するとき n − 1 j=1 の信頼区間, • 期待値 μ を標本平均:Mn (ω0 ) = 1 n Xj (ω0 ) で推定するときの信頼区間, n j=1 χ2 分布と正規分布の分散推定 {X1 , X2 , . . . , Xn } は互いに独立で,同じ正規分布 N (μ, σ 2) に従う: • 確率変数 n−1 Vn は,自由度 (n − 1) のカイ2乗(χ2 )分布に従う. σ2 1 n/2 tn/2−1 −t/2 e . 2 Γ(n/2) N (0, 1) に従う独立同分布の n 個の確率変数の各々の2乗の和は自由度 n のカイ2乗分布に従う.第7講参照. def – 自由度 n の χ2 分布の密度関数は, fn (t) = 2 def – Xi が N (μ, σ 2 ) に従う場合, Yi = Xi − μ は,N (0, 1) に従い,よって, σ 1 n (Xi − μ)2 は,自由度 n の χ2 分布に従う. 2 σ i=1 i=1 (n − 1)Vn 1 n – 一方, = (Xi − Mn )2 は,未知の期待値 μ の代わりに標 σ2 σ 2 i=1 本平均 Mn を使うので自由度が下がる. n Yi2 = def 実際, Y = (n − 1)Vn = σ2 = n i=1 1 n i n i=1 Yi2 − 2Y i Yi と置くと, Xi − Mn σ Yi + nY 2 = n i=1 Xi − μ − (Mn − μ) σ 2 = n i=1 (Yi − Y )2 2 と変形でき,最右辺第一項は,自由度 n の χ2 分布に従うが,他の項が付加 され,全体としては,自由度 (n − 1) の χ2 分布に従う. (証明は省略するが積 分の計算) よって任意の 0 < a < b に対し,不偏分散 Vn が a, b から決まるある範囲に収ま b n−1 る確率の計算: fn−1 (t)dt = P {ω|a ≤ Vn (ω) ≤ b} σ2 a = P {ω| aσ 2 bσ 2 n−1 n−1 ≤ Vn (ω) ≤ } = P {ω| Vn (ω) ≤ σ 2 ≤ Vn (ω)} n−1 n−1 b a が成り立つ.結局, • 1つの実験(ある ω0 )で得た不偏分散を σ ˆ 2 = Vn (ω0 ),とする時, 例えば,95% 信頼区間ならば, • an 0 fn−1 (t)dt = 0.025, bn an fn−1 (t)dt = 0.95, ∞ bn fn−1 (t)dt = 0.025 となる (an , bn ) を,カイ2乗分布の数値計算(または数表)から見つけ(値 は n に依存), n − 1 ˆ2 n − 1 ˆ2 • σ , σ が「不偏分散による分散推定値の 95% 信頼区間」. bn an t 分布と正規分布の期待値推定 同じく {X1 , X2 , . . . , Xn } は互いに独立で,同じ正規分布 N (μ, σ 2) に従う: 1. 標本平均 Mn と不偏分散 Vn は互いに独立. 証明は独立の定義の通り,{X1 , X2 , . . . , Xn } の結合分布を用いて,任意の実数 α,任意の正実数 β に対して,Pr[Mn ≤ α, Vn ≤ β] = Pr[Mn ≤ α]×Pr[Vn ≤ β] の両辺が等しいことを示せばよい(多次元正規分布の計算). 3 2. 確率変数 n (Mn − μ) は,自由度 (n − 1) の t 分布に従う. Vn t 分布は標準正規分布と同様に 0 を中心に左右対称の釣鐘型であり,n → ∞ で標準正規分布に収束する. √ n (Mn − μ) は,N (0, 1) に従う. • Xi が N (nμ, nσ 2 ) に従うから. σ i n • 一方,真の分散 σ 2 を不偏分散 Vn で置き換えた (Mn − μ) は,n が十 Vn 分大きいならば N (0, 1) で近似できる(大数の強法則より,Vn (ω) ≈ σ 2 ) が,そうでない場合は, 「スチューデントの t 分布」に従う. • F 分布: X と Y が独立で,各々自由度 m と n の χ2 分布に従う時,Fnm = def が従う分布を,自由度対 (m, n) の F 分布と呼ぶ. X/m Y /n Fnm の密度関数 gnm (t) は,χ2 分布の密度関数から計算できる. gnm (t) tm/2−1 mm/2 nn/2 · = B(m/2, n/2) (mt + n)(m+n)/2 • t 分布: Z が N (0, 1) に従い,Yn が自由度 n の χ2 分布に従い,Z と Yn が独立な Z def 場合,Tn = が従う分布を,自由度 n の t 分布と呼ぶ. Yn /n (Tn )2 = Fn1 なので,Tn の密度関数 hn (t) は, hn (t) = √ そこで, 1 nB(1/2, n/2) t2 +1 n −(n+1)/2 √ n−1 n (Mn − μ) ,Yn−1 = Vn と置けば, σ σ2 – Z と Yn−1 が独立(前項 1.)で,Z は N (0, 1) に従い,Yn−1 は自由 度 (n − 1) の χ2 分布に従う, n Z ので,Tn−1 = = (Mn − μ) は自由度 (n − 1) の t 分 Vn Yn−1 /(n − 1) – Z= 布に従う. よって任意の 0 < c に対し,標本平均 Mn が c から決まるある範囲に収まる確率 c n (Mn (ω) − μ) ≤ c} hn−1 (t)dt = P {ω| − c ≤ の計算: Vn (ω) −c ⎛ ⎞ Vn (ω) Vn (ω) ⎠ ≤ Mn (ω) ≤ μ + c } = P ⎝{ω|μ − c n n 4 ⎛ ⎞ Vn (ω) Vn (ω) ⎠ ≤ μ ≤ Mn (ω) + c } = P ⎝{ω|Mn (ω) − c n n が成り立つ.結局, • 1つの実験(ある ω0)で得た標本平均を μ ˆ = Mn (ω0 ),不偏分散を σ ˆ 2 = Vn (ω0 ), とする時, 例えば,95% 信頼区間ならば, • −cn −∞ hn−1 (t)dt = 0.025, cn −cn hn−1 (t)dt = 0.95, ∞ cn hn−1 (t)dt = 0.025 となる cn を,t 分布の数値計算(または数表)から見つけ(値は n に依存), σ ˆ σ ˆ ˆ + cn √ • μ ˆ − cn √ , μ が「標本平均による期待値推定値の 95% 信頼区間」. n n 22. 統計的検定 統計的検定は,仮説検定とも呼ばれ,観測したデータから, 「母集団が従う分布 (母分布)に関するある主張(仮説)を否定(棄却)できるかどうか」を判断する 手順・手法である.本講義では様々な具体的手法を学ぶ時間はないが,それらは 必要が生じた時に学べばよく,基本部分を確率論に基づいて正しく理解すること が後につながる. • その仮説を認めると滅多に起こらない(=観測確率が α 以下)はずの事象が 観測された, という事実からその仮説を「否定する」.逆に • 「否定できなかった」,つまり観測された事象の(その仮定の下での)発生 確率を計算したら α 以上だった,としても,その仮説の「正しさ」を主張は しているわけではない. 形式的には以下のように定義される. • 帰無仮説 H : 「母集団がある分布 PH に従う」という仮説.否定したい仮定. • 危険率,有意水準,棄却率 α: 「滅多に起きない」を意味する基準の確率値. 例えば,0.05 や 0.01.ただし検定をする人間が事前に決めるしかない. (1 − α) × 100(%) を信頼度と呼ぶ. • 棄却域 A:発生確率 PH (A) = α となるような適切な事象 A. • 観測結果(データ)を M として,M ⊂ A ならば,つまり観測データが棄 却域に入っていたら,仮説 H を棄却 (reject) する. M ⊂ Ac ならば,仮説 H を棄却できない. この棄却できない範囲 Ac が, 「統計的推定」での信頼区間に対応する. 5 ✞ ☎ 例:本当に公平なコインか?✆ ✝ コインを 400 回投げて,表が 220 回(裏が 180 回)出た.このコインは「公平 (表の出る確率が p = 0.5)か?」を危険率 5% で検定せよ. • 帰無仮説 H :「このコインは公平」,つまり,p = E[Xj ] = 0.5.この時, V [Xj ] = p(1 − p) = 0.5 も同時に導かれる. • 危険率 α = 0.05. • 棄却域 A:コインを投げる回数 n = 400 とし,補集合 Ac を定義する. Ac = {ω|p − def 1.96 · p(1 − p) ≤ M400 (ω) ≤ p + 20 = {ω|0.451 ≤ M400 (ω) ≤ 0.549} 1.96 · p(1 − p) 20 } 「前回復習」と全く同様に標本平均 M400 がある範囲に収まる確率の近似計 1.96 t2 1 √ exp(− )dt = 0.95. 算を利用する.P (Ac ) ≈ 2 −1.96 2π • この問題の実験(ある運命 ω0 )での観測結果(データ)M から導かれた 220 = 0.55 は,[0.451, 0.549] を僅かに外れ,外側(棄却域)に M400 (ω0 ) = 400 入っている.よって, 「仮説 H を棄却 (reject) する」. つまりこの問題のデータからは「このコインは公平である」という主張は危険 率 5% で棄却される. ✞ ☎ 統計的検定の誤り ✆ ✝ • 第1種の誤り 仮説 H が本当は正しい(=母分布が PH である)のに,観測データが運悪く 棄却域 A に入り,H を棄却してしまう場合.危険率 α は「第1種の誤り」が 起きる確率と言える. • 第2種の誤り 仮説 H が本当は正しくない(=母分布が PH ではない)のに,観測データが たまたま棄却域 A に入らず(= Ac に入り),H を棄却できない場合.この 誤りが起きる確率は,真の母分布(P? )が判らないと計算はできない. 通常は,2つの仮説のどっちが正しいかを知りたい場合が多い.その時は, 帰無仮説 H と対立仮説 H を用意し,β = PH (Ac ) を考え,一定の危険率 α に対して,β が小さくなるような棄却域 A(「検定力が強い」)を見つけるこ とが必要である. 6
© Copyright 2024 ExpyDoc