サンプルごとに、どのくらい標本統計量は変動するのだろう? (標本統計量が特定のサンプルに依存する程度はどのくらいか?) しかし、実際サンプルを取り直して標本統計量の値の変化を 調べることはふつうできない 確率モデルと標本分布 そこで理論的方法として 確率モデルの考え方を導入する (比率の導出) 母集団は一種のデータ発生装置。ある確率である値が出てく る。 「母集団からのサンプリングによって、サンプルを構成しうる1個 1個のデータ値がどういう確率で得られるのか」 慶應義塾大学 非常勤講師 八賀 洋介 確率変数 (random variable):確率的に変動する変数 確率分布 (probability distribution):確率変数がどういう確率で どういう値をとるかを示す分布 41 42 統計的推測では、サンプルを構成する1個1個のデータを確率 変数の実現値とみなす。 推測に関わる分布 標本分布 データの度数 母集団分布 (母集団の度数分布) 確率 • サンプルデータから計算される平均や相関係数など 関心のある「標本統計量がどういう確率でどういう値 をとるか」をあらわす分布は、その統計量の標本分 布 (sampling distribution) と呼ぶ。 • 数理統計学者: ある確率モデルからどういう標本分 布を数学的に導出することができるかを調べる • 統計学ユーザー: 導出よりも、出発点となる確率モ デルを正しく理解し、導出結果の公式を必要に応じ て正しく適用することができるように学ぶ 43 標本の度数分布 44 比率という最も簡単な統計量につ いて標本分布を導出してみる。 母集団分布と確率モデル 比率 1 比率問題の2値変数xの 母集団分布 πは未知 π 0.5 確率 変数の特定 • 小学校で習う分数の計算問題を、中学1年生のうち どれぐらいの比率(何人中何人)の生徒が正しく解く ことができるか? • 正答と誤答の2値変数(x=1 or 0) N人のサンプルで x=1の比率を求め、母集団比率を推測する。 標本分布 (無作為抽出を繰り返して 標本統計量の分布を作成した 場合の理論分布) データの度数 標本統計量の確率 標本分布は、確率的に変動する統計量(平均など)が、ど ういう確率でどういう値をとるかを示す確率分布。これは、 特定の標本におけるデータの度数布とは違うので注意す ること。 確率分布 (母集団から無作為抽出 した時に、値がどの値をとるかを 確率で表したもの) 1-π 1 比率問題nにおける確率モデル (成功確率πのベルヌイ分布) π 0 0 1 x 0.5 1-π 0 0 45 1 x 46 N人分のデータから計算される比率pは、どういう確率 でどういう値をとるか? p= .2 の確率 p= .6 の確率 p= .4 の確率 p= .8 の確率 Pr ob( p = .6) = 5 C3π 3 (1 − π ) 2 Pr ob( p = .2) = 5π (1 − π ) 4 N=5の場合、比率pの取りうる値は p=0, .2, .4, .6, .8, 1 Pr ob( p = .4) = 5 C2π 2 (1 − π )3 Pr ob( p = .8) = 5 C4π 4 (1 − π ) 組み合わせの計算式例 p=1となる確率は Pr ob( p = 1) = Pr ob( x1 = 1) Pr ob( x2 = 1) ・・・ Pr ob( x5 = 1) 5! 2!(5 − 2)! 5・4・3・2・1 = = 10 2・・ 1 3・2・1 5 ここでの計算式には比率pは直接出てこない。代わりに 正答者数wが出てくる。 p と w の関係は次のようになる。 =π5 p = w/ N w = Np p=0 の確率は Pr ob( p = 0) = Pr ob( x1 = 0) Pr ob( x2 = 0) ・・・ Pr ob( x5 = 0) Excel 関数 COMBIN この正答者数 w が任意の値を取る確率を、w の関数として表現すると、 f ( w) = N Cwπ w (1 − π ) N − w = = (1 − π )5 *注意* ランダムサンプリングによって、データの独立性が保証され ていることが前提。この仮定の下では複数の事象が共に起こる確率は、 各事象が起こる確率の積となる。 48 確率 正答者数wおよび比率pの標本分布 (試行数N=5、成功確率π=.6の2項分布) 0.4 f (1) = 5×.6×.4 4 = .0768 0.3 f (2) = 10×.6 2 ×.43 = .2304 0.2 f (3) = 10×.63 ×.4 2 = .3456 0.1 0 0 1 .2 2 .4 3 .6 4 .8 5 1 w p f (5) = .65 = .07776 ∑ ∑ ∑ 前ページの一般式で表現される確率分布を二項分布 (binomial distribution) と呼ぶ。 「成功確率πの試行を独立にN回繰り返したときの成功数wの確率を与える分布」 (N=1の場合は、ベルヌーイ分布 (Bernoulli distribution) と呼ぶ) 49 二項分布の確率を表わす式 f ( w) = N C wπ w (1 − π ) N − w = m µ = ∑ xk f ( xk ) 確率分布の平均 度数の平均値 変数xがとりうる値(x1、x2、・・・、xm)、それぞれの値の度数をf(xk)(k=1,2、・・・、m)とすると 成功数 w 度数 f(w) w × f(w) 0 1 0 1 m 1 8 8 x= xk f ( xk ) 2 23 46 N k =1 3 35 105 m 4 26 104 ただし、ここでは、N = k =1 f ( xk ) 5 8 40 Σ 101 303 確率分布でも、確率変数xがとりうる値(x1、x2、・・・、xm)、 x 3 それぞれの値のとる確率をf(xk)(k=1,2、・・・、m)とする と m w× 成功数 w prob (w) µ = xk f ( xk ) prob (w) 0 0.01024 0 k =1 1 0.0768 0.0768 m 0.2304 0.4608 2 N = k =1 f ( xk ) = 1 3 0.3456 1.0368 0.2592 1.0368 4 確率変数の分布の平均は 期待値 (expected value) と呼 5 0.07776 0.3888 ばれ、E(x) と表記される。 Σ 1 3 50 μ 3 ∑ 0 f (4) = 5×.6 4 ×.4 = .2592 N! π w (1 − π ) N − w w !( N − w)! 47 N=5で、母集団比率がπ=0.6だったとすると、サンプルにおける正答者数が0,1,2,3,4,5の 各値をとる確率 (=比率が0, .2, .4, .6, .8, 1をとる確率) は、 f (0) = .45 = .01024 C2 = N! π w (1 − π ) N − w w !( N − w)! 代入する 比率の標本分布の平均 k =1 二項分布の場合の 確率分布の 平均値の導出過程 m µ w = ∑ w・ k f ( wk ) x ' = cx + d k =1 µp = N N! = ∑ w・ π w (1 − π ) N − w w !( N − w)! w=0 N N! =∑ π w (1 − π ) N − w w =1 ( w − 1)!( N − w)! µw N =π ここで、w’ = w – 1 とおいて、Nπを前に出す N −1 µw = Nπ ∑ w '= 0 ( N − 1)! π w ' (1 − π ) ( N −1) − w ' w '![ ( N − 1) − w ']! 和の部分は、試行数N-1、成功確率πの2項分布の確率の総和=1 二項分布の正答者数 w の標本 分布の平均を求めるための公式 µw = Nπ 51 標本統計量の分布の平均(期待値)が、その統計量によって推定しようと している母数の値に一致するとき、その統計量は不偏性をもつという。 不偏性を持った統計量は、母数の不偏推定量と呼ぶ 52 確率分布の標準偏差 σ= m ∑ (x k =1 k 比率の標本分布の標準偏差 − µ ) 2 f ( xk ) ← 確率分布一般の 標準偏差の式 二項分布の確率を表わす式 f ( w) = N C wπ w (1 − π ) N − w = N! π w (1 − π ) N − w w !( N − w)! s x ' =| c | ×sx 標準誤差 代入する N π (1 − π ) N π (1 − π ) = N σp = 0.6 0.5 N 1 10 3 100 σp 0.4 0.3 0.2 0.1 σ w = Nπ (1 − π ) ← 二項分布の標準偏差の式 53 比率の標本分布の標準誤差から サンプルサイズを決める 比率pの標準誤差を0.05以下にするのに必 要なサンプルサイズNを求める σp = π (1 − π ) N ≤ 0.05 π (1 − π ) ≤ N 0.05 π (1 − π ) ≤N 0.052 1 π (1 − π ) ≤ N 0.0025 400π (1 − π ) ≤ N 左辺に未知の母数πがあり、Nの最小値が 確定しないが、π=0.5の時最大になるので、 N = 400 × 0.5 × 0.5 = 100 55 標本統計量の標準偏差は、 その統計量の標準誤差と 呼ばれる。 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 母集団比率π 54
© Copyright 2024 ExpyDoc