4章 標本分布 (Sampling Distributions) 4.1 無作為抽出と無作為標本 全数調査:国勢調査、事業所センサスなど 標本調査: 母集団(Population) → 標本(Sample) 標本抽出(Sampling) 有意抽出(Purposive Selection): 専門家が代表例を選ぶ 無作為抽出(Random Sampling): 乱数により等確率で 母集団から標本を選ぶ 無限母集団(Infinite Population) 観測値の可能性の集合 工場の不良品率 (想像上の値の集まり) 有限母集団(Finite Population) 現実に存在する集団 世論調査などの対象 非復元抽出(Sampling Without Replacement): 一度標本に取った要素は 母集団に戻さない(重複なし) 復元抽出(Sampling With Replacement): 標本に取った各要素は 母集団に戻してから抽出(重複あり) 【実験】 無作為抽出標本の母集団表現力 (2属性の同時分布) 例: 一方の属性は年齢、 他方の属性は一日あたり携帯電話使用時間など。 母集団(均等) 1.00 標本(n = 200) 1.00 0.75 0.75 0.75 0.50 0.50 0.50 0.25 0.25 0.25 0.00 0.00 0.00 0.50 0.50 0.50 0.25 0.25 0.25 0.00 0.00 0.00 1.00 0.75 0.75 0.75 0.50 標本(n = 5000) 1.00 0.75 0.25 標本(n = 2000) 1.00 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 標本(n = 1000) 1.00 標本(n = 500) 1.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 1.00 0.75 0.50 0.25 0.00 実際の調査で使用される無作為抽出の変型 層別抽出法(Stratified Sampling): 学内調査において各学科毎に抽出人数 を決め、各学科の中から学生を無作為に サンプル(学科間比較時の精度向上) 多段抽出法(Multi-stage Sampling): 地域調査において地区をサンプル、 その地区内から家をサンプル。 (調査費用減少・調査時間短縮) その他様々な手法がある (標本調査法の専門書を参照) 統計量(Statistic) 確率変数 X1, X2, …, Xn の関数 : s (X1, X2, …, Xn) (統計量 s も確率変数) 例) 標本平均、標本分散、 最小値、中央値、第1四分位点、… 【実験】無作為抽出値の確率変動 (1観測値 & 標本平均 n = 2 / 4 / 9 / 16) 12% 10% 8% 6% 4% 2% 0% 母集団分布: 上智男子学生 283人の 身長 標本サイズ n=4 実験回数 50000 10% 0% 184 181 178 175 172 169 166 30% 163 160 186 184 182 180 178 176 174 172 170 168 166 164 162 標本抽出分布: 1観測値 の確率変動 標本抽出分布: 標本平均値 の確率変動 標本サイズ n=9 実験回数 50000 実験回数 100000 20% 10% 0% 184 181 178 175 172 169 標本サイズ n=2 実験回数 50000 30% 166 標本抽出分布: 標本平均値 の確率変動 163 160 184 181 178 175 172 169 166 163 160 12% 10% 8% 6% 4% 2% 0% 標本抽出分布: 標本平均値 の確率変動 20% 160 12% 10% 8% 6% 4% 2% 0% 30% 標本抽出分布: 標本平均値 の確率変動 標本サイズ n=16 実験回数 50000 20% 10% 0% 184 181 178 175 172 169 166 163 160 184 181 178 175 172 169 166 163 160 (前実験から観察される) 3つの一般的な特性 (実験回数 → ∞) 1観測値の分布 → 母集団分布 :大数(タイスウ)の法則 (標本サイズ n → ∞) 標本平均値のバラツキ → 0 :大数の法則 (標本サイズ n → ∞) 標本平均値の分布 → 正規分布 :中心極限定理 前回の内容 ■共分散 (Covariance) 2変量間の関係の強さの尺度 Cov( X , Y ) E[( X x )(Y Y )] E[ XY xY XY x Y ] E[ XY ] x Y μX = E[X ], μY = E[Y ] n m E[ XY ] xi yi p( xi yi ) i 1 j 1 前回の内容 ■相関 (Correlation) 標準化された2変量間の 関係の強さの尺度(無単位) 相関係数(Correlation Coefficient) X X Y Y Cov[ X , Y ] E V [ X ]V [Y ] X Y 1 ≦ ≦1 壺の例 ρ = Cov[ X, Y ] / ( σX σY ) = ( – 8 / 45 ) / ( 16 / 45 ) =–1/2 確率変数の和の分布 確率変数 X ~ 平均 E[X]、分散 V[X] の任意の分布 確率変数 Y ~ 平均 E[Y]、分散 V[Y] の任意の分布 和 Z = X + Y の分布特性: E[ X ] E[Y ] 平均 E[ Z ] E[ X Y ] 3.23より 分散 V[Z ] V[ X Y ] V [ X ] V [Y ] 2Cov( X , Y ) V [ Z ] E[( Z E[ Z ])2 ] E ( X E[ X ]) (Y E[Y ]) 2 E[( X E[ X ])2 ] E[(Y E[Y ])2 ] 2 E[( X E[ X ])(Y E[Y ])] V [ X ] V [Y ] 2Cov( X , Y ) X, Y が無相関 Cov(X,Y) = 0 な場合 (もしも統計的に独立なら無相関) 分散 V [ Z ] V [ X ] V [Y ] ■無作為標本から得た標本平均 定理4.1(有限母集団からの復元抽出、または無 限母集団からの抽出) 観測値 X1, X2, …, Xn が互いに独立に、 同じ平均 E [ Xi ] = μ、分散 V [ Xi ] = σ2 の分布(i = 1,…, n) にしたがう時、 標本平均値の確率分布は 以下の平均、分散を持つ。 平均 E[ X ] μ 12% 10% 8% 6% 4% 2% 0% 母集団分布: 上智男子学生 283人の 身長 186 184 182 180 標本抽出分布: 1観測値 の確率変動 実験回数 100000 184 181 178 175 172 169 166 163 160 12% 10% 8% 6% 4% 2% 0% 178 12% 10% 8% 6% 4% 2% 0% 176 174 172 170 168 166 164 162 160 E[ X ] 1 E[ ( X 1 X n ) ] n 1 E[ X 1 X n ] n 1 1 E [ X 1 ] E [ X n ] n n n 標本抽出分布: 標本平均値 の確率変動 標本サイズ n=2 実験回数 50000 184 181 178 175 172 169 166 163 160 母集団分布: 上智男子学生 283人の 身長 10% 186 184 182 180 178 176 174 172 170 168 166 0% 184 181 178 184 181 178 175 172 169 166 163 標本抽出分布: 標本平均値 の確率変動 10% 0% 184 181 178 175 172 169 166 163 160 標本サイズ n=2 実験回数 50000 標本抽出分布: 標本平均値 の確率変動 標本サイズ n=16 実験回数 50000 20% 30% 184 181 178 175 172 169 166 163 160 10% 0% 184 181 178 175 172 169 166 163 160 n 1 n 1 2 V [ X 1 ] V [ X n ] 2Cov( X i , X j ) i 1 j i 1 n 2 0 ( 独立な時 ) 2 2 1 2 n 2 n n 175 標本抽出分布: 標本平均値 の確率変動 標本サイズ n=9 実験回数 50000 20% 30% 3.27 より 172 169 166 実験回数 100000 163 160 標本抽出分布: 1観測値 の確率変動 160 12% 10% 8% 6% 4% 2% 0% 164 12% 10% 8% 6% 4% 2% 0% 標本抽出分布: 標本平均値 の確率変動 標本サイズ n=4 実験回数 50000 20% 30% 162 1 V [ X ] V ( X 1 X n ) n 1 2 V X 1 X n n 12% 10% 8% 6% 4% 2% 0% 160 σ 分散 V [ X ] n 2 ■標本成功率(標本割合)の分布 (例:製品の不良品率、内閣支持率、etc.) 標本成功率の分布(n=50, p=0.5) 0.15 0.10 0.05 0.00 0 0.0 5 0.1 10 0.2 15 0.3 20 0.4 25 0.5 30 0.6 35 0.7 40 0.8 45 0.9 50 1.0 y ^p p = ベルヌーイ試行における成功の確率 (確率 p で成功、1 – p で失敗) 確率変数 X = 0 (失敗) または 1 (成功) X の確率分布 1 x p( x ) p (1 p) x ( x 0,1) 1 E[ X ] x p( x ) 1 p(1) p x 0 1 2 2 2 V [ X ] x p( x ) p 1 p(1) p x 0 p1 p サイズ n の標本 = 独立な n 回のベルヌーイ 試行の結果: { X1, X2, …, Xn } その合計値 Y = X1+… + Xn ~ 二項分布 B(n, p) p( y) n C y p (1 p) y n y ( y 0,1,, n) 標本成功率(標本割合、標本比率): Y X1 X 2 X n pˆ X n n その平均・分散は、定理4.1より V [ X ] p(1 p) E[ X ] E[ X ] p, V [ X ] n n
© Copyright 2024 ExpyDoc