富山大学知能情報工学科 「統計学」第8回 ホーエル『初等統計学』 第6章 標本抽出 高 尚策 (コウ ショウサク) 准教授 Email: [email protected] 1 前回の復習 • 代表的な2つの確率分布の導入 2項分布(離散型) (実践)エクセルを利用した 2項分布の確率計算 正規分布(連続型) (実践)エクセルで正規分布のグ ラフの書き方 • 2項分布の正規近似 2 前回の演習問題の答え • 課題: 正規分布の分散(標準偏差)でなく,平均を変えると,確率 密度関数のグラフはどのように変化するだろうか? エクセルで 実験してみよう. N(0,1) N(-1,1) N(-1.5,1) 変化: 平行移動 N(1,1) N(1.5,1) 3 1.序説 • 第2章:データの整理 – 標本の話 • 第4章と第5章:確率分布 – 母集団の話 • 第6章から第9章:標本と母集団の関係 – 統計量(statistic)に基づいた,母集団に関する統 計的推論. – 統計量:標本から計算される値のこと.平均,分 散,割合,t 統計量など 4 標本抽出 • 確率分布(母集団)が未知のとき,データをい くらでも集めることができるのならば,確率分 布はわかるかもしれない. – 例:ヒストグラムの極限としての正規分布 • しかし,実際には,比較的少数のデータから 確率分布について推論するしかない.すなわ ち,標本抽出(sampling)を行って,母集団に 関する推測を行う. – 母集団の特性値(平均や分散)を知ることが目的 5 • 「標本抽出がスープの味見である」という比喩 は,ちょっと不適切なところがある.標本抽出 では,「スープをかき混ぜて味を均一にする」 ことはできない. – 得られる測定値は個人ごとに異なる. • 均一でない全体から,どうやって適切な標本 を抽出するか? 6 2.無作為抽出 • 標本(sample):母集団に関する推測を行うた めの,母集団の一部 • 無作為抽出(random sampling):大きさ r の 標本において,母集団を構成する個体のど の r 個の組み合わせも,標本に選ばれる確 率が同じになる標本抽出法(テキストp.122) どの個体が標本に選ばれるか(どのような測定 値が出現するか)は,純粋に運のみで決まる → 確率的な議論が可能になる 7 • 標本は母集団の一部だから,母集団に関す る推測には誤差(標本誤差)が入り込む. – 例えば,表の出る確率が本当は ½ であるコイン を100回投げて,表が60回出たとする. – このことから,「このコインの表の出る確率は0.6 である」と推測したならば,ここには 0.1 の誤差が 生じたことになる. – しかし,こうした完全に偶然によって生じる誤差は, その大きさを評価できる. 8 • 無作為抽出の利点は,標本誤差を評価でき ることである. – 母集団に関する推測を行うとき,その精度を示す ことができる. • 無作為抽出を適切に実行すれば,精度の高 い推定を行うことができる. – 母集団の特性値に関して,標本からの推定値が 真値と大きく異なる確率を,十分過ぎるほどに小 さくできる. 9 単純無作為抽出 • 単純無作為抽出(simple random sampling): 母集団を構成する個体すべてが掲載された 台帳から,乱数を用いて標本を抽出する. – 個体すべてに番号をつける. – 十分な桁数の乱数(例:母集団が8万人台なら5 桁:0~99,999)を用意する. – 必要な標本の大きさに達するまで,乱数と一致し た番号の個体を標本に含める. 10 その他の無作為抽出法 • 単純無作為抽出は,母集団が大きい場合には実施 が難しい.実際の調査では他の方法が用いられる. – 系統抽出法(systematic sampling):個体を1列に 並べ,最初の個体を決めた後,等間隔に個体を 選ぶ(章末問題2). – 2段抽出法(two-stage sampling):標本抽出を2 段階に分ける.例えば,中学生が母集団であると き,最初に中学校を選び,選ばれた中学校の中 から生徒を選ぶ(章末問題7). 参考:豊田秀樹『調査法講義』(朝倉書店) 11 現実的な問題 • 現実的には,無作為に選んだ個体すべてか らデータが得られるとは限らない.(章末問題 5) – すべての人が調査に協力することはない. (例: 政治に関する調査で,政治に興味のない人は協 力しない可能性が高い) – 結果として残った人は,すでに無作為標本ではな く,なんらかの偏りがあるかもしれない(例:特定 の団体が行う調査では,その団体に対して一定 以上の好意がある人だけが残る) 12 有意抽出法 • 無作為抽出法でない標本抽出法を,有意抽 出法(purposive selection)と呼ぶ. • 有意抽出法は,標本誤差の大きさを評価でき ない. – 評価はできないが,無作為抽出よりも誤差は大き いと考えてよい. • 有意抽出の利点は,無作為抽出よりも少ない 手間と費用で実施できること. 13 • 有意抽出法の例: – 紹介法:知人,同僚,友人など,調査に協力してく れそうな人を標本とする. – 応募法:愛読者カードや募集に応じたモニターな ど,自発的に応募してきた人を標本とする.(章 末問題4) – 出口調査:選挙当日に投票所から出てきた有権 者に,どの政党(あるいは候補者)に投票したか をたずねる. 14 母数の推定 • 母数(parameter):母集団の確率分布を特徴づける 特性値. – 正規分布における平均μと分散σ2 – 2項分布における試行数nと成功確率p • 母数を推定する方法は? – 点推定(point estimate):標本から計算される統計量を推 定値とする(標本平均は母集団平均の推定値) 統計値(統計量): 標本の特徴を表わす数値(データから算出可能) x (標本平均)や s2 (標本分散)など – 区間推定(interval estimate) → 推定方法は第7章で詳しく論じる 15 3.不偏推定値 • 点推定を行うときの,「よい」推定値とは? – この基準はいくつかある(『よくわかる統計学 I 基礎編』pp.95-99 参照). 統計入門では不偏性(unbiasedness)のみとりあげる. • 不偏推定値(unbiased estimate):大きさ n の標本をとってきて統 計量(例:標本平均)を計算することを何度も繰り返したとき,そ の期待値(例:平均値の期待値)が母数(例:母集団平均)に一 致する推定値. 標本(経験分布) 母集団平均:μ 母集団分散:σ2 無作為 抽出 標本平均:x 標本分散:s2 母集団(確率分布) 16 母数と不偏統計値の関係 • 標本平均x は、母集団平均μの不偏推定値である. • 標本分散s2 (偏差平方和を n – 1 で割る)は,母集団分散σ2 の不偏推定値である. μ と x の関係 σ2 と s2 の関係 を調べてみよう。 定理1: 定理2: 定理3: 定理4: E(x)=μ V(x) = σ2/n E(s2)=σ2 E(s) ≠ σ 17 • 定理1: 標本平均xは母集団平均μの不偏推 定値である. つまり、E(x)=μ E[x ]=μ について i 証明: E[ X ] E[ 1 1 X i ] E[ X i ] n n テキストp.79 式(1) テキストp.82 式(4) 1 E[( X 1 X 2 X n )] n 和の期待値は 期待値の和 1 ( E[ X 1 ] E[ X 2 ] E[ X n ]) n 1 ( ) 母集団分布に n よらない 18 • 定理2: 標本平均xの分散は,母集団分散σ2 の1/nである. つまり、V(x) = σ2/n 証明: 1 1 V [ X ] V [ X i ] 2 V [ X i ] n n 無作為抽出な 1 2 V [( X 1 X 2 X n )] ので n 各 Xi は独立 1 2 (V [ X 1 ] V [ X 2 ] V [ X n ]) n 1 2 ( 2 2 2 ) n 母集団分布に 1 2 よらない 19 n 定理3: 標本分散s2 は,母集団分散σ2の不偏推 定値である. つまり、E(s2)=σ2 証明: 標本分散の期待値の証明 白旗慎吾(2008)統計学 ミネルヴァ書房.p.141より 任意の確率変数Y に関して , V [Y ] E[Y ] {E[Y ]} 2 2 E[Y ] V [Y ] {E[Y ]} 2 2 X i および X は確率変数なので, E[ X i ] V [ X i ] {E[ X i ]}2 2 2 2 E[ X ] V [ X ] {E[ X ]} 2 2 2 n 2 20 平均からの偏差平方和を測定の数 n で割った 分散を U2,不偏分散を S2 とすると 1 2 E[U ] E[ X i X 2 ] n 1 2 2 E[ X 1 X n ] E[ X 2 ] n 2 1 n ( 2 2 ) ( 2 ) n n n 1 2 n n 2 E[ S ] E[ U 2] 2 n 1 2 21 点推定の精度(安定性) • 推定値(例えば,標本平均)の期待値が母数 (例えば,母集団平均)に一致するとしても, 推定値の分散(注意:標本分散ではない)が あまり大きいのは困る. – 通常は,標本を1回だけとって推定値を計算する ので,それが真の値から大きく外れては困る. – 何度も標本をとって推定値の計算を繰り返したと き,母数のまわりの狭い範囲で変動してほしい. • 標本の大きさを大きくすると精度が上がる. 22 4.正規母集団での標本平均xの分布 定理5(テキストp.128): 確率変数 X が平均 μ, 分散 σ2 の正規分布に従うならば,大きさ n の無作為標本に基づく標本平均は, 平均 : 分散: 1 2 n の正規分布に従う. この平均と分散に関してのみ 証明した.正規分布になる ことの証明は省略(「積率母関数」 というものを使って,正規分布の 「再生性」を証明するので,入門 レベルを超える) 23 標本平均xの分布の応用 • 定理5より,母集団分布が正規分布なら,標本平均の分布も 正規分布なので,標準正規分布を利用して様々な問題を解 くことができる. 標本(経験分布) 無作為 抽出 母集団平均:μ 母集団分散:σ2 標本平均:x 標本分散:s2 母集団(確率分布) σ2 定理5:𝑥 ~ N(μ, ) 問題解決 𝑥−μ 標準化: 𝜎/ 𝑛 𝑛 ~ N(0,1) 24 • 例:xを成人男子の母集団から無作為に選んだ1人の身長と する.xは平均μ=68インチ,標準偏差σ=3インチの正規分布 に従うと仮定する.この分布のグラフは下の図に示してある. 過去の経験データから,これらの仮定は全く無理のないもの であることがわかっている.その上で問題, この母集団から大き さ n=25 の無作為標本がとられるとき,標本平均xが母集団平 均μと高々1インチしか違わない確率はいくらか. 答え: μ=68、 σ=3、n=25 σ2 定理5:𝑥 ~ N(μ, ) 𝑛 つまり、 xは平均68,標準偏差 𝜎 𝑛 = 0.6の正規分布に従う. 25 答え: そして、xが区間(67,69)内に落ちる確率を求めるために、標準化公 式およびテキストP.295の表IVを利用する. 𝑥−μ 標準化:𝑧 = ~ N(0,1) 𝜎/ 𝑛 𝑃 67 ≤ 𝑥 ≤ 69 表IV:標準正規分布の面積 67 − 𝜇 𝑥 − 𝜇 69 − 𝜇 =𝑃 𝜎 ≤ 𝜎 ≤ 𝜎 𝑛 𝑛 𝑛 5 5 =𝑃 − ≤𝑧≤ 3 3 = 2 × 𝑃 0 ≤ 𝑧 ≤ 1.67 = 2 × 𝑃 0 ≤ 𝑧 ≤ 1.67 = 2 × 𝑃 0 ≤ 𝑧 ≤ 1.67 = 2 × 0.4525 ≈ 0.9 26 5.非正規母集団での標本平均の分布 • 母集団分布が正規分布でなかったら? – n が大きければ,定理1と同様の定理が成立す る. 中心極限定理(central limit theorem): 確率 変数 X が平均 μ,分散 σ2 のある分布に従う ならば,大きさ n の無作為標本に基づく標本 平均は,n が無限に大きくなるとき, 平均 : 分散: 1 2 n の正規分布に従う. 母集団分布は なんでもよい! 27 中心極限定理 • 中心極限定理の証明は非常に難しい. • 証明の代わりにシミュレーションをしてみる. 章末問題21を使う(prob6_21.xlsx). – 母集団分布は0から9までが等確率で現れる,離 散型の一様分布(uniform distribution) – VBAを利用したprob6_21.xlsmを利用すると,任意 の標本の大きさ,任意の標本抽出回数でシミュ レーションできる. (授業のホームページからprob6_21.xlsx と VBA prob6_21.xlsmをダウンロードで 28 きる, 各自で確認してください) • 章末問題21 1桁の乱数を10個とり,その標本平均を計算することを10回繰り 返す.これら10個の標本平均を分類してヒストグラムをつくり,その 平均と標準偏差を求めよ.次に、これらの値を理論値と比較せ よ. (補足)母集団分布は0から9までが等確率で現れる,離散型 の一様分布の平均と標準偏差はμ=4.5、 σ=2.87である. 𝜇 = 𝐸(𝑋) = 𝑥𝑃 𝑋 = 𝑥 = 0 × 0.1 + ⋯ + 9 × 0.1 = 4.5 𝜎2 = 𝑉 𝑋 = 𝐸 𝑋2 − 𝐸 𝑋 = 2 𝑥 2 𝑃 𝑋 = 𝑥 − 4.52 = 02 × 0.1 + ⋯ + 92 × 0.1 − 4.52 = 8.25 ∴ σ=2.87 29 標本数n=10, 標本抽出回数t=10のとき Excel prob6_21.xlsxによる実験 30 標本数n=20, 標本抽出回数t=50のとき Excel prob6_21.xlsxによる実験 31 標本数n=1000, 標本抽出回数t=100のとき Excel VBA prob6_21.xlsmによる実験 考察: 標本数を多くすると、得られたヒストグラムは正規分布に近づく 32 注意点 • 実は、標本の大きさは「無限」でなくても,数十 でたいていうまくいく. 例(テキストp.133例題2): ある大学の受験生の母集団から無作為に選んだ1人の 受験生の評定平均をXとし,Xの分布は平均2.5,標準偏差 0.4であるとする.この母集団から36人の受験生の標本を とり𝑥の値を求めるとき, 𝑥が区間(2.4,2.7)に落ちる確率を 求めよ. 33 例:ある大学の受験生の母集団から無作為に選んだ1人の受験生 の評定平均をXとし,Xの分布は平均2.5,標準偏差0.4であるとする. この母集団から36人の受験生の標本をとり𝑥の値を求めるとき, 𝑥 が区間(2.4,2.7)に落ちる確率を求めよ. 答え: よって、 評定平均Xは正規分布をしなくても,大きさ36の標本は十分 大きいから,中心極限定理が使える. 𝑥は平均μ=2.5,標準偏差𝜎 = 標準化𝒁 = 0.4 36 = 0.067の正規分布に従う 𝑿−𝝁 𝝈 従って、P{2.4<𝑥<2.7}=P{-1.5<z<3.0}=P{0<z<1.5} + P{0<z<3.0} =0.4332+0.4987 = 0.93 34 補足:ド・モアブルーラプラスの定理 • 第5章で学習した2項分布の正規近似は,中 心極限定理の特別な場合. n 回のベルヌーイ試行での成功回数 X は,n が大きいとき,平均 np,分散 npq の正規分布に 従う. • 歴史的には,2項分布の場合に発見されたこ の性質が,中心極限定理の起源.ド・モアブ ル―ラプラスの定理(De Moivre-Laplace’s theorem)と呼ばれる.(18世紀) 35 ド・モアブルーラプラスの定理 • 1回目のベルヌーイ試行(成功確率 p)での, 「成功」回数を表す確率変数 X1 • 母集団の確率分布:P{X1=1} = p, P{X1=0} = q • この確率分布の平均(期待値) E[ X1 ] 1 p 0 q p • 分散 V [ X 1 ] E[ X 1 ] {E[ X 1 ]} 2 2 1 p 0 q p p(1 P) pq 2 2 2 36 ド・モアブルーラプラスの定理 • 大きさ n の無作為標本は, n 回のベルヌーイ 試行を意味する.このときの成功回数 X X X1 X 2 X n • 大きさ n の無作為標本における標本平均は, 成功割合 X /n である. • n が大きいとき, X /n は,平均 p,分散 pq/n の正規分布に従う.(中心極限定理) – 成功回数(成功割合の n 倍)は,平均 np,分散 npq の正規分布に従う. 37 まとめ 単純無作為抽出 無作為抽出 標本抽出 系統抽出法 2段抽出法 有意抽出法 紹介法、応募法、出口調査など • 不偏推定値 – 標本平均x は、母集団平均μの不偏推定値である. – 標本分散s2 (偏差平方和を n – 1 で割る)は,母集団分散σ2 の不偏推定値である. – 性質: E(x)=μ V(x) = σ2/n E(s2)=σ2 E(s) ≠ σ • 中心極限定理 確率変数 X: E[X]=𝜇, V[X]=σ2 大きさ n の無作為標本に基づく標本平均 𝜎2 𝑥~𝑁(𝜇, ) 𝑛 38 演習問題 • 問題1(章末問題9): xは平均20,標準偏差4の正規分布に従うと仮定して,大きさ 64の標本に基づく標本平均xが次の条件を満たす確率を求 めよ.(a)21を超える,(b)19.5を超える,(c)19と21の間にあ る,(d)22を超える. • 問題2 (章末問題11、12) : 一つの図に,平均10,標準偏差2の正規曲線のグラフと,この 分布からの大きさ9の標本に基づく標本平均xの分布曲線 のグラフを重ねて描いてみよ.次に、標本の大きさが36にす れば, xの曲線のグラフはどのようになるか. 39 演習問題 • 問題3(章末問題13): 小学生1年生の体重の標準偏差が7ポンドであるとき,このよ うな生徒100人の無作為標本の平均体重が1年生全体の平 均体重と1ポンド以上異なる確率はいくらか. • 問題4 (章末問題14) : 体重の増加をもたらす新しい餌をある種の鶏の母集団から 無作為にとった25羽の鶏に与えることにした.1ヶ月後の体 重増の標準偏差は約2オンスが期待されるとして,これらの 鶏を新しい餌で飼育するとき,1ヶ月後の25羽の体重の平均 と全母集団の平均の差が1/2オンス以上になる確率を求め よ. 40 演習問題 • 問題5(章末問題15): ある大学での過去5年間の男子新入生の体重の平均は154 ポンドで,標準偏差は20ポンドである.今年の新入生登録名 簿の中から選んだ100人の学生の体重の平均が159ポンド であったとすれば,今年の新入生の体重は例年の新入生の 体重より重いといってよいか.理由をつけて答えよ. 注意点: 1.詳細な答えをレポート用紙に書いてください。結果だけは不可。 2.レポートに表紙を付けてください 名前と学籍番号をご記入のうえ、レポート用紙(A4)を提出する。 提出先:工学部大学院棟7階 締め切り時間: NO.7708室のドアのポストに入れてください 来週月曜日(6月22日) 午後5時まで 41
© Copyright 2024 ExpyDoc