富山大学知能情報工学科「統計学」第８回ホーエル『初等統計学』第６章標本抽出高尚策（コウショウサク）准教授 Email: [email protected] 1 前回の復習 • 代表的な２つの確率分布の導入  ２項分布（離散型）  （実践）エクセルを利用した２項分布の確率計算  正規分布（連続型）  （実践）エクセルで正規分布のグラフの書き方 • ２項分布の正規近似 2 前回の演習問題の答え • 課題：正規分布の分散（標準偏差）でなく，平均を変えると，確率密度関数のグラフはどのように変化するだろうか？エクセルで実験してみよう． N(0,1) N(-1,1) N(-1.5,1) 変化：平行移動 N(1,1) N(1.5,1) 3 １．序説 • 第２章：データの整理 – 標本の話 • 第４章と第５章：確率分布 – 母集団の話 • 第６章から第９章：標本と母集団の関係 – 統計量（statistic）に基づいた，母集団に関する統計的推論． – 統計量：標本から計算される値のこと．平均，分散，割合，t 統計量など 4 標本抽出 • 確率分布（母集団）が未知のとき，データをいくらでも集めることができるのならば，確率分布はわかるかもしれない． – 例：ヒストグラムの極限としての正規分布 • しかし，実際には，比較的少数のデータから確率分布について推論するしかない．すなわち，標本抽出（sampling）を行って，母集団に関する推測を行う． – 母集団の特性値（平均や分散）を知ることが目的 5 • 「標本抽出がスープの味見である」という比喩は，ちょっと不適切なところがある．標本抽出では，「スープをかき混ぜて味を均一にする」ことはできない． – 得られる測定値は個人ごとに異なる． • 均一でない全体から，どうやって適切な標本を抽出するか？ 6 ２．無作為抽出 • 標本（sample）：母集団に関する推測を行うための，母集団の一部 • 無作為抽出（random sampling）：大きさ r の標本において，母集団を構成する個体のどの r 個の組み合わせも，標本に選ばれる確率が同じになる標本抽出法（テキストp.122） どの個体が標本に選ばれるか（どのような測定値が出現するか）は，純粋に運のみで決まる → 確率的な議論が可能になる 7 • 標本は母集団の一部だから，母集団に関する推測には誤差（標本誤差）が入り込む． – 例えば，表の出る確率が本当は ½ であるコインを100回投げて，表が60回出たとする． – このことから，「このコインの表の出る確率は0.6 である」と推測したならば，ここには 0.1 の誤差が生じたことになる． – しかし，こうした完全に偶然によって生じる誤差は，その大きさを評価できる． 8 • 無作為抽出の利点は，標本誤差を評価できることである． – 母集団に関する推測を行うとき，その精度を示すことができる． • 無作為抽出を適切に実行すれば，精度の高い推定を行うことができる． – 母集団の特性値に関して，標本からの推定値が真値と大きく異なる確率を，十分過ぎるほどに小さくできる． 9 単純無作為抽出 • 単純無作為抽出（simple random sampling）：母集団を構成する個体すべてが掲載された台帳から，乱数を用いて標本を抽出する． – 個体すべてに番号をつける． – 十分な桁数の乱数（例：母集団が８万人台なら５桁：0～99,999）を用意する． – 必要な標本の大きさに達するまで，乱数と一致した番号の個体を標本に含める． 10 その他の無作為抽出法 • 単純無作為抽出は，母集団が大きい場合には実施が難しい．実際の調査では他の方法が用いられる． – 系統抽出法（systematic sampling）：個体を１列に並べ，最初の個体を決めた後，等間隔に個体を選ぶ（章末問題２）． – ２段抽出法（two-stage sampling）：標本抽出を２段階に分ける．例えば，中学生が母集団であるとき，最初に中学校を選び，選ばれた中学校の中から生徒を選ぶ（章末問題７）． 参考：豊田秀樹『調査法講義』（朝倉書店） 11 現実的な問題 • 現実的には，無作為に選んだ個体すべてからデータが得られるとは限らない．（章末問題５） – すべての人が調査に協力することはない．（例：政治に関する調査で，政治に興味のない人は協力しない可能性が高い） – 結果として残った人は，すでに無作為標本ではなく，なんらかの偏りがあるかもしれない（例：特定の団体が行う調査では，その団体に対して一定以上の好意がある人だけが残る） 12 有意抽出法 • 無作為抽出法でない標本抽出法を，有意抽出法（purposive selection）と呼ぶ． • 有意抽出法は，標本誤差の大きさを評価できない． – 評価はできないが，無作為抽出よりも誤差は大きいと考えてよい． • 有意抽出の利点は，無作為抽出よりも少ない手間と費用で実施できること． 13 • 有意抽出法の例： – 紹介法：知人，同僚，友人など，調査に協力してくれそうな人を標本とする． – 応募法：愛読者カードや募集に応じたモニターなど，自発的に応募してきた人を標本とする．（章末問題４） – 出口調査：選挙当日に投票所から出てきた有権者に，どの政党（あるいは候補者）に投票したかをたずねる． 14 母数の推定 • 母数（parameter）：母集団の確率分布を特徴づける特性値． – 正規分布における平均μと分散σ２ – ２項分布における試行数ｎと成功確率ｐ • 母数を推定する方法は？ – 点推定（point estimate）：標本から計算される統計量を推定値とする（標本平均は母集団平均の推定値） 統計値(統計量)： 標本の特徴を表わす数値（データから算出可能）  ｘ（標本平均）や s2 (標本分散)など – 区間推定（interval estimate） → 推定方法は第７章で詳しく論じる 15 ３．不偏推定値 • 点推定を行うときの，「よい」推定値とは？ – この基準はいくつかある（『よくわかる統計学 I 基礎編』pp.95-99 参照）．統計入門では不偏性（unbiasedness）のみとりあげる． • 不偏推定値（unbiased estimate）：大きさ n の標本をとってきて統計量（例：標本平均）を計算することを何度も繰り返したとき，その期待値（例：平均値の期待値）が母数（例：母集団平均）に一致する推定値．標本（経験分布）母集団平均：μ 母集団分散：σ２無作為抽出標本平均：ｘ標本分散：s2 母集団（確率分布） 16 母数と不偏統計値の関係 • 標本平均ｘは、母集団平均μの不偏推定値である． • 標本分散ｓ２（偏差平方和を n – 1 で割る）は，母集団分散σ２の不偏推定値である． μ とｘの関係 σ２とｓ２の関係を調べてみよう。定理１：定理２：定理３：定理４： E(ｘ)=μ V(ｘ) = σ2/n E(s2)=σ2 E(s) ≠ σ 17 • 定理１：標本平均ｘは母集団平均μの不偏推定値である．つまり、E(ｘ)=μ E[x ]=μ について i 証明： E[ X ]  E[ 1 1 X i ]  E[ X i ]  n n テキストp.79 式(1) テキストp.82 式(4) 1  E[( X 1  X 2    X n )] n 和の期待値は期待値の和 1  ( E[ X 1 ]  E[ X 2 ]    E[ X n ]) n 1  (       ) 母集団分布に n よらない  18 • 定理２：標本平均ｘの分散は，母集団分散σ２の１/nである．つまり、V(ｘ) = σ2/n 証明： 1 1 V [ X ]  V [  X i ]  2 V [ X i ] n n 無作為抽出な 1  2 V [( X 1  X 2    X n )] ので n 各 Xi は独立 1  2 (V [ X 1 ]  V [ X 2 ]    V [ X n ]) n 1  2 ( 2   2     2 ) n 母集団分布に 1 2   よらない 19 n 定理３：標本分散ｓ２は，母集団分散σ２の不偏推定値である．つまり、E(s2)=σ2 証明：標本分散の期待値の証明白旗慎吾（2008）統計学ミネルヴァ書房．p.141より任意の確率変数Y に関して , V [Y ]  E[Y ]  {E[Y ]} 2 2  E[Y ]  V [Y ]  {E[Y ]} 2 2 X i および X は確率変数なので， E[ X i ]  V [ X i ]  {E[ X i ]}2   2   2 2 E[ X ]  V [ X ]  {E[ X ]}  2 2  2 n  2 20 平均からの偏差平方和を測定の数 n で割った分散を U2，不偏分散を S2 とすると 1 2 E[U ]  E[  X i  X 2 ] n 1 2 2  E[ X 1    X n ]  E[ X 2 ] n 2 1    n  ( 2   2 )  (   2 ) n n n 1 2   n n 2  E[ S ]  E[ U 2]   2 n 1 2 21 点推定の精度（安定性） • 推定値（例えば，標本平均）の期待値が母数（例えば，母集団平均）に一致するとしても，推定値の分散（注意：標本分散ではない）があまり大きいのは困る． – 通常は，標本を１回だけとって推定値を計算するので，それが真の値から大きく外れては困る． – 何度も標本をとって推定値の計算を繰り返したとき，母数のまわりの狭い範囲で変動してほしい． • 標本の大きさを大きくすると精度が上がる． 22 ４．正規母集団での標本平均ｘの分布定理５（テキストp.128）：確率変数 X が平均 μ，分散 σ２の正規分布に従うならば，大きさ n の無作為標本に基づく標本平均は，平均：分散：  1 2  n の正規分布に従う．この平均と分散に関してのみ証明した．正規分布になることの証明は省略（「積率母関数」というものを使って，正規分布の「再生性」を証明するので，入門レベルを超える） 23 標本平均ｘの分布の応用 • 定理５より，母集団分布が正規分布なら，標本平均の分布も正規分布なので，標準正規分布を利用して様々な問題を解くことができる．標本（経験分布）無作為抽出母集団平均：μ 母集団分散：σ２標本平均：ｘ標本分散：s2 母集団（確率分布） σ2  定理５：𝑥 ~ N（μ, ）問題解決  𝑥−μ 標準化： 𝜎/ 𝑛 𝑛 ~ N（0,1） 24 • 例：ｘを成人男子の母集団から無作為に選んだ１人の身長とする．ｘは平均μ=68インチ,標準偏差σ＝３インチの正規分布に従うと仮定する．この分布のグラフは下の図に示してある．過去の経験データから,これらの仮定は全く無理のないものであることがわかっている．その上で問題, この母集団から大きさ n=25 の無作為標本がとられるとき,標本平均ｘが母集団平均μと高々１インチしか違わない確率はいくらか．答え： μ＝６８、 σ＝３、ｎ＝２５ σ２定理５：𝑥 ~ N（μ, ） 𝑛 つまり、ｘは平均68,標準偏差 𝜎 𝑛 = 0.6の正規分布に従う． 25 答え：そして、ｘが区間（67,69）内に落ちる確率を求めるために、標準化公式およびテキストP.295の表IVを利用する． 𝑥−μ 標準化：𝑧 = ~ N（0,1） 𝜎/ 𝑛 𝑃 67 ≤ 𝑥 ≤ 69 表IV：標準正規分布の面積 67 − 𝜇 𝑥 − 𝜇 69 − 𝜇 =𝑃 𝜎 ≤ 𝜎 ≤ 𝜎 𝑛 𝑛 𝑛 5 5 =𝑃 − ≤𝑧≤ 3 3 = 2 × 𝑃 0 ≤ 𝑧 ≤ 1.67 = 2 × 𝑃 0 ≤ 𝑧 ≤ 1.67 = 2 × 𝑃 0 ≤ 𝑧 ≤ 1.67 = 2 × 0.4525 ≈ 0.9 26 ５．非正規母集団での標本平均の分布 • 母集団分布が正規分布でなかったら？ – n が大きければ，定理１と同様の定理が成立する．中心極限定理（central limit theorem）：確率変数 X が平均 μ，分散 σ２のある分布に従うならば，大きさ n の無作為標本に基づく標本平均は，n が無限に大きくなるとき，平均：分散：  1 2  n の正規分布に従う．母集団分布はなんでもよい！ 27 中心極限定理 • 中心極限定理の証明は非常に難しい． • 証明の代わりにシミュレーションをしてみる．章末問題21を使う(prob6_21.xlsx)． – 母集団分布は０から９までが等確率で現れる，離散型の一様分布（uniform distribution） – VBAを利用したprob6_21.xlsmを利用すると，任意の標本の大きさ，任意の標本抽出回数でシミュレーションできる．（授業のホームページからprob6_21.xlsx と VBA prob6_21.xlsmをダウンロードで 28 きる, 各自で確認してください） • 章末問題21 1桁の乱数を10個とり,その標本平均を計算することを10回繰り返す．これら10個の標本平均を分類してヒストグラムをつくり,その平均と標準偏差を求めよ．次に、これらの値を理論値と比較せよ．（補足）母集団分布は０から９までが等確率で現れる，離散型の一様分布の平均と標準偏差はμ＝4.5、 σ＝2.87である． 𝜇 = 𝐸(𝑋) = 𝑥𝑃 𝑋 = 𝑥 = 0 × 0.1 + ⋯ + 9 × 0.1 = 4.5 𝜎2 = 𝑉 𝑋 = 𝐸 𝑋2 − 𝐸 𝑋 = 2 𝑥 2 𝑃 𝑋 = 𝑥 − 4.52 = 02 × 0.1 + ⋯ + 92 × 0.1 − 4.52 = 8.25 ∴ σ＝2.87 29 標本数n=10, 標本抽出回数t=10のとき Excel prob6_21.xlsxによる実験 30 標本数n=20, 標本抽出回数t=50のとき Excel prob6_21.xlsxによる実験 31 標本数n=1000, 標本抽出回数t=100のとき Excel VBA prob6_21.xlsmによる実験考察：標本数を多くすると、得られたヒストグラムは正規分布に近づく 32 注意点 • 実は、標本の大きさは「無限」でなくても，数十でたいていうまくいく．例（テキストp.133例題２）：ある大学の受験生の母集団から無作為に選んだ1人の受験生の評定平均をXとし,Xの分布は平均2.5,標準偏差 0.4であるとする．この母集団から36人の受験生の標本をとり𝑥の値を求めるとき, 𝑥が区間（2.4,2.7）に落ちる確率を求めよ． 33 例：ある大学の受験生の母集団から無作為に選んだ1人の受験生の評定平均をXとし,Xの分布は平均2.5,標準偏差0.4であるとする．この母集団から36人の受験生の標本をとり𝑥の値を求めるとき, 𝑥 が区間（2.4,2.7）に落ちる確率を求めよ．答え：よって、評定平均Xは正規分布をしなくても,大きさ36の標本は十分大きいから,中心極限定理が使える． 𝑥は平均μ＝2.5,標準偏差𝜎 = 標準化𝒁 = 0.4 36 = 0.067の正規分布に従う 𝑿−𝝁 𝝈 従って、P｛2.4＜𝑥＜2.7｝=P{-1.5<z<3.0}=P{0<z<1.5} + P{0<z<3.0} =0.4332+0.4987 = 0.93 34 補足：ド・モアブルーラプラスの定理 • 第５章で学習した２項分布の正規近似は，中心極限定理の特別な場合．  n 回のベルヌーイ試行での成功回数 X は，n が大きいとき，平均 np，分散 npq の正規分布に従う． • 歴史的には，２項分布の場合に発見されたこの性質が，中心極限定理の起源．ド・モアブル―ラプラスの定理（De Moivre-Laplace’s theorem）と呼ばれる．（18世紀） 35 ド・モアブルーラプラスの定理 • １回目のベルヌーイ試行（成功確率 p）での，「成功」回数を表す確率変数 X1 • 母集団の確率分布：P{X1=1} = p, P{X1=0} = q • この確率分布の平均（期待値） E[ X1 ]  1 p  0  q  p • 分散 V [ X 1 ]  E[ X 1 ]  {E[ X 1 ]} 2 2  1  p  0  q  p  p(1  P)  pq 2 2 2 36 ド・モアブルーラプラスの定理 • 大きさ n の無作為標本は， n 回のベルヌーイ試行を意味する．このときの成功回数 X X  X1  X 2   X n • 大きさ n の無作為標本における標本平均は，成功割合 X /n である． • n が大きいとき， X /n は，平均 p，分散 pq/n の正規分布に従う．（中心極限定理） – 成功回数（成功割合の n 倍）は，平均 np，分散 npq の正規分布に従う． 37 まとめ単純無作為抽出無作為抽出標本抽出系統抽出法 2段抽出法有意抽出法紹介法、応募法、出口調査など • 不偏推定値 – 標本平均ｘは、母集団平均μの不偏推定値である． – 標本分散ｓ２（偏差平方和を n – 1 で割る）は，母集団分散σ２の不偏推定値である． – 性質： E(ｘ)=μ V(ｘ) = σ2/n E(s2)=σ2 E(s) ≠ σ • 中心極限定理確率変数 X： E[X]=𝜇, V[X]=σ2 大きさ n の無作為標本に基づく標本平均 𝜎2 𝑥~𝑁(𝜇, ) 𝑛 38 演習問題 • 問題１（章末問題9）：ｘは平均20,標準偏差4の正規分布に従うと仮定して,大きさ 64の標本に基づく標本平均ｘが次の条件を満たす確率を求めよ．（a）21を超える,（b）19.5を超える,（c）19と21の間にある,（d）22を超える． • 問題２（章末問題11、12）：一つの図に,平均10,標準偏差2の正規曲線のグラフと,この分布からの大きさ9の標本に基づく標本平均ｘの分布曲線のグラフを重ねて描いてみよ．次に、標本の大きさが36にすれば, ｘの曲線のグラフはどのようになるか． 39 演習問題 • 問題３（章末問題１３）：小学生1年生の体重の標準偏差が7ポンドであるとき,このような生徒100人の無作為標本の平均体重が1年生全体の平均体重と1ポンド以上異なる確率はいくらか． • 問題４（章末問題１４）：体重の増加をもたらす新しい餌をある種の鶏の母集団から無作為にとった25羽の鶏に与えることにした．1ヶ月後の体重増の標準偏差は約2オンスが期待されるとして,これらの鶏を新しい餌で飼育するとき,1ヶ月後の25羽の体重の平均と全母集団の平均の差が1/2オンス以上になる確率を求めよ． 40 演習問題 • 問題５（章末問題１５）：ある大学での過去5年間の男子新入生の体重の平均は154 ポンドで,標準偏差は20ポンドである．今年の新入生登録名簿の中から選んだ100人の学生の体重の平均が159ポンドであったとすれば,今年の新入生の体重は例年の新入生の体重より重いといってよいか．理由をつけて答えよ．注意点：１．詳細な答えをレポート用紙に書いてください。結果だけは不可。２．レポートに表紙を付けてください名前と学籍番号をご記入のうえ、レポート用紙（A4）を提出する。提出先：工学部大学院棟７階締め切り時間： NO.７７０８室のドアのポストに入れてください来週月曜日（６月２２日）午後５時まで 41