富山大学知能情報工学科「統計学」第９回ホーエル『初等統計学』第７章１節～３節推定（１）高尚策（コウショウサク）准教授 Email: [email protected] 前回の復習単純無作為抽出無作為抽出標本抽出系統抽出法 2段抽出法有意抽出法紹介法、応募法、出口調査など • 不偏推定値 – 標本平均ｘは、母集団平均μの不偏推定値である． – 標本分散ｓ２（偏差平方和を n – 1 で割る）は，母集団分散σ２の不偏推定値である． – 性質： E(ｘ)=μ V(ｘ) = σ2/n E(s2)=σ2 E(s) ≠ σ • 中心極限定理確率変数 X： E[X]=𝜇, V[X]=σ2 大きさ n の無作為標本に基づく標本平均 𝜎2 𝑥~𝑁(𝜇, ) 𝑛 表IV：標準正規分布の面積（P.295） P{0≦Z≦z} 表の中の数字は z=0からzの正値までの曲線下の部分の面積である. zの負値に対する面積は対称性を利用して求めばよい．前回の演習問題の答え • 問題１（章末問題9）：ｘは平均20,標準偏差4の正規分布に従うと仮定して,大きさ 64の標本に基づく標本平均ｘが次の条件を満たす確率を求めよ．（a）21を超える,（b）19.5を超える,（c）19と21の間にある,（d）22を超える．答え： 𝑋~𝑁 𝜇, 𝜎 2 = 𝑁 20, 42 つまり、 𝜇 = 20, 𝜎 = 4 大きさ64の標本は十分大きいから,中心極限定理が使える. 𝜎2 よって、 𝑥~𝑁(𝜇, ) 𝑛 𝑥は平均μ＝20,標準偏差 4 64 = 0.5の正規分布に従う、𝑥~𝑁(20, 0.52 ) • 問題１（章末問題9）： 𝑥~𝑁(20, 0.52 ) 標準化 : Z  X   𝑥 − 20 𝑧= ~𝑁(0,1) 0.5 （a）21を超える確率： 𝑃 𝑥 > 21 = 𝑃 𝑥 − 20 21 − 20 > = 𝑃 𝑧 > 2 = 0.5 − 𝑃 0 ≤ 𝑧 ≤ 2 = 0.5 − 0.4772 ≈ 0.02 0.5 0.5 （b）19.5を超える確率： 𝑥 − 20 19.5 − 20 > = 𝑃 𝑧 > −1 = 0.5 + 𝑃 −1 ≤ 𝑧 ≤ 0 0.5 0.5 = 0.5 + 𝑃 0 ≤ 𝑧 ≤ 1 = 0.5 + 0.3413 ≈ 0.84 𝑃 𝑥 > 19.5 = 𝑃 （c）19と21の間にある確率： 𝑃 19 ≤ 𝑥 ≤ 21 = 𝑃 19 − 20 𝑥 − 20 21 − 20 ≤ ≤ = 𝑃 −2 ≤ 𝑧 ≤ 2 = 2 × 𝑃 0 ≤ 𝑧 ≤ 2 0.5 0.5 0.5 = 2 × 0.4772 ≈ 0.95 • 問題１（章末問題9）： 𝑥~𝑁(20, 0.52 ) 標準化 : Z  X   𝑥 − 20 𝑧= ~𝑁(0,1) 0.5 （d）22を超える確率： 𝑥 − 20 22 − 20 𝑃 𝑥 > 22 = 𝑃 > = 𝑃 𝑧 > 4 = 0.5 − 𝑃 0 ≤ 𝑧 ≤ 4 0.5 0.5 > 0.5 − 𝑃 0 ≤ 𝑧 ≤ 3.09 = 0.5 − 0.4990 ≈ 0.00 前回の演習問題の答え • 問題２（章末問題11、12）：一つの図に,平均10,標準偏差2の正規曲線のグラフと,この分布からの大きさ9の標本に基づく標本平均ｘの分布曲線のグラフを重ねて描いてみよ．次に、標本の大きさが36にすれば, ｘの曲線のグラフはどのようになるか．答え： 𝑋~𝑁 𝜇, 𝜎 2 = 𝑁 10, 22 大きさn1=9の標本に基づく標本平均 𝜎2 2 2 𝑥1 ~𝑁 𝜇, = 𝑁(10, ( ) ) 𝑛1 3 大きさn2=36の標本に基づく標本平均 𝜎2 2 2 𝑥2 ~𝑁 𝜇, = 𝑁(10, ( ) ) 𝑛2 6 答え： 2 2 𝑥2 ~𝑁(10, ( ) ) 6 2 2 𝑥1 ~𝑁(10, ( ) ) 3 𝑋~𝑁 10, 22 • 大きさ9の標本に基づく標本平均𝒙𝟏 の分布曲線は元のXの曲線に比べて、高さは３倍で、広がりは約１/３になる． • 大きさ36の標本に基づく標本平均𝒙2 の分布曲線は元のXの曲線に比べて、高さは６倍で、広がりは約１/６になる, 𝒙𝟏 の曲線に比べて、高さは２倍で、広がりは約１/２になる．前回の演習問題の答え • 問題３（章末問題１３）：小学生1年生の体重の標準偏差が7ポンドであるとき,このような生徒100人の無作為標本の平均体重が1年生全体の平均体重と1ポンド以上異なる確率はいくらか．答え： 1年生の体重の確率変数をX, 平均をμ, 標準偏差を𝜎 = 7とする．大きさ100の標本は十分大きいから,中心極限定理が使える. 𝜎2 7 2 よって、無作為標本の平均体重 𝑥~𝑁 𝜇, = 𝑁(𝜇, ( ) ) 𝑛 10 X  標準化 : Z  𝑥−𝜇  𝑧= ~𝑁(0,1) 0.7 𝑃 𝑥−𝜇 >1 =1−𝑃 𝑥−𝜇 ≤1 =1−2×𝑃 0≤𝑥−𝜇 ≤1 𝑥−𝜇 1 =1−2×𝑃 0≤ ≤ = 1 − 2 × 𝑃 0 ≤ 𝑧 ≤ 1.43 0.7 0.7 = 1 − 2 × 0.4236 ≈ 0.15 • 問題４（章末問題１４）：体重の増加をもたらす新しい餌をある種の鶏の母集団から無作為にとった25羽の鶏に与えることにした．1ヶ月後の体重増の標準偏差は約2オンスが期待されるとして,これらの鶏を新しい餌で飼育するとき,1ヶ月後の25羽の体重の平均と全母集団の平均の差が1/2オンス以上になる確率を求めよ．答え：体重増の確率変数をX, 平均をμ, 標準偏差を𝜎 = 2とする．大きさ25の標本は十分大きいから,中心極限定理が使える. 2 𝜎 2 2 よって、 1ヶ月後の25羽の体重の平均 𝑥~𝑁 𝜇, = 𝑁(𝜇, ( ) ) 𝑛 5 X  標準化 : Z  𝑥−𝜇  𝑧= ~𝑁(0,1) 0.4 𝑃 1 1 1 =1−𝑃 𝑥−𝜇 ≤ =1−2×𝑃 0≤𝑥−𝜇 ≤ 2 2 2 𝑥−𝜇 1 =1−2×𝑃 0≤ ≤ = 1 − 2 × 𝑃 0 ≤ 𝑧 ≤ 1.25 0.4 0.8 = 1 − 2 × 0.3944 ≈ 0.21 𝑥−𝜇 > • 問題５（章末問題１５）：ある大学での過去5年間の男子新入生の体重の平均は154ポンドで,標準偏差は20ポンドである．今年の新入生登録名簿の中から選んだ100人の学生の体重の平均が159ポンドであったとすれば,今年の新入生の体重は例年の新入生の体重より重いといってよいか．理由をつけて答えよ．答え：男子新入生の体重の確率変数をX, 平均をμ = 154, 標準偏差を𝜎 = 20とする．大きさ100の標本は十分大きいから,中心極限定理が使える. よって、選んだ100人の体重の平均 𝜎2 20 2 𝑥~𝑁 𝜇, = 𝑁(154, ( ) ) 𝑛 10 標準化 : Z  X   𝑥 − 154 𝑧= ~𝑁(0,1) 2 𝜎2 20 2 選んだ100人の体重の平均 𝑥~𝑁 𝜇, = 𝑁(154, ( ) ) 𝑛 10 𝑥 − 154 𝑧= ~𝑁(0,1) 2 理論的に、今年選んだ100人の体重の平均𝑥は例年の新入生の体重の平均μ = 154ポンとを４．９ポンドを超える確率は、 𝑃 𝑥 − 154 > 4.9 = 0.5 − 𝑃 0 ≤ 𝑥 − 154 ≤ 4.9 𝑥 − 154 4.9 = 0.5 − 𝑃 0 ≤ ≤ 2 2 = 0.5 − 𝑃 0 ≤ 𝑧 ≤ 2.45 = 0.5 − 0.4929 = 0.0071 つまり、一般的には今年選んだ100人の体重の平均𝑥が例年の平均を４．９ポンドを超える確率は極めて低い. 実際に、今年の体重の平均は例年の平均より５ポンド重くなっている．それゆえ、重いように思われる．本日の内容 • 統計的推定 – 点推定 – 区間推定 • 母集団平均𝜇の推定 • 近似統計的推定：標本調査と推測統計の概念図：平均の推定の場合標本抽出データ収集 x1 x2  xn 標本集計母集団母集団の平均：μ 標本の平均： x ２つの値は同じではない推定：母集団の母数（平均値など）の値をいいあてること推定量の性質 • 母数（parameter）：母集団の確率分布を特徴づける特性値． – 正規分布における平均μと分散σ２ – ２項分布における試行数ｎと成功確率ｐ • 推定量(Estimator) = 母数の推定に用いる標本統計量：ｘ（標本平均）や s2 (標本分散)など 1) 不偏性(Unbiasedness) … 持っていれば好ましい性質（持たない重要推定量も多い）推定量の期待値が母数になること。 1 n  E[ X ]  E   X i     n i 1  n 1  2 2 2   E[ S ]  E  X  X    i  n  1 i 1   2) 一致性(Consistency) … 持っている必要がある性質観測個数(標本サイズ) n ⇒ ∞ 推定量 ⇒ 母数の一点に確率収束例：大数の法則により標本平均：母集団平均 μ に確率収束標本分散：母集団分散 σ2 に確率収束 ※理論母集団分布には、収束しないものもある。 3) 最小分散性、漸近的正規性など良い推定量を調べる分野 … 推定理論 • 統計的推測１．点推定と区間推定 – 標本から得られる情報を基に、母集団に関する結論を導き出すこと – 標本に関する結論を出すことが目的ではない！ • 母数を推定する方法は？ – 点推定（point estimate）： 標本から計算される統計量を推定値とする（標本平均は母集団平均の推定値） → 第６章で学習済み  １つの数字での推定   一番もっともらしい数字を選ぶ標準誤差等により推定精度を評価 Q) その母数推定精度はどのくらい？ A) 『標準誤差○○○』 – 区間推定（interval estimate） → 今日の学習『母平均 μ は 95% の確からしさで、標本平均値 ○○ ±○○○ の範囲にある』と言った統計的推論の形式。点推定の考え方  理論構築上は、最大尤度推定法が一般的ただし、多くの場合直感的な推定方法である  基本：母集団での計算方法と同じ計算を標本で行う  母集団の平均𝝁を推定する場合は、標本について平均𝒙を計算する 𝑛 注意： 1 𝟐 𝟐 (𝑥𝑖 − 𝑥)2  分散𝝈 の推定の場合は、 𝑺 = 𝑛−1  𝑖=1  nで割る推定値も考えられるが、慣例としてn-1で割る分散を用いることが多い。n-1で割る分散は、不偏な推定である。区間推定 • 区間推定（interval estimate）：母数（例えば， μ）の点推定値（例えば，標本平均）のまわりに「区間」を構成． • 「この区間は，確率 α （例：0.95）で，母数を含む」という言及を行う． • この区間のことを信頼区間（confidence interval）と呼ぶ．CI と略記される．区間推定の利点 • 点推定と異なり，推定の精度を明示している． • 点推定でも，標本の大きさ n によって，推定の精度はわかる． 1 2 xの分散は　 n 中心極限定理 • しかし，ひとつの推定値を述べるだけの点推定は，この精度について言及していない． • 区間推定では，点推定で背後に隠れていた精度情報を，積極的に活用する．２．母集団平均の推定例（テキストP.137）：ビタミンCの錠剤の生産者は、製造後自社製品の品質検査を予定している。過去の経験から、与えられた仕切りでの錠剤のビタミンC含有量はほぼ正規分布に従うことが分かっていた。仕切りのビタミンC平均含有量は仕切りごとに変化するが、標準偏差は平均値に関係なくどの仕切りも大体一定で、その値は𝜎 = 20 であることも分かっていた。仕切りのビタミンC平均含有量があまり低いとこの仕切りを売るわけにはいかないから、仕切り平均の正確な推定値を得ることは生産者にとって重要な問題である。そこで新しい仕切りの平均含有量を推定するため、生産工程から25個の錠剤の無作為標本をとって検査した結果、標本の平均ビタミンC含有量として𝑥 = 260を得た。これらのデータと先ほど得た情報を用いて、２種類の推定問題を解いてみよう。 • 仕切りとは、ほぼ同質な一定量の原材料を用い,同一の生産条件のもとで作られた製品の集まりをさす．問題１． x=260は仕切り平均uの点推定値としてどの程度正確であるか． • 点推定値は標本平均 x  260 • 標準偏差20の正規分布からの，大きさ25の標本だから，点推定値である標本平均の分散は， 1 2 1   (20) 2 n 25 中心極限定理 • 標本平均の標準偏差は， 1   20  4 n 25 𝝈 標本平均の標準誤差（standard error）：平均値の標本分布の標 𝒏 準偏差のこと問題２．大きさ２５の最初の標本に基づき𝜇の𝛼 =95%信頼区間を求めよ． • 標準正規分布𝑁(0,1)では，-1.96 から 1.96 の範囲にある値が出現する確率は0.95である．  標準正規分布表（テキストp.295）で，𝑧0 =1.96 の数値を読むと，0.4750  𝑃(−𝑧0 ≤ 𝑍 ≤ 𝑧0 )=P{-1.96≦Z≦+1.96} = 0.4750 × 2 = 0.95 𝛼 =95%の確率で -3 -2 −𝑧0 =-1.96 -1 0 1 2 3 𝑧0 =1.96 信頼限界（confidence limit）：信頼区間の上限（−𝑧0 ）および下限値（𝑧0 ）のこと. 𝛼：信頼水準問題２．大きさ２５の最初の標本に基づき𝜇の𝛼 =95%信頼区間を求めよ．数式による導出  X   P Z ≦ zo   P  ≦ zo   / n   標準化された分布    P z  / n ≦   X ≦ z  / n   P X  z  / n ≦  ≦ X  z  / n   P   X ≦ zo / n o o o o =𝛼 正規分布では，「平均±𝑧0 ×標準誤差」の範囲にある値が出現する確率は𝛼である．母集団平均の推定定理：母集団平均 μ の信頼水準𝜶の信頼区間（母集団分散は既知の場合）は 𝝈 𝝁 = 𝒙 ± 𝒛𝟎 𝒏 ここで、 𝛼確率で 𝑥は標本平均 nは標本サイズ 𝜎は母集団の標準偏差 −𝑧0 [−𝑧0 , 𝑧0 ]は標準正規分布の中央𝜶区間 -3 -2 -1 0 1 2 𝑧0 3 問題２．大きさ２５の最初の標本に基づき𝜇の𝛼 =95%信頼区間を求めよ． • ひとつの標本から得られた標本平均の周りに， 𝝈 同じ幅（±1.96× ）の区間を構成すれば，こ 𝒏 の区間が真の平均を含む確率は 0.95 である．つまり、 𝝈 𝝈 𝑃(𝒙 − 𝒛𝟎 ≤ 𝝁 ≤ 𝒙 + 𝒛𝟎 ) 𝒏 𝒏  P{x  1.96  4    x  1.96  4}  P{260  1.96  4    260  1.96  4}  0.95 𝜇の𝛼 =95%信頼区間は[252, 268]である．母集団平均の信頼区間の公式 90%確率のとき、𝑧0 = 1.645 95%確率のとき、𝑧0 = 1.96 99%確率のとき、𝑧0 = 2.58 公式１公式２公式３信頼水準90%信頼区間 x  1.645 信頼水準95%信頼区間 x  1.96  n  n 信頼水準99%信頼区間 x  2.58  n • 信頼区間を大きくすれば「はずれ」の確率は小さくなるが，大きすぎる信頼区間は意味がない．n を大きくすると区間を小さくできる例小学6年生の身長の分布：過去の経験から σ = 7 cm。 n = 25 人の標本を取り、標本平均 146 cm が得られた。 a) μ に関する 95% 信頼区間、 b) μ に関する 90% 信頼区間を求めよ。 a) 中央 95% ( β = 0.95 ) ⇒ 標準正規分布上の点: zo ≒ 1.96 μ に関する 95%信頼区間  7   x  zo  146 1.96  146 2.744 (cm) n 25 b) 中央 90% ( β = 0.9 ) ⇒ zo ≒ 1.645 μ に関する 90%信頼区間  7   x  zo  146 1.645  146 2.303 (cm) n 25 ３．近似 • 確率変数 X の母集団分布が正規分布でなくても，標本の大きさが大きい場合（目安として，25以上）には，まったく同じ方法を使うことができる． – 標本平均の分布は（近似的に）正規分布であるため．母集団分散が未知の場合 • ここまでの説明で，母集団分散は既知だった． – よって，信頼区間を具体的に計算できた． • しかし，実際には母集団分散は未知の場合がほとんどのはず．どうするのか？ • 大標本法（large sample method）：標本の大きさが大きい場合（目安として，25以上）には，標本での標準偏差 s は母集団の標準偏差 σ とあまり変わらないはず．代用する．  1 2 s ( x  x )  i n 1 95%の確率で   x  1.96    x  1.96 n n  は未知なので、標本から計算される標準偏差 s で置き換える s s x  1.96    x  1.96 n n • 例（テキストP.143）：ある学校で100人の生徒の無作為標本が選ばれ, これら生徒の知能指数を決める知能テストが行われた．テストの結果 100人の生徒の知能指数が決まり,それから標本値 𝑥 = 112, 𝑠 = 11 が求められた．これらの標本値を基にして,この学校の全生徒の平均知能指数に対する95%信頼区間を求めよ．答え：従って、全生徒の分散が未知、且つ、標本のサイズは25以上であることから、大標本法を使える． s s x  1.96    x  1.96 n n 95%信頼区間は 109.8 ≤ 𝜇 ≤ 114.2 スチューデントの t 分布 • 標本の大きさが小さい（目安として，25に満たない）場合はどうするのか？ • 母集団が正規分布であれば，正規分布を利用した区間推定のかわりに，スチューデントの t 分布（Student’s t distribution）を用いた区間推定を行うことができる． – t 分布は，正規分布から抽出された標本から計算される，t 統計量の分布である． • この分布を用いた区間推定は次週の講義で． • 定義式は，標本平均の標準化の公式において，σ を s にかえたもの． x t n s • スチューデントの t 分布：正規分布に従う母集団から標本をとってt 値を計算することを何度も繰り返したときの，t 値の分布．用語についてのまとめ 𝜎 • 標本平均の標準誤差（standard error）： 𝑛 平均値の標本分布の標準偏差のこと． • 推定値の誤差（error of estimate）： 𝜇 − 𝑥 標本平均と母平均の差の大きさのこと． • 信頼限界（confidence limit）： [−𝑧0 , 𝑧0 ] 信頼区間の上限および下限値のこと. • 信頼水準（confidence level）： 𝛼 関係： 𝜎 𝜎 𝑃 𝑥 − 𝑧0 ≤ 𝜇 ≤ 𝑥 + 𝑧0 =𝛼 𝑛 𝑛 本日のまとめ • 統計的推定 – 点推定（標本平均𝑥と標準誤差 𝜎 ） 𝑛 – 区間推定（信頼水準𝛼と信頼区間[−𝑧0 , 𝑧0 ]） • 母集団平均𝜇の推定理論的には 95%の確率で x  1. 96  n    x  1. 96 信頼水準95%の信頼区間 s s x  1. 96    x  1. 96 n n  n 実際の計算では（大標本法） 1 2 s  ( xi  x ) n 1 2 演習問題 • 問題１過去の経験によれば,小学校5年生の身長の標準偏差は2インチであるという．25人の5年生の無作為標本をとってその身長を測定するとき,実験の結果から,𝑥 = 54インチが得られたとして, （a）母集団平均𝜇に対する95%信頼区間, （b）𝜇に対する90%信頼区間をもとめよ． • 問題２大きさ100の標本から、𝑥 = 40, 𝑠 = 6を得たとき,どれくらいの確率で、𝑥が真の平均値より１単位以上違うことはないと保障できるか．演習問題 • 問題３ある型の自動車の走行距離を推定するため,その型の車30 台を標本に選び,1台ずつテストを行った．30台の走行距離の平均と標準偏差がそれぞれ19.6マイルと0.7マイルになったとして,この型の車の平均走行距離に対する90％信頼区間を求めよ．注意点：１．詳細な答えをレポート用紙に書いてください。結果だけは不可。２．レポートに表紙を付けてください名前と学籍番号をご記入のうえ、レポート用紙（A4）を提出する。提出先：工学部大学院棟７階締め切り時間： NO.７７０８室のドアのポストに入れてください来週月曜日（６月２９日）午後５時まで