富山大学知能情報工学科 「統計学」第9回 ホーエル『初等統計学』 第7章1節~3節 推定(1) 高 尚策 (コウ ショウサク) 准教授 Email: [email protected] 前回の復習 単純無作為抽出 無作為抽出 標本抽出 系統抽出法 2段抽出法 有意抽出法 紹介法、応募法、出口調査など • 不偏推定値 – 標本平均x は、母集団平均μの不偏推定値である. – 標本分散s2 (偏差平方和を n – 1 で割る)は,母集団分散σ2 の不偏推定値である. – 性質: E(x)=μ V(x) = σ2/n E(s2)=σ2 E(s) ≠ σ • 中心極限定理 確率変数 X: E[X]=𝜇, V[X]=σ2 大きさ n の無作為標本に基づく標本平均 𝜎2 𝑥~𝑁(𝜇, ) 𝑛 表IV: 標準正規 分布の 面積 (P.295) P{0≦Z≦z} 表の中の 数字は z=0からzの 正値までの 曲線下の 部分の面 積である. zの負値に 対する面積 は対称性を 利用して 求めばよい. 前回の演習問題の答え • 問題1(章末問題9): xは平均20,標準偏差4の正規分布に従うと仮定して,大きさ 64の標本に基づく標本平均xが次の条件を満たす確率を求 めよ.(a)21を超える,(b)19.5を超える,(c)19と21の間にあ る,(d)22を超える. 答え: 𝑋~𝑁 𝜇, 𝜎 2 = 𝑁 20, 42 つまり、 𝜇 = 20, 𝜎 = 4 大きさ64の標本は十分大きいから,中心極限定理が使える. 𝜎2 よって、 𝑥~𝑁(𝜇, ) 𝑛 𝑥は平均μ=20,標準偏差 4 64 = 0.5の正規分布に従う、𝑥~𝑁(20, 0.52 ) • 問題1(章末問題9): 𝑥~𝑁(20, 0.52 ) 標準化 : Z X 𝑥 − 20 𝑧= ~𝑁(0,1) 0.5 (a)21を超える確率: 𝑃 𝑥 > 21 = 𝑃 𝑥 − 20 21 − 20 > = 𝑃 𝑧 > 2 = 0.5 − 𝑃 0 ≤ 𝑧 ≤ 2 = 0.5 − 0.4772 ≈ 0.02 0.5 0.5 (b)19.5を超える確率: 𝑥 − 20 19.5 − 20 > = 𝑃 𝑧 > −1 = 0.5 + 𝑃 −1 ≤ 𝑧 ≤ 0 0.5 0.5 = 0.5 + 𝑃 0 ≤ 𝑧 ≤ 1 = 0.5 + 0.3413 ≈ 0.84 𝑃 𝑥 > 19.5 = 𝑃 (c)19と21の間にある確率: 𝑃 19 ≤ 𝑥 ≤ 21 = 𝑃 19 − 20 𝑥 − 20 21 − 20 ≤ ≤ = 𝑃 −2 ≤ 𝑧 ≤ 2 = 2 × 𝑃 0 ≤ 𝑧 ≤ 2 0.5 0.5 0.5 = 2 × 0.4772 ≈ 0.95 • 問題1(章末問題9): 𝑥~𝑁(20, 0.52 ) 標準化 : Z X 𝑥 − 20 𝑧= ~𝑁(0,1) 0.5 (d)22を超える確率: 𝑥 − 20 22 − 20 𝑃 𝑥 > 22 = 𝑃 > = 𝑃 𝑧 > 4 = 0.5 − 𝑃 0 ≤ 𝑧 ≤ 4 0.5 0.5 > 0.5 − 𝑃 0 ≤ 𝑧 ≤ 3.09 = 0.5 − 0.4990 ≈ 0.00 前回の演習問題の答え • 問題2 (章末問題11、12) : 一つの図に,平均10,標準偏差2の正規曲線のグラフと,この 分布からの大きさ9の標本に基づく標本平均xの分布曲線 のグラフを重ねて描いてみよ.次に、標本の大きさが36にす れば, xの曲線のグラフはどのようになるか. 答え: 𝑋~𝑁 𝜇, 𝜎 2 = 𝑁 10, 22 大きさn1=9の標本に基づく標本平均 𝜎2 2 2 𝑥1 ~𝑁 𝜇, = 𝑁(10, ( ) ) 𝑛1 3 大きさn2=36の標本に基づく標本平均 𝜎2 2 2 𝑥2 ~𝑁 𝜇, = 𝑁(10, ( ) ) 𝑛2 6 答え: 2 2 𝑥2 ~𝑁(10, ( ) ) 6 2 2 𝑥1 ~𝑁(10, ( ) ) 3 𝑋~𝑁 10, 22 • 大きさ9の標本に基づく標本平均𝒙𝟏 の分布曲線は元のXの曲線 に比べて、高さは3倍で、広がりは約1/3になる. • 大きさ36の標本に基づく標本平均𝒙2 の分布曲線は 元のXの曲線に比べて、高さは6倍で、広がりは約1/6になる, 𝒙𝟏 の曲線に比べて、高さは2倍で、広がりは約1/2になる. 前回の演習問題の答え • 問題3(章末問題13): 小学生1年生の体重の標準偏差が7ポンドであるとき,このよ うな生徒100人の無作為標本の平均体重が1年生全体の平 均体重と1ポンド以上異なる確率はいくらか. 答え: 1年生の体重の確率変数をX, 平均をμ, 標準偏差を𝜎 = 7とする. 大きさ100の標本は十分大きいから,中心極限定理が使える. 𝜎2 7 2 よって、無作為標本の平均体重 𝑥~𝑁 𝜇, = 𝑁(𝜇, ( ) ) 𝑛 10 X 標準化 : Z 𝑥−𝜇 𝑧= ~𝑁(0,1) 0.7 𝑃 𝑥−𝜇 >1 =1−𝑃 𝑥−𝜇 ≤1 =1−2×𝑃 0≤𝑥−𝜇 ≤1 𝑥−𝜇 1 =1−2×𝑃 0≤ ≤ = 1 − 2 × 𝑃 0 ≤ 𝑧 ≤ 1.43 0.7 0.7 = 1 − 2 × 0.4236 ≈ 0.15 • 問題4 (章末問題14) : 体重の増加をもたらす新しい餌をある種の鶏の母集団から無作 為にとった25羽の鶏に与えることにした.1ヶ月後の体重増の標 準偏差は約2オンスが期待されるとして,これらの鶏を新しい餌で 飼育するとき,1ヶ月後の25羽の体重の平均と全母集団の平均の 差が1/2オンス以上になる確率を求めよ. 答え: 体重増の確率変数をX, 平均をμ, 標準偏差を𝜎 = 2とする. 大きさ25の標本は十分大きいから,中心極限定理が使える. 2 𝜎 2 2 よって、 1ヶ月後の25羽の体重の平均 𝑥~𝑁 𝜇, = 𝑁(𝜇, ( ) ) 𝑛 5 X 標準化 : Z 𝑥−𝜇 𝑧= ~𝑁(0,1) 0.4 𝑃 1 1 1 =1−𝑃 𝑥−𝜇 ≤ =1−2×𝑃 0≤𝑥−𝜇 ≤ 2 2 2 𝑥−𝜇 1 =1−2×𝑃 0≤ ≤ = 1 − 2 × 𝑃 0 ≤ 𝑧 ≤ 1.25 0.4 0.8 = 1 − 2 × 0.3944 ≈ 0.21 𝑥−𝜇 > • 問題5(章末問題15): ある大学での過去5年間の男子新入生の体重の平均は154ポン ドで,標準偏差は20ポンドである.今年の新入生登録名簿の中か ら選んだ100人の学生の体重の平均が159ポンドであったとすれ ば,今年の新入生の体重は例年の新入生の体重より重いといっ てよいか.理由をつけて答えよ. 答え: 男子新入生の体重の確率変数をX, 平均をμ = 154, 標準偏差を𝜎 = 20とする. 大きさ100の標本は十分大きいから,中心極限定理が使える. よって、選んだ100人の体重の平均 𝜎2 20 2 𝑥~𝑁 𝜇, = 𝑁(154, ( ) ) 𝑛 10 標準化 : Z X 𝑥 − 154 𝑧= ~𝑁(0,1) 2 𝜎2 20 2 選んだ100人の体重の平均 𝑥~𝑁 𝜇, = 𝑁(154, ( ) ) 𝑛 10 𝑥 − 154 𝑧= ~𝑁(0,1) 2 理論的に、今年選んだ100人の体重の平均𝑥は例年の新入生 の体重の平均μ = 154ポンとを4.9ポンドを超える確率は、 𝑃 𝑥 − 154 > 4.9 = 0.5 − 𝑃 0 ≤ 𝑥 − 154 ≤ 4.9 𝑥 − 154 4.9 = 0.5 − 𝑃 0 ≤ ≤ 2 2 = 0.5 − 𝑃 0 ≤ 𝑧 ≤ 2.45 = 0.5 − 0.4929 = 0.0071 つまり、一般的には今年選んだ100人の体重の平均𝑥が例年の平 均を4.9ポンドを超える確率は極めて低い. 実際に、今年の体重の平均は例年の平均より5ポンド重くなって いる. それゆえ、重いように思われる. 本日の内容 • 統計的推定 – 点推定 – 区間推定 • 母集団平均𝜇の推定 • 近似 統計的推定: 標本調査と推測統計の概念図:平均の推定の場合 標本抽出 データ収集 x1 x2 xn 標本 集計 母集団 母集団の平均:μ 標本の平均: x 2つの値は同じではない 推定:母集団の母数(平均値など)の値をいいあてること 推定量の性質 • 母数(parameter):母集団の確率分布を特徴づける特 性値. – 正規分布における平均μと分散σ2 – 2項分布における試行数nと成功確率p • 推定量(Estimator) = 母数の推定に用いる標本統計量: x (標本平均)や s2 (標 本分散)など 1) 不偏性(Unbiasedness) … 持っていれば 好ましい性質(持たない重要推定量も多い) 推定量の期待値が母数になること。 1 n E[ X ] E X i n i 1 n 1 2 2 2 E[ S ] E X X i n 1 i 1 2) 一致性(Consistency) … 持っている必要がある性質 観測個数(標本サイズ) n ⇒ ∞ 推定量 ⇒ 母数の一点に確率収束 例:大数の法則により 標本平均:母集団平均 μ に確率収束 標本分散:母集団分散 σ2 に確率収束 ※理論母集団分布には、収束しないものもある。 3) 最小分散性、漸近的正規性など 良い推定量を調べる分野 … 推定理論 • 統計的推測 1.点推定と区間推定 – 標本から得られる情報を基に、母集団に関する結論を導 き出すこと – 標本に関する結論を出すことが目的ではない! • 母数を推定する方法は? – 点推定(point estimate): 標本から計算される統計量を推定値とする(標本平均は母 集団平均の推定値) → 第6章で学習済み 1つの数字での推定 一番もっともらしい数字を選ぶ 標準誤差等により推定精度を評価 Q) その母数推定精度はどのくらい? A) 『標準誤差○○○』 – 区間推定(interval estimate) → 今日の学習 『母平均 μ は 95% の確からしさで、 標本平均値 ○○ ±○○○ の範囲 にある』と言った統計的推論の形式。 点推定の考え方 理論構築上は、最大尤度推定法が一般的 ただし、多くの場合直感的な推定方法である 基本:母集団での計算方法と同じ計算を標本で行う 母集団の平均𝝁を推定する場合は、標本について平均𝒙を 計算する 𝑛 注意: 1 𝟐 𝟐 (𝑥𝑖 − 𝑥)2 分散𝝈 の推定の場合は、 𝑺 = 𝑛−1 𝑖=1 nで割る推定値も考えられるが、慣例としてn-1で割る分散 を用いることが多い。n-1で割る分散は、不偏な推定である。 区間推定 • 区間推定(interval estimate):母数(例えば, μ)の点推定値(例えば,標本平均)のまわり に「区間」を構成. • 「この区間は,確率 α (例:0.95)で,母数を含 む」という言及を行う. • この区間のことを信頼区間(confidence interval)と呼ぶ.CI と略記される. 区間推定の利点 • 点推定と異なり,推定の精度を明示している. • 点推定でも,標本の大きさ n によって,推定の精 度はわかる. 1 2 xの分散は n 中心極限定理 • しかし,ひとつの推定値を述べるだけの点推定 は,この精度について言及していない. • 区間推定では,点推定で背後に隠れていた精度 情報を,積極的に活用する. 2.母集団平均の推定 例(テキストP.137): ビタミンCの錠剤の生産者は、製造後自社製品の品質検査を 予定している。過去の経験から、与えられた仕切りでの錠剤のビ タミンC含有量はほぼ正規分布に従うことが分かっていた。仕切り のビタミンC平均含有量は仕切りごとに変化するが、標準偏差は 平均値に関係なくどの仕切りも大体一定で、その値は𝜎 = 20 であることも分かっていた。 仕切りのビタミンC平均含有量があまり低いとこの仕切りを売 るわけにはいかないから、仕切り平均の正確な推定値を得ること は生産者にとって重要な問題である。 そこで新しい仕切りの平均含有量を推定するため、生産工程 から25個の錠剤の無作為標本をとって検査した結果、標本の平 均ビタミンC含有量として𝑥 = 260を得た。これらのデータと先ほ ど得た情報を用いて、2種類の推定問題を解いてみよう。 • 仕切りとは、ほぼ同質な一定量の原材料を用い,同一の生産条件のもとで作ら れた製品の集まりをさす. 問題1. x=260は仕切り平均uの点推定値としてどの程度正確で あるか. • 点推定値は標本平均 x 260 • 標準偏差20の正規分布からの,大きさ25の 標本だから,点推定値である標本平均の分 散は, 1 2 1 (20) 2 n 25 中心極限定理 • 標本平均の標準偏差は, 1 20 4 n 25 𝝈 標本平均の標準誤差(standard error) :平均値の標本分布の標 𝒏 準偏差のこと 問題2. 大きさ25の最初の標本に基づき𝜇の𝛼 =95%信頼区間を 求めよ. • 標準正規分布𝑁(0,1)では,-1.96 から 1.96 の範囲にあ る値が出現する確率は0.95である. 標準正規分布表(テキストp.295)で,𝑧0 =1.96 の数値を読む と,0.4750 𝑃(−𝑧0 ≤ 𝑍 ≤ 𝑧0 )=P{-1.96≦Z≦+1.96} = 0.4750 × 2 = 0.95 𝛼 =95%の確率で -3 -2 −𝑧0 =-1.96 -1 0 1 2 3 𝑧0 =1.96 信頼限界(confidence limit):信頼区間の 上限(−𝑧0 )および下限値(𝑧0 )のこと. 𝛼:信頼水準 問題2. 大きさ25の最初の標本に基づき𝜇の𝛼 =95%信頼区間を 求めよ. 数式による導出 X P Z ≦ zo P ≦ zo / n 標準化された分布 P z / n ≦ X ≦ z / n P X z / n ≦ ≦ X z / n P X ≦ zo / n o o o o =𝛼 正規分布では,「平均±𝑧0 ×標準誤差」の範囲にある値 が出現する確率は𝛼である. 母集団平均の推定 定理: 母集団平均 μ の信頼水準𝜶の信頼区間 (母集団分散は既知の場合)は 𝝈 𝝁 = 𝒙 ± 𝒛𝟎 𝒏 ここで、 𝛼確率で 𝑥は標本平均 nは標本サイズ 𝜎は母集団の標準偏差 −𝑧0 [−𝑧0 , 𝑧0 ]は標準正規分布の中央𝜶区間 -3 -2 -1 0 1 2 𝑧0 3 問題2. 大きさ25の最初の標本に基づき𝜇の𝛼 =95%信頼区間を 求めよ. • ひとつの標本から得られた標本平均の周りに, 𝝈 同じ幅(±1.96× )の区間を構成すれば,こ 𝒏 の区間が真の平均を含む確率は 0.95 である. つまり、 𝝈 𝝈 𝑃(𝒙 − 𝒛𝟎 ≤ 𝝁 ≤ 𝒙 + 𝒛𝟎 ) 𝒏 𝒏 P{x 1.96 4 x 1.96 4} P{260 1.96 4 260 1.96 4} 0.95 𝜇の𝛼 =95%信頼区間は[252, 268]である. 母集団平均の信頼区間の公式 90%確率のとき、𝑧0 = 1.645 95%確率のとき、𝑧0 = 1.96 99%確率のとき、𝑧0 = 2.58 公式1 公式2 公式3 信頼水準90%信頼区間 x 1.645 信頼水準95%信頼区間 x 1.96 n n 信頼水準99%信頼区間 x 2.58 n • 信頼区間を大きくすれば「はずれ」の確率は小さくなるが,大きすぎ る信頼区間は意味がない.n を大きくすると区間を小さくできる 例 小学6年生の身長の分布: 過去の経験から σ = 7 cm。 n = 25 人 の標本を取り、 標本平均 146 cm が得られた。 a) μ に関する 95% 信頼区間、 b) μ に関する 90% 信頼区間を求めよ。 a) 中央 95% ( β = 0.95 ) ⇒ 標準正規分布上の点: zo ≒ 1.96 μ に関する 95%信頼区間 7 x zo 146 1.96 146 2.744 (cm) n 25 b) 中央 90% ( β = 0.9 ) ⇒ zo ≒ 1.645 μ に関する 90%信頼区間 7 x zo 146 1.645 146 2.303 (cm) n 25 3.近似 • 確率変数 X の母集団分布が正規分布でなくても, 標本の大きさが大きい場合(目安として,25以上)に は,まったく同じ方法を使うことができる. – 標本平均の分布は(近似的に)正規分布であるため. 母集団分散が未知の場合 • ここまでの説明で,母集団分散は既知だった. – よって,信頼区間を具体的に計算できた. • しかし,実際には母集団分散は未知の場合 がほとんどのはず.どうするのか? • 大標本法(large sample method):標本の大き さが大きい場合(目安として,25以上)には,標本で の標準偏差 s は母集団の標準偏差 σ とあまり変わ らないはず.代用する. 1 2 s ( x x ) i n 1 95%の確率で x 1.96 x 1.96 n n は未知なので、標本から計算される標準偏差 s で置 き換える s s x 1.96 x 1.96 n n • 例(テキストP.143): ある学校で100人の生徒の無作為標本が選ばれ, これら生 徒の知能指数を決める知能テストが行われた.テストの結果 100人の生徒の知能指数が決まり,それから標本値 𝑥 = 112, 𝑠 = 11 が求められた.これらの標本値を基にして,この学校の全生徒 の平均知能指数に対する95%信頼区間を求めよ. 答え: 従って、 全生徒の分散が未知、且つ、標本のサイズは25以上 であることから、 大標本法 を使える. s s x 1.96 x 1.96 n n 95%信頼区間は 109.8 ≤ 𝜇 ≤ 114.2 スチューデントの t 分布 • 標本の大きさが小さい(目安として,25に満た ない)場合はどうするのか? • 母集団が正規分布であれば,正規分布を利 用した区間推定のかわりに,スチューデント の t 分布(Student’s t distribution)を用いた区 間推定を行うことができる. – t 分布は,正規分布から抽出された標本から計 算される,t 統計量の分布である. • この分布を用いた区間推定は次週の講義で. • 定義式は,標本平均の標準化の公式におい て,σ を s にかえたもの. x t n s • スチューデントの t 分布:正規分布に従う母集 団から標本をとってt 値を計算することを何度 も繰り返したときの,t 値の分布. 用語についてのまとめ 𝜎 • 標本平均の標準誤差(standard error): 𝑛 平均値の標本分布の標準偏差のこと. • 推定値の誤差(error of estimate): 𝜇 − 𝑥 標本平均と母平均の差の大きさのこと. • 信頼限界(confidence limit): [−𝑧0 , 𝑧0 ] 信頼区間の上限および下限値のこと. • 信頼水準(confidence level): 𝛼 関係: 𝜎 𝜎 𝑃 𝑥 − 𝑧0 ≤ 𝜇 ≤ 𝑥 + 𝑧0 =𝛼 𝑛 𝑛 本日のまとめ • 統計的推定 – 点推定 (標本平均𝑥と標準誤差 𝜎 ) 𝑛 – 区間推定 (信頼水準𝛼と信頼区間[−𝑧0 , 𝑧0 ]) • 母集団平均𝜇の推定 理論的には 95%の確率で x 1. 96 n x 1. 96 信頼水準95%の信頼区間 s s x 1. 96 x 1. 96 n n n 実際の計算では(大標本法) 1 2 s ( xi x ) n 1 2 演習問題 • 問題1 過去の経験によれば,小学校5年生の身長の標準偏差は2イ ンチであるという.25人の5年生の無作為標本をとってその 身長を測定するとき,実験の結果から,𝑥 = 54インチが得ら れたとして, (a)母集団平均𝜇に対する95%信頼区間, (b)𝜇に対する90%信頼区間をもとめよ. • 問題2 大きさ100の標本から、𝑥 = 40, 𝑠 = 6を得たとき,どれくらい の確率で、𝑥が真の平均値より1単位以上違うことはないと 保障できるか. 演習問題 • 問題3 ある型の自動車の走行距離を推定するため,その型の車30 台を標本に選び,1台ずつテストを行った.30台の走行距離 の平均と標準偏差がそれぞれ19.6マイルと0.7マイルになっ たとして,この型の車の平均走行距離に対する90%信頼区 間を求めよ. 注意点: 1.詳細な答えをレポート用紙に書いてください。結果だけは不可。 2.レポートに表紙を付けてください 名前と学籍番号をご記入のうえ、レポート用紙(A4)を提出する。 提出先:工学部大学院棟7階 締め切り時間: NO.7708室のドアのポストに入れてください 来週月曜日(6月29日) 午後5時まで
© Copyright 2024 ExpyDoc