3. 統計的推定 保健統計 2013年度 Ⅰ 母集団と標本 a) 標本調査の利点 b) 標本調査における誤差 Ⅱ 確率と確率分布 a) 確率の公理 b) 確率の計算定理 1) 加法定理 2) 条件つき確率と乗法定理 c) 確率分布 1) 2) 3) 4) 確率変数 期待値と分散 2項分布 正規分布 Ⅲ 統計的推定 a) 標本平均の標本分布 b) 点推定 c) 区間推定 1) 母平均の区間推定 ⅰ) 中心極限定理 ⅱ) 母分散が既知の場合の区間推定 ⅲ) 母分散が未知の場合の区間推定 2) 母比率の区間推定 ⅰ) 標本比率の標本分布 ⅱ) 母比率の区間推定 Ⅰ 母集団と標本 母集団(個体数N) 標本(個体数n) × × × × × × × × × × • ある集団についての調査をおこなうとき、調査対象となる集 団(母集団)からその一部を標本として選び、調査する方法 がある。これを標本調査という。 • 標本調査の例として次のようなものが挙げられる。 労働力調査(完全失業率はこの調査の結果求められ る) ⇒ 全国の15歳以上(約1億1千万人)の母集団から、 約10万人を標本として選ぶ調査 内閣支持率調査などの世論調査 ⇒ 全国の有権者(20歳以上の日本国民)(約1億人)の 母集団から、約1000人(新聞社のおこなう内閣支持率 調査の場合) その他、視聴率調査、街頭でのアンケート、製品の品質 管理のための抜き取り調査など、数多くの標本調査がお こなわれている。 a) 標本調査の利点 標本調査をおこなうメリットとして、次のようなことが挙げられる。 • 費用・時間の削減 → 調査票を配布回収する調査では、調査票の印刷費、集計にか かる機械処理費用、人件費などと全部を集計しおえるまでの時 間がだいぶ削減できる。 • 得られる情報の増加、精度の向上 → 調査には調査員が使われることが多いが、ベテランの調査員 は調査の内容をきちんと説明できるので、答えづらい内容を聞い たり、正しい結果を導いたりすることができる。 • 全数調査が不可能な場合にも調査可能 → ガラスの耐久性についての品質管理を調査するなどの場合、 全数調査をおこなうことは不可能である。 b) 標本調査における誤差 標本調査の結果と、真の状態との間にはズレがある。こ のズレのことを誤差というが、標本調査における誤差に は次の2つの種類のものが組み合わさったものである。 1. 非標本誤差 - 調査もれ、無回答、記入ミスなど ⇒ 全数調査でも起こりうる 統計理論によりコントロール不可能 2. 標本誤差 - 標本の偏りによるもの ⇒ 標本調査に固有のもの 統計理論によりコントロール可能 • 標本の偏りによる誤差がどの程度の範囲に収まるかを、 統計理論によって知ることができる。⇒確率の問題 <第2次安倍内閣発足直後の支持率の例> 母集団(有権者1億人) × × × × 標本1(朝日990人) 59% × × × × × × × × 2012年12月28日付の朝刊 各紙に掲載された第2次安倍 内閣支持率を見ると、異なっ た結果になっている。 同じ対象に同じ調査をおこ なっても、標本によってその結 果が異なる。 これが、標本の偏りである。 × × × × × × 標本2(読売1039人) 65% 標本3(毎日856人) 52% 標本4(日経872人) 62% 標本5(共同1031人) 62% Ⅱ 確率と確率分布 a) 確率の公理 1. どのような事象Aに対しても、確率の値は常に0と1の間の値 をとる。すなわち、 0 ≤ 𝑃(𝐴) ≤ 1 2. おこりうる事象全体の集合をSとすれば、Sの確率は1である。 𝑃 𝑆 =1 3. A,B,… が同時に起こらない事象(このとき、A,B,… を排反 事象という)のとき、A,B,… のいずれかが起こる確率はそれ ぞれの事象が起こる確率の和に等しい。すなわち 𝑃 𝐴∪𝐵∪⋯ =𝑃 𝐴 +𝑃 𝐵 +⋯ b) 確率の計算定理 バレンティンがホー ムランを打つ(A1) スワローズが勝つ(B1) 引き分け(B2) スワローズが負ける(B3) 計 バレンティンがホーム ランを打たない(A2) 計 0.165 0.245 0.41 0.01 0.02 0.03 0.165 0.395 0.56 0.34 0.66 1 • バレンティンがホームランを打ち、スワローズが勝つ確率 → A1とB1がともに起きる確率である。これをA1とB1の同時確率 といい、P(A1∩B1)とあらわす。(∩は「かつ」(and)を表す記号。cap とよぶ。) • バレンティンがホームランを打つかどうかに関わらず、 スワ ローズが勝つ確率 → A1が起こるかどうかに関わらず、B1が 起きる確率である。これをB1の周辺確率といい、P(B1)とあら わす。 1) 加法定理 バレンティンがホー ムランを打つ(A1) スワローズが勝つ(B1) 引き分け(B2) スワローズが負ける(B3) 計 バレンティンがホーム ランを打たない(A2) 計 0.165 0.245 0.41 0.01 0.02 0.03 0.165 0.395 0.56 0.34 0.66 1 (例) バレンティンがホームランを打つか、スワローズが勝つ確率 加法定理 𝑃 𝐴1 ∪ 𝐵1 = 𝑃 𝐴1 + 𝑃 𝐵1 − 𝑃 𝐴1 ∩ 𝐵1 = 0.34 + 0.41 − 0.165 = 0.585 (∪は「または」(or)を表す記号。cupとよぶ。) <排反事象の場合> (例) スワローズが勝つか、引き分ける確率 排反事象の場合の 𝑃 𝐵1 ∪ 𝐵2 = 𝑃 𝐵1 + 𝑃 𝐵2 加法定理 = 0.41 + 0.03 = 0.44 2) 条件つき確率と乗法定理 • P(E)>0のとき、事象Eの起こることを条件として、事象Fが起こることを、 (Eを条件とする)Fの条件つき確率といい、P(F|E)であらわす。 (例) 袋の中に、赤球3個、白球2個の計5個の球が入っている。この袋から 球を続けて2個取り出すとき、2個とも赤球となる確率を考えてみよう。 1個目が赤球となる確率は、 𝑃 赤1 3 = 5 1個目が赤球であったという条件のもとで、 2個目が赤球となる確率は、 𝑃 赤2 |赤1 2 = 4 よって、2個とも赤球となる確率は、 𝑃 赤1 ∩ 赤2 = 𝑃 赤1 × 𝑃 赤2 |赤1 1個目 2個目 3 2 3 = × = 乗法定理 5 4 10 (例) バレンティンがホームランを打ったときに、 スワローズが勝つ確率 ⇒ A1を条件とするB1の条件つき確率P(B1|A1)である。 この条件つき確率を用いて、バレンティンがホームランを打ち、 スワ ローズが勝つ確率を考えると、乗法定理により 𝑃 𝐴1 ∩ 𝐵1 = 𝑃 𝐴1 × 𝑃 𝐵1 |𝐴1 となる。よって条件つき確率P(B1|A1)は同時確率を周辺確率で割ること によって求めることができ、 𝑃 𝐴1 ∩ 𝐵1 0.165 𝑃 𝐵1 |𝐴1 = = = 0.485 … 𝑃 𝐴1 0.34 となる。 バレンティンがホー ムランを打つ(A1) スワローズが勝つ(B1) 引き分け(B2) スワローズが負ける(B3) 計 バレンティンがホーム ランを打たない(A2) 計 0.165 0.245 0.41 0.01 0.02 0.03 0.165 0.395 0.56 0.34 0.66 1 <独立事象の乗法定理> • 事象Eが起こっても起こらなくても事象Fの確率に変化がないとき、すな わちP(F|E) = P(F|Ec) = P(F)のとき、事象Eと事象Fは独立であるという。 ( Ec はEが起こらないという状況をあらわす) 雨が降る (A1) 白鵬が勝つ(B1) 雨が降らない (A2) 計 0.2 0.6 0.8 白鵬が負ける(B2) 0.05 0.15 0.2 計 0.25 0.75 1 この例で雨が降った場合の白鵬が勝つ条件つき確率は 𝑃 𝐵1 |𝐴1 = 𝑃 𝐴1 ∩ 𝐵1 0.2 = = 0.8 𝑃 𝐴1 0.25 雨が降らない場合の白鵬が勝つ条件つき確率は 𝑃 𝐵1 |𝐴2 𝑃 𝐴2 ∩ 𝐵1 0.6 = = = 0.8 𝑃 𝐴2 0.75 となり、 P(B1|A1) = P(B1|A2) = P(B1)であることから、雨が降るか降らな いかと、白鵬が勝つか負けるかは独立である。 • 事象Eと事象Fが独立である場合、乗法定理は となる。 𝑃 𝐸∩𝐹 =𝑃 𝐸 ×𝑃 𝐹 c) 確率分布 1) 確率変数 • サイコロを3回振る実験を考える。 • 1の目が出た場合を○、1の目以外が出た場合を×とあらわ すと、起こりうる結果は ○○○, ○○×, ○×○, ×○○, ○××, ×○×, ××○, ××× の8通りである。 • ここで、1の 目が何回出 たかによって 分類するなら 右図のように なる。 • 2回目に振っ たサイコロの 目は1回目に 振ったさいこ ろの目とは 独立である ので、独立事 象の乗法定 理が用いら れる。 1の目が出た回数 パターン 確率 3 0回 ××× 1回 ××○ 1 5 5 1 × × = 6 6 6 6 5 6 2 ×○× 5 1 5 1 × × = 6 6 6 6 5 6 2 ○×× 5 5 1 1 × × = 6 6 6 6 5 6 2 ○○× 1 1 5 1 × × = 6 6 6 6 2 5 6 ○×○ 1 5 1 1 × × = 6 6 6 6 2 5 6 ×○○ 5 1 1 1 × × = 6 6 6 6 2 5 6 2回 3回 ××× 5 5 5 5 × × = 6 6 6 6 1 1 1 1 × × = 6 6 6 6 3 • 1の目が出た回数を x 回とし、それに対応する確率を P(x) とあらわすと、次のように整理できる。 𝒙 0 𝑃(𝑥) 5 6 (0.579) 1 3 1 5 3 6 6 (0.347) 2 2 3 2 1 5 3 6 6 (0.069) 3 1 6 (0.005) サイコロを3回振った時の1の目の出る回数 0.8 確率 0.6 0.4 0.2 0 0 1 2 1の目の出る回数 3 • このようにとりうる値†のそれぞれにある確率が対応してい る変数を確率変数といい、その対応関係を確率分布という。 † 連続変数の場合はその値を含む微小な区間を考える。 2) 期待値と分散 • 右のような確率で賞金がもらえるくじ 等 があったとする。 1等 • このくじを1枚購入した時点で、いくら の賞金がもらえるかはわからない。 2等 • しかし、大体いくらぐらいもらえるか を知りたい。 3等 • そのとき、 はずれ もらえる金額×当たる確率 の総和がもらえると期待できる金額 となる。 1 1 1 もらえる金額 1000000円 20000円 100円 0円 44949 当たる確率 1 50000 1 1000 1 10 44949 50000 1000000 × 50000 + 20000 × 1000 + 100 × 10 + 0 × 50000 = 20 + 20 + 10 + 0 =50(円) このくじの期待値は50(円)であるという • このことは、次のように考えることができる。 • 主催者が、全部で5万本の 𝑥𝑖 等 くじを作成したとする。当た 1000000 る確率を考えると、このとき 1等 20000 2等 くじの中に、1等を1本、2等 を50本、3等を5000本入れ 100 3等 る必要がある。このくじが、 はずれ 0 全部で5万本あったとすると、 右のような度数分布表であ らわすことができる。 𝑓𝑖 𝑓𝑖 𝑥𝑖 1 1000000 50 1000000 5000 500000 44949 0 2500000 • ある人がこのくじを5万本全部買い占めたとする。くじの当選 番号が発表された後で当選金の払い戻しを受ける場合、そ の合計金額は確実に2500000(円)であり、1枚あたりの当選 金(すなわち算術平均)を考えると、2500000÷50000=50 (円)であり、期待値に一致する。 期待値=確率変数の算術平均 † このことから、期待値のことを、「平均」「平均値」などと呼ぶこともある。 • サイコロを3回振る実験で1の目が出た回数をxとするなら、x の期待値は 125 75 15 1 75 30 3 108 1 0× +1× +2× +3× =0+ + + = = 216 216 216 216 216 216 216 216 2 となり、1の目が出る回数の期待値は0.5回である。 • またサイコロを6回振る実験をおこなうと 𝑥 𝑃(𝑥) 0 1 2 3 4 5 6 30 1 15625 18750 9375 2500 375 46656 46656 46656 46656 46656 46656 46656 となるので、 1の目が出る回数の期待値は 0× 15625 18750 9375 2500 375 30 1 +1× +2× +3× +4× +5× +6× 46656 46656 46656 46656 46656 46656 46656 =0+ 18750 18750 7500 1500 150 6 46656 + + + + + = =1 46656 46656 46656 46656 46656 46656 46656 となり、6回ふれば1の目が1回ぐらい出るという直感に一致 する。 • 期待値は𝐸 𝑥 = • 分散は 𝑉 𝑥 = 𝑥𝑃 𝑥 とあらわすことができる。 𝑥−𝐸 𝑥 2 𝑃 𝑥 となる。 • 連続型確率変数の場合は 𝐸 𝑥 = 𝑉 𝑥 = となる。 𝑥𝑓 𝑥 𝑑𝑥 𝑥−𝐸 𝑥 2 𝑓 𝑥 𝑑𝑥 • 確率分布は、いくつかの種類に分類することができる。 – 離散型確率分布 2項分布、ポアソン分布、負の2項分布、超幾何分布、・・・ – 連続型確率分布 正規分布、t分布、カイ2乗分布、・・・ 3) 2項分布 [定義] 起こりうる結果がAかBかという2つの結果しか起こらな い試行† をn回繰り返したとき、Aという結果がx回おこったと する。このxの確率分布を2項分布という。 † このような試行をベルヌーイ試行という [分布関数] Aが起こる確率をp、Bが起こる確率をq(=1-p)とす ると、2項分布は p(x)=nCxpxqn-x という式であらわすことができる。この式を2項分布の分布関 数という。 (例) サイコロを3回振る実験では、A(1の目が出る)かB(1の 目が出ない)かという2つの結果しか起こらない試行をn(=3) 回繰り返したとき、A (1の目が出る)という結果がx回おこっ た。このxの確率分布は2項分布(にしたがう)といわれる。 • この例では、𝑝 = 1 ,𝑝 6 てはめると、 𝑝 𝑥 = 5 = , 𝑛 = 3 であるので、分布関数にあ 6 1 𝑥 5 3−𝑥 となる。 3𝐶𝑥 6 6 • xのとりうる値は0,1,2,3の4つであるので、この分布関数は次 のような関係を表している。 𝑥 𝑃(𝑥) 0 3𝐶0 1 6 0 1 5 6 3−0 3𝐶1 1 6 1 2 5 6 3−1 3𝐶2 1 6 2 3 5 6 3−2 3𝐶3 1 6 3 5 6 3−3 ◎数学補足 nCxについて • nCxはn個の中からx個を選ぶ組み合わせの数であり、次の ように定義される。 𝑛! 𝑛𝐶𝑥 = 𝑥! 𝑛 − 𝑥 ! • ここで、!は階乗を表す記号であり、次のようなものである。 n! = n ×(n-1)×・・・×2×1 よって、nCxは次のように計算できる。 𝑛 × 𝑛 − 1 × ⋯ 𝑛 − 𝑥 + 1 × 𝑛 − 𝑥 × ⋯× 2 × 1 𝑛𝐶𝑥 = 𝑥 × 𝑥 − 1 × ⋯× 2 × 1 × 𝑛 − 𝑥 × ⋯× 2 × 1 x個 𝑛× 𝑛−1 ×⋯ 𝑛−𝑥+1 = 𝑥 × 𝑥 − 1 × ⋯× 2 × 1 x個 たとえば、5人の班の中から2人の委員を選ぶ組み合わせは 5 × 4 20 = = 10 通り 5𝐶2 = 2×1 2 となる。 • サイコロを3回振る実験において、1の目が1回出るパターン は、 ○××, ×○×, ××○ の3通りあるが、これはサイコロを 振る3回のうち、何回目に1の目が出るかを考えたものであり、 3 = 3 通り 3𝐶1 = 1 である。 • また、nC0は定義のように計算できないので、 nC0=1と特別 に定義する。 [期待値と分散] 2項分布の期待値(平均)は E(x)=np 分散は V(x)=npq となる。 • 離散型確率変数の期待値は、一般に 𝐸 𝑥 = よって求めることができるので、 125 75 15 1 +1× +2× +3× 216 216 216 216 75 30 3 108 1 =0+ + + = = = 0.5 216 216 216 216 2 𝑥𝑃 𝑥 に 𝐸 𝑥 =0× となる。 • 確率変数が2項分布にしたがう場合、期待値は 𝐸 𝑥 = 𝑛𝑝 として求めることができる。すなわち、すべてのとりうる値と対 応する確率が得られなくても、期待値が計算できるのである。 1 6 1 × 6 1 2 • この例の場合 𝐸 𝑥 = 3 × = = 0.5 となる。 • また分散は、 𝑉 𝑥 = 3 × 5 6 = 5 12 となる。 2項分布(n=10) 2項分布(n=5) 0.2 0.1 0 0 1 2 3 4 5 0 2項分布(n=100) 1 2 3 4 5 6 7 8 9 10 20 0.3 18 0.4 16 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0.5 0.12 0.1 0.08 14 12 10 8 30 27 24 21 33 6 20 18 16 14 12 10 8 6 4 2 0 0 4 0.05 2 0.1 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 0 0.15 18 15 0.2 12 9 2項分布(n=50) 6 0 0.25 3 0.06 0.04 0.02 2項分布(n=20) 0 4) 正規分布 • 2項分布において、nを大きくしていくと、左右対称のつりがね 型の正規分布といわれる分布に近づく。 • 2項分布は離散型確率変数の分布であるが、nを無限に大き くしたとき、xのとりうる値は無限に大きくなる。すなわちxは連 続型確率変数として扱われる。 n=500のとき P (x) 0.06 0.05 0.04 0.03 0.02 0.01 144 136 128 120 112 104 96 88 80 72 64 56 48 40 32 24 16 8 0 0 x • 正規分布は数学的に望ましい性質を持った分布 • 身長や知能指数などがこの分布にしたがうといわれている。 • 密度関数 𝑓 𝑥 = 1 2𝜋𝜎 2 1 𝑥−𝜇 2 − 𝑒 2 𝜎 𝑒 = 2.718 …(自然対数の底) 正規分布の平均は𝜇、分散は𝜎 2 • 正規分布は平均μ、分散σ2の値によって、中心の位置や山 の高さが変わってくる。 <平均の異なる正規分布> σ=1の正規分布 0.5 μ=0 μ=3 μ=-4 0.4 0.3 0.2 0.1 0 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 <分散の異なる正規分布> μ=0の正規分布 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 σ=1 σ=2 σ=1/2 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 • これらの正規分布は、中心の位置を移動させたり、目盛りの 幅を変える(横に伸ばしたり、縮めたりする)ことによって、全 て同じ正規分布となる。 <標準化と標準正規分布> • A君は、あるテストで英語が90点、数学が65点であった。 ⇒ 英語の方が数学より成績が良かった?? • 英語の平均点が80点、数学の平均点が50点だった。⇒ 英 語は平均点より10点高い、数学は平均点より15点高い。数 学の方が良い?? • 英語と数学のどちらが成績が良かったのだろうか?⇒ 標準 化の必要性(これを応用したものが偏差値) • 英語が平均80、標準偏差10の正規分布、数学が平均50、 標準偏差20の正規分布にそれぞれしたがうとする。 英語と数学の成績の分布 f(x) 0.05 数学 英語 0.04 0.03 0.02 0.01 0 0 10 20 30 40 50 60 70 80 90 100 点数 • 平均や分散の異なるものを比較するとき、平均や分散をそろ え、その相対的な位置によって比較しようというのが標準化 の考えである。 • 標準化は次のような変換である。 𝑥−𝜇 𝑧= 𝜎 • この例で、英語は(90-80)/10=1 数学は(65-50)/20=0.75 となり英語の方が成績が良いことになる。 • 偏差値は、このzを用いて 50+10×z で求められる。この人 の英語の偏差値は60、数学の偏差値は57.5である。 <標準正規分布> • 正規分布にしたがう変数について、このような変換をおこなう と、標準正規分布(平均0、分散1の正規分布)になる。 • 標準正規分布では±1の範囲に68.3%、±2の範囲に95.4%、 ±3の範囲に99.7%が含まれる。 標準正規分布 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -3.5 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 Ⅲ 統計的推定 a) 標本平均の標本分布 母集団(大きさ N) 標本(大きさ n) × × × 標本平均 x × × × × × × × × 標本平均 x × × 標本平均 x × × × 母平均 μ • • 標本調査をおこなう場合、通常は1つの標本についての特性値(標本平 均や標本平均など)がわかり、それから母集団の特性値についての推論 をおこなう。母集団全体の情報はわからない。 しかし母集団全体の情報が分かり、とりうるすべての標本について考え ることができたなら、標本の特性値についての分布を考えることができる。 これを標本分布という。 • 500人受講している科目の採点に、25人だけ採点して全体 の平均点を推定しようとするとき、25人の組み合わせ全てか ら標本平均が計算でき、その分布を考えることができる。 • 一般にN個の母集団からn個の標本を選ぶ組み合わせの数 はNCnとあらわすことができる。 𝑁! 𝑁𝐶𝑛 = 𝑛! 𝑁 − 𝑛 ! 𝑁 × 𝑁 − 1 ×⋯× 1 𝑛 × 𝑛 − 1 × ⋯× 1 × 𝑁 − 𝑛 × 𝑁 − 𝑛 − 1 × ⋯× 1 𝑁 × 𝑁 − 1 × ⋯× 𝑁 − 𝑛 + 1 × 𝑁 − 𝑛 × 𝑁 − 𝑛 − 1 × ⋯× 1 = 𝑛 × 𝑛 − 1 × ⋯× 1 × 𝑁 − 𝑛 × 𝑁 − 𝑛 − 1 × ⋯× 1 𝑁 × 𝑁 − 1 × ⋯× 𝑁 − 𝑛 + 1 = ←分母も分子もn個ずつ 𝑛 × 𝑛 − 1 × ⋯× 1 = <簡単な例> 中国地方5県の乗用車登録台数(2010年4月末現在、軽自動車 除く)は次のようになっている。(単位: 台) 鳥取 184958 島根 216744 岡山 651448 広島 863016 山口 474582 出典: 中国運輸局『管内保有車両数』 これを10万台単位で四捨五入し、各都道府県の頭文字をア ルファベットで表すと T 2 S 2 O 7 H 9 Y 5 となる。 母平均、母分散は 2+2+7+9+5 𝜇= =5 5 2+ 2−5 2+ 7−5 2+ 9−5 2 − 5 𝜎2 = 5 9 + 9 + 4 + 16 + 0 = = 7.6 5 2 + 5−5 2 • この5県を母集団とし、その中から2県を選んで標本とする と、選び方は5C2=10通りとなる。それぞれの標本につい て、標本平均を求め、その分布をあらわすと次のようにな る。 𝑥 2 4.5 5.5 3.5 4.5 5.5 3.5 8 6 7 標本平均の標本分布 2.5 2 度数 パターン T,S 2,2 T,O 2,7 T,H 2,9 T,Y 2,5 S,O 2,7 S,H 2,9 S,Y 2,5 O,H 7,9 O,Y 7,5 H,Y 9,5 1.5 1 0.5 0 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 標本平均 • 次に標本平均の平均と分散について考えよう。 標本平均の度数分布表から、次のように計算できる。 𝑥 2 3.5 4.5 5.5 6 7 8 計 𝑓𝑖 (度数) 1 2 2 2 1 1 1 10 𝑓𝑖 𝑥𝑖2 4 24.5 40.5 60.5 36 49 64 278.5 𝑓𝑖 𝑥𝑖 2 7 9 11 6 7 8 50 𝐸 𝑥 = 𝑓𝑖 𝑥𝑖 50 = =5 𝑓𝑖 10 𝑉 𝑥 = 𝑓𝑖 𝑥𝑖2 − 𝐸 𝑥 𝑓𝑖 2 278.5 = − 52 = 2.85 10 ※ 度数分布表からの平均の計算は、(度数×階級値)の総和を度数 の合計で割れば良い なお、この分散の式は計算式であり、次のようにして求 めたものである。 2 𝑉 = = = 𝑓𝑖 𝑥𝑖 − 𝐸 𝑥 𝑥 = 𝑚 𝑓𝑖 𝑥𝑖2 − 2𝐸 𝑥 𝑓𝑖 𝑥𝑖 + 𝑚 𝐸 𝑥 𝑚 𝑓𝑖 𝑥𝑖2 − 2𝐸 𝑥 𝑓𝑖 𝑥𝑖 + 𝑚 𝐸 𝑥 𝑚 2 𝑓𝑖 𝑥𝑖 2 − 𝐸 𝑥 𝑚 2 2 ※ 分散については、{度数×(階級値-平均)2}の総和を度数の 合計で割ったものとなる • 標本平均の平均、分散と、母平均、母分散の関係として 𝐸 𝑥 =𝜇 𝑉 𝑥 ≠ 𝜎2 が成り立つ。分散に関しては である。この例では、 𝑉 𝑥 = 𝑁 − 𝑛 𝜎2 𝑉 𝑥 = 𝑁−1 𝑛 5 − 2 7.6 3 7.6 × = × = 2.85 5−1 2 4 2 ※全国規模の統計調査などを考えた場合、母集団の大きさNは非常に 𝑁−𝑛 大きいので、 は1に近くなり、 𝑁−1 𝑉 𝑥 = 𝜎2 𝑛 とみなせる。 視聴率調査の場合、関東地区1580万世帯から600世帯を選ぶので 𝑁 − 𝑛 15800000 − 600 = = 0.999962 ≒ 1 𝑁−1 15800000 − 1 <補足> 母分散σ2について、ここでは個々の値から平均を引いた ものを2乗して加え、個数で割った。すなわち、 𝜎2 = 2−5 2 + 2−5 2 + 7−5 5 2 + 9−5 2 + 5−5 2 とした。 教科書の分散の定義によると、この分母は5-1=4になる はずである。 この教科書の定義は標本不偏分散といわれることもあり、 あとで説明する「母分散がわからない場合の区間推定」 をおこなうときに、計算が簡単になる。 b) 点推定 母集団(個体数 N) 標本(個体数 n) × × × × × × × × × × × × 母平均μ 母分散σ2 母数θ 推論 標本平均x 標本分散s2 標本統計量t 標本から計算された1つ の数値によって、母集団 の数値を推定することを 点推定という。 たとえば、標本平均を母 平均の推定値と考えるこ とや、標本メディアンを母 集団のメディアンの推定 値と考えることである。 ただし、一般に t≠θであ る。 c) 区間推定 • 点推定で母数θをピタリと推定することは難しい。そのため、 標本統計量tの近くの区間を設定し、その区間内に母数θが 含まれることを推定する。これを区間推定という。 ※ たとえば、日本全国全世帯の家計の平均年収を知りたいとき、1万世帯を標 本として調査し、500万円という標本平均を得たとする。この500万円±10万 円という区間をとればよいのか、±30万円という区間を取ればよいのかを考 えていく。(区間が広がれば母平均が含まれる可能性は高くなるが、実用性 に劣る) 1) 母平均の区間推定 ⅰ) 標本平均の標本分布の形状 𝑥 の標本分布について、 𝐸 𝑥 = 𝜇 𝑁 − 𝑛 𝜎2 𝑉 𝑥 = 𝑁−1 𝑛 が成り立っていた。母集団の個体数が十分大きいとき、 𝜎2 𝑉 𝑥 = 𝑛 が成り立つ 次に、標本平均 𝑥 の分布がどのような形になるのか考えてみよう。 ア) 母集団の分布が正規分布の場合 母集団が平均μ、分散σ2の正規分布にしたがっているとする。 標本平均 𝑥 は 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑥𝑖 𝑥= = 𝑛 𝑛 であり、正規分布にしたがう変数の和(をnという定数で割ったもの)と なっている。 したがって、正規分布の再生性†より、 𝑥 は正規分布にしたがう。 † 確率変数XとYがそれぞれN(μx,σ2x), N(μy,σ2y) にしたがうとき、その1次結 合α X+βY はN(αμx+βμy,α2σ2x+β2σ2y )にしたがう。これを正規分布の再生性と いう。 イ) 母集団の分布が正規分布ではない場合 母集団の分布が正規分布でない場合でも、標本の個体数 n が大きいと き、次のような定理によって標本平均 𝑥 の分布は正規分布となる。 <中心極限定理> 算術平均μ, 分散σ2をもつ母集団からとられた大きさ n の標 本の平均 𝑥 の分布は、母集団の分布がどのようなもので 𝜎2 あっても、 n が大きくなるとき、正規分布 𝑁(𝜇, ) に近づく。 𝑛 ※ 以上 ア), イ) より、nが大きい時には母集団の分布にかかわらず、標 本平均 𝑥 の分布は正規分布となり、標準化された変数 𝑥−𝜇 𝑧= 𝜎 𝑛 の分布は、標準正規分布 N(0, 1) に近づく。 ⅱ) 母分散が既知の場合の区間推定 標準正規分布にしたがう変数が、-1.96と1.96の間の値をとる確率は 95%である。よって、 𝑧 = 𝑥−𝜇 はnが大きいときには、中心極限定理に 𝜎 𝑛 より標準正規分布にしたがうので、 𝑥−𝜇 𝑃(−1.96 ≤ ≤ 1.96) = 0.95 𝜎 𝑛 となる。この式のカッコ内を変形すると 𝜎 𝜎 𝜇 − 1.96 ≤ 𝑥 ≤ 𝜇 + 1.96 𝑛 𝑛 𝜎 となり、標本平均 𝑥 は 𝜇 ± 1.96 の区間内に95%の確率で含まれる。 𝑛 𝑥 の分布 𝜇 − 1.96 𝜎 𝑛 また 𝑃(−1.96 ≤ μ 𝑥−𝜇 𝜎 𝑛 𝜇 + 1.96 標準化 𝑥−𝜇 𝑧= 𝜎 𝑛 𝜎 𝑛 zの分布 -1.96 0 1.96 ≤ 1.96) = 0.95 のカッコ内は次のようにも変形できる。 𝑥−𝜇 −1.96 ≤ ≤ 1.96 𝜎 𝑛 𝜎 𝜎 ⟺ −1.96 ≤ 𝑥 − 𝜇 ≤ 1.96 𝑛 𝑛 𝜎 𝜎 ⟺ 1.96 ≥ 𝜇 − 𝑥 ≥ −1.96 𝑛 𝑛 𝜎 𝜎 ⟺ 𝑥 + 1.96 ≥ 𝜇 ≥ 𝑥 − 1.96 𝑛 𝑛 𝜇 − 1.96 𝜎 𝑛 ≤ 𝑥 ≤ 𝜇 + 1.96 𝜎 𝑛 と 𝑥 − 1.96 𝜎 𝑛 ≤ 𝜇 ≤ 𝑥 + 1.96 ようなことを意味している。 𝜎 𝜇 − 1.96 𝑛 μ 𝜎 𝑥 − 1.96 𝑛 𝜇 + 1.96 × 𝑥 𝜎 𝑛 𝜎 𝑥 + 1.96 𝑛 × × 𝜎 𝑛 は次の 𝑥 を中心に、 𝑥 ± 1.96 𝜎 𝑛 という区間を考えると、とりうる標本のうち95% がこの区間内に母平均μを含む。 • このように母数が含まれると考えられる区間を信頼区間とい い、その区間に母数が入ると信頼できる程度を信頼係数と いう。 • この場合、 𝑥 − 1.96 の信頼区間である。 𝜎 ,𝑥 𝑛 + 1.96 𝜎 𝑛 はμの信頼係数95% (例) 20歳男性の身長を調べるために、100人を標本として選 んだところ、標本平均 𝑥 =170であった。σ=8であるとき、母平 均μの95%信頼区間を求めよ。 (解) μの95%信頼区間は 𝜎 𝜎 𝑥 − 1.96 , 𝑥 + 1.96 𝑛 𝑛 8 8 170 − 1.96 , 170 + 1.96 100 100 170 − 1.568, 170 + 1.568 168.43, 171.57 となる。 ⅲ) 母分散が未知の場合の区間推定 母集団(大きさ N) 標本(大きさ n) 信頼区間を求める場合、 𝑧= × × × × × × × × × × × × 母平均 μ 標本平均 x 標本分散 s2 𝑥−𝜇 𝜎 𝑛 したがうという性質を用いる。 しかし、母平均の推定をおこ なう場合に、母分散σ2が分 かっているということは、あま り多くない。 (過去の調査に おいて母分散のおおよその 値が分かり、それを用いるな どの例外はあるが) 母分散 σ2 母分散σ2がわからないとき、代わりに標本分散s2を用いる。 このとき、𝑡 = 𝑥−𝜇 𝑠 𝑛 が標準正規分布に が自由度n-1のt分布にしたがう。 正規分布とt分布 0.45 0.40 0.35 0.30 normal t1 t5 t10 0.25 0.20 0.15 0.10 0.05 0.00 -3.00 -2.00 -1.00 0.00 1.00 2.00 3.00 ※ t分布は標準正規分布を上からつぶしたような、左右対称の形をしている。 自由度が小さいほどつぶれ具合が大きく、自由度が大きいほど標準正規 分布に近くなっている。 <自由度について> 自由度とは、自由に値を取ることのできる個体数のことである。 この場合は、t統計量の自由度は標本分散 s2 の分子に含まれる xi のうち、自由 に値を取ることのできる個数である。 𝑥1 −𝑥 2 + 𝑥2 −𝑥 2 +⋯+ 𝑥𝑛 −𝑥 2 𝑥𝑖 −𝑥 2 = = 𝑛−1 なので、x1, …, xn-1 は自由に値をとること 𝑛−1 𝑥 ができるが、xn は 𝑛 𝑖 = 𝑥 を満たすように決められ、自由度はn-1となる。 𝑠2 • 母集団の分散が分からないとき、母平均μの95%信頼区 間は、t分布の95%点をt0.95とあらわすと、 𝑠 𝑠 𝑥 − 𝑡0.95 , 𝑥 + 𝑡0.95 𝑛 𝑛 となる。 t0.95はt分布表からその値を求める。 ※ より正確には、母集団の分布が正規分布にしたがうとき、 𝑡 = 𝑥−𝜇 𝑠 𝑛 が自由度n-1のt分布にしたがう。 しかし、母集団の分布が正規分布にしたがわない場合でも、標本の 𝑥−𝜇 大きさがある程度大きければ、𝑡 = は近似的に自由度n-1のt分 𝑠 𝑛 布にしたがうとみなせる。 また、nが十分大きい場合、t分布は正規分布に近づくので、 𝑡 = 𝑥−𝜇 が正規分布にしたがうと考えることもある。 𝑠 𝑛 𝑥 の分布 zの分布 標準化 𝑥−𝜇 𝑧= 𝜎 𝑛 𝜎 𝜇 − 1.96 𝑛 μ 𝜎 𝜇 + 1.96 𝑛 -1.96 0 1.96 tの分布 母分散が分からない場合、 𝑡= 𝑥−𝜇 𝑠 𝑛 が自由度n-1のt分 布にしたがう。 変換 (自由度n-1のt分布) 𝑥−𝜇 𝑡= 𝑠 𝑛 t統計量の95%が含まれる区 間の境界値であるt0.95の値を、 t分布表から探し出す。 -t0.95 t0.95 (例) 20歳女性の身長を調べるために、9人を標本として選ん だところ、標本平均 𝑥 =160であった。s=9であるとき、母平 均μの95%信頼区間を求めよ。 (解) 自由度9-1=8のt分布のt0.95=2.306なので、 μの95%信 頼区間は 𝑠 𝑠 𝑥 − 𝑡0.95 , 𝑥 + 𝑡0.95 𝑛 𝑛 9 9 160 − 2.306 , 160 + 2.306 9 9 160 − 6.92, 160 + 6.92 153.08, 166.92 となる。 2) 母比率の区間推定 ⅰ) 標本比率の標本分布 母集団(大きさ N) × 標本(大きさ n) × × × × × × × × × × × 母比率 p 標本比率 pˆ まず、標本比率𝑝 の標本 分布を考えよう。 内閣支持率を例にとると、 標本比率 𝑝 とは、標本n 人のうちのx人が「内閣を 支持する」と答えた割合 𝑥 であり、 𝑝 = である。 𝑛 よって 𝑝 の標本分布を考えるためには、まずxの標本分布を 考えればよい。 • 標本として選ばれた人の答えは、それぞれ「内閣を支持す る」か「内閣を支持しない」かのいずれである。 また選ばれた人が 「内閣を支持する」人である確率は、母 比率pに等しい。 よって、n人の標本を選ぶことは、AかBかという2つの結果し か起こらない試行 をn回繰り返すこととみなすことができ、 「内閣を支持する」人の人数xは2項分布にしたがう。 • 2項分布の期待値は E(x) = np、分散は V(x) = npq である ので、これを用いて、 𝑝 の平均、分散を考えてみると、 𝑥 𝐸 𝑥 𝑛𝑝 𝐸 𝑝 =𝐸 = = =𝑝 𝑛 𝑛 𝑛 𝑥 𝑉 𝑥 𝑛𝑝𝑞 𝑝𝑞 𝑉 𝑝 =𝑉 = 2 = 2 = 𝑛 𝑛 𝑛 𝑛 となる。 • また、「内閣を支持する」人を1、「内閣を支持しない」人を0と 表すことを考える。n人の標本の中に「内閣を支持する」人は 𝑥 𝑛 をx人含まれるので、このようにあらわした場合、 𝑝 = は大 きさnの標本の平均とみなすことができ、中心極限定理が適 用できる。 よって、𝑝 の分布は、平均𝑝 標準化された変数 𝑧 = 𝑝−𝑝 𝑝𝑞 𝑛 𝑝𝑞 、分散 𝑛 の正規分布にしたがう。 は標準正規分布にしたがう。 ⅱ) 母比率の区間推定 𝑧= 𝑝−𝑝 𝑝𝑞 𝑛 が標準正規分布にしたがうことから、母比率pの95%信頼区間 は 𝑝 − 1.96 𝑝𝑞 ,𝑝 𝑛 + 1.96 𝑝𝑞 𝑛 となる。 (例) 日曜劇場 半沢直樹 最終回(2013.9.22放送)の視聴率は42.2%で あった。この数値は関東地区の約1600万世帯から600世帯をサンプルと して選んだ結果である。このデータから、関東地区全世帯の視聴率の 95%信頼区間を求めよう。 (解) pの代わりに𝑝 を用いてpの95%信頼区間を計算すると 𝑝 − 1.96 0.422 − 1.96 𝑝𝑞 𝑝𝑞 , 𝑝 + 1.96 𝑛 𝑛 0.422 × 0.578 0.422 × 0.578 , 0.422 + 1.96 600 600 0.422 − 0.040, 0.422 + 0.040 0.382, 0.462 となる。
© Copyright 2024 ExpyDoc