第3章 統計的推定 統計学 2010年度 Ⅰ 標本分布 a) 母集団と標本 1) 標本調査の利点 2) 標本調査における誤差 b) 標本平均の標本分布 c) 標本分散の標本分布 Ⅱ 点推定 a) 点推定 b) 統計量の特性 1) 2) 不偏性 その他の統計量特性 Ⅲ 区間推定 a) 母平均の区間推定 1) 2) 3) 4) 中心極限定理 信頼区間 母分散が既知の場合の区間推定 母分散が未知の場合の区間推定 b) 母比率の区間推定 1) 2) 標本比率の標本分布 母比率の区間推定 c) 標本数の決定 1) 2) 母平均の区間推定における標本数の決定 母比率の区間推定における標本数の決定 Ⅰ 標本分布 a) 母集団と標本 母集団(個体数N) 標本(個体数n) × × × × × × × × × × • ある集団についての調査をおこなうとき、調査対象となる集 団(母集団)からその一部を標本として選び、調査する方法 がある。これを標本調査という。 • 標本調査の例として次のようなものが挙げられる。 労働力調査(完全失業率はこの調査の結果求められ る) ⇒ 全国の15歳以上(約1億1千万人)の母集団から、 約10万人を標本として選ぶ調査 内閣支持率調査などの世論調査 ⇒ 全国の有権者(20歳以上の日本国民)(約1億人)の 母集団から、約1000人(新聞社のおこなう内閣支持率 調査の場合) その他、視聴率調査、街頭でのアンケート、製品の品質 管理のための抜き取り調査など、数多くの標本調査がお こなわれている。 1) 標本調査の利点 標本調査をおこなうメリットとして、次のようなことが挙げられる。 • 費用・時間の削減 → 調査票を配布回収する調査では、調査票の印刷費、集計にか かる機械処理費用、人件費などと全部を集計しおえるまでの時 間がだいぶ削減できる。 • 得られる情報の増加、精度の向上 → 調査には調査員が使われることが多いが、ベテランの調査員 は調査の内容をきちんと説明できるので、答えづらい内容を聞い たり、正しい結果を導いたりすることができる。 • 全数調査が不可能な場合にも調査可能 → ガラスの耐久性についての品質管理を調査するなどの場合、 全数調査をおこなうことは不可能である。 2) 標本調査における誤差 標本調査の結果と、真の状態との間にはズレがある。こ のズレのことを誤差というが、標本調査における誤差に は次の2つの種類のものが組み合わさったものである。 1. 非標本誤差 - 調査もれ、無回答、記入ミスなど ⇒ 全数調査でも起こりうる 統計理論によりコントロール不可能 2. 標本誤差 - 標本の偏りによるもの ⇒ 標本調査に固有のもの 統計理論によりコントロール可能 • 標本の偏りによる誤差がどの程度の範囲に収まるかを、 統計理論によって知ることができる。⇒確率の問題 <鳩山内閣発足直後の支持率の例> 母集団(有権者1億人) × × × × × × × × × × 標本1(朝日1054人) 71% 標本2(読売1087人) 75% × × 2009年9月18日付の朝刊各 紙に掲載された鳩山内閣支 持率を見ると、異なった結果 になっている。 同じ対象に同じ調査をおこ なっても、標本によってその結 果が異なる。 これが、標本の偏りである。 × × × × × × 標本3(毎日1014人) 77% 標本4(日経857人) 75% 標本5(共同1032人) 72% b) 標本平均の標本分布 母集団(大きさ N) 標本(大きさ n) × × × 標本平均 x × × × × × × × × 標本平均 x × × 標本平均 x × × × 母平均 μ • • 標本調査をおこなう場合、通常は1つの標本についての特性値(標本平 均や標本平均など)がわかり、それから母集団の特性値についての推論 をおこなう。母集団全体の情報はわからない。 しかし母集団全体の情報が分かり、とりうるすべての標本について考え ることができたなら、標本の特性値についての分布を考えることができる。 これを標本分布という。 • 500人受講している科目の採点に、25人だけ採点して全体 の平均点を推定しようとするとき、25人の組み合わせ全て (その数は1.04×1042通りという天文学的数字になる!)か ら標本平均が計算でき、その分布を考えることができる。 • 一般にN個の母集団からn個の標本を選ぶ組み合わせの数 はNCnとあらわすことができる。 N Cn N! n!( N n)! N ( N 1) 1 n (n 1) 1 ( N n) ( N n 1) 1 N ( N 1) ( N n 1) ( N n) ( N n 1) 1 n (n 1) 1 ( N n) ( N n 1) 1 N ( N 1) ( N n 1) 分母も分子も n個ずつ n (n 1) 1 <簡単な例> 中国地方5県の乗用車保有台数(2010年4月末現在、軽自動車 (単位: 台) 除く)は次のようになっている。 鳥取 184958 島根 216744 岡山 651448 広島 863016 山口 474582 出典: 中国運輸局『管内保有車両数』 これを10万台単位で四捨五入し、各都道府県の頭文字をア ルファベットで表すと T 2 となる。 母平均、母分散は S 2 O 7 H 9 Y 5 22795 5 5 (2 5) 2 (2 5) 2 (7 5) 2 (9 5) 2 (5 5) 2 2 5 9 9 4 16 0 7.6 5 • この5県を母集団とし、その中から2県を選んで標本とする と、選び方は5C2=10通りとなる。それぞれの標本につい て、標本平均を求め、その分布をあらわすと次のようにな る。 x 2 4.5 5.5 3.5 4.5 5.5 3.5 8 6 7 標本平均の標本分布 2.5 2 度数 パターン T,S 2,2 T,O 2,7 T,H 2,9 T,Y 2,5 S ,O 2,7 S ,H 2,9 S ,Y 2,5 O ,H 7,9 O ,Y 7,5 H ,Y 9,5 1.5 1 0.5 0 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 標本平均 • 次に標本平均の平均と分散について考えよう。 標本平均の度数分布表から、次のように計算できる。 x fi(度数) 2 3.5 4.5 5.5 6 7 8 計 E( x ) 1 2 2 2 1 1 1 10 f i x i2 f i xi 2 7 9 11 6 7 8 50 4 24.5 40.5 60.5 36 49 64 278.5 f i xi 50 5 f i 10 f i xi2 278.5 2 V (x) ( E ( x ))2 5 2.85 f i 10 ※ 度数分布表からの平均の計算は、(度数×階級値)の総和を度数 の合計で割れば良い なお、この分散の式は計算式であり、次のようにして求 めたものである。 f i ( xi E ( x ))2 V (x) f i f i xi2 2 E ( x )f i xi n( E ( x ))2 f i f i xi2 2nE( x ) n( E ( x ))2 f i f i xi2 ( E ( x ))2 f i ※ 分散については、{度数×(階級値-平均)2}の総和を度数の 合計で割ったものとなる • 標本平均の平均、分散と、母平均、母分散の関係として E( x) V (x) 2 が成り立つ。分散に関しては N n 2 V (x ) N 1 n である。この例では、 V (x) 5 2 7.6 3 7.6 2.85 5 1 2 4 2 ※全国規模の統計調査などを考えた場合、母集団の大きさNは非常に 2 大きいので、N n は1に近くなり、V ( x ) とみなせる。 N 1 n 視聴率調査の場合、関東地区1580万世帯から600世帯を選ぶので N n 15800000 600 0.999962 ≒1 N 1 15800000 1 c) 標本分散の標本分布 • 次に10通りの標本について、標本分散を求め、その分布 をあらわすと次のようになる。 s2 2.5 2 1.5 1 0.5 12 11.3 10.5 9.75 9 8.25 7.5 6.75 6 5.25 4.5 3.75 3 2.25 1.5 0 0.75 0 6.25 12.25 2.25 6.25 12.25 2.25 1 1 4 標本分散の標本分布 0 パターン T,S 2,2 T,O 2,7 T,H 2,9 T,Y 2,5 S ,O 2,7 S ,H 2,9 S ,Y 2,5 O ,H 7,9 O ,Y 7,5 H ,Y 9,5 • 標本分散の平均について考えると、 標本平均の度数分布表から、次のように計算できる。 2 s 2 fi 0 1 2.25 4 6.25 12.25 fis 1 2 2 1 2 2 計 0 2 4.5 4 12.5 24.5 47.5 f i si2 47.5 E(s ) 4.75 f i 10 2 となる。標本分散の平均と母分散の関係は次のようになっ ている。 E( s 2 ) N n 1 2 N 1 n Ⅱ 点推定 a) 点推定 母集団(個体数 N) 標本(個体数 n) × × × × × × × × × × × × 母平均μ 母分散σ2 母数θ 推論 標本平均x 標本分散s2 標本統計量t 標本から計算された1つ の数値によって、母集団 の数値を推定することを 点推定という。 たとえば、標本平均を母 平均の推定値と考えるこ とや、標本メディアンを母 集団のメディアンの推定 値と考えることである。 ただし、一般に t≠θであ る。 b) 統計量の特性 1) 不偏性 • 点推定をおこなう場合、推定量の持つ望ましい特性をいく つか考えてみよう。 • まず、E(t)=θとなることである。 • このような性質を不偏性といい、「tはθの不偏推定量であ る」という。 (例1) 標本平均 x は E(x ) となるので、母平均μの不 偏推定量である。 (例2) 標本メディアンmeは、母集団メディアンMeの不偏推 定量とはならない。 (例3) 標本分散s2は、 E(s 2 ) 2 となり母分散σ2の不偏推定 量とはならない。 N n 1 2 n N 1 N 1 しかし、E( s 2 ) N 1 分大きいとき、 であった。母集団の個体数が十 とみなせるので、 n 1 2 1 2 2 2 E(s ) 1 n n n 2 と変形できる。 偏り • 一般にE(t)=θ+偏りと表すことができ、「偏り=0」となる推定 量のことを不偏推定量という。 ところで、母分散の不偏推定量は存在しないのであろうか? n 1 2 の両辺に n をかけると E( s 2 ) n 1 n 2 E( s ) 2 n 1 n となって、不偏推定量となる。 標本分散s2は n ( x1 x ) 2 ( x2 x ) 2 ( xn x ) 2 s n であったので、これに n をかけると、 n 1 2 2 ( x x ) i i 1 n n sˆ 2 ( x1 x ) ( x2 x ) ( xn x ) n 1 2 2 2 (x x) i 1 2 i n 1 となる。これを標本不偏分散という。 ※ 統計学の書籍によっては、最初の分散の定義から、n-1で割ったも のを用いているものもある。 2) その他の統計量特性 • 一致性 - 標本数を大きくしたときに、t がθに近づく。(母 数θから離れた標本統計量tが出現する可能性は低くなる) • 効率性 - 不偏推定量がt1, t2 の2つあったとする。この とき、分散の小さい推定量の方が母数θを推定するのによ り効率的(母数θの近くの値を取る可能性が高い)である。 t1 t2 t2の方が効率的 ⇒ 不偏性、効率性、一致性は望ましい推定量の基準であり、 このすべてを持ち合わせた推定量は非常に望ましい。 例: 正規母集団の母平均の推定における標本平均はこれらの基準をす べて満たしている。 また、推定量の性質としては次のようなものも考えられる。 • 十分性 - tは標本に含まれるすべての情報を含んでい る。 ⇒ 刈り込み平均(上位と下位の一部を除いて平均を求めたもの。体操 競技の採点などで、最高点と最低点を除いた平均が得点となるが、こ れは刈り込み平均の1種である)などは、標本のすべての情報を含ん でいないので、十分性を満たさない。 ただし、刈り込み平均の方が算術平均より母平均に近い値を取る可 能性はある。 Ⅲ 区間推定 • 点推定で母数θをピタリと推定することは難しい。そのため、標本統計量t の近くの区間を設定し、その区間内に母数θが含まれることを推定する。 これを区間推定という。 母集団(個体数N) × × × × × × 標本(個体数n) × × × × 母平均μ 標本平均x 区間推定 • たとえば、日本全国全世帯の家計の平均年収を知りたいとき、1万世帯 を標本として調査し、500万円という標本平均を得たとする。この500万円 ±10万円という区間をとればよいのか、±30万円という区間を取ればよ いのかを考えていく。(区間が広がれば母平均が含まれる可能性は高く なるが、実用性に劣る) 母集団(大きさ N) 標本(大きさ n) × × × 標本平均 x × × × × × × × × 標本平均 x × × 標本平均 x × × × • 標本調査をおこなう場合、 通常は1つの標本について の標本平均がわかるだけで あるが、とりうるすべての標 本について標本平均を知る ことができたなら、その分布 を考えることができる。これ を標本分布という。 母平均 μ a) 母平均の区間推定 1) 中心極限定理 • x の標本分布について、 E(x ) N n 2 V( x ) N 1 n が成り立っていた。 さらに、母集団の個体数(N)が十分大きいとき、 V( x ) が成り立つ 2 n 次に、標本平均 x の分布がどのような形になるのか考えてみよう。 ⅰ) 母集団の分布が正規分布の場合 母集団が平均μ、分散σ2の正規分布にしたがっているとする。 標本平均 x は n x x xn x 1 2 n x i 1 i n であり、正規分布にしたがう変数の和(をnという定数で割ったもの)と なっている。 したがって、正規分布の再生性†より、 x は正規分布にしたがう。 † 確率変数XとYがそれぞれN(μx,σ2x), N(μy,σ2y) にしたがうとき、その1次結 合α X+βY はN(αμx+βμy,α2σ2x+β2σ2y )にしたがう。これを正規分布の再生性と いう。 ⅱ) 母集団の分布が正規分布ではない場合 母集団の分布が正規分布でない場合でも、標本の個体数 n が大きいと き、次のような定理によって標本平均 x の分布は正規分布となる。 <中心極限定理> 算術平均μ, 分散σ2をもつ母集団からとられた大きさ n の標 本の平均 の分布は、母集団の分布がどのようなもので x あっても、 n が大きくなるとき、正規分布 N(μ, )に近づく。 2 n ※ 以上ⅰ),ⅱ) より、nが大きい時には母集団の分布にかかわらず、標 本平均 x の分布は正規分布となり、標準化された変数 x n の分布は、標準正規分布 N(0, 1) に近づく。 z 2) 信頼区間 標準正規分布にしたがう変数が、-1.96と1.96の間の値をとる確率は 95%である。よって、 z x n はnが大きいときには、中心極限定理によ り標準正規分布にしたがうので、 P(1.96 x 1.96) 0.95 n となる。この式のカッコ内を変形すると 1.96 x 1.96 n となり、標本平均 x は 1.96 n n の区間内に95%の確率で含まれる。 x の分布 標準化 z 1.96 また P(1.96 n μ 1.96 zの分布 x n -1.96 0 1.96 n x 1.96) 0.95 のカッコ内は次のようにも変形できる。 n 1.96 x 1.96 1.96 x 1.96 n n n 1.96 x 1.96 x 1.96 n n x 1.96 n n 1.96 n x 1.96 n と x 1.96 n x 1.96 なことを意味している。 1.96 n x 1.96 × μ 1.96 × x n n x 1.96 × n n は次のよう x を中心に、 x 1.96 という区間を考えると、とりうる標本のうち95% n がこの区間内に母平均μを含む。 • このように母数が含まれると考えられる区間を信頼区間とい い、その区間に母数が入ると信頼できる程度を信頼係数と いう。 • この場合、 ( x 1.96 区間である。 n , x 1.96 n ) はμの信頼係数95%の信頼 3) 母分散が既知の場合の区間推定 (例) 20歳男性の身長を調べるために、100人を標本として選 んだところ、標本平均 x =170であった。σ=8であるとき、母 平均μの95%信頼区間を求めよ。 (解) μの95%信頼区間は ( x 1.96 n , x 1.96 n ) 8 8 ,170 1.96 ) 100 100 (170 1.568,170 1.568) (170 1.96 (169.43,171.57) となる。 4) 母分散が未知の場合の区間推定 母集団(大きさ N) 標本(大きさ n) 信頼区間を求める場合、 z × × × × × × × × × × × × 母平均 μ 母分散 σ2 標本平均 x 標本分散 s2 x が標準正規分布 n にしたがうという性質を用いる。 しかし、母平均の推定をおこ なう場合に、母分散σ2が分 かっているということは、あま り多くない。 (過去の調査に おいて母分散のおおよその 値が分かり、それを用いるな どの例外はあるが) 母分散σ2がわからないとき、代わりに標本分散s2を用いる。 このとき、 t x が自由度n-1のt分布にしたがう。 s / n 1 正規分布とt分布 0.45 0.40 0.35 0.30 normal t1 t5 t10 0.25 0.20 0.15 0.10 0.05 0.00 -3.00 -2.00 -1.00 0.00 1.00 2.00 3.00 ※ t分布は標準正規分布を上からつぶしたような、左右対称の形をしている。 自由度が小さいほどつぶれ具合が大きく、自由度が大きいほど標準正規 分布に近くなっている。 ※ 標本分散s2の代わりに標本不偏分散 2 ( x1 x ) 2 ( x2 x ) 2 ( xn x ) 2 ( xi x ) sˆ n 1 n 1 2 を用いれば、 t x が自由度n-1のt分布にしたがう。 sˆ / n <自由度について> 自由度とは、自由に値を取ることのできる個体数のこと である。 この場合は、t統計量の自由度は標本分散 s2 の分子に 含まれる xi のうち、自由に値を取ることのできる個数で n ある。 2 ( x x ) ( x2 x ) ( x n x ) s2 1 n 2 2 2 (x x) i 1 i n なので、x1, …, xn-1 は自由に値をとることができるが、xn は x n i x を満たすように決められ、自由度はn-1となる。 • 母集団の分散が分からないとき、母平均μの95%信頼区 間は、t分布の95%点をt0.95とあらわすと、 ( x t0.95 s s , x t0.95 ) n 1 n 1 となる。 t0.95はt分布表からその値を求める。 x ※ より正確には、母集団の分布が正規分布にしたがうとき、t s / n 1 が自由度n-1のt分布にしたがう。 しかし、母集団の分布が正規分布にしたがわない場合でも、標本の 大きさがある程度大きければ、 t x は近似的に自由度n-1 s / n 1 のt分布にしたがうとみなせる。 また、nが十分大きい場合、t分布は正規分布に近づくので、t x が正規分布にしたがうと考えることもある。 s / n 1 x の分布 zの分布 標準化 z 1.96 n μ 1.96 x n -1.96 0 1.96 n tの分布 母分散が分からない場合、 t x が自由度n-1の s n 1 t分布にしたがう。 t統計量の95%が含まれる区 間の境界値であるt0.95の値を、 t分布表から探し出す。 変換 t (自由度n-1のt分布) x s n 1 -t0.95 t0.95 (例) 20歳女性の身長を調べるために、10人を標本として選ん だところ、標本平均 x =160であった。s=9であるとき、母平 均μの95%信頼区間を求めよ。 (解) 自由度10-1=9のt分布のt0.95=2.262なので、 μの95%信 頼区間は s s , x t0.95 ) n 1 n 1 9 9 (160 2.262 , 160 2.262 ) 10 1 10 1 (160 2.262 3, 160 2.262 3) (160 6.79,160 6.79) (153.21,166.79) ( x t0.95 となる。 b) 母比率の区間推定 1) 標本比率の標本分布 母集団(大きさ N) × 標本(大きさ n) × × × × × × × × × × × 母比率 p 標本比率 pˆ まず、標本比率 pˆ の標本 分布を考えよう。 内閣支持率を例にとると、 標本比率 pˆ とは、標本n 人のうちのx人が「内閣を 支持する」と答えた割合 であり、 pˆ x である。 n よって pˆ の標本分布を考えるためには、まずxの標本分布を 考えればよい。 • 標本として選ばれた人の答えは、それぞれ「内閣を支持す る」か「内閣を支持しない」かのいずれである。 また選ばれた人が 「内閣を支持する」人である確率は、母 比率pに等しい。 よって、n人の標本を選ぶことは、AかBかという2つの結果し か起こらない試行 をn回繰り返すこととみなすことができ、 「内閣を支持する」人の人数xは2項分布にしたがう。 • 2項分布の期待値は E(x) = np、分散は V(x) = npq である ので、これを用いて、 pˆ の平均、分散を考えてみると、 x E ( x) np ˆ E ( p) E ( ) p n n n x V ( x) npq pq V ( pˆ ) V ( ) 2 2 n n n n となる。 • また、「内閣を支持する」人を1、「内閣を支持しない」人を0と 表すことを考える。n人の標本の中に「内閣を支持する」人は x人含まれるので、このようにあらわした場合、 pˆ x n は大き さnの標本の平均とみなすことができ、中心極限定理が適用 できる。 pq の正規分布にしたがう。 n よって、 pˆ の分布は、平均p、分散 標準化された変数 z pˆ p は標準正規分布にしたがう。 pq n 2) 母比率の区間推定 z pˆ p pq n が標準正規分布にしたがうことから、母比率pの 95%信頼区間は pq pq , pˆ 1.96 ) n n ( pˆ 1.96 となる。 (例) NHK大河ドラマ「龍馬伝」第20回(2010.5.14放送)の視聴率は20.4% であった。この数値は関東地区の約1600万世帯から600世帯をサンプ ルとして選んだ結果である。このデータから、関東地区全世帯の視聴率 の95%信頼区間を求めよう。 (解) pの代わりに pˆ を用いてpの95%信頼区間を計算すると ( pˆ 1.96 (0.204 1.96 pq pq , pˆ 1.96 ) n n 0.204 0.796 0.204 0.796 ,0.204 1.96 ) 600 600 (0.204 0.032,0.204 0.032) (0.172,0.236) となる。 c) 標本数の決定 NHK大河ドラマ「龍馬伝」第20回の視聴率を信頼係数95%で区間推定 すると、6%以上の幅ができる。そのため、1%ぐらいの差で、勝った負け たを考えるのはナンセンスである。 では、視聴率調査の精度を高めるには、推定量の一致性から標本数を 増やすことが考えられる。しかし、標本数を増やすことはコストの増加を 意味している。よって、目標となる精度(どの程度のズレまで許容できる か)を設定し、それに必要な標本数を計算する必要がある。 1) 母平均の推定における標本数の決定 | x | の許容限度を E とする。 の区間推定を信頼係数 95% でおこなうとき、 x の分布について、 | x | 1.96 n が成り立つので、 | x | 1.96 n E となればよい。よって 1.96 n 1.96 E E n 1.96 n E 2 となり、 1.96 n E 2 が必要標本数であることが分かる。 これを求めるために、母標準偏差σが必要となるが、標本数を決定すると いうことは、データ収集をおこなう前のことであり通常はわからない。その ため、過去の経験などからσ2 の推定値を求め、それを利用する。 (例) ある大都市の大学生の1ヶ月平均生活費を1000円以内の誤差で推 定するという問題を考える。ただし、母集団の標準偏差は8000円であっ たと見当がつけられているとする。 (解) 信頼係数を95%とすると、必要標本数は 1.96 8000 2 n (15.68) 245.8624 1000 2 となるので、246人となる。 2) 母比率の推定における標本数の決定 | pˆ p | の許容限度を E とする。 pの区間推定を信頼係数 95% でおこなうとき、 pˆ の分布について、 が成り立つので、 | pˆ p | 1.96 pq n | pˆ p | 1.96 pq E n となればよい。よって 1.96 pq E n 1.96 pq n E 2 1.96 pq n E となり、 2 1.96 n pq E が必要標本数であることが分かる。 これを求めるために、母比率pが必要となる。Pについて何らかの見当が つくなら、その数値を用いるが、pについて何の情報もない場合には p 1 2 1 を用いる。なぜなら、 p q のときに、pqが最大となるからである。 2 (例) 視聴率調査において、1%以内の誤差で推定するために必要な標本 数を求めよ。 (解) 信頼係数を95%とする。また、母比率についてはあらゆる可能性が考 えられるので、 p 1 とすると、必要標本数は 2 2 1 1.96 1 1 2 n (196) 9604 4 0.01 2 2 となるので、9604人となる。
© Copyright 2024 ExpyDoc