基礎統計推理論 2015 年度前期 講義ノート 度数 ¨ ¨ ¨ ある階級に属するデータの数。 0 序説 度数分布表 ¨ ¨ ¨ 度数を表にしたもの。 統計学の目的 ¨ ¨ ¨ 統計的推測 (標本を用いて母 相対度数 ¨ ¨ ¨ 各階級の度数をデータの総数で 集団の特徴をつかむ。) 割ったもの。すなわち,各階級の属するデータ の割合。 標本 ¨ ¨ ¨ 母集団に関する情報をもつデータ (観 累積度数 ¨ ¨ ¨ ある階級以下の度数を合計したも 測値) の集まり。 の。 母集団 ¨ ¨ ¨ 観測値の源泉。 累積相対度数 ¨ ¨ ¨ ある階級以下の相対度数を合 母集団の特徴をあらわすパラメータ (母数) に 計したもの。すなわち,ある階級以下に属する 関する検定 ¨ 推定を行う。 データの割合。 母数の例 ¨ ¨ ¨ 平均 ¨ 分散。 度数分布表の作成手順 全数調査を行うことができれば,統計的推測 1. データの最大値と最小値を見つける。 を行う必要はない (母集団の特徴が既知になる 2. 階級の数と幅を決める。 から)。 3. 各階級の度数を求める。 4. 相対度数,累積度数,累積相対度数等を求 1 度数分布 める。 1.1 変数 連続型変数 (continuous variable) ¨ ¨ ¨ ある区間 表 1.3 20 個の物体の重さのデータ 内の任意の実数値を取りうる変数。例:身長,長 4.3 5.2 7.2 6.4 3.5 5.6 6.7 6.1 4.1 6.8 5.0 5.6 3.8 4.6 5.8 5.1 6.2 5.3 7.4 5.9 さ,時間など。 離散型変数 (discrete variable) ¨ ¨ ¨ 不連続な値し 表 1.4 度数分布表 かとらない変数。例: サイコロの出た目,各世 階級値 階級境界値 度数 相対度数 累積 累積 度数 相対度数 帯の人数など。 3.45 4.45 5.45 6.45 7.45 1.2 度数分布 階級境界値 ¨ ¨ ¨ 階級の境界を定める値。 階級値 ¨ ¨ ¨ 階級境界値の中点。 2.95„ 3.95 3.95„ 4.95 4.95„ 5.95 5.95„ 6.95 6.95„ 7.95 合計 1 2 3 8 5 2 20 0.10 0.15 0.40 0.25 0.10 1.00 2 5 13 18 20 0.10 0.25 0.65 0.90 1.00 表 2.1 度数分布表 1.3 度数分布のグラフ 度数分布をグラフにしたものをヒストグラム (histogram) あるいは柱状図と呼ぶ。 図 1.1 20 個の物体の重さのヒストグラム 階級値 階級境界値 度数 m1 a0 „ a1 f1 m2 .. . a1 „ a2 .. . f2 .. . mk ak´1 „ ak fk 度数合計 n 1 2 ただし,m1 “ a0 `a , m2 “ a1 `a , 2 2 ak´1 `ak ¨ ¨ ¨, mk “ . 2 となる。 2.95 3.95 4.95 5.95 6.95 7.95 表 1.4 の度数分布表から得られる加重平均値は ヒストグラムの右裾 (左裾) が長い分布を右 (左) x“ に歪んだ分布という。 1 p2 ˆ 3.45 ` 3 ˆ 4.45 ` 8 ˆ 5.45 20 `5 ˆ 6.45 ` 2 ˆ 7.45q “ 5.55 2 代表値 となる。 2.1 いろいろな平均 幾何平均 n 個のデータ x1 , x2 , ¨ ¨ ¨ , xn が与えられたと する。 gx “ ? n x1 ˆ x2 ˆ ¨ ¨ ¨ ˆ xn 算術平均値 2005 年から 2008 年までの消費者物価を y1 , n 1 1 ÿ x “ px1 ` x2 ` ¨ ¨ ¨ ` xn q “ xi n n i“1 y2 , y3 , y4 とすれば,対前年度比はそれぞれ以 下のようになる。 表 1.2 のデータの場合,算術平均値は xi “ x“ 1 p4.3 ` 5.2 ` ¨ ¨ ¨ ` 5.9q “ 5.53 20 yi`1 , i “ 1, 2, 3 yi x1 , x2 , x3 の幾何平均は となる。 gx “ 加重平均値 表 2.1 のような度数分布表が利用可能なとき, ? 3 x1 ˆ x2 ˆ x3 “ c 3 y4 y1 となり,y4 について解けば 加重平均値は y4 “ y1 ˆ gx3 1 x “ pf1 m1 ` f2 m2 ` ¨ ¨ ¨ ` fk mk q n k 1 ÿ “ fi mi n i“1 となる。gx から 1 を引いた値は平均上昇率と 考えることができる。 2 2.4 標準化変量 2.2 範囲と四分位範囲 分布の中心を与える測度。 範囲 ¨ ¨ ¨ 最大値から最小値を引いたもの。 zi “ 中央値 ¨ ¨ ¨ データを大きさの順に並べたとき にちょうど真ん中にくる観察値。メディアン xi ´ x s を標準化変量と呼ぶ。 (median) とも呼ばれる。データ数を n とする。 2.5 変動係数 n が奇数の時には pn ` 1q{2 番目の値が中央値 標準偏差を平均値で割った値を変動係数 (coef- となる。n が偶数の時には n{2 番目と pn{2q`1 ficient of variation) と呼ぶ。 番目の値の算術平均を中央値とする。 2.6 相関係数 最頻値 ¨ ¨ ¨ 1 組のデータの集合の中で,最も 変数間の関係を表す測度。 度数の大きい観測値。モード (mode) とも呼ば 2 変 数 の デ ー タ の 組 px1 , y1 q, px2 , y2 q,¨ ¨ ¨, れる。 pxn , yn q が与えられたとする。共分散は 2.3 標準偏差と分散 分布の広がり具合を与える測度。 sxy “ データ x1 , x2 , ¨ ¨ ¨, xn が与えられたとする。 分散 n 1 ÿ pxi ´ xqpyi ´ yq n i“1 で定義される。sxy ą 0 の時, x と y には正の n 1 ÿ pxi ´ xq2 s2 “ n i“1 相関があると言い,sxy ă 0 の時には負の相関 があると言う。また,相関係数は あるいは s2 “ r“ n ÿ 1 pxi ´ xq2 n ´ 1 i“1 で定義される。ただし,sx , sy はそれぞれ x と で計算する (下の式のほうがより重要であるこ y の標準偏差をあらわす。´1 ő r ő 1 という 2 とは後述する)。分散 s の正の平方根をとった 性質を持つ。 もの s を,標準偏差 と呼ぶ。分散は以下のよう 3 に計算することもできる。 1 s “ n 2 “ 1 n ˜ n ÿ x2i i“1 n ÿ x2i i“1 ´ 2x n ÿ 確率 3.1 基礎概念 ¸ 2 xi ` nx a が集合 A に属するなら,a を集合 A の要素ま i“1 たは元といい, ´ x2 a P A または A Q a 表 2.1 のように,データが度数分布で与えられ と書く。また,b が集合 A に属していないこ ているときには分散は次のように計算される。 とを k 1 ÿ 2 s “ fi pmi ´ xq2 n i“1 “ sxy sx sy b R A または A S b k 1 ÿ fi m2i ´ x2 n i“1 と書く。 3 図 3.1 集合とその要素: a P A, b R A 図 3.4 共通集合: A X B A A B a b 空集合φ ¨ ¨ ¨ 1 つも要素を持たない集合。 全体集合Ω ¨ ¨ ¨ すべての要素からなる集合。 集合 A に属していて集合 B に属さない要素の 集合 A が集合 B のすべての要素を含んでいる 集まりを差集合といい ならば,集合 B を集合 A の部分集合といい, A´B A Ą B または B Ă A と書く。 と書く。 図 3.5 差集合: A ´ B 図 3.2 集合の包含関係: A Ą B A A B B 全体集合 Ω の中で A に属さない要素の集合 集合 A と集合 B のどちらか一方に属する要素 を補集合といい, の集まりを和集合といい Ac A Y B または B Y A と書く。 と書く。 図 3.6 補集合 図 3.3 和集合: A Y B A Ω B A 集合 A と集合 B のどちらにも属する要素の集 Ac 補集合を用いれば まりを共通集合あるいは積集合といい A ´ B “ A X Bc A X B または B X A と書く。 が成り立つ。 4 集合に関する公式 の標本点があるとする。このとき事象 A が起 結合則: pA Y Bq Y C “ A Y pB Y Cq こる確率は 交換則: A Y B “ B Y A P pAq “ 分配則: A Y pB X Cq “ pA Y Bq X pA Y Cq npAq npAq “ N npΩq 以上の公式は Y と X を入れかえても成り立 である。事象 A に属する標本点の数 npAq を つ。 場合の数という。 ド・モルガンの法則 pA Y Bqc “ Ac X B c pA X Bqc “ Ac Y B c 確率の性質 1. 0 ő P pAq ő 1 Ω ´ pA Y Bq “ Ac X B c Ω ´ pA X Bq “ Ac Y B c 2. P pAc q “ 1 ´ P pAq 3. A Ă B ùñ P pAq ő P pBq 3.2 標本空間 (1 の証明) 試行(trial) ¨ ¨ ¨ 繰返し可能な実験。 npφq ő npAq ő npΩq を npΩq で 割 っ て , 標本点(sample point) ¨ ¨ ¨ 試行によって起こりう npφq “ 0 を用いれば, る結果。例えば,サイコロを投げた時起こりう る結果は,1, 2, 3, 4, 5, 6 のいずれかの目が出る 0ő ことである。 npAq ő1 npΩq 事象(event) ¨ ¨ ¨ 標本点の集まり。 が得られる。 標本空間(sample space) ¨ ¨ ¨ すべての標本点の (2 の証明) 集まり。全事象とも呼ばれ,通常 Ω で表され npΩq “ npAq ` npAc q の両辺を npΩq で割る。 る。標本点は集合の要素,事象は集合,標本空 (3 の証明) 間は全体集合に対応する。 npAq ő npBq の両辺を npΩq で割る。 空事象(empty event) ¨ ¨ ¨ 何の結果も起こらない という事象。φ で表され,空集合に対応する。 3.3.2 加法定理と乗法定理 余事象(complementary event) ¨ ¨ ¨ ある事象が起 加法定理 こらないという事象。補集合に対応する。 P pA Y Bq “ P pAq ` P pBq ´ P pA X Bq 和事象・積事象 ¨ ¨ ¨ それぞれ和集合・積集合に 対応する。 (証明) 排反(exclusive) ¨ ¨ ¨ A X B “ φ のとき,A と B 図 3.7 (次ページ) より c は排反であるという。A X A “ φ であるから, npAq “ npA ´ Bq ` npA X Bq A と Ac は排反である。 npBq “ npB ´ Aq ` npA X Bq npA Y Bq “ npA ´ Bq ` npB ´ Aq 3.3 確率 3.3.1 確率の定義と基本的性質 `npA X Bq 確率 (ラプラスの算術的確率) 標本空間に N 個 であることが分かる。これより の標本点があり,それらの起こることが同様に 確からしいとする。さらに,事象 A に npAq 個 npA Y Bq “ npAq ` npBq ´ npA X Bq 5 図 3.7 A P pA X Bq “ B npA X Bq npΩq であるから npA X Bq npBq npA X Bq{npΩq “ npBq{npΩq P pA X Bq “ P pBq P pA|Bq “ ó A´B AYB B´A を変形すれば定理が得られる。 独立性 npA ´ Bq npA X Bq npB ´ Aq P pA X Bq “ P pAqP pBq || AYB が成り立つとき,事象 A と事象 B は独立であ るという。 事象 A と事象 B が独立であるとき,乗法定理 より npA Y Bq P pA X Bq “ P pBqP pA|Bq “ P pAqP pBq が得られ が得られ,これを npΩq で割れば定理が得られ る。 P pAq “ P pA|Bq 特に,事象 A と B が排反である場合,A X B “ φ より P pA X Bq “ 0 となるので, が成り立つ。同様に P pBq “ P pB|Aq も成立 する。 P pA Y Bq “ P pAq ` P pBq が成り立つ。 ベイズの定理 (Bayes’ theorem) 条件付き確率 ¨ ¨ ¨ 事象 B が起こったという条 A1 , A2 , ¨ ¨ ¨ , An が互いに排反な事象で,これら 件の下で事象 A が起こる確率。P pA|Bq であ の事象のどれかは必ず起こるものとする (つま らわす。 り,i ‰ j に対して Ai X Aj “ φ で,A1 Y A2 Y ¨ ¨ ¨ Y An “ Ω)。ある事象 B に対して P pB|Ai q 乗法定理 が与えられているとき P pA X Bq “ P pBqP pA|Bq P pAi qP pB|Ai q P pAi |Bq “ řn j“1 P pAj qP pB|Aj q (証明) P pBq “ npBq npΩq が成り立つ。 6 図 3.8 ベイズの定理 を確率関数(probability function) という。 確率関数には以下の性質がある。 A1 A3 A2 1. f pxi q ŕ 0, i “ 1, 2, ¨ ¨ ¨ n ÿ 2. f pxi q “ 1 i“1 この 2 つの性質を満たす関数は,どんな関数で A1 X B も確率関数と言う。 A3 X B A2 X B X ő x となる確率 B 図 3.8 において F pxq “ P pX ő xq “ P pA1 X Bq P pBq P pA1 X Bq “ P pA1 X Bq ` P pA2 X Bq ` P pA3 X Bq r ÿ pi “ i“1 P pA1 |Bq “ r ÿ f pxi q i“1 を分布関数 (distribution function) という。ただ し,r は xr ő x ă xr`1 を満たす整数。 分布関数には以下の性質がある。 であり、P pAi X Bq “ P pBqP pAi |Bq であるこ とを用いればベイズの定理が得られる。 F p´8q “ 0, F p8q “ 1 4 確率変数と確率分布 4.1.2 離散型確率分布 例: 4.1 確率変数 ある野球選手がヒットを打つ確率が 0.3 である 4.1.1 離散型確率変数 とする。 確率変数(random variable) ¨ ¨ ¨ どの値が実現す ヒットを打つという事象を H とすれば,H c は るか確実には分からないが,その値が出る確 ヒットを打たない事象になる。 率が分かっている変数。例: サイコロを振った 3 打席のうちヒットを打つ回数を X とする。 時,1, 2, 3, 4, 5, 6 のうちどの目が出るかは分か 第 1 打席 第 2 打席 第 3 打席 X らないが,それぞれの目の出る確率は 1{6 であ H H H H Hc Hc Hc Hc る。 離散型確率変数 ¨ ¨ ¨ 不連続な値しかとらない確 率変数。 x1 , x2 , ¨ ¨ ¨ , xn を離散型確率変数 X の実現値と xi q とすると,X の確率分布は x1 x2 ¨¨¨ xn 計 P pX “ xi q p1 p2 ¨¨¨ pn 1 H Hc H Hc H Hc H Hc 3 2 2 1 2 1 1 0 確率 0.3 ˆ 0.3 ˆ 0.3 0.3 ˆ 0.3 ˆ 0.7 0.3 ˆ 0.7 ˆ 0.3 0.3 ˆ 0.7 ˆ 0.7 0.7 ˆ 0.3 ˆ 0.3 0.7 ˆ 0.3 ˆ 0.7 0.7 ˆ 0.7 ˆ 0.3 0.7 ˆ 0.7 ˆ 0.7 上の表より する。さらに,X “ xi となる確率を P pX “ X H H Hc Hc H H Hc Hc P pX “ 0q “ 1 ˆ 0.7 ˆ 0.7 ˆ 0.7 “ 0.343 P pX “ 1q “ 3 ˆ 0.3 ˆ 0.7 ˆ 0.7 “ 0.441 P pX “ 2q “ 3 ˆ 0.3 ˆ 0.3 ˆ 0.7 “ 0.189 P pX “ 3q “ 1 ˆ 0.3 ˆ 0.3 ˆ 0.3 “ 0.027 となる。ただし n は無限大になることもある。 を得る。 f pxi q “ P pX “ xi q “ pi 7 2 項分布 (binomial distribution) いう線分の面積 ある事象 A が起こる確率を p,その余事象 Ac ża P pX “ aq “ P pa ő X ő aq “ の起こる確率を qp“ 1 ´ pq とする。n 回の試行 となる。このことから をを行ったとき,事象 A が x 回起こる確率は f pxq “ P pX “ xq “ f pxqdx “ 0 a P pa ő X ő bq “ P pa ă X ő bq n! px q n´x x!pn ´ xq! “ P pa ő X ă bq “ P pa ă X ă bq で与えられる。ただし,n! は n の階乗で,n! “ が成立する。 npn ´ 1qpn ´ 2q ¨ ¨ ¨ 1 を意味する。上の確率関 数を持つ分布を 2 項分布という。また,このと 離散型確率変数のときと同様、 X ő x となる き X „ Bpn, pq とあらわす。 確率 żx 4.1.3 連続型確率変数 F pxq “ P pX ő xq “ 連続型確率変数 ¨ ¨ ¨ 実現値が連続した値 (任意 f ptqdt ´8 を分布関数という。分布関数を用いれば の実数値) をとる確率変数。連続型確率変数の 分布を連続型確率分布という。 P pa ă X ă bq “ F pbq ´ F paq żb ża “ f pxqdx ´ f pxqdx 確率密度関数 (probability density function) ¨ ¨ ¨ 確率を分配する規則を表す連続曲線。単に密度 ´8 ´8 żb 関数とも呼ばれる。 f pxqdx “ 連続型確率変数 X が開区間 pa, bq に入る確率 a と書くことができる。分布関数には は,この区間での確率密度関数と X 軸との間 の領域の面積 F p´8q “ 0, F p8q “ 1 という性質がある。 żb P pa ă X ă bq “ f pxqdx 4.2 期待値 a 4.2.1 平均値 で表される。 離散型確率変数の期待値 (expectation, 平均値と 図 4.1 もいう) を以下のように定義する。 żb Ppa ă X ă bq “ ErXs “ f pxqdx n ÿ xi f pxi q i“1 a 同様に連続型確率変数の期待値を ż8 xf pxqdx ErXs “ f pxq a b ´8 で定義する。ErXs はしばしば µ で表される。 X 一般に X の関数 gpXq の期待値を 確率密度関数には以下の性質がある。 $ ÿ n ’ ’ gpxi qf pxi q ’ & i“1 ErgpXqs “ ż8 ’ ’ ’ % gpxqf pxqdx ż8 f pxq ŕ 0, f pxqdx “ 1 ´8 X が特定の値 a をとるという確率は X “ a と ´8 8 (離散型) (連続型) で定義する。 “ n ÿ x2i f pxi q ´ 2µ i“1 期待値について以下の定理が成立する。 n ÿ xi f pxi q ` µ2 i“1 n ÿ f pxi q i“1 “ EpX 2 q ´ 2µErXs ` µ2 定理 4.1 a, b が定数であるとき “ ErX 2 s ´ µ2 EraX ` bs “ aErXs ` b 定理 4.3: (証明) 離散型確率変数の場合について証明する EpaX ` bq “ aEpXq ` b “ aµ ` b (連続型確率変数の場合も同様に証明できる)。 EraX ` bs “ “ n ÿ であるから paxi ` bqf pxi q i“1 n ÿ axi f pxi q ` i“1 n ÿ “a n ÿ V paX ` bq “ ErtpaX ` bq ´ paµ ` bqu2 s bf pxi q i“1 n ÿ xi f pxi q ` b i“1 “ ErtapX ´ µqu2 s “ Era2 pX ´ µq2 s “ a2 ErpX ´ µq2 s (定理 4.1 より) f pxi q i“1 “ a2 V rXs “ aErXs ` b 4.2.2 分散,標準偏差 連続型確率変数の場合も同様に証明することが 確率変数 X の分散は以下のように定義される。 できる。 V pXq “ ErpX ´ µq2 s, µ “ ErXs $ ÿ n ’ ’ pxi ´ µq2 f pxi q (離散型) ’ & i“1 “ ż8 ’ ’ ’ % px ´ µq2 f pxqdx (連続型) 標準偏差 (standard deviation) ¨ ¨ ¨ 分散の非負の 平方根。すなわち σpXq “ a a V pXq “ ErpX ´ µq2 s 確率変数 X から期待値 µ “ ErXs を引き、標 ´8 準偏差 σ “ σpXq で割った変数 定理 4.2 µ “ ErXs とすれば V pXq “ ErX 2 s ´ µ2 z“ 定理 4.3 a, b が定数であるとき X ´µ σ を確率変数 X の標準化 (基準化) (standardized) 2 された変数という。 V paX ` bq “ a V rXs (定理 4.2, 4.3 の証明) 定理 4.4 Erzs “ 0, V rzs “ 1 定理 4.2: (証明) a “ 1{σ, b “ ´µ{σ とすれば z “ aX ` b とな V pXq る。よって定理 4.1 より “ ErpX ´ µq2 s n ÿ “ pxi ´ µq2 f pxi q “ i“1 n ÿ ErXs µ ´ σ σ µ µ “ ´ σ σ “0 Erzs “ px2i ´ 2µxi ` µ2 qf pxi q i“1 9 同様に、定理 4.3 より となる。このような確率の系列を,確率変数 X と Y の同時確率分布 (joint probability distribu- V pzq “ a2 V pXq σ2 “ 2 σ “1 tion) という。 f pxi , yj q “ P pX “ xi , Y “ yj q “ pij i “ 1, 2, ¨ ¨ ¨ , n, j “ 1, 2, ¨ ¨ ¨ , m 4.2.3 積率 a を定数,k を正の整数とするとき を確率変数 X, Y の同時確率関数という k ErpX ´ aq s 表 4.6 同時確率分布 HH Y H HH y1 X H を a の回りの k 次の積率またはモーメント (moment) という。つまり,平均値 ErXs は 0(原 点) の回りの 1 次の積率,分散 V pXq “ ErpX ´ x1 x2 .. . xn ErXsq2 s は 平均値 ErXs の回りの 2 次の積率 である。 平均値の回りの k 次の積率を 計 mk “ ErpX ´ ErXsqk s p11 p21 .. . pn1 p¨1 y2 ¨¨¨ ym 計 p12 p22 .. . pn2 p¨2 ¨¨¨ ¨¨¨ p1m p2m .. . pnm p¨m p1¨ p2¨ .. . pn¨ 1 ¨¨¨ ¨¨¨ 同時確率分布は表 4.6 のようにまとめることが で表すとき, できる。pi¨ は,Y がどの値をとるかに依存せ γ1 “ せんど m4 m22 ず,X が xi という値をとる確率である。これを 確率変数 X の周辺分布 (marginal distribution) とが という。同様に p¨j を確率変数 Y の周辺分布 を 尖度 (kurtosis) あるいは 尖りといい, γ2 “ わいど という。X, Y の周辺分布は以下のようにして m3 求められる。 3{2 m2 ゆが を 歪度 (skewness) あるいは 歪 みという。左右 f pxi q “ P pX “ xi q “ pi¨ “ 対称の確率分布の歪度は 0 となる。特に,第 5 章で扱う正規分布では,尖度,歪度ともに 0 と f pyj q “ P pX “ yj q “ p¨j “ なる。 m ÿ j“1 n ÿ pij pij i“1 4.3 同時確率分布 f pxq, f pyq をそれぞれ X, Y の周辺確率関数と 4.3.1 同時確率分布と周辺分布 いう。確率の総和が 1 となることから、 例: 2 つのサイコロを投げたとき,出る目の数 をそれぞれ X, Y とする。このとき、X “ i か n ÿ m ÿ つ Y “ j (i, j “ 1, 2, ¨ ¨ ¨ , 6) となる確率は,X i“1 j“1 と Y の出る目は独立だから (X の値は Y “ j pij “ n ÿ i“1 pi¨ “ m ÿ p¨j “ 1 j“1 が成り立つ。 となる確率に影響を与えない) 2 つの連続型確率変数 X, Y についても同時確 P pX “ i, Y “ jq “ P pX “ iqP pY “ jq 1 “ 36 率密度関数および周辺確率密度関数を考えるこ とができるが,ここでは省略する。 10 4.3.2 条件付き分布 均値) を以下のように定義する。 表 4.6 において,Y が Y “ yj という値をとる ErXs “ という条件の下で,X “ xi となる確率を考え ると “ f pxi |yj q “ P pX “ xi |Y “ yj q P pX “ xi , Y “ yj q “ P pY “ Yj q f pxi , yj q “ f pyj q “ n ÿ m ÿ xi pij i“1 j“1 m n ÿ ÿ pij xi i“1 n ÿ j“1 xi pi¨ i“1 Y の期待値も同様に定義される。 連続型確率変数の同時確率分布についても,期 となる。f pxi |yj q を, Y “ yj を与えたときの 待値は 1 変数の場合と同様に定義できる。定 X “ xi の条件付き確率関数という。 理 4.5 „ 定理 4.9 は連続型確率変数の場合にも X が xi という値をとるという事象と Y が yj 成立する。 という値をとるという事象が独立であるという ことは 定理 4.5 確率変数の和の期待値 確率変数 X, P pX “ xi , Y “ yj q “ P pX “ xi qP pY “ yj q Y について ErX ` Y s “ ErXs ` ErY s と な る こ と で あ る 。こ れ は ,同 時 確 率 関 数 f px, yq と周辺確率関数 f pxq, f pyq を用いれば が成り立つ。 (証明) f pxi , yj q “ f pxi qf pyj q ErX ` Y s “ が成立することであり,pij , pi¨ , p¨j を用いれば pij “ pi¨ p¨j “ n ÿ m ÿ pxi ` yj qpij i“1 j“1 n ÿ m ÿ xi pij ` i“1 j“1 が成り立つことである。この関係が,すべての n ÿ m ÿ yj pij i“1 j“1 “ ErXs ` ErY s i, j について成り立つとき,確率変数 X と Y は (統計的に) 独立であるという。 定理 4.6 確率変数の積の期待値 確率変数 X と Y が 独立であるならば 同様のことを,連続型確率変数に関しても定 義できる。連続型確率変数 X, Y の同時確率密 ErXY s “ ErXsErY s 度関数を f px, yq とし,周辺確率密度関数をそ が成り立つ。 れぞれ f pxq, f pyq とする。このとき f px, yq “ (証明) f pxqf pyq が成立すれば,確率変数 X と Y は (統計的に) 独立であるという。 ErXY s “ 4.3.3 期待値 離散型確率変数 X, Y の同時確率分布が表 4.6 “ のように与えられているとき,X の期待値 (平 n ÿ m ÿ i“1 j“1 n ÿ m ÿ i“1 j“1 11 xi yj pij xi yj pi¨ p¨j (独立性より) “ n ÿ xi pi¨ i“1 m ÿ となる。しかし CovpX, Y q “ 0 であるからと yj p¨j いって, X と Y が独立であるとはいえない。 j“1 “ ErXsErY s 相関係数 (correlation coefficient) を 同時確率分布の分散は,1 変数の場合と同様に ρpX, Y q “ 定義される。 で定義する。確率変数 X と Y が独立である V pXq “ ErpX ´ ErXsq2 s n ÿ m ÿ “ pxi ´ ErXsq2 pij “ CovpX, Y q σpXqσpY q とき, ρpX, Y q “ 0 i“1 j“1 n ÿ となる。しかし,ρpX, Y q “ 0 であっても,X i“1 と Y が独立であるとはいえないということに pxi ´ ErXsq2 pi¨ V pY q に つ い て も 同 様 に 定 義 さ れ る 。ま た, a a V pXq, V pY q, を標準偏差といい, σpXq (ま 注意が必要である。 たは σX ), σpY q (または σY ) などで表す。 あるならば, 定理 4.8 確率変数の和の分散 ρpX, Y q “ 0 で 共分散 (covariance) を次式で定義する。 V pX ` Y q “ V pXq ` V pY q CovpX, Y q “ ErpX ´ ErXsqpY ´ ErY sqs n ÿ m ÿ “ pxi ´ ErXsqpyj ´ ErY sqpij (証明) V pX ` Y q “ ErtpX ` Y q ´ pErXs ´ ErY squ2 s i“1 j“1 “ ErtpX ´ ErXsq ` pY ´ ErY squ2 s 共分散の定義において,X “ Y とすれば通常 “ ErpX ´ ErXsq2 s ` ErpY ´ ErY sq2 s `2ErpX ´ ErXsqpY ´ ErY sqs の分散が得られる。 定理 4.7 CovpX, Y q “ ErXY s ´ ErXsErY s “ V pXq ` V pY q `2ErpX ´ ErXsqpY ´ ErY sqs (証明) CovpX, Y q n ÿ m ÿ “ pxi ´ ErXsqpyj ´ ErY sqpij “ こ こ で ,ρpX, Y q “ 0 な ら ば ErpX ´ ErXsqpY ´ ErY sqs “ 0 であるから V pX ` Y q “ V pXq ` V pY q. i“1 j“1 n ÿ m ÿ 定理 4.5 と定理 4.8 は n 個の確率変数の場合に pxi yj ´ xi ErY s 拡張することができる。特に, n 個の確率変数 i“1 j“1 ´ ErXsyj ´ ErXsErY sqpij X1 , X2 , ¨ ¨ ¨ , Xn が互いに独立で,同一の平均 値 ErXi s “ µ と分散 V pXi q “ σ 2 を持つとき, “ ErXY s ´ ErXsErY s 算術平均 X “ 確率変数 X と Y が独立であるとき,定理 4.6 立する。 より ErXY s “ ErXsErY s となるので, n 1 ÿ Xi について次の定理が成 n i“1 定理 4.9 X1 , X2 , ¨ ¨ ¨ , Xn は互いに独立で,同 じ平均 µ と分散 V pXi q “ σ 2 を持つとする。 CovpX, Y q “ 0 12 ただし,exppxq “ ex で e は自然対数の底であ すなわち, る。X の平均 ErXs “ µ, 分散 V pXq “ σ 2 と ErXi s “ µ, V pXi q “ σ 2 , i “ 1, 2, ¨ ¨ ¨ , n なる。正規分布の分布関数は n 1 ÿ とすると,算術平均 X “ Xi について, n i“1 ErXs “ µ, V pXq “ F pxq “ P pX ő xq żx “ f ptqdt σ2 n ´8 żx “ が成り立つ。 ´8 (証明) 定理 4.5 と定理 4.8 を用いれば « ff n 1 ÿ ErXs “ E Xi n i“1 で表すことができる (ただし,積分値を解析的 に求めることはできないので,正規分布表を用 いて確率を求める)。平均 µ, 分散 σ 2 の正規分 布を N pµ, σ 2 q と表し,確率変数 X が正規分布 n 1 ÿ “ Er Xi s n i“1 “ N pµ, σ 2 q に従うことを n 1 ÿ ErXi s n i“1 X „ N pµ, σ 2 q と書く。正規分布の確率密度関数をグラフで表 1 nµ n “µ “ すと,図 5.1 のようになる。この曲線を正規曲 線と呼ぶ。 図 5.1 正規分布の確率密度関数 ˜ ¸ n 1 ÿ Xi V pXq “ V n i“1 ˜ ¸ n ÿ 1 “ 2V Xi n i“1 “ Npµ, σ2 q n 1 ÿ V pXi q n2 i“1 1 nσ 2 n2 σ2 “ n “ µ ´ 2σ µ ´ σ µ µ ` σ µ ` 2σ X 正規分布には以下のような性質がある。 1. 正規曲線は正の値をとり,しかも,正規曲 5 正規分布と正規分布表 線の下側の面積は 1 となる。 5.1 正規分布の特性 2. 正規曲線は平均 x “ µ に関して左右対称 正規分布 (normal distribution) は推定,検定等 となる。 の基本となる連続型分布である。正規分布の確 3. 正規分布の平均,メディアン,モードはす 率密度関数は次式で与えられる。 « f pxq “ « ˆ ˙2 ff 1 1 t´µ ? exp ´ dt 2 σ σ 2π 1 1 ? exp ´ 2 σ 2π ˆ x´µ σ べて等しく µ になる。 ˙2 ff 4. 正規曲線は, µ ´ σ ă x ă µ ` σ では下に 凹となり, x ă µ ´ σ および x ą µ ` σ で 13 は下に凸となる。 図 5.2 正規分布の上側確率 Np0, 1q 平均 0, 分散 1 の正規分布を標準正規分布とい い,N p0, 1q で表す。 第 4 章で説明した標準化を行うことによって, PpZ ą zq “ α 任意の正規分布 N pµ, σ 2 q を標準正規分布に 変換することができる。X „ N pµ, σ 2 q とす ると, 0 Z z 図 5.3 正規分布の上側確率: α “ 0.025 Z“ X ´µ σ Np0, 1q 0.025 とおけば,確率変数 Z は ErZs “ 0, V rZs “ 1 となる。しかも,Z は正規分布に従うというこ 0 とが知られている (証明は省略)。 1.96 Z また,任意の母集団 (正規母集団に限らない) か 例題 5.1 正規分布表を見れば,Z „ N p0, 1q の らの標本平均 X を標準化した変数は,標本が 時,P pZ ŕ 1.64q “ 0.0505 であることが分か 大きくなるにしたがって,標準正規分布に収束 る (等号がついていることに注意)。 することが知られている (中心極限定理,第 6 例題 5.2 章参照)。 P pZ ă 1.96q “ 1 ´ P pZ ą 1.96q “ 1 ´ 0.0250 “ 0.9750 5.2 正規分布表の使い方 確率変数 Z が標準正規分布にしたがっている とする。Z が 1.96 より大きくなる確率 P pZ ą 図 5.4 例題 5.2 1.96q を求めるにはどうしたらよいか? ùñ 標 Np0, 1q 準正規分布の確率密度関数を Z ą 1.96 の範囲 で積分すればよい。 主要な確率分布の確率はあらかじめ計算されて 表となっているので,その表を用いればよい。 P pZ ą 1.96q を求めるためには正規分布表を 0 使えばよい。 付表 1 (教科書 P. 251) では P pZ ą zq となる確 率 (上側確率) が計算されている。P pZ ą zq “ α となるような z のことを 100α パーセント 点という。また, P p|Z| ą zq を両側確率とい い, P p|Z| ą zq “ α となるとき, z のことを 100pα{2q パーセント点という (ただし z ą 0)。 14 1.96 Z 例題 5.3 図 5.8 例題 5.5 P pZ ă ´1.96q “ P pZ ą 1.96q “ 0.0250 “ 図 5.5 標準正規分布は 0.25 1.96 平均 Z “ 0 に対して左右対称 (例題 5.3) ´ 0.25 1.96 例題 5.6 X „ N p5, 22 q のとき,P p6 ă X ă 8q Np0, 1q を求めよ。 X „ N p5, 22 q なので,Z “ pX ´ 5q{2 とおけ ば Z „ N p0, 1q となる。したがって 0 ´1.96 P p6 ă X ă 8q ˆ ˙ 6´5 X ´5 8´5 “P ă ă 2 2 2 “ P p0.5 ă Z ă 1.5q “ P pZ ą 0.5q ´ P pZ ą 1.5q “ 0.3085 ´ 0.0668 “ 0.2417 Z 1.96 例題 5.4 考え方 (1) P p´1.96 ă Z ő 1.64q 図 5.9 例題 5.6 “ P p´1.96 ă Z ă 0.0q ` P p0.0 ő Z ő 1.64q “ P p0.0 ă Z ă 1.96q ` P p0.0 ă Z ă 1.64q Np5, 22 q “ p0.5 ´ P pZ ą 1.96qq `p0.5 ´ P pZ ą 1.64qq “ p0.5 ´ 0.0250q ` p0.5 ´ 0.0505q “ 0.9245 5 ó 6 8 Np0, 1q 図 5.6 例題 5.4 の考え方 (1) “ ´1.96 0 1.64 ` ´1.96 0 0.5 1.5 0 1.64 例題 5.7 ある会社の従業員の通勤時間は平均 考え方 (2) 60 分,標準偏差 15 分の正規分布にしたがって いる。この会社の 2.5% の従業員は通勤時間の P p´1.96 ă Z ő 1.64q 長さに不満をもっている。彼等の通勤時間は何 “ 1.0 ´ P pZ ą 1.96q ´ P pZ ą 1.64q “ 1.0 ´ 0.0250 ´ 0.0505 “ 0.9245 分以上か? 従業員の通勤時間を X とすると X 図 5.7 例題 5.4 の考え方 (2) 2 „ N p60, 15 q。Z “ pX ´ 60q{15 と す る と , “ 1 ´ ´1.96 0 1.64 ´1.96 Z „ N p0, 1q。 ´ 0 0 1.64 P pZ ą 1.96q “ 0.0250 例題 5.5 であるから, P p0.25 ă Z ă 1.96q “ P pZ ą 0.25q ´ P pZ ą 1.96q “ 0.4013 ´ 0.0250 “ 0.3763 ˆ P 15 ˙ X ´ 60 ą 1.96 “ 0.0250 15 P pX ą 89.4q “ 0.0250 したがって,89.4 分以上の通勤時間の従業員が また,統計量の pX1 , X2 , ¨ ¨ ¨ , Xn q を,その実 不満を持っていることになる。 現値 px1 , x2 , ¨ ¨ ¨ , xn q で置き換えたものを統計 値という。 6 標本分布 標本分布 (sampling distribution) ¨ ¨ ¨ 統計量の従 6.1 無作為抽出 う分布。 統計分析の目的 ¨ ¨ ¨ データ (標本 sample) を用 6.2 標本平均の分布 いて分析の対象とされている集団 (母集団 pop- 有限母集団 (finite population) ¨ ¨ ¨ 構成する要素 ulation) に関する数量的な性質を引き出す。母 が有限個である母集団。 集団から標本を取り出すことを標本抽出 (sam- 無限母集団 (infinite population) ¨ ¨ ¨ 構成する要 pling) という。 素が無限に存在する母集団。 無作為標本 ¨ ¨ ¨ 作為無く抽出された標本。母集 6.2.1 有限母集団からの標本抽出 団に関する特性を統計的に推論するには,無作 N 個の要素から構成される有限母集団の要素 為標本を用いなければならない。 を px1 , x2 , ¨ ¨ ¨ , xN q とすると,この母集団の母 母集団から取り出された無作為標本が n 個の 平均,母分散はそれぞれ 要素からなっているとき,n を標本の大きさと いう (n 個の要素が集まって 1 つの標本を形成 µ“ する)。 N N 1 ÿ 1 ÿ xi , σ 2 “ pxi ´ µq2 N i“1 N i“1 で与えられる。 標本を,確率変数として考えるときには大文字 この母集団から大きさ n の標本を無作為抽出 を使って pX1 , X2 , ¨ ¨ ¨ , Xn q で表し,実現値を考 することを考える。1 つの要素を取り出したと えるときには小文字を使って px1 , x2 , ¨ ¨ ¨ , xn q き,その要素を母集団に戻してから次の標本 のように表すことにする。 抽出を行うか,戻さないで残りの標本から抽 統計量 (statistic) ¨ ¨ ¨ 取り出された標本観測値 出するかによって,得られる標本の性質は異 に依存した特性値。統計量は抽出された標本 なる。取り出した標本を母集団に戻さない抽 pX1 , X2 , ¨ ¨ ¨ , Xn q の関数として 出方法は非復元抽出 (sampling without replace- ment) と呼ばれ,戻して抽出する方法は復元抽 T “ f pX1 , X2 , ¨ ¨ ¨ , Xn q 出 (sampling with replacement) と呼ばれる。 6.2.2 無限母集団からの標本抽出 のように表される。 サイコロを振り,出た目の数を記録していくと 統計量の例: する。際限なくサイコロを振り続ければ,その 標本平均 集合は無限個の要素を持つ。これは無限母集団 X“ n ÿ と考えることができる。 1 Xi n i“1 一般に,無限母集団から抽出された無作為標本 pX1 , X2 , ¨ ¨ ¨ , Xn q を考えれば,Xi は互いに独 標本 (不偏) 分散 S2 “ 立な同一の確率分布に従う確率変数と考えられ n ÿ る。 1 pXi ´ Xq2 n ´ 1 i“1 無限母集団から無作為に抽出された大きさ n 16 の標本から計算される標本平均 X に関して となる。 例題 6.2 K 市の勤労者家計の資産水準の分布 ErXs “ µ 2 V pXq “ ErpX ´ µq2 s “ は正規分布に従い,その標準偏差は 360 万円で σ n あるという。この母集団の平均を標本平均で推 が成り立つ。 定するとき,推定値の誤差が 10 万円より大き 6.3 中心極限定理 くならない確率を 0.8 にしたい。どのくらいの 無限母集団からの大きさ n の無作為標本に基 大きさの標本が必要であろうか。 づく標本平均を X とし, (解) 標本の大きさ n は次の不等式を満足しな Zn “ ければならない。 X ´µ ? σ{ n P p|X ´ µ| ő 10q “ 0.8 とする。Zn は平均 0,分散 1 を持つ確率変数 ? ここで,Zn “ pX ´ µq{p360{ nq は標準正規 となる。Zn に関して以下の定理が成り立つ。 分布に従い, 定理 6.1 中心極限定理 Zn の分布は,標本の大 P p|Zn | ő 1.282q “ 0.8 きさ n が大きくなるにつれて,標準正規分布 N p0, 1q に近づいていく。 が成り立つ。したがって この定理はもとの母集団の分布型に関する仮定 ˆ ˙ 360 P |X ´ µ| ő 1.282 ˆ ? “ 0.8 n を必要としない。もとの分布が連続型であろう と離散型であろうと,平均と分散さえ存在すれ が得られる。これより ば成立する。 360 1.282 ˆ ? “ 10 n σ X “ µ ` Zn ˆ ? n から n “ 2130 が得られる。 6.4 正規母集団からの標本分布 であり,n が十分大きければ Zn は標準正規分 6.4.1 標本分散の標本分布:カイ 2 乗分布 布に従うので,X は N pµ, σ 2 {nq に従う。 定理 6.2 平均 µ, 分散 σ 2 の正規分布に従う母 例題 6.1 A 市の勤労者家計の年間所得は平均 集団 (正規母集団) からの大きさ n の無作為標 550 万円,標準偏差 250 万円の分布に従うとい 本を X1 , X2 , ¨ ¨ ¨ , Xn で表す。このとき, うことが分かっている。100 世帯の標本を抽出 U“ するとき,その平均所得が 600 万円を超える確 ˙2 n ˆ ÿ Xi ´ µ i“1 率を求めなさい。 σ は自由度 n のカイ 2 乗分布 (chi-square distri- (解) 中心極限定理により,標本平均 X は近似 bution) に従う (U „ χ2 pnq と表される)。 的に N p550, 2502 {100q にしたがう。したがっ て X が 600 を超える確率は pXi ´ µq{σ, pi “ 1, 2, ¨ ¨ ¨ , nq は互いに独立に N p0, 1q に従うので,定理 6.2 は,互いに独立 ˙ ˆ 600 ´ 550 P pX ą 600q “ P Zn ą 25 “ P pZn ą 2q “ 0.0228 な標準正規確率変数の 2 乗和はカイ 2 乗分布に 従うことを示している。 17 定理 6.3 S 2 を,平均 µ,分散 σ 2 の正規母集団 は自由度 16 のカイ 2 乗分布に従うので から抽出された大きさ n の標本 (不偏) 分散と ˆ P する。このとき, S2 ő2 σ2 “ 1 ´ 0.01 “ 0.99 は,自由度 n ´ 1 のカイ 2 乗分布 χ2 pn ´ 1q に となる。 従う。 6.4.2 t 分布 平均 µ, 分散 σ 2 の正規母集団からの大きさ n 図 6.1 カイ 2 乗分布の密度関数 の無作為標本の標本平均は,平均 µ, 分散 σ 2 {n の正規分布に従う。よって 自由度 1 自由度 2 自由度 3 自由度 4 自由度 6 0.5 “ P pU ő 16 ˆ 2q “ P pU ő 32q ˙2 n ˆ ÿ pn ´ 1qS 2 Xi ´ X U“ “ σ2 σ i“1 0.6 ˙ Zn “ 0.4 X ´µ ? σ{ n は標準正規分布に従う。Zn には母分散 σ が含 0.3 まれている。母分散が未知の場合には 0.2 Tn “ 0.1 0 0 2 4 6 8 10 X ´µ ? S{ n を計算することが考えられるが,Tn の分布は 12 どのようなものになるであろうか? 図 6.2 自由度 5 のカイ 2 乗分布の密度関数 定理 6.4 Z を標準正規分布に従う確率変数と し,U を自由度 k のカイ 2 乗分布に従う確率 0.05 0 11.07 変数とする。もし,Z と U が独立ならば, χ2 Z Tk “ a U {k 例題 6.3 神戸市灘区の勤労者家計の年間所得 は正規分布にしたがっていることが分かってい は自由度 k の t 分布 (t-distribution) に従う。 るとする。母集団から 17 人を無作為に選び出 (Tk „ tpkq と表される。) して標本分散を計算し,母分散を推定するとす 自由度が 1 の t 分布はコーシー分布と呼ばれ る。標本分散が母分散の 2 倍を超えない確率は る。コーシー分布は平均も分散も存在しない分 いくらか? 布である。 (解) 標本分散を S 2 , 母分散を σ 2 とすると求め t 分布の確率密度関数は,自由度が増すにつれ る確率は 2 2 ˆ P pS ő 2 ˆ σ q “ P て,正規分布に近づいていく。 ˙ S2 ő2 σ2 ここで U“ 16 ˆ S 2 σ2 18 図 6.3 t 分布の密度関数 6.4.3 F 分布 定理 6.6 U を自由度 m のカイ 2 乗分布に従う 0.45 自由度 1 自由度 4 N(0,1) 0.4 確率変数,V を自由度 n のカイ 2 乗分布に従 う確率変数とする。さらに,U と V は互いに 0.35 独立に分布するものとする。このとき, 0.3 f(x) 0.25 0.2 Y “ 0.15 0.1 U {m V {n は自由度 pm, nq の F 分布 (F -distribution) に 0.05 従う (Y „ F pm, nq と表される)。 0 -4 -3 -2 -1 0 x 1 2 3 4 図 6.5 F 分布の密度関数 図 6.4 自由度 10 の t 分布の密度関数 0.005 0.005 自由度 (1,1) 自由度 (1.3) 自由度 (1,5) 1.2 1 0 ´3.169 3.169 t 0.8 0.6 定理 6.5 平均 µ, 分散 σ 2 の正規母集団からの 大きさ n の無作為標本を X1 , X2 , ¨ ¨ ¨ , Xn で表 0.4 す。また標本平均,標本分散をそれぞれ,X, 0.2 S 2 で表す。このとき, Tn “ 0 0 X ´µ ? S{ n 0.5 1 F 1.5 2 図 6.6 自由度 (10,20) の F 分布の密度関数 は自由度 n ´ 1 の t 分布 tpn ´ 1q にしたがう。 (証明) Zn は標準正規分布に従う。また, 0.05 2 pn ´ 1qS σ2 は自由度 n ´ 1 のカイ 2 乗分布に従う。さら Un “ 0 に,Zn と Un は独立に分布することを証明す 2.35 F 1 つの 正規母集団から抽出された 2 つの 独立 ることができる (証明は省略)。したがって,定 な無作為標本を考える。それぞれの標本の大き 理 6.4 より さを n1 , n2 , 標本分散を S12 , S22 とすると Zn Tn “ a Un {pn ´ 1q c X ´ µ M pn ´ 1qS 2 {σ 2 ? “ σ{ n n´1 c M 2 X ´µ S X ´µ ? ? “ “ 2 σ{ n σ S{ n pn1 ´ 1qS12 σ2 pn2 ´ 1qS22 “ σ2 Un1 “ Un2 はそれぞれ自由度 n1 ´ 1 と n2 ´ 1 のカイ 2 乗 は,自由度 n ´ 1 の t 分布に従う。 分布に従う。また,2 つの標本は独立に抽出さ 19 れているので,2 つのカイ 2 乗分布も独立に分 の値を推定しなければならない。µ をある 1 つ 布している。このことから, の値で推定することを点推定 (point estimation) V “ と言う。 Un1 {pn1 ´ 1q S 2 {σ 2 S2 “ 12 2 “ 12 Un2 {pn2 ´ 1q S2 {σ S2 µ の点推定を行うとき,通常は標本平均 n 1 ÿ x“ xi n i“1 は自由度 pn1 ´ 1, n2 ´ 1q の F 分布に従う。 定理 6.7 正規母集団からの 2 つの独立な無作為 を点推定値とする。標本平均 x は,標本実現 標本を考える。それぞれの標本の大きさを n1 , 値 xi の関数となっているため,統計値である n2 , 標本分散を S12 , S22 で表す。このとき,標本 と言うことができる。x に含まれる標本実現値 分散の比 S12 {S22 は自由度 pn1 ´ 1, n2 ´ 1q の F xi を,対応する確率変数 Xi で置き換えた 分布に従う。 X“ 例題 6.4 神戸市西区の勤労者家計の年間所得 は正規分布にしたがっているとする。この分布 n 1 ÿ Xi n i“1 を標本平均の推定量 (estimator) という。X は の分散は未知なので,標本分散によって推定し 統計量である。 たい。そのために A くんと B さんが独立に標 一般に,無作為標本 X1 , X2 , ¨ ¨ ¨ , Xn が与えら 本を集めようとしている。A 君は標本の大きさ れたときに,ある母数 (パラメータ) θ を推定 を 9 にし,B さんは標本の大きさを 16 にする p 1 , X2 , ¨ ¨ ¨ , Xn q を推定 するための統計量 θpX 予定である。A 君の標本から計算された標本分 p 1 , x2 , ¨ ¨ ¨ , xn q を推定 量といい,その実現値 θpx 散が,B さんの標本から計算された標本分散の 値(estimate) という。6 章で見たように統計量 4 倍を超えない確率はいくらか? の従う分布を標本分布という。推定量も統計量 (解) A 君,B さんの標本分散をそれぞれ S12 , S22 であるので,標本分布に従う。例えば,正規母 で表すと,求める確率は 集団 N pµ, σ 2 q からの大きさ n の無作為標本の P pS12 ő4ˆ S22 q 標本平均 X の標本分布は N pµ, σ 2 {nq であり, ? その標準誤差(standard error) は σ{ n である。 である。また,定理 6.7 より V “ S12 {S22 は自 7.2 推定量の性質 由度 p8, 15q の F 分布に従い, 以下では,推定量の持つべき望ましい性質につ P pS12 ő 4 ˆ S22 q “ P pS12 {S22 ő 4q “ 0.99 いて説明する。 7.2.1 不偏性 となる。 ある母数 θ の推定量を 7 推定 p 1 , X2 , ¨ ¨ ¨ , Xn q θp “ θpX 7.1 推定と推定量 とすると 母集団の分布が平均 µ, 分散 σ 2 の正規分布で p “θ Erθs あるとし,この母集団から大きさ n の無作為標 本 x1 , x2 , ¨ ¨ ¨ , xn が抽出されたとする。母集団 が成立するとき,θp を θ の不偏推定量(unbiased の平均 (母平均) µ の値が未知であり,我々の関 estimator) という。また,不偏推定量の実現値 心が µ の値を知ることにあるならば,我々は µ を不偏推定値(unbiased estimate) という。 20 もし,不偏性(unbiasedness) という性質が満た 7.2.2 一致性 されなければ,何度も推定を繰り返したとき ある母数 θ の推定量 θp が に,母数の真の値よりも大きな (あるいは小さ lim P p|θp ´ θ| ŕ q “ 0 nÑ8 な) 値の推定値が多く得られる傾向がある。し かし,不偏性が満たされるならば,母数の値よ を,任意の ą 0 について満たすとき,θp を一 りも大きな推定値と小さな推定値がほぼ同じ割 致推定量 (consistent estimator) という。θp が θ 合で得られる。 の一致推定量であることを,θp が θ に確率収束 するといい, p と 図 7.1 不偏推定量 pθq plim θp “ θ r 上への偏りのある推定量 pθq と書く。 p θ 推定量 θp が,θ の一致推定量であるための 1 つ r θ の十分条件は, θ p “ θ, lim V pθq p “0 lim Erθs θ1 nÑ8 p “ θ, Erθs r “ θ1 で θ ă θ1 である。 ただし,Erθs であることである。ただし,これは必要条件で はない。 例 7.1 標本平均 X の平均 (X の標本分布の平 例 7.3 標本平均 X に関しては 均) は母平均 µ であるから lim ErXs “ lim µ “ µ ErXs “ µ nÑ8 nÑ8 が成立する。したがって,標本平均は母平均の σ2 “0 nÑ8 n lim V rXs “ lim nÑ8 不偏推定量である。 であるから,X は µ の一致推定量である。よ 例 7.2 母分散の推定値として S ˚2 nÑ8 って n 1 ÿ pXi ´ Xq2 “ n i“1 lim P p|X ´ µ| ŕ q “ 0, ą 0 nÑ8 が成立する。この式を書き換えると, よりも標本分散 lim P p|X ´ µ| ă q “ 1, ą 0 nÑ8 n 1 ÿ S2 “ pXi ´ Xq2 n ´ 1 i“1 となる。この式は,n が大きくなるにしたがっ て X の標本分布が µ に集中していくことを意 のほうが望ましいと考えられるのは,S 2 が σ 2 味している。 の不偏推定量となっているからである。 図 7.2 n1 ă n2 ă n3 に対する X の標本分布 n´1 2 σ2 ErS s “ σ “ σ2 ´ n n ˚2 となることが示され,n が有限である限り,S Pp|X ´ µ| ă q n3 2 n2 には ´σ 2 {n だけの偏りがある。S 2 は σ 2 の不 n1 偏推定量であるので,特に標本不偏分散と呼ば れることがある。また,S 2 の正の平方根を標 µ µ´ 本標準偏差という。 21 µ` 母分散 σ 2 の推定量に関しては,S 2 も S ˚2 も 図 7.3 正規分布の上側確率が 一致推定量となる。 α{2 となる点 (zα{2 ) 7.2.3 有効性 ここの面積が PpZ ą zα {2q “ α{2 母数 θ に対する二つの推定量 θp と θr がともに 普遍性と一致性を満たすとする。このとき,θp の分散の方が θr の分散よりも小さならば,θp の 方が θr よりも望ましい推定量といえる (θp の方 0 zα{2 が母数の回りに分布している度合いが大きいた め,真の値に近い推定値を得られる確率が大き zα{2 が求まれば,|pX ´ µq{σpXq| ă zα を解く い)。θp の分散の方が θr の分散よりも小さいと ことにより き,θp を相対的に有効な推定量と言う。 P pX ´ zα{2 σpXq ă µ ă X ` zα{2 σpXqq “1´α 不偏推定量の分散には下限があり,クラーメ ル・ラオの不等式を用いて得ることができる。 このことから,µ が区間 pX ´ zα{2 σpXq, X ` もし,母数 θ のある不偏推定量の分散がクラー zα{2 σpXqq に含まれる確率は 1 ´ α である。 メル・ラオの不等式の下限を達成するならば, pX ´ zα{2 σpXq, X ` zα{2 σpXqq その推定量は,θ のすべての不偏推定量の中で もっとも小さい分散を持つことになる。このよ を,母平均 µ の信頼係数 (または信頼度) 1 ´ α うな推定量を有効推定量 (efficient estimator) と の信頼区間 (confidence interval) といい,信頼 呼び,有効性 (efficiency) は推定量の持つべき 区間の上限と下限を信頼限界という。 望ましい性質の 1 つである。 例題 7.1 正規母集団 N pµ, 22 q から大きさ 16 7.3 区間推定 の標本をとって標本平均を計算したところ, 7.3.1 平均の区間推定:母分散が既知の場合 x “ 3.2 であった。µ の信頼係数 0.95 の信頼区 正規母集団 N pµ, σ 2 q の平均の区間推定につい 間を求めよ。 て考える。簡単化のため σ 2 は既知であると仮 (解) 信頼係数 0.95 (α “ 0.05) に対する zα{2 の 定する。 値は 1.96 である。また 大きさ n の無作為標本 X1 , X2 , ¨ ¨ ¨ , Xn の標本 σ 2 σpxq “ ? “ ? “ 0.5 n 16 平均 X の標本分布は N pµ, σpXqq である (ただ ? し,σpXq “ σ{ n)。 よって Zn “ であるから,信頼限界は X ´µ σpXq x ˘ zα{2 σpxq “ 3.2 ˘ 1.96 ˆ 0.5 は標準正規分布に従う。したがって,正規分布 し た が っ て ,信 頼 係 数 0.95 の 信 頼 区 間 は 表から p2.22, 4.18q である。 信頼係数の意味 ˇ ˆˇ ˙ ˇX ´ µˇ ˇ ˇ P p|Zn | ă zα{2 q “ P ˇ ă zα{2 σpXq ˇ “1´α 標本 X1 , X2 , ¨ ¨ ¨ , Xn の実現値が取られるまで は,X は確率変数なので, を満たす zα{2 の値を探すことができる。 pX ´ zα{2 σpXq, X ` zα{2 σpXqq 22 が µ を含む確率は確かに 1 ´ α である。しか となる。よって,信頼係数 1 ´ α の信頼区間の し,X の実現値が x であるとき,µ の信頼区 信頼限界は X ˘ tα{2 pkqpS{ nq となる。 間 px ´ zα{2 σpxq, x ` zα{2 σpxqq が µ を含む確 標本が大きいとき (数学的には n Ñ 8),t 分 率が 1 ´ α であると言うことはできない。例え 布は標準正規分布に収束することが知られてい ば,例題 7.1 では信頼係数 0.95 の信頼区間は る。このことから標本数が有限であっても,あ p2.22, 4.18q であったが,P p2.22 ă µ ă 4.18q る程度大きいなら,統計量 Tn があたかも標準 は 0.95 であると言うことはできない。2.22 ă 正規分布に従うとみなして差し支えない。この µ ă 4.18 は成立するか,成立しないかのいず とき,Tα{2 pkq の代わりに zα{2 を用いて信頼区 れかなので,P p2.22 ă µ ă 4.18q は 0 か 1 で 間が計算される。このように,標本がある程度 ある。 大きいときに,ある統計量が標準正規分布に従 ? 2 正規母集団 N pµ, σ q から大きさ n の標本を抽 うとみなして推測を行うことを,正規分布によ 出する実験を 100 回繰り返し,100 個の信頼係 る近似 (あるいは単に正規近似) という。 数 0.95 の信頼区間を計算したとする。このと 例題 7.2 正規母集団 N pµ, σq から大きさ 9 の き,およそ 95 個程度の信頼区間が真の µ の値 標本をとって標本平均と標本標準偏差を計算し を含むと考えられる,と言うのが信頼係数 0.95 たところ,それぞれ x “ 3.2, s “ 2.1 であっ の意味するところである。 た。µ の信頼係数 0.95 の信頼区間を求めよ。 7.3.2 平均の区間推定:母分散が未知の場合 (解) n “ 9, x “ 3.2, s “ 2.1, tα{2 pkq “ 2.306 母 分 散 σ 2 が 既 知 の と き は Zn “ pX ´ (自由度は k “ 8 ´ 1 “ 9) であるから,信頼係 ? µq{pσ{ nq „ N p0, 1q を用いて µ の信頼区間 数 0.95 の信頼限界は が計算できた。しかし,実際には σ 2 は未知で s 2.1 x ˘ tα{2 pkq ? “ 3.2 ˘ 2.306 ˆ ? n 9 ある場合のほうが多い。σ 2 が未知の場合には ? Zn “ pX ´ µq{pσ{ nq の σ を S で置き換えた から計算される。よって信頼係数 0.95 の信頼 統計量 区間は p1.586, 4.814q となる。 Tn “ X ´µ ? S{ n 例題 7.2 で tα{2pkq “ 2.306 を用いずに正規分 布による近似値 zα{2 “ 1.96 を用いた場合,信 が自由度 k “ n ´ 1 の t 分布に従う (定理 6.5)。 頼区間は p1.828, 4.572q となる。この近似はあ したがって,t 分布表から まり正確であるとはいえない。これは標本の大 ˇ ˆˇ ˙ ˇX ´ µˇ P p|Tn | ă tα{2 pkqq “ P ˇˇ ? ˇˇ ă tα{2 pkq S{ n “1´α きさが 9 であり,あまり大きいとはいえないた めである。もし,例題 7.2 で標本の大きさのみ が異なり,n “ 25 であったとすると,t 分布に よる信頼区間は p2.333, 4.067q,正規分布によ を満たす t 分布の上側 100 ˆ α{2 パーセント点 る信頼区間は p2.377, 4.023q で,近似は比較的 tα{2 pkq の値を見つけることができる。この式 良好であると言える。 を µ について解くことにより ˆ S S P X ´ tα{2 pkq ? ă µ ă X ` tα{2 pkq ? n n “1´α 母集団が正規分布に従わないときでも,標本 ˙ が大きければ,中心極限定理により標本平均は 正規分布に収束する。したがって,標本が大き 23 上の式をを σ 2 について解くと ければ,母集団の分布が正規分布でなく,分散 が未知である場合でも,正規近似によって母平 ˜ P 均の信頼区間を計算することができる。 ぜんきんぶん ぷ 標 本 が 大 き い 場 合 の 近 似 分 布 を 漸近分布 pn ´ 1qS 2 pn ´ 1qS 2 ă σ2 ă 2 2 χα{2 pn ´ 1q χ1´α{2 pn ´ 1q ¸ “1´α (asymptotic distribution) といい,漸近分布に基 づいて推測を行うことを大標本法という。これ したがって,σ 2 の信頼係数 1 ´ α の信頼区間は に対し,標本が小さい場合の厳密な分布を小標 ˜ 本分布あるいは精密分布といい (例:t 分布), 小標本分布に基づいて推測を行うことを小標本 pn ´ 1qS 2 pn ´ 1qS 2 , χ2α{2 pn ´ 1q χ21´α{2 pn ´ 1q ¸ で与えられる。 法という。 7.3.3 分散の区間推定 例題 7.3 正規母集団 N pµ, σ 2 q から大きさ 20 2 正規母集団 N pµ, σ q から抽出された大きさ n の標本をとって標本分散を計算したところ, の無作為標本に基づく標本分散を S 2 とすると, s2 “ 17.2 であった。信頼係数 0.95 の信頼区間 を求めなさい。 n ÿ pn ´ 1qS 2 pXi ´ Xq2 “ σ2 σ2 i“1 (解) χ21´α{2 p19q “ 8.91, χ2α{2 p19q “ 32.85 で あるから,信頼係数 0.95 の信頼区間は は 自 由 度 n ´ 1 の カ イ 2 乗 分 布 に 従 う (定 ˆ ˙ 17.2 17.2 19 ˆ “ p9.95, 36.68q , 19 ˆ 32.85 8.91 理 6.3)。自由度 n ´ 1 のカイ 2 乗分布の下側 および上側確率が α{2 となる点をそれぞれ となる。 χ21´α{2 pn ´ 1q および χ2α{2 pn ´ 1q とすると 7.3.4 比率の区間推定 これまでは正規母集団の平均と分散に関する ˜ P χ21´α{2 pn ´ 1q ă pn ´ 1qS 2 σ2 区間推定について説明してきた。ここでは,2 項分布の母数に対する区間推定について説明 ¸ ă χ2α{2 pn ´ 1q する。 “1´α 第 1 章の表 1.6 より,2008 年度の年間収入が 800 万円以上の勤労者世帯は,調査された 4271 が成立する。 世帯の 31.2% であることが分かる。いま,あ る世帯の年間収入が 800 万円未満であるか,そ 図 7.4 自由度 n ´ 1 のカイ2乗分布の れ以上であるかのみに注目し,全国の勤労者世 下側および上側確率が α{2 となる点 帯のうち何 % の世帯の年間収入が 800 万円以 pχ21´α{2 pn ´ 1q, χ21α{2 pn ´ 1qq 上であるかを推定したい。つまり,年間収入が 700 万円以上の勤労者世帯の,全国の勤労者世 帯に対する比率 p を推定したいとする。 i 番目の勤労者世帯の年間収入が 800 万円未 α{2 χ21´α{2 pn ´ 1q α{2 χ2α{2 pn ´ 1q 満であれば Xi “ 0, 800 万円以上であれば χ2 Xi “ 1 となるような確率変数 Xi を考える。n 24 世帯を調査して Xi の合計 řn i“1 Xi を求める と,この合計が年間収入が 800 万円以上の世帯 の数になる。R “ řn i“1 ˜ P Xi とおくと,R は平 c pp ´ zα{2 均 np, 分散 npq (ただし,q “ 1 ´ p) の 2 項分 ppqp ă p ă pp ` zα{2 n c ¸ ppqp n “1´α 布に従う確率変数である。 となるので,p の信頼係数 1 ´ α の (近似的な) n R 1 ÿ pp “ “ Xi n n i“1 信頼区間は ˜ c pp ´ zα{2 は母数 p の推定値であり,pp の標本分布の平均 は p, 分散は pq{n である。Erp ps “ p であるか ppqp , pp ` zα{2 n c ppqp n ¸ で与えられる。 ら pp は p の不偏推定量である。 p の信頼区間を求めるためには,2 項分布の確 例題 7.4 2008 年に 4271 世帯に対して調査を 率関数に基づいて計算を行わなければならな 行ったところ,年間収入が 800 万円以上の勤労 い。しかし,n が大きいとき,この計算は非常 者世帯は全体の 31.2% であることが分かった。 に煩雑である。ところが,pp は標本平均である 年間収入が 800 万円以上の勤労者世帯の比率 から,n が大きいとき,中心極限定理が適応で の,信頼係数 0.95 の信頼区間を求めなさい。 き,正規近似によって信頼区間を求めることが できる。 (解) n “ 4271, pp “ 0.312 であるから,漸近分 a 布の標準誤差は ppqp{n “ 0.00709 となる。信 pp の平均は p, 分散は pq{n であるから,pp の漸 頼係数 0.95 に対する zα{2 の値は 1.96 である 近分布は N pp, pq{nq となる。ところで,標準 から a 誤差 pq{n は未知母数 p と q を含んでいるの c pp ˘ zα{2 で,標本のみから計算することができない。そ ppqp “ 0.312 ˘ 1.96 ˆ 0.00809 n こで,未知母数 p に推定量 pp を代入して,pp の か ら 信 頼 限 界 を 計 算 す る と ,信 頼 区 間 は a 標準誤差を ppqp{n (ただし,qp “ 1 ´ pp) で近似 p0.298, 0.326q となる。 するという方法がとられることが多い。この方 8 法を用いれば,pp の漸近分布は N pp, ppqp{nq で 仮説検定 あると考えられる。 8.1 仮説検定の考え方 正規分布の標準化の公式により 次の例題を考える。 例題 8.1 ある型の乗用車の燃費は,従来車で pp ´ p Zn “ a ppqp{n は平均 17km{`, 標準偏差 2km{` の正規分布に 従うという。改良車が開発され,16 台の走行 が近似的に標準正規分布に従うので,zα{2 を テストを行ったところ,平均は 18km{` であっ 標準正規分布の上側確率が α{2 となる点とす た。改良車の燃費は従来車よりも良くなったと ると いえるか?ただし,改良車の標準偏差は,従来 ˇ ˜ˇ ¸ ˇ pp ´ p ˇ ˇ ˇa P ˇ ˇ ă zα{2 “ 1 ´ α ˇ ppqp{n ˇ 者と同じ 2km{` であるとする。 改良車の燃費を表す確率変数を X とすると,X は平均 µ, 分散 22 の正規分布に従う。したがっ が近似的に成立する。これを p について解くと 25 て,第 i 番目の改良車の燃費を表す確率変数 (無 とでは X1 , X2 , ¨ ¨ ¨ , X16 „ N p17, 22 q である。 作為標本) を Xi とすると,X1 , X2 , ¨ ¨ ¨ , X16 „ したがって標本平均は 2 N pµ, 2 q となる。改良車の走行テストの行っ たところ,X1 , X2 , ¨ ¨ ¨ , X16 の実現値の平均が ˆ ˙ 16 1 ÿ 22 X“ Xi „ N 17, 16 i“1 16 18km{` であった。この「18km{`」と言う結果 は,従来車の平均 17km{` よりも大きい。しか し,この結果が本当に µ が 17km{` よりも大 となる。実際に走行試験を行った結果,X の きくなったために生じたのか,それとも µ は 実現値は 18km{` である。上の式を用いて X 17km{` と変わらないが好条件によってたまた が 18 よりも大きくなる確率を計算することに ま生じたのかは仮説検定を行わなければ分から よって,帰無仮説が正しいとき,18 という実現 ない。 値がどの程度起こりやすいかを知ることができ る。実際に計算を行うと, 仮説検定では,まず帰無仮説 (null hypothesis) と対立仮説 (alternative hypothesis) をたてる。 ˆ P pX ŕ 18q “ P 従来車と改良車の燃費が同じであれば µ “ 17 であり,改良車の燃費が向上していれば µ ą 17 X ´ 17 18 ´ 17 ? ? ą 2{ 16 2{ 16 ˙ “ P pZ ŕ 2q “ 0.0228 である。改良車の燃費が悪化していれば µ ă 17 であるが,そのようなことは無いと思われ, 実際,走行試験の結果は 18km{` で 17km{` よ が得られる。この確率を p 値という。p 値が 0.0228 であると言うことは,H0 : µ “ 17 が りも大きい。したがって,この問題では µ ă 17 正しいとすれば,X の実現値が 18 以上になる の場合を考える必要は無いと判断される。そこ 確率は 0.0228 であると言うことになる。つま で,次のように帰無仮説と対立仮説をたてる。 り,H0 が正しければ,同じ実験を 100 回行っ 帰無仮説 H0 : µ “ 17 たとしても,X が 18 以上になるのは 2 回程 対立仮説 H1 : µ ą 17 度である。このことから,走行テストの結果の X “ 18 が H0 : µ “ 17 のもとでたまたま起 帰無仮説は「改良車と従来車の燃費は同じ」で こったと考えるよりも,H1 : µ ą 17 が正しく あることを意味し,対立仮説は「改良車の燃費 て X “ 18 が得られたと考えるほうが自然であ は従来車より向上した」ことを意味する。 る。例えば,対立仮説が,真の µ “ 17.5 であっ 仮説検定では,一般に捨てたい仮説を帰無仮設 たとする。このとき,X ŕ 18 となる確率は にする場合が多い。仮説検定を行って帰無仮説 を捨てるとき,帰無仮説を棄却する (reject) と言 ˆ い,捨てずに採用することを採択する (accept) P pX ŕ 18q “ P という。この問題では,µ “ 17 が棄却された X ´ 17.5 18 ´ 17.5 ? ? ą 2{ 16 2{ 16 ˙ “ P pZ ŕ 1q “ 0.1587 とき燃費が向上したと言えるので,棄却したい 仮説は µ “ 17 であり,これが帰無仮設となる。 Xi を走行テストで使われる各車の燃費を表す であり,X “ 18 という結果は十分起こりうる 確率変数 (無作為標本) とする。帰無仮説のも と考えられる。 26 図 8.1 P pX ą 18q となる確率 右側検定と左側検定を片側検定という。また, µ “ µ0 のようにパラメータの値が 1 点だけの ここの面積が PpX ą 18q “ 0.0228 仮説を単純仮説,µ ą µ0 のように 1 点だけで ない仮説を複合仮説という。 15 16 17 18 19 仮説検定の方法 X 通常は次のようにして検定を行う。正規母集団 検定では p 値がある値よりも小さければ,帰無 N pµ, σ 2 q から抽出された大きさ n の無作為標 仮説が正しいと言う可能性は小さく,対立仮説 本を X1 , X2 , ¨ ¨ ¨ , Xn とすると が正しいと判断される。この判断の基準となる ˆ X„N 確率の値を有意水準といい,通常 α で表す。有 意水準には,慣例として,0.01 (1%), 0.05 (5%), µ, σ2 n ˙ であるから,標準化すると 0.10 (10%) が用いられることが多い。α “ 0.05 と言うことは,帰無仮説が正しいと仮定したと Z“ き,100 回の実験のうち 5 回程度しかその事象 X ´µ ? „ N p0, 1q σ{ n が起こらない場合に帰無仮説を棄却することを となる。 意味する。有意水準 0.01 で帰無仮説が棄却さ 対立仮説が H1 : µ ą µ0 の場合を考える。実現 れた場合,その事象は 100 回の実験のうち 1 回 値が取られる前は Z は確率変数であり,帰無 程度しか起こらないので,有意水準 0.05 より 仮説が正しければ Z は標準正規分布に従うの も強く棄却されたことになる。例題 8.1 では, で,ErZs “ 0 である。しかし,対立仮説が正 帰無仮説の下で P pX ŕ 18q “ 0.228 であるか しいときには ら,有意水準 0.05 では帰無仮説は棄却され,有 X ´ µ0 ? ErZs “ E σ{ n „ X ´ µ ` µ ´ µ0 ? “E σ{ n „ µ ´ µ0 X `µ ? ? “E ` σ{ n σ{ n „ 意水準 0.01 では帰無仮説は採択される。 8.1.1 正規母集団の検定:母分散が既知の場合 仮説検定を行うときには,目的に応じて帰無仮 説と対立仮説を立てる。母平均 µ が特定の値 µ0 に等しいかどうかを検定したい場合には,次 の 3 つの対立仮説が考えられる。 ErX ´ µs µ ´ µ0 ? ? ` σ{ n σ{ n µ ´ µ0 ? ą0 “ σ{ n “ H1 : µ ą µ0 (右側検定) H1 : µ ă µ0 (左側検定) H1 : µ ‰ µ0 (両側検定) となる。したがって Z は,帰無仮説が正しく µ に関して,µ0 より大きいか小さいかの情報が ない場合,平均が正で分散が 1 の正規分布とな 無いときには両側検定が用いられる。何らかの るため,Z の実現値が大きくなる可能性が高い 情報があり,帰無仮説が正しくないときには µ (図 8.2 参照)。このことから,Z の実現値があ が µ0 より大きい (小さい) ことが分かっている る程度大きくなった場合に帰無仮説を棄却する 場合には,右側検定 (左側検定) が用いられる。 ことになる。 27 図 8.2 帰無仮説と対立仮説のもとでの である。有意水準を α “ 0.05 とすると,棄却 Z の分布 点は zα “ 1.645 であり,検定統計値は棄却域 対立仮説の もとでの分布 ´ ¯ µ´µ0 ‘ ,1 N σ{ n 帰無仮説の もとでの分布 Np0, 1q ´4 ´3 ´2 ´1 0 Z 1 2 3 4 に入る (図 8.3)。このことから,帰無仮説は有 意水準 0.05 で棄却される。 図 8.3 検定の棄却域 5 棄却域 帰無仮説が正しいとき,Z は標準正規分布に従 うので α “ 0.05 ˆ P pZ ą zα q “ P X ´ µ0 ? ą zα σ{ n ˙ “α ´3 ´2 ´1 を満たす zα (標準正規分布の上側 100α% 点) 0 Z 採択域 1 2 1.645 3 の値を正規分布表から求めることができる。例 対立仮説が H1 : µ ă µ0 の場合には,H1 が正 えば α “ 0.05 のとき z0.05 “ 1.645 である。こ しければ ErZs ă 0 であることがわかる。この の α “ 0.05 は有意水準を表しており,Z の実 ことから,帰無仮説が正しくないとき Z の実現 現値が 1.645 よりも大きくなるのは,100 回の 値は小さくなる可能性が高い。したがって,Z 実験で 5 回程度である。したがって, の実現値がある程度小さいときに帰無仮説を棄 Z“ 却すればよい。帰無仮説が正しいとすれば,Z X ´ µ0 ? σ{ n は標準正規分布に従い,標準正規分布は原点に の実現値が 1.645 よりも大きかったとすると, 対して左右対称であるから 帰無仮説のもとでは 100 回の実験で 5 回程度し ˆ か起こらない珍しいことが起こったことになる ˙ X ´ µ0 ? ă ´zα σ{ n ˆ ˙ X ´ µ0 ? ą zα “ α “P σ{ n P pZ ă ´zα q “ P ので,帰無仮説が正しくないと判断される。す なわち,Z の実現値が 1.645 よりも大きければ, 帰無仮説は有意水準 0.05 で棄却される。z 軸 の,1.645 よりも右側の部分を棄却域 (critical re- を満たす zα の値を正規分布表から求めるこ gion),左側の部分を採択域 (acceptance region) とができる。よって,右側検定の場合と同様 といい,1.645 を棄却点 (critical value) あるい に,有意水準 α の検定の棄却点 ´zα , 棄却域 ? は臨界値という。また,Z “ pX ´ µq{pσ{ nq tZ|Z ă ´zα u, 採択域 tZ|Z ŕ ´zα u が得ら を検定統計量 (test statistic) といい,その実現 れる。 値を検定統計値という。一般に,対立仮説が H1 : µ ą µ0 で有意水準が α のとき,棄却点は 対立仮説が H0 : µ ‰ µ0 であり,帰無仮説が正 zα で与えられ,棄却域は tZ|Z ą zα u,採択域 しくないときには,Z の実現値は大きくなりや は tZ|Z ő za u となる。例題 8.1 の場合,検定 すいのか,小さくなりやすいのか分からない。 統計値は このことから,両側検定では Z の実現値の絶 z“ 対値がある程度大きいときに帰無仮説を棄却す x´µ 18 ´ 17 ? ? “ “2 σ{ n 2{ 16 る。帰無仮説が正しければ Z は標準正規分布 28 に従うので, となり,棄却域を X で表すと ˇ ˆˇ ˙ ˇ X ´ µ0 ˇ ? ˇˇ ą zα{2 P p|Z| ą zα{2 q “ P ˇˇ σ{ n “α σ X ą µ0 ` zα ? n となる。 を満たす zα{2 の値を正規分布表から見つけ ることができる (例えば,α “ 0.05 のとき, 同様に,対立仮説が H1 : µ ă µ0 の場合の棄却 域は zα{2 “ 1.96)。絶対値を外すと, σ X ă µ0 ´ zα ? n P pZ ă ´zα{2 , Z ą zα{2 q ˆ ˙ X ´ µ0 X ´ µ0 ? ă ´zα{2 , ? ą zα{2 “P σ{ n σ{ n “α となる。 また,対立仮説が H0 : µ ‰ µ0 のときは,棄却 域は となる。よって,両側検定の棄却域は tZ|Z ă ´zα{2 , Z ą zα{2 u となる。 " 例題 8.2 ある乾電池の電圧が 1.5V から 0.8V σ σ X ă µ0 ´ zα{2 ? , X ą µ0 ` zα{2 ? n n となる。 に下がるまでの時間を調べるため,49 個の乾 電池で実験したところ,平均が x “ 68.4 分で 例題 8.1 の場合,µ0 “ 17, σ “ 2, n “ 16 であ あった。この乾電池の放電特性が,既知の分 り,有意水準 α “ 0.05 のとき,zα “ 1.645 で 散 σ 2 “ 142 の正規分布 N pµ, 142 q に従うも あるから,X で表した棄却域は のとして,帰無仮説 H0 : µ “ 72 を対立仮説 σ X ą µ0 ` zα ? n H1 : µ ‰ 72 に対して有意水準 0.05 で検定し なさい。 2 “ 17 ` 1.645 ˆ ? “ 17.82 16 (解) α “ 0.05 で,両側検定であるから,正規 分布表により棄却域は tZ ă ´1.96, Z ą 1.96u である。X の実現値は 18 であり,棄却域に入 となる。また,統計値は るので,帰無仮説は有意水準 0.05 で棄却され x ´ µ0 68.4 ´ 72 ? ? “ z“ “ ´1.8 σ{ n 14{ 49 る。 例題 8.2 の場合には,µ0 “ 72, σ “ 14, n “ 49 となり,採択域に入るので,帰無仮説は有意水 であり,有意水準は α “ 0.05 であるから, 準 0.05 で採択される。 zα{2 “ 1.96 である。よって,X で表した棄却 棄却域を標準正規分布に基づいて設定するので 域は はなく,X の分布に基づいて表すこともでき σ X ă µ0 ´ zα{2 ? n る。対立仮説が H1 : µ ą µ0 の場合には ˆ P X ´ µ0 ? ą zα σ{ n * 14 “ 72 ´ 1.96 ˆ ? “ 68.08 49 σ X ą µ0 ` zα{2 ? n 14 “ 72 ` 1.96 ˆ ? “ 75.92 49 ˙ “α より ˆ ˙ σ P X ą µ0 ` zα ? “α n 29 となり,X の実現値 x “ 68.4 は棄却域に入ら 図 8.4 第 1 種の誤りの確率 (α) と ない。よって,帰無仮説は有意水準 0.05 で採 第 2 種の誤りの確率 pβq α を小さくするために f ˚ を右に動かすと β は 大きくなる 択される。 帰無仮説 H0 の もとでの分布 β 検定の手順をまとめると以下のようになる。 α 対立仮説 H1 の もとでの分布 f˚ A 採択域 1. 帰無仮説と対立仮説を立てる。 2. 有意水準を決め,対立仮説に応じた棄却域 R 棄却域 例題 8.3 64 個の標本が N pµ, σ 2 q から取られた を決める。 ものであり,σ “ 16 が分かっている。標本平 3. 検定統計量の実現値が棄却域に入れば帰無 均を計算したところ x “ 82 であった。帰無仮 仮説を棄却し,入らなければ帰無仮説を採 説を H0 : µ “ 78, 対立仮説を H1 : µ “ 80 と 択する。 して有意水準が 0.05 であるときの検定力を求 8.2 2 種類の過誤 めなさい。 仮説検定を行うとき,分析者は帰無仮説が正し (解) 対立仮説は一般には複合事象であるが,こ いか正しくないかを知らない。分析者は,帰無 こでは簡略化のために単純事象を考えている。 仮説が正しいか否かに関係なく,検定統計値が 対立仮説で与えられる µ の値の方が,帰無仮説 棄却域に入れば帰無仮説を棄却し,入らなけれ で与えられる µ の値よりも大きいので右側検 ば採択する。帰無仮説が正しくないときに帰無 定となる。 仮説を棄却すれば正しい行動であるが,帰無仮 検定力は以下の手順で求められる。 説が正しいのに棄却した場合は誤った行動であ 1. 帰無仮説を正しいものとして,X による棄 る。この誤りを第 1 種の過誤 (type I error) とい 却域を設定する。 う。例えば,有意水準が 0.05 のとき,帰無仮説 2. 1. で設定された棄却域に X が入る確率を, が正しくても,100 回の実験で 5 回程度検定統 対立仮説が正しいものとして計算する。こ 計値は棄却域に入り,帰無仮説は誤って棄却さ の確率が検定力となる。 れる。つまり,有意水準 α は第 1 種の過誤を犯 まず,X による棄却域を求めると す確率を表している。このことから,第 1 種の σ X ą µ0 ` zα ? n 過誤はアルファ・エラーとも呼ばれる。 逆に,帰無仮説が正しくないのに帰無仮説を採 16 “ 78 ` 1.645 ˆ ? “ 81.29 64 択してしまうという誤りを第 2 種の過誤 (type II error) という。第 2 種の過誤はベータ・エ となる。 ラーとも呼ばれ,第 2 種の過誤を犯す確率を β 次に,検定力は対立仮説が正しいときに帰無仮 であらわす。第 2 種の過誤を犯す確率が β で 説を棄却する確率であるから あるので,第 2 種の過誤を犯さない確率,すな 1 ´ β “ P pX ą 81.29q わち帰無仮説が正しくないときに帰無仮説を棄 却する確率は 1 ´ β で与えられ,この確率 1 ´ β となる。ここで,X の分布は,対立仮説のもと を検定力 (power) あるいは検出力という。 での分布 X „ N p80, 162 {64q であることに注 30 意が必要である。 きるだけ小さくする (検定力をできるだけ大き 標準化して確率を計算すると ˆ 1´β “ くする) ような検定を選ぶという基準を,ネイ X ´ 80 81.29 ´ 80 ? ą ? 16{ 64 16{ 64 マン・ピアソンの検定基準という。右 (左) 側検 ˙ 定では,右 (左) 端に棄却域を設定すれば,ネイ マン・ピアソンの検定基準を満たす検定が行え “ P pZ ą 0.645q “ 0.26 る。両側検定では,ネイマン・ピアソンの検定 となる。よって検定力は 0.26 である。第 2 種 基準を満たす検定は行えないが,両端に棄却域 の過誤を犯す確率は 1 から検定力を引いたもの を設定すればほぼ満足の行く検定ができるとい であるから,β “ 1 ´ 0.26 “ 0.74 である。 われている。 図 8.5 帰無仮説と対立仮説のもとでの 例題 8.3 では対立仮説を単純仮説で表したが, X の分布 通常は対立仮説は複合仮説である。例えば,対 立仮説が複合仮説 H1 : µ ą 78 であるとき,78 対立仮説の もとでの分布 帰無仮説の もとでの分布 より大きいすべての µ の値に対して検定力を 計算することができる。 検定力 1 ´ β 70 72 74 76 78 80 82 81.29 A 採択域 84 86 X µ の真値は実際には未知であるが,µ の真値 が帰無仮説の値 78 と大きく離れていて 100 で R 棄却域 あったとすると,検定力は 有意水準が 0.01 の時には,X による棄却域は 1 ´ β “ P pX ą 82.652q ˆ ˙ X ´ 100 82.652 ´ 100 ? ? “P ą 16{ 64 16{ 64 “ P pZ ą ´8.674q » 1 σ X ą µ0 ` zα ? n 16 “ 78 ` 2.326 ˆ ? “ 82.652 64 となる。したがって,検定力は となり,帰無仮説はほとんど確実に棄却される。 1 ´ β “ P pX ą 82.652q ˙ ˆ 82.652 ´ 80 X ´ 80 ? ą ? “P 16{ 64 16{ 64 8.3 正規母集団の平均の検定:母分散が未知 “ P pZ ą 1.33q “ 0.0918 標本を X1 , X2 , ¨ ¨ ¨ , Xn , その標本平均を X と の場合 正規母集団 N pµ, σ 2 q からの大きさ n の無作為 すると となり,第 2 種の過誤を犯す確率は β “ 0.9082 となる。つまり,第 1 種の過誤を犯す確率を下 Z“ げると,第 2 種の過誤を犯す確率が上がること X ´µ ? „ N p0, 1q σ{ n になる。第 1 種の過誤を犯す確率と第 2 種の が成り立つ。σ が既知であれば,これまで説明 過誤を犯す確率の間にはトレード・オフの関係 した方法で仮説検定を行うことができる。σ が があり,第 1 種の過誤を犯す確率を小さくし 未知の場合には,σ をその推定量 て,同時に第 2 種の過誤を犯す確率も小さくす g f f S“e ることはできない。第 1 種の過誤の確率 (有意 水準) を一定値に固定して,第 2 種の過誤をで 31 n 1 ÿ pXi ´ Xq2 n ´ 1 i“1 で置き換えると,定理 6.5 より T “ ならば帰無仮説は有意水準 α で棄却される。 また,X に基づく棄却域は X ´µ ? „ tpn ´ 1q S{ n S X ă µ0 ´ tα{2 pn ´ 1q ? , n S X ą µ0 ` tα{2 pn ´ 1q ? n となる。このことを用いて母平均の検定を行う ことができる。 帰無仮説が H0 : µ “ µ0 , 対立仮説が H1 : µ ą となる。 µ0 の場合を考える。帰無仮説が正しいとき, 例題 8.4 ある型の乗用車の燃費の平均は,従 P pT ą tα pn ´ 1qq ˆ ˙ X ´ µ0 ? ą tα pn ´ 1q “P S{ n “α 来車では 17km{` であった。改良車が開発さ れ,16 台の走行テストを行ったところ,平均は 18km{`, 標本不偏分散は 4km{` であった。改 良車の燃費は従来車よりもよくなったといえる が成立する。ただし,tα pn ´ 1q は自由度 n ´ 1 か。改良車の燃費は正規分布で近似できるもの の t 分布の上側 100α パーセント点である。し として,有意水準 0.05 で検定せよ。 たがって,母分散が未知のときの母平均の平均 (解) 帰無仮説を H0 : µ “ 17, 対立仮説を H1 : の検定で用いられる検定統計量は µ ą 17 とする。t 分布表から自由度 15,有意水 X ´ µ0 ? T “ S{ n 準 0.05 の棄却点を求めると,t0.05 p15q “ 1.753 であるので,棄却域は tT |T ą 1.753u となる。 であり,棄却域は tα pn ´ 1q より右側の部分 x “ 18, s “ 2, であるから,検定統計量の実現 (tT |T ą tα pn ´ 1qu) である。また,X に基づ 値は いた棄却域は t“ S X ą µ0 ` tα pn ´ 1q ? n x ´ µ0 18 ´ 17 ? ? “ “ 2 ą 1.753 s{ n 2{ 16 であり,検定統計量の実現値が棄却域に入るの となる。 で,帰無仮説は有意水準 0.05 で棄却される。 同様にして,対立仮説が H1 : µ ă µ0 のときは T “ 例題 8.1 では母分散が既知であったので,正規 X ´ µ0 ? ă ´tα pn ´ 1q S{ n 分布表に基づいて棄却域が設定されていた。例 題 8.4 では母分散が未知であるので,検定統計 ならば帰無仮説は有意水準 α で棄却される。 量を計算する際にその推定値 s “ 2 が用いられ また,X に基づく棄却域は ており,t 分布によって棄却域が設定されてい る。自由度が小さいときには, t 分布は正規分 S X ă µ0 ´ tα pn ´ 1q ? n 布よりも裾が広いので,t 分布に基づく棄却域 tT |T ą 1.753u は,標準正規分布に基づく棄却 となる。 域 tZ|Z ą 1.645u よりも狭くなる。 対立仮説が H1 : µ ‰ µ0 のときは,母分散が既 例題 8.5 ある年のわが国の製造業における労 知のときと同様に考えて, 働者の週当たり平均労働時間は 41 時間であっ ˇ ˇ ˇ X ´ µ0 ˇ ˇ ? ˇ ą tα{2 pn ´ 1q |T | “ ˇ S{ n ˇ た。数年後に,労働時間が短縮されているかを 32 見るために,25 人の製造業労働者を無作為に か,2 つの異なった銘柄の電球の平均寿命に 抽出して週当たり労働時間を調べたところ,平 差があるか,などである。2 つの正規母集団を 均 40.7 時間,標準偏差 0.9 時間であった。週当 N pµ1 , σ12 q, N pµ2 , σ22 q とすると,これらの母平 たり労働時間が正規分布で近似できるものとし 均が等しいかどうかを検定したいので,帰無仮 て,労働時間が短縮されたと言えるかどうかを 説は H1 : µ1 ´ µ2 “ 0 である。対立仮説は,次 有意水準 0.01 で検定せよ。また,標本を増や の 3 つの中から状況に応じて選ばれる。 して 144 人の製造業労働者について調べたと H1 : µ1 ´ µ2 ą 0 (右側検定) ころ,平均 40.5 時間,標準偏差 0.8 時間であっ H1 : µ1 ´ µ2 ă 0 (左側検定) H1 : µ1 ´ µ2 ‰ 0 (両側検定) た。有意水準 0.01 で検定せよ。 (解) 帰無仮説を H0 : µ “ 41, 対立仮説を H1 : µ ă 41 とする。t 分布表から自由度 24,有意 水準 0.01 の棄却点を求めると,´t0.01 p24q “ そ れ ぞ れ の 母 集 団 か ら 大 き さ n1 お よ び ´2.492 であるので,棄却域は tT |T ă ´2.492u n2 の 無 作 為 標 本 X11 , X12 , ¨ ¨ ¨ , X1n1 お よ び となる。x “ 40.7, s “ 0.9 であるから,検定統 X21 , X22 , ¨ ¨ ¨ , X2n2 を抽出し,それぞれの標 計量の実現値は 本平均を X 1 および X 2 とすると t“ ˙ ˆ n1 1 ÿ σ12 X1 “ X1i „ N µ1 , n1 i“1 n1 ˙ ˆ n 2 1 ÿ σ22 X2 “ X2i „ N µ2 , n2 i“1 n2 x ´ µ0 40.7 ´ 41 ? ? “ “ ´1.667 ą ´2.492 s{ n 0.9{ 25 となり,棄却域に入らない。よって,帰無仮説 は有意水準 0.01 で採択される。 t 分布表には n “ 144 の場合は載っていない となる。ここでの標本は無作為抽出なので, が,n “ 144 は大きいので,検定統計量が標 X 1 と X 2 は独立である。よって定理 4.5 と定 準正規分布 (t 分布表で自由度が 8 の場合) に 理 4.8 から 従うとみなして差し支えない。標準正規分布 表から,有意水準 0.01 の棄却点を求めると, ´t0.01 p8q “ ´2.326 であるので,棄却域は tT |T ă ´2.326u となる。x “ 40.5, s “ 0.8 で となる。2 つの正規分布に従う確率変数の和と あるから,検定統計量の実現値は t“ ErX 1 ´ X 2 s “ ErX 1 s ´ ErX 2 s “ µ1 ´ µ2 σ2 σ2 V rX 1 ´ X 2 s “ V rX 1 s ` V rX 2 s “ 1 ` 2 n1 n2 差は正規分布従う (正規分布の再生性という) 40.5 ´ 41 ? “ ´7.5 ă ´2.326 0.8{ 144 ので,X 1 ´ X 2 も正規分布に従う。したがって X1 ´ X2 „ N となり,棄却域に入るので,帰無仮説は有意水 準 0.01 で棄却される。この場合には,有意水 ˙ ˆ σ2 σ2 µ1 ´ µ2 , 1 ` 2 n1 n2 となる。 準 0.01 で労働時間は短縮したといえる。 8.4 平均値の差の検定 σ12 , σ22 が既知の場合 2 つの母集団の平均に有意な差があるか関心 帰無仮説 H0 : µ1 ´ µ2 “ 0 が正しいとき がある場合がしばしばある。例えば,北海道 ˙ ˆ σ22 σ12 ` X 1 ´ X 2 „ N 0, n1 n2 と九州の勤労者世帯の平均収入に差がある 33 となるので,標準化すると検定統計量は ともに大きくないならば,平均の差を厳密に検 定することはできない。したがって,n1 と n2 X1 ´ X2 Z“a 2 „ N p0, 1q σ1 {n1 ` σ22 {n2 がともに大きい場合を考える。 帰無仮説と対立仮説は σ12 , σ22 が既知の場合と となる。したがって,対立仮説が H1 : µ1 ´ µ2 ą 0 のとき,棄却域は tZ|Z ą zα u であり, H1 : µ1 ´ µ2 ă 0 のとき tZ|Z ă ´zα u であ 同様である。σ12 , σ22 は未知であるので,不偏推 定量 る。また,H1 : µ1 ´ µ2 ‰ 0 のとき 棄却域は tZ|Z ă ´zα{2 , Z ą zα{2 u となる。 例題 8.6 あるデパートで,店員とアルバイト学 S12 “ n1 ÿ 1 pX1i ´ X 1 q2 n1 ´ 1 i“1 S22 “ n2 ÿ 1 pX2i ´ X 2 q2 n2 ´ 1 i“1 生が同じ商品の包装をしたところ,1 時間の作 で置き換えることを考える。よって,検定統計 業によって下のような結果が得られた。 人数 平均包装数 店員 5 64 アルバイト学生 9 56 量は X1 ´ X2 Z“a 2 S1 {n1 ` S22 {n2 店員の方がアルバイト学生よりも包装作業に熟 となる。この検定統計量は,n1 と n2 がとも 練しているとみなしてよいかどうかを,有意水 に大きいとき,中心極限定理により標準正規分 準 0.05 で検定せよ。ただし,店員の包装数は 布に近づいていく。つまり,Z の漸近分布が 平均が µ1 , 分散が 30.5 の正規分布で近似でき, N p0, 1q となる。このことから,n1 と n2 がと アルバイト学生の放送数は 平均が µ2 , 分散が もに大きいときには,σ12 と σ22 が既知の場合と 75.6 の正規分布で近似できるものとする。 同様にして,標準正規分布に基づいて棄却域を (解) 帰無仮説は H0 : µ1 ´ µ2 “ 0, 対立仮説は 設定することができる。 H1 : µ1 ´µ2 ą 0 とする。有意水準 0.05 の棄却 n1 と n2 がともに大きいときには,母集団が正 域は tZ|Z ą z0.05 “ 1.645u となる。x1 “ 64, 規分布に従っていなくても,正規近似を行うこ σ12 “ 30.5, n1 “ 5 および x2 “ 56, σ22 “ 75.6, とができる。しかし,n1 と n2 がともに大きく n2 “ 9 であるから,検定統計量の実現値は 無いときには,この検定統計量の分布は正規分 布でも t 分布でもない。 x1 ´ x2 z“a 2 σ1 {n1 ` σ22 {n2 64 ´ 56 “a 30.5{5 ` 75.6{9 “ 2.101 ą 1.645 例題 8.7 A 地方と B 地方で勤労者世帯の収入 に差があるかを見るために,次のような無作為 標本を得た。 となり,棄却域に入るので,帰無仮説は有意水 準 0.05 で棄却される。よって,店員のほうが 作業に熟練していると判断される。 σ12 , σ22 が未知の場合 σ12 と σ22 が未知で σ12 標本の大きさ (n1 ) 平均 (xi ) 標準偏差 (si ) 154 120 615 606 40 32 A B 有意水準 0.05 で,有意な差があるかどうか検 定せよ。 ‰ σ22 (解) A 地方を添え字 1, B 地方を添え字 2 で表 の場合,n1 と n2 が 34 す。A 地方の勤労者世帯の方が B 地方の勤労 となる。定理 6.3 より 者世帯よりも平均収入が高いかどうかは分から pn1 ´ 1qS12 „ χ2 pn1 ´ 1q, σ12 pn2 ´ 1qS22 „ χ2 pn2 ´ 1q σ22 ないので,差があるかどうかを検定するものと する。このとき,帰無仮説と対立仮説は H0 : µ1 ´ µ2 “ 0, H1 : µ1 ´ µ2 ‰ 0 が成り立つ。また,2 つの母集団から抽出され となる。 た標本は無作為標本なので,S12 と S22 は独立で n1 と n2 はともに大きいので,正規分布に基 ある。 づいて棄却域を設定することができる。有意 2 つの正規母集団の分散が等しいかどうかを検 水準が 0.05 で,対立仮説は両側なので,棄却 定するので,帰無仮説は H0 : σ12 “ σ22 である。 点は z0.025 “ 1.96 である。よって棄却域は まず,対立仮説が H1 : σ12 ą σ22 の場合を考え tZ|Z ă ´1.96, Z ą 1, 96u となる。 る。帰無仮説が正しいときには,S12 と S22 の n1 “ 154, x1 “ 615, s1 “ 40, n2 “ 120, x2 “ 実現値が大きく離れることはあまり無いので, 606, s2 “ 32 であるから,検定統計量の実現 S12 {S22 の実現値は 1 に近くなりやすい。逆に 値は 対立仮説が正しいときには,S12 の実現値が S22 よりも大きくなりやすいので,S12 {S22 の実現値 ˇ ˇ ˇ ˇ x ´ x ˇ ˇ 1 2 z “ ˇa 2 ˇ ˇ s1 {n1 ` s22 {n2 ˇ ˇ ˇ ˇ ˇ ˇ a 615 ´ 606 ˇ “ˇ ˇ ˇ 402 {154 ` 322 {120 ˇ “ 2.069 ą 1.96 が 1 よりもある程度大きくなったときに帰無仮 説を棄却するという検定が考えられる。 定理 6.6 より pn1 ´ 1qS12 M pn1 ´ 1q S12 {σ12 σ12 V “ “ M S22 {σ22 pn2 ´ 1qS22 pn2 ´ 1q 2 σ2 で棄却域に入る。よって,帰無仮説は有意水準 0.05 で棄却される。したがって,A 地域と B 地域の勤労者世帯の平均収入には有意な差があ は自由度 pn1 ´ 1, n2 ´ 1q の F 分布に従う。し るといえる。 たがって H0 : σ12 “ σ22 のもとでは S12 {S22 が自 8.5 等分散の検定 由度 pn1 ´ 1, n2 ´ 1q の F 分布に従う。よって 2 つの母集団の分散に有意な差があるかどう S12 {S22 が H0 : σ12 “ σ22 , H1 : σ12 ą σ22 に対す かに興味がある場合がある。2 つの正規母集団 る検定統計量になる。 N pµ1 , σ12 q と N pµ2 , σ22 q を考える。それぞれの 帰無仮説が正しいとき 母集団から大きさ n1 , n2 の標本を無作為に抽 ˆ P 出したとすると,それぞれの標本不偏分散 S12 , S22 は ˙ S12 ą Fα pn1 ´ 1, n2 ´ 1q “ α S22 が成立するので,有意水準 α の棄却域は S12 S12 ą Fα pn1 ´ 1, n2 ´ 1q S22 n1 ÿ 1 pX1i ´ X 1 q2 “ n1 ´ 1 i“1 S22 “ n2 ÿ 1 pX2i ´ X 2 q2 n2 ´ 1 i“1 となる。ただし,Fα pn1 ´ 1, n2 ´ 1q は自由度 pn1 ´ 1, n2 ´ 1q の F 分布の上側 100α パーセ 35 ント点である。 例題 8.8 表 8.2 は日経平均株価指数の上昇率 対立仮説が H1 : σ12 ă σ22 で,帰無仮説が正 しくない場合には S22 の方が S12 (年率 %) のデータである。この表を用いて,バ よりも大きく ブル期以降 (1990 年 „) の方が,バブル期以前 なりやすいと考えられる。したがって,H1 : („1989 年) よりも,株価の変動が大きくなって σ12 ą σ22 のときと逆に考えると,有意水準 α の いるかどうかを有意水準 0.05 で検定せよ。た 棄却域は だし,上昇率は正規分布に従い,各年で独立で あると仮定する。 S22 ą Fα pn2 ´ 1, n1 ´ 1q S22 (解 ) バブル期以前の分散を σ12 , バブル期以降 となる。 の分散を σ22 とし,帰無仮説を H0 : σ12 “ σ22 , 対立仮説が H1 : σ12 ‰ σ22 の時には,σ12 ą σ22 対立仮説を H1 : σ12 ă σ22 とする。F 分布表か であるのか σ12 ă σ22 であるのか分からない。 ら,自由度 pn2 ´1, n1 ´1q “ p19, 15q, 有意水準 したがって,この場合の有意水準 α の棄却域は 0.05 の棄却点を求めると,F0.05 p19, 15q “ 2.34 であるから,棄却域は tF |F ą 2.34u となる。 S12 ą Fα{2 pn1 ´ 1, n2 ´ 1q S22 x1 “ 15.55, x2 “ ´3.625 または S22 S12 であることから, ą Fα{2 pn2 ´ 1, n1 ´ 1q s21 “ 197.4, s22 “ 539.0 となる。 となる。検定統計値は 539.0 s22 “ “ 2.73 ă 2.34 s21 197.4 表 8.2 株価上昇率 (年率 %) 年 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 上昇率 -11.4 14.2 14.5 -2.5 23.4 9.5 8.3 7.9 4.4 23.4 16.7 13.6 42.6 15.3 39.9 29.0 -38.7 -3.6 年 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2006 2007 2008 上昇率 であるから,棄却域に入る。よって,帰無仮説 -26.4 2.9 13.2 0.7 -2.6 -21.2 -9.3 36.8 -27.2 -23.5 -18.6 24.5 7.6 40.2 6.9 -11.1 -42.1 19.0 は有意水準 0.05 で棄却される。すなわち,バ ブル期以前と以降では,変動が大きくなったと いえる。 8.6 比率の検定 ここでは,ある属性を持つ集合の母集団に占め る割合や比率に関する仮説を検定することを考 える。例えば,労働人口に占める失業率,政党 や内閣の支持率など,割合・比率に関心がもた れることは非常に多い。 母集団のうちで,ある属性を持つものの割合を p で表す。無作為に抽出された大きさ n の標 本を X1 , X2 , ¨ ¨ ¨ , Xn とし,その属性を持てば Xi “ 1, 持たなければ Xi “ 0 とする。例えば, 何人かの人にアンケートを行い,i 番目の人が 36 ある政党を支持すれば Xi “ 1, 指示しなければ ならば,帰無仮説は有意水準 α で棄却される。 Xi “ 0 とする。このとき ただし,zα は標準正規分布の上側 100α パーセ ント点である。 R “ X1 ` X2 ` ¨ ¨ ¨ ` Xn 同様に,対立仮説が,H1 : p ă p0 のとき とすると,R はその属性を持つものの個数とな pp ´ p0 a ă ´zα p0 q0 {n る。100 人にアンケートを取り,30 人がある政 党を支持したとき,Xi , pi “ 1, 2, ¨ ¨ ¨ 100q のう ち,30 個が 1 で,残り 70 個が 0 を取る。した ならば,帰無仮説は有意水準 α で棄却される。 がって R “ 30 となる。無作為に抽出された標 また,対立仮説が,H1 : p ‰ p0 のとき 本のうち R 個がその属性を持つので,p の点推 pp ´ p0 pp ´ p0 a ă ´zα{2 または a ą zα{2 p0 q0 {n p0 q0 {n 定量として n R 1 ÿ pp “ “ Xi n n i“1 ならば,帰無仮説は有意水準 α で棄却される。 が考えられる。これは標本平均であるので,n 目が 64 回出た。このサイコロは 1 の目が出や がある程度大きいとき,中心極限定理より すいと判断してよいか。有意水準 0.05 で検定 例題 8.9 サイコロを 340 回ふったところ,1 の せよ。 pp ´ p a „ N p0, 1q pq{n (解) ここでは,1 の目が出やすいことを疑って いるので,帰無仮説と対立仮説はそれぞれ が成り立つ。ただし,q “ 1 ´ p である。 帰無仮説を H0 : p “ p0 とし,対立仮説が 1 “ 0.167 6 1 H1 : p ą “ 0.167 6 H0 : p “ H1 : p ą p0 のときは右側検定,H1 : p ă p0 の ときは左側検定,H1 : p ‰ p0 のときは両側検 定をつかう。 帰無仮説が正しいときには,p “ p0 であるから となる。また n が大きいので,正規分布で近 pp ´ p0 Z“a „ N p0, 1q p0 q0 {n 似してよいと考えられる。有意水準が 0.05 の とき,棄却域は tZ|Z ą 1.645u である。pp “ が成立する。ただし,q0 “ 1 ´ p0 である。こ 65{340 “ 0.191 であるから,検定統計値は の式は,帰無仮説のもとでの検定統計量 Z “ pp ´ p0 z“a p0 q0 {n 0.191 ´ 0.167 “a 0.167 ˆ 0.833{340 “ 1.187 ă 1.645 a pp p ´ p0 q{ p0 q0 {n の漸近分布が N p0, 1q であ ることを表している。(区間推定では,p の値が 未知なので,分母にある p, q の値がその推定値 pp, qp で置き換えられる。しかし,検定において は,帰無仮説によって p の値 p0 が与えられる となり,棄却域に入らない。よって帰無仮説は ので,p, q は p0 , q0 で置き換えられる。) 有意水準 0.05 で採択される。よって,特に 1 対立仮説が,H1 : p ą p0 のとき の目が出やすいとはいえない。 pp ´ p0 a ą zα p0 q0 {n 37
© Copyright 2024 ExpyDoc