統計量 1 推測統計学では調査対象を母集団 (population) とよび, その一部を標本 (sample) もしくはデータ (data) とよぶ. 標本から母集団の特性について判断するのが統計的推測 (statistical inference) である. 母集団の特 性についてその特性値を母数 (parameter) という. 母数についての統計的推測には, データから母数の値を推 測する推定 (estimation) 問題と, 母数についての 2 つの仮説を立て, データからどちらの仮説が成立するかを 決定する検定 (test) 問題がある. n いま母集団が {Xi }∞ i=−∞ となる無限確率変数列となり, その一部の標本 {Xi }i=1 が得られているとする. このときの n を標本サイズ (sample size) もしくは観測数 (number of observations) という. もし, Xi が独 立同一分布にしたがっているのなら, この場合, 母集団を独立同一分布系列なのでひとつの確率変数 X と考え, 標本はその母集団から無作為抽出 (random sampling) で選ばれていると考えられる. こうした標本を横断面 データ (cross-sectional data) という. もし Xi が独立同一分布にしたがっていない場合, 無限確率変数列は 確率過程になり, その標本を時系列データ (time series data) という. さらにパネルデータとよばれるものが ある. サイズ n の標本, つまり n 個の確率変数 Xi を考える. この確率変数の関数 T = T (X1 , . . . , Xn ) を統計量 (statistic) という. 統計量は確率変数である. 標本平均 1∑ Xi n i=1 n X̄ = は統計量である. 標本分散 1∑ (Xi − X̄)2 n i=1 n S2 = も統計量である. 次に, 確率変数 Xi の平均値が µ と同じとする. このとき E[X̄] = µ である. 標本平均の期待値は母平均である. より仮定をつよめて, 確率変数 Xi の平均値 µ と分散 σ 2 が同じで, 互いに無相関とする. このとき ( )2 ( n )2 n 1∑ 1∑ V [X̄] = E Xi − µ =E (Xi − µ) n i=1 n i=1 n ∑ n n n ∑ 1 ∑∑ 1 (Xi − µ)(Xj − µ) = 2 = 2E Cov[Xi , Xj ] n n i=1 j=1 i=1 j=1 = n 1 ∑ V [Xi ] = σ 2 /n n2 i=1 である. 1 また } 1∑ 1 ∑{ (Xi − µ + µ − X̄)2 = (Xi − µ)2 + 2(Xi − µ)(µ − X̄) + (µ − X̄)2 n i=1 n i=1 n S2 = n = 1∑ 1∑ 1∑ (Xi − µ)2 − 2 (Xi − µ)(X̄ − µ) + (X̄ − µ)2 n i=1 n i=1 n i=1 = 1∑ 1∑ (Xi − µ)2 − (X̄ − µ)2 n i=1 n i=1 = 1∑ (Xi − µ)2 − (X̄ − µ)2 n i=1 n n n n n n である. よってその期待値は 1∑ V [Xi ] − V [X̄] n i=1 n E[S 2 ] = = σ2 − n−1 2 1 2 σ = σ n n である. 標本分散の期待値は母分散でない. いま n 1 ∑ (Xi − X̄)2 S2 = n−1 n − 1 i=1 n U2 = を考えればこの U 2 の期待値は σ 2 となる. この U 2 を不偏分散 (unbiased variance) という. なお U 2 が σ 2 の不偏推定量であってもその平方根 U は σ の不偏推定量でない. いま, 確率変数 Xi の平均値 µ と分散 σ 2 が同じ正規分布にしたがい, 互いに無相関とする. 正規分布なので 互いに独立である. つまり独立同一分布である. よって, Xi は N (µ, σ 2 ) から無作為抽出された標本と解釈さ れる. このとき X̄ ∼ N (µ, σ 2 /n) である. つまり標本平均も正規分布にしたがう. 標本平均の標準化は標準正規分布にしたがう. √ n(X̄ − µ) ∼ N (0, 1) σ また, (n − 1) である. 実際 n U2 S2 1 ∑ = n = (Xi − X̄)2 ∼ χ2 (n − 1) σ2 σ2 σ 2 i=1 1∑ 1∑ S = (Xi − µ̄)2 = (Xi − µ)2 − (X̄ − µ)2 n i=1 n i=1 n n 2 より n n 1 ∑ 1 ∑ n 2 (X − µ) = (Xi − X̄)2 + 2 (X̄ − µ)2 i 2 2 σ i=1 σ i=1 σ となる. この左辺が自由度 n のカイ二乗分布にしたがい, 右辺第二項が自由度 1 のカイ二乗分布にしたがう. よって右辺第一項は第二項と独立で自由度 n − 1 のカイ二乗分布にしたがう. 2 さらに右辺第一項と第二項が独立なので, U 2 と X̄ は独立である. よって標準化の分散を不偏分散に置き換 えた統計量は自由度 n − 1 のティー分布にしたがう. √ T = 2 √ n(X̄ − µ) = U n(X̄ − µ) √ 2 2 / U /σ ∼ t(n − 1) σ 推定 母集団の特性についてその特性値を母数という. データから母数の値を推測する推定問題を考える推定のた めの統計量を推定量 (estimator) という. 推定量は確率変数である. 推定量の性質には不偏や有効などがある. 推定量の期待値が母数と等しいとき不偏 (unbiased) という. 確率変数 Xi の平均値が µ と同じとする. こ のとき標本平均 X̄ は不偏である. また, 確率変数 Xi の平均値 µ と分散 σ 2 が同じ分布にしたがい, 互いに無 相関とする. このとき不偏分散 U 2 は σ 2 に対して不偏であるが標本分散は不偏でない. 不偏分散の平方根は σ に対して不偏ではない. 推定量 θ̂ と母数 θ の差を誤差といい, その自乗平均を平均平方誤差 (mean squared error) M SE(θ̂) = E[(θ̂ − θ)2 ] という. もし推定量が不偏なら平均平方誤差は推定量の分散と同じである. 平均平方誤差の平方根は RM SE (root mean squared error) であるが, これを単に標準誤差 SE (standard error) ということが慣習である. も し推定量が不偏なら標準誤差は推定量の標準偏差と同じである. いま, 不偏推定量を考える. 推定量の分散が最小であるとき有効 (efficient) という. 確率変数 Xi の平均値 µ と分散 σ 2 が同じで, 互いに無相関とする. このとき標本平均は線形不偏推定量のなかで有効である. 実際, 線 形推定量は X̃ = n ∑ w i Xi i=1 となり, 不偏推定量は, E[X̃] = n ∑ wi E[Xi ] = µ i=1 なので ∑ n ∑ wi i=1 wi = 1 でなければならない. この分散は V [X̃] = σ 2 n ∑ wi2 i=1 である. wi = ai + 1/n とすると n ∑ wi2 n ∑ = (a2i + 2ai /n + 1/n2 ) i=1 i=1 = n ∑ i=1 = n ∑ a2i + 2 n ∑ ai /n + i=1 a2i + (2/n) i=1 1/n2 i=1 n ∑ i=1 3 n ∑ ai + 1/n であり, ∑ wi = ∑ ∑ ai + 1 = 1 なので, ai = 0 であり, n ∑ i=1 wi2 = n ∑ i=1 a2i + 1 1 ≥ n n である. 等号が成り立つのは ai = 0 のときである. よって標本平均は線形不偏推定量のなかで最も分散が小さ く, 有効である. 推定量の分布がわかっているならば, ある区間に母数が含まれる確率を計算することができる. その方法を 区間推定 (interval estimation) と言い, その区間を信頼区間 (confidence interval) といい, その確率を信頼係 数 (confidence coefficient) という. 確率変数 Xi の平均値 µ と分散 σ 2 が同じ正規分布にしたがい, 互いに無相関とする. 正規分布なので互いに 独立である. いま σ 2 が既知とする. このとき Z= √ n(X̄ − µ) ∼ N (0, 1) σ である. したがって Z が標準正規分布の両側 100α% 点 z(α) で定まる区間 [−z(α), z(α)] に含まれる確率 γ = 1 − α である. P ( √ ) n(X̄ − µ) ≤ z(α) = 1 − α = γ σ よって, µ について解いた表現にすると ) ( σ σ =1−α=γ P X̄ − z(α) √ ≤ µ ≤ X̄ + z(α) √ n n なる. 信頼区間は [ ] σ σ X̄ − z(α) √ , X̄ + z(α) √ n n となり, 信頼係数は γ = 1 − α である. 信頼係数を大きく取ると, 区間幅は大きくなり, また n が大きいと区間 幅は小さくなる. 次に σ 2 が未知とする. このとき T = で あ る. √ n(X̄ − µ) ∼ t(n − 1) U し た が っ て T が 自 由 度 n − 1 の テ ィ ー 分 布 の 両 側 100α% 点 tn−1 (α) で 定 ま る 区 間 [−tn−1 (α), tn−1 (α)] に含まれる確率 γ = 1 − α である.*1 ( √ ) n(X̄ − µ) P ≤ tn−1 (α) = 1 − α = γ U よって, µ について解いた表現にすると ( P なる. 信頼区間は *1 U U X̄ − tn−1 (α) √ ≤ µ ≤ X̄ + tn−1 (α) √ n n [ ) U U X̄ − tn−1 (α) √ , X̄ + tn−1 (α) √ n n 両側 100α% 点 tn−1 (α) は EXCEL では T.INV(1 − α/2,n − 1) である. 4 =1−α=γ ] となり, 信頼係数は γ = 1 − α である. この信頼区間は中心が確率変数 X̄ であるばかりでなく, 区間幅にも確 率変数が含まれるため, 標本ごとに区間幅が変化する. たとえば 16 〜 20 歳の女性の身長について, 10 人のデータから母平均の 95% 信頼区間を推定したいとする. 10 人の標本平均は 156cm で, 不偏分散は 142 とする. 自由度 9 の t 分布では両側 5% 点は 2.262 となる. よ って母平均の 95% 信頼区間は [ ] 14 14 156 − 2.262 × √ , 156 + 2.262 × √ = [145.99, 166.01] 10 10 となる. 3 検定 母集団の特性についてその特性値を母数という. 母数についての 2 つの仮説を立て, データからどちらの仮 説が成立するかを決定する検定問題がある. 検定の手順は以下の通りである. 1. 帰無仮説と対立仮説をたてる. 帰無仮説は検証しやすい形で取られることが多い. 対立仮説によって両 側検定, 片側検定に分けられる. 2. 検定統計量を選定する. 検定のために用いる統計量を検定統計量 (test statistic) という. 検定統計量は 確率変数である. 3. 有 意 水 準 を 設 定 す る. 帰 無 仮 説 が 正 し い の に 帰 無 仮 説 を 棄 却 す る あ や ま り の 確 率 を 有 意 水 準 (significance level) という. 有意水準は, 社会科学では 5% とすることが多い. 4. 棄却域を設定する. 検定統計量 T と有意水準 α のもと, P (T ∈ R| H0 ) = α となる領域 R を棄却域 (rejection region) という. 棄却域の境界の値を臨界値 (critical value) という. 両側検定の場合, 棄却 域が両端に設定され, 統計量が原点で左右対称の場合, 臨界値は正負の 2 つの値である. 5. データから検定統計量の実現値を得て, それが棄却域に入れば帰無仮説を棄却する. そうでなけれえば 帰無仮説を採択するが, 採択には強いメッセージがない. なお, 実現値を臨界値とする有意水準を P 値という. この P 値が小さいほど, この検定による帰無仮説が正し いのに棄却してしまう確率が低いことを意味し, よりつよい確度をもって帰無仮説を棄却することができる. 昨今の統計ソフトだと簡単に P 値を計算することができて, 有意水準を事前に設けることなく仮説検定が可能 である. 平均の検定を考えよう. 確率変数 Xi の平均値 µ と分散 σ 2 が同じ正規分布にしたがい, 互いに無相関とす る. 正規分布なので互いに独立である. 未知の母平均についてある特定の値 µ0 とみなしてよいのかどうかを 判断する. 帰無仮説と対立仮説を H0 : µ = µ0 H1 : µ ̸= µ0 とする. いま σ 2 が既知とする. このとき √ n(X̄ − µ) ∼ N (0, 1) σ 5 である. 帰無仮説のもと µ0 を用いた検定統計量 Z= を用いる. これは √ n(X̄ − µ0 ) σ √ √ n(X̄ − µ) n(µ − µ0 ) Z= + σ σ となる. 帰無仮説が正しいもと, 標準正規分布にしたがう. 正しくない場合, 第二項ぶんずれる. n がおおきく なればそのズレもおおきくなる. したがって有意水準 α の棄却域 R は, z(α) を標準正規分布の両側 100α% 点として R = {z : |z| > z(α)} となる. α = 0.05 なら棄却域 R = {z : z < −1.96, z > 1.96} であり, 臨界値は ±1.96 である. ゆえに Z の 実現値により z ∈ R なら帰無仮説を棄却し, そうでなければ帰無仮説を採択する. この検定法は z 検定と呼ば れる. 次に σ 2 が未知とする. このとき √ n(X̄ − µ) ∼ t(n − 1) U である. 帰無仮説のもと µ0 を用いた検定統計量 √ T = n(X̄ − µ0 ) U を用いる. したがって有意水準 α の棄却域 R は, tn−1 (α) を自由度 n − 1 のティー分布の両側 100α% 点として R = {t : |t| > tn−1 (α)} となる. ゆえに T の実現値により z ∈ R なら帰無仮説を棄却し, そうでなければ帰無仮説を採択する. この検 定法は t 検定と呼ばれる. たとえば 16 〜 20 歳の男の体重について, 20 人のデータから母平均が 50 かどうかという帰無仮説を有意水 準 5% で両側検定したいとする. 20 人の標本平均は 56kg で, 不偏分散は 122 とする. 自由度 19 の t 分布では 両側 5% 点は 2.093 となる. 棄却域は {t : t < −2.093, t > 2.093} である. 帰無仮説のもと検定統計量の実 現値は √ 20(56 − 50) T = = 2.236 12 となる. この値は棄却域に含まれるため, 5% 有意水準のもと, 帰無仮説を棄却する. 6
© Copyright 2024 ExpyDoc