1 統計量

統計量
1
推測統計学では調査対象を母集団 (population) とよび, その一部を標本 (sample) もしくはデータ (data)
とよぶ. 標本から母集団の特性について判断するのが統計的推測 (statistical inference) である. 母集団の特
性についてその特性値を母数 (parameter) という. 母数についての統計的推測には, データから母数の値を推
測する推定 (estimation) 問題と, 母数についての 2 つの仮説を立て, データからどちらの仮説が成立するかを
決定する検定 (test) 問題がある.
n
いま母集団が {Xi }∞
i=−∞ となる無限確率変数列となり, その一部の標本 {Xi }i=1 が得られているとする.
このときの n を標本サイズ (sample size) もしくは観測数 (number of observations) という. もし, Xi が独
立同一分布にしたがっているのなら, この場合, 母集団を独立同一分布系列なのでひとつの確率変数 X と考え,
標本はその母集団から無作為抽出 (random sampling) で選ばれていると考えられる. こうした標本を横断面
データ (cross-sectional data) という. もし Xi が独立同一分布にしたがっていない場合, 無限確率変数列は
確率過程になり, その標本を時系列データ (time series data) という. さらにパネルデータとよばれるものが
ある.
サイズ n の標本, つまり n 個の確率変数 Xi を考える. この確率変数の関数
T = T (X1 , . . . , Xn )
を統計量 (statistic) という. 統計量は確率変数である. 標本平均
1∑
Xi
n i=1
n
X̄ =
は統計量である. 標本分散
1∑
(Xi − X̄)2
n i=1
n
S2 =
も統計量である.
次に, 確率変数 Xi の平均値が µ と同じとする. このとき
E[X̄] = µ
である. 標本平均の期待値は母平均である.
より仮定をつよめて, 確率変数 Xi の平均値 µ と分散 σ 2 が同じで, 互いに無相関とする. このとき
(
)2
( n
)2
n
1∑
1∑
V [X̄] = E
Xi − µ
=E
(Xi − µ)
n i=1
n i=1


n ∑
n
n
n
∑
1 ∑∑
1
(Xi − µ)(Xj − µ) = 2
= 2E 
Cov[Xi , Xj ]
n
n i=1 j=1
i=1 j=1
=
n
1 ∑
V [Xi ] = σ 2 /n
n2 i=1
である.
1
また
}
1∑
1 ∑{
(Xi − µ + µ − X̄)2 =
(Xi − µ)2 + 2(Xi − µ)(µ − X̄) + (µ − X̄)2
n i=1
n i=1
n
S2 =
n
=
1∑
1∑
1∑
(Xi − µ)2 − 2
(Xi − µ)(X̄ − µ) +
(X̄ − µ)2
n i=1
n i=1
n i=1
=
1∑
1∑
(Xi − µ)2 −
(X̄ − µ)2
n i=1
n i=1
=
1∑
(Xi − µ)2 − (X̄ − µ)2
n i=1
n
n
n
n
n
n
である. よってその期待値は
1∑
V [Xi ] − V [X̄]
n i=1
n
E[S 2 ] =
= σ2 −
n−1 2
1 2
σ =
σ
n
n
である. 標本分散の期待値は母分散でない. いま
n
1 ∑
(Xi − X̄)2
S2 =
n−1
n − 1 i=1
n
U2 =
を考えればこの U 2 の期待値は σ 2 となる. この U 2 を不偏分散 (unbiased variance) という. なお U 2 が σ 2
の不偏推定量であってもその平方根 U は σ の不偏推定量でない.
いま, 確率変数 Xi の平均値 µ と分散 σ 2 が同じ正規分布にしたがい, 互いに無相関とする. 正規分布なので
互いに独立である. つまり独立同一分布である. よって, Xi は N (µ, σ 2 ) から無作為抽出された標本と解釈さ
れる. このとき
X̄ ∼ N (µ, σ 2 /n)
である. つまり標本平均も正規分布にしたがう. 標本平均の標準化は標準正規分布にしたがう.
√
n(X̄ − µ)
∼ N (0, 1)
σ
また,
(n − 1)
である. 実際
n
U2
S2
1 ∑
=
n
=
(Xi − X̄)2 ∼ χ2 (n − 1)
σ2
σ2
σ 2 i=1
1∑
1∑
S =
(Xi − µ̄)2 =
(Xi − µ)2 − (X̄ − µ)2
n i=1
n i=1
n
n
2
より
n
n
1 ∑
1 ∑
n
2
(X
−
µ)
=
(Xi − X̄)2 + 2 (X̄ − µ)2
i
2
2
σ i=1
σ i=1
σ
となる. この左辺が自由度 n のカイ二乗分布にしたがい, 右辺第二項が自由度 1 のカイ二乗分布にしたがう.
よって右辺第一項は第二項と独立で自由度 n − 1 のカイ二乗分布にしたがう.
2
さらに右辺第一項と第二項が独立なので, U 2 と X̄ は独立である. よって標準化の分散を不偏分散に置き換
えた統計量は自由度 n − 1 のティー分布にしたがう.
√
T =
2
√
n(X̄ − µ)
=
U
n(X̄ − µ) √ 2 2
/ U /σ ∼ t(n − 1)
σ
推定
母集団の特性についてその特性値を母数という. データから母数の値を推測する推定問題を考える推定のた
めの統計量を推定量 (estimator) という. 推定量は確率変数である. 推定量の性質には不偏や有効などがある.
推定量の期待値が母数と等しいとき不偏 (unbiased) という. 確率変数 Xi の平均値が µ と同じとする. こ
のとき標本平均 X̄ は不偏である. また, 確率変数 Xi の平均値 µ と分散 σ 2 が同じ分布にしたがい, 互いに無
相関とする. このとき不偏分散 U 2 は σ 2 に対して不偏であるが標本分散は不偏でない. 不偏分散の平方根は σ
に対して不偏ではない.
推定量 θ̂ と母数 θ の差を誤差といい, その自乗平均を平均平方誤差 (mean squared error)
M SE(θ̂) = E[(θ̂ − θ)2 ]
という. もし推定量が不偏なら平均平方誤差は推定量の分散と同じである. 平均平方誤差の平方根は RM SE
(root mean squared error) であるが, これを単に標準誤差 SE (standard error) ということが慣習である. も
し推定量が不偏なら標準誤差は推定量の標準偏差と同じである.
いま, 不偏推定量を考える. 推定量の分散が最小であるとき有効 (efficient) という. 確率変数 Xi の平均値 µ
と分散 σ 2 が同じで, 互いに無相関とする. このとき標本平均は線形不偏推定量のなかで有効である. 実際, 線
形推定量は
X̃ =
n
∑
w i Xi
i=1
となり, 不偏推定量は,
E[X̃] =
n
∑
wi E[Xi ] = µ
i=1
なので
∑
n
∑
wi
i=1
wi = 1 でなければならない. この分散は
V [X̃] = σ 2
n
∑
wi2
i=1
である. wi = ai + 1/n とすると
n
∑
wi2
n
∑
=
(a2i + 2ai /n + 1/n2 )
i=1
i=1
=
n
∑
i=1
=
n
∑
a2i + 2
n
∑
ai /n +
i=1
a2i + (2/n)
i=1
1/n2
i=1
n
∑
i=1
3
n
∑
ai + 1/n
であり,
∑
wi =
∑
∑
ai + 1 = 1 なので,
ai = 0 であり,
n
∑
i=1
wi2 =
n
∑
i=1
a2i +
1
1
≥
n
n
である. 等号が成り立つのは ai = 0 のときである. よって標本平均は線形不偏推定量のなかで最も分散が小さ
く, 有効である.
推定量の分布がわかっているならば, ある区間に母数が含まれる確率を計算することができる. その方法を
区間推定 (interval estimation) と言い, その区間を信頼区間 (confidence interval) といい, その確率を信頼係
数 (confidence coefficient) という.
確率変数 Xi の平均値 µ と分散 σ 2 が同じ正規分布にしたがい, 互いに無相関とする. 正規分布なので互いに
独立である. いま σ 2 が既知とする. このとき
Z=
√
n(X̄ − µ)
∼ N (0, 1)
σ
である. したがって Z が標準正規分布の両側 100α% 点 z(α) で定まる区間 [−z(α), z(α)] に含まれる確率
γ = 1 − α である.
P
( √
)
n(X̄ − µ) ≤ z(α) = 1 − α = γ
σ
よって, µ について解いた表現にすると
)
(
σ
σ
=1−α=γ
P X̄ − z(α) √ ≤ µ ≤ X̄ + z(α) √
n
n
なる. 信頼区間は
[
]
σ
σ
X̄ − z(α) √ , X̄ + z(α) √
n
n
となり, 信頼係数は γ = 1 − α である. 信頼係数を大きく取ると, 区間幅は大きくなり, また n が大きいと区間
幅は小さくなる.
次に σ 2 が未知とする. このとき
T =
で あ る.
√
n(X̄ − µ)
∼ t(n − 1)
U
し た が っ て T が 自 由 度 n − 1 の テ ィ ー 分 布 の 両 側 100α% 点 tn−1 (α) で 定 ま る 区 間
[−tn−1 (α), tn−1 (α)] に含まれる確率 γ = 1 − α である.*1
( √
)
n(X̄ − µ) P ≤ tn−1 (α) = 1 − α = γ
U
よって, µ について解いた表現にすると
(
P
なる. 信頼区間は
*1
U
U
X̄ − tn−1 (α) √ ≤ µ ≤ X̄ + tn−1 (α) √
n
n
[
)
U
U
X̄ − tn−1 (α) √ , X̄ + tn−1 (α) √
n
n
両側 100α% 点 tn−1 (α) は EXCEL では T.INV(1 − α/2,n − 1) である.
4
=1−α=γ
]
となり, 信頼係数は γ = 1 − α である. この信頼区間は中心が確率変数 X̄ であるばかりでなく, 区間幅にも確
率変数が含まれるため, 標本ごとに区間幅が変化する.
たとえば 16 〜 20 歳の女性の身長について, 10 人のデータから母平均の 95% 信頼区間を推定したいとする.
10 人の標本平均は 156cm で, 不偏分散は 142 とする. 自由度 9 の t 分布では両側 5% 点は 2.262 となる. よ
って母平均の 95% 信頼区間は
[
]
14
14
156 − 2.262 × √ , 156 + 2.262 × √
= [145.99, 166.01]
10
10
となる.
3
検定
母集団の特性についてその特性値を母数という. 母数についての 2 つの仮説を立て, データからどちらの仮
説が成立するかを決定する検定問題がある.
検定の手順は以下の通りである.
1. 帰無仮説と対立仮説をたてる. 帰無仮説は検証しやすい形で取られることが多い. 対立仮説によって両
側検定, 片側検定に分けられる.
2. 検定統計量を選定する. 検定のために用いる統計量を検定統計量 (test statistic) という. 検定統計量は
確率変数である.
3. 有 意 水 準 を 設 定 す る. 帰 無 仮 説 が 正 し い の に 帰 無 仮 説 を 棄 却 す る あ や ま り の 確 率 を 有 意 水 準
(significance level) という. 有意水準は, 社会科学では 5% とすることが多い.
4. 棄却域を設定する. 検定統計量 T と有意水準 α のもと, P (T ∈ R| H0 ) = α となる領域 R を棄却域
(rejection region) という. 棄却域の境界の値を臨界値 (critical value) という. 両側検定の場合, 棄却
域が両端に設定され, 統計量が原点で左右対称の場合, 臨界値は正負の 2 つの値である.
5. データから検定統計量の実現値を得て, それが棄却域に入れば帰無仮説を棄却する. そうでなけれえば
帰無仮説を採択するが, 採択には強いメッセージがない.
なお, 実現値を臨界値とする有意水準を P 値という. この P 値が小さいほど, この検定による帰無仮説が正し
いのに棄却してしまう確率が低いことを意味し, よりつよい確度をもって帰無仮説を棄却することができる.
昨今の統計ソフトだと簡単に P 値を計算することができて, 有意水準を事前に設けることなく仮説検定が可能
である.
平均の検定を考えよう. 確率変数 Xi の平均値 µ と分散 σ 2 が同じ正規分布にしたがい, 互いに無相関とす
る. 正規分布なので互いに独立である. 未知の母平均についてある特定の値 µ0 とみなしてよいのかどうかを
判断する. 帰無仮説と対立仮説を
H0 : µ = µ0
H1 : µ ̸= µ0
とする.
いま σ 2 が既知とする. このとき
√
n(X̄ − µ)
∼ N (0, 1)
σ
5
である. 帰無仮説のもと µ0 を用いた検定統計量
Z=
を用いる. これは
√
n(X̄ − µ0 )
σ
√
√
n(X̄ − µ)
n(µ − µ0 )
Z=
+
σ
σ
となる. 帰無仮説が正しいもと, 標準正規分布にしたがう. 正しくない場合, 第二項ぶんずれる. n がおおきく
なればそのズレもおおきくなる.
したがって有意水準 α の棄却域 R は, z(α) を標準正規分布の両側 100α% 点として
R = {z : |z| > z(α)}
となる. α = 0.05 なら棄却域 R = {z : z < −1.96, z > 1.96} であり, 臨界値は ±1.96 である. ゆえに Z の
実現値により z ∈ R なら帰無仮説を棄却し, そうでなければ帰無仮説を採択する. この検定法は z 検定と呼ば
れる.
次に σ 2 が未知とする. このとき
√
n(X̄ − µ)
∼ t(n − 1)
U
である. 帰無仮説のもと µ0 を用いた検定統計量
√
T =
n(X̄ − µ0 )
U
を用いる.
したがって有意水準 α の棄却域 R は, tn−1 (α) を自由度 n − 1 のティー分布の両側 100α% 点として
R = {t : |t| > tn−1 (α)}
となる. ゆえに T の実現値により z ∈ R なら帰無仮説を棄却し, そうでなければ帰無仮説を採択する. この検
定法は t 検定と呼ばれる.
たとえば 16 〜 20 歳の男の体重について, 20 人のデータから母平均が 50 かどうかという帰無仮説を有意水
準 5% で両側検定したいとする. 20 人の標本平均は 56kg で, 不偏分散は 122 とする. 自由度 19 の t 分布では
両側 5% 点は 2.093 となる. 棄却域は {t : t < −2.093, t > 2.093} である. 帰無仮説のもと検定統計量の実
現値は
√
20(56 − 50)
T =
= 2.236
12
となる. この値は棄却域に含まれるため, 5% 有意水準のもと, 帰無仮説を棄却する.
6