経済統計学 第4回 Business Statistics

統計学
12/13(木)
1
講義全体の流れ
第1部 記述統計:データの特性を記述
第2部 確率論:推測統計への橋渡し
第3部 推測統計:データから全体像を推測
・推測統計とは
・母集団平均の区間推定
・母集団平均の検定 ←今日はここ!
2
前回までの内容①
• 推測統計の四つのキーワード
母集団 ⇔ 標本(サンプル)
母集団特性値 ⇔ 標本統計量
⇒母集団の特徴を数値化したものを、データ
(標本)から計算した統計量で推測する。
• 推測統計の二本柱:区間推定と検定
⇒実はこの二つは表裏一体。
3
前回までの内容②
• (母集団平均μの)区間推定
μの値は未知。
⇒μの値を推定するには誤差がつきもの
⇒誤差を含めて、μの値が(例えば95%の確
率で)どれくらいの範囲に収まるかをデー
タから推定。
⇒方法:中心極限定理の応用
4
前回の復習:区間推定
と  2は母集団平均と母集団 分散。
中心極限定理より、 Z 
X 
2 n
~N (0,1)
 2は未知なので、標本分 散s 2を代入。
t
X 
s2 n
~t n 1. 自由度n  1の t - 分布
の信頼係数95%の信頼区間は
X  t 0.025 ,n 1 s 2 n    X  t 0.025 ,n 1 s 2 n .
5
今日やること:(仮説の)検定
• 母集団平均μの値に関して仮説を立てる
(例:μ=3)。
• その仮説を受け容れるべきか却下すべき
か「検定」する。(例:μ=3 or μ≠3?)
重要ポイント
①再び「中心極限定理」を使う
②区間推定と検定は表裏一体(次頁参照)
6
考え方:区間推定から検定へ
前回例:某工場製の電球の平均寿命μ
Q:「電球の平均寿命μが2500時間である」と
いう仮説は受け容れられるか否か?
⇒信頼係数95%で区間推定をやると
2537.78時間≦μ≦2648.62時間。
⇒2500時間かもしれないが、その可能性は
5%以下。よって、仮説は却下してよい。
7
検定における慣例:背理法
重要:二つの仮説(H0とH1)を立てる。
①主張したいことは、H1(対立仮説)に。
②その反対の内容をH0(帰無仮説)に。
H0のもとで議論を展開して矛盾を導く。
⇒矛盾があれば、H0を棄却。H1受け容れ。
注:いつも矛盾が見つかるとは限らない。
8
検定の手順:中心極限定理
例:H0:μ=3、H1:μ≠3
①H0 :  3の下で Zを計算: Z 
X 3
2 n
~N (0,1).
②もし Z  1.96、或いは Z  1.96なら僅か5%の
確率でしか起こらない ので、矛盾といえる。
③最初に想定した H0 :   3を「有意水準5%で」
却下し、 H1 :   3を受け容れる。
9
検定の修正
母集団分散σ2の値は未知←要推定
n
s2 
Z

( X i  X )2
i 1
n 1
X  X
2 n
これを代用して Zを再計算。
~N (0,1)  t 
X  X
s2 n
~t n 1
自由度n  1の t - 分布(前回参照)に従 う。
10
仮説検定の例
• 某工場で製造中の電球の平均寿命を推定
• 10個の電球を標本調査。
• 標本の平均は2,593.2時間、標準偏差は
77.48。
• t‐分布表より、自由度9(=10-1)の時、
2.5%の臨界値は2.262。
⇒Q:平均寿命は2700時間といえるか?
11
仮説検定の例(続)
H0:   2700, H1
:   2700
2693.2  2700
t
 4.359  t0.025 (9)  2.262
77.48 10
t - 検定量がこの値を取る 可能性は5%未満。
 矛盾。最初に想定した 2700という値が変。
 有意水準5%で H0を却下。 H1を採択。
 結論:電球の寿命が 2700時間といえない。
12
付論①:有意水準について
• 有意水準5%でH0を棄却する意味
• H0が正しい可能性は5%以下なので、H0
を棄却し、H1を受け容れる。
⇒しかし、H0が正しい可能性も5%残る。
⇒用語:第1種の誤り
H0が本当は正しいのに、誤って棄却すること
⇒第1種の誤りが起こる確率=有意水準
13
第1種の誤りの特性
• 小標本(t-分布から境界値)なのに大標本
法を採る(正規分布から境界値)と、第1種
の誤り(正しいH0を否定)の確率が高い。
例:自由度10で t = 2.0。H0は正しいとする
有意水準5%の境界値はそれぞれ
t-分布:2.228 → H0を棄却できない
正規分布:1.96 → H0を棄却できる
14
第2種の誤り
• 第2種の誤りとは
「本当は誤っているH0を棄却できないこと」。
第1種の誤りの可能性を小さくするには、
有意水準を下げる(例:5%→1%)こと。
→その場合、第2種の誤りの可能性が高くな
る(棄却域が狭くなってしまうから)。
15
第1種の誤りと第2種の誤り
H0を採択
H0は正しい ○
H0は誤り
第2種誤り
H0を棄却
第1種誤り
○
16
付論②:両側検定と片側検定
(例)H0:μ=3のとき、
両側検定
H1:μ≠3 ←等号の両側を考慮
片側検定 ↓等号の片側だけを考慮
H1:μ>3 (あるいは、H1:μ<3)
17
片側検定のための境界値
• 有意水準5%で検定をするならば、境界値
として、
小標本:t0.05(≠t0.025 )
大標本:1.645(≠1.96)
↑なぜそうなるのかは確率分布図を描いて理
解せよ。
18