経済統計学 第4回 Business Statistics

統計学
12/6(木)
1
講義全体の流れ
第1部 記述統計:データの特性を記述
第2部 確率論:推測統計への橋渡し
第3部 推測統計:データから全体像を推測
・推測統計とは
・母集団平均の区間推定 ←今日はここ。
・母集団平均の検定
2
復習:四つのキーワード
マスコミの内閣支持率調査を例にとれば、
• 母集団:日本の有権者全体
• 母集団特性値:彼らの内閣支持率
• 標本:インタビューを受けた人たち
• 標本統計量:彼らの内閣支持率
3
はじめに
• 推測統計には二つの柱がある
(1)区間推定
母集団特性値(例:平均)が取り得る値の
範囲を推定する。
(2)検定
母集団特性値
⇒でも、この二つは表裏一体(←後で分る)
4
前回の内容
標本平均の確率分布
X1   X n
標本平均 : X 

n
X
i
n
中心極限定理: n  X~N (  X ,
2
)
n
なお、  Xと  2は母集団平均と母集団 分散。
さらに、標準化:
Z
X  X
2 n
~N (0,1)
5
前回から今回へ
☆もし、確率変数ZがN(0,1)に従うならば、
• P(-1.96≦Z≦1.96)=95%
• P(Z≧1.96)=2.5%
• P(Z≦-1.96)=2.5%
⇒重要:この性質を母集団平均に関する「区
間推定」と「検定」に使う。
6
区間推定 ①
母集団平均μxの有り得そうな区間を推定
Z
X  X
Z
X  X
2 n
2 n
 1.96   X  X  1.96  2 n
 1.96   X  X  1.96  2 n

「信頼係数」 95%の X の「信頼区間」は
X  1.96  2 n   X  X  1.96  2 n
7
区間推定 ②
区間推定から得られる情報
X  1.96 
2
n   X  X  1.96 
2
n
①母集団平均 X が、95%の確からしさで、
この範囲に位置すると 推測できる。
②サンプルの観測数 nを増やせば、信頼
区間は狭くなる。  推測の精度が上る。
注:  2は未知である。  要修正。
8
区間推定と検定の修正
母集団分散σ2の値は未知←推定してやる。
n
s2 
Z
2
(
X

X
)
 i
i 1
n 1
X  X
 n
2
これを代用して
~N (0,1)  t 
X  X
2
s n
Zを再計算。
~t n 1
この統計量は、 t - 分布に従う。
9
t-分布と標準正規分布
• t-分布も正規分布も左右対称な釣鐘型。
• t-分布の方が正規分布よりも、平べったい。
• t-分布の場合、確率の分布が「自由度」に
依存する。
2.5%の臨界値は1.96ではなく、自由度に
依存。⇒t-分布表から探す。
10
注:自由度について
• 標本分散(or標本標準偏差)を計算する際、
データ観測数nではなく、n-1で割った。
• 標本分散(or標本標準偏差)を推定する際、
既に標本平均が計算されている。
• このことで、n個のデータ観測値が与えてく
れる情報が1個損なわれている。
⇒だから、自由度は n-1。
11
区間推定の例
• 某工場で製造中の電球の平均寿命を推定
• 10個の電球を標本調査(結果は別添)。
• 標本の平均は2,593.2時間、標準偏差は
77.48。t‐分布表より、自由度9(=10-1)
の時、2.5%の臨界値は2.262。
⇒信頼係数95%の区間推定を行うと、
下限:2593.2-2.262×77.48/√10=2537.78
上限: 2593.2+2.262×77.48/√10=2648.62
12