経済統計学 Business Statistics

統計学
11/30(木)
1
講義全体の構成
第1部 記述統計:データの特性を記述
第2部 確率論:推測統計への橋渡し
↑中間試験はここまで
↓今日からここ!
第3部 推測統計:データから全体像を推測
2
記述統計と推測統計
記述統計: データ自体の規則性が対象
↑↓
推測統計:データを生み出すものが対象
例:このクラスでの試験を行った場合、
記述統計:結果を(平均や分散で)分析。
推測統計:結果を基に真の学力を調査。
3
推測統計4つのキーワード
①母集団:我々の関心の対象(全体像)
②母集団特性値(パラメータ):
母集団の特徴を数値化したもの
③標本(サンプル):我々の観察対象(一部)
④標本統計量:標本から計算される統計量
⇒一部を観察し、全体像を推測する!
4
推測統計の例 ①
☆政治:内閣支持率調査
• 母集団:有権者全体
• 標本:インタビューされた人達
• 母集団特性値:有権者全体の内閣支持率
• 標本統計量:インタビューされた人達の間
での内閣支持率
⇒まずは有権者にインタビューする。
5
推測統計の例 ②
☆環境:標識再捕獲による生息数調査
• 母集団特性値
ある地域に住む特定生物の生息数
• 標本統計量
捕獲した生物の中にいる、標識をつけた個
体の割合から推定した生息数
⇒まずはその生物に標識をつける。
6
標本調査:推測統計の第一歩
• 推測統計を行うには、まずは標本を採って
こなくてはならない(標本調査)。
標本をどう採るかで、標本統計量の値は
変わる。
⇒標本は、母集団を正しく代表するようなも
の(代表的標本)でなければならない。
7
標本抽出論
• もし標本調査に偏りがあれば、それは母集
団を正しく代表しない。
例)中日スポーツ新聞が、読者を対象に、プ
ロ野球の人気球団を調査したら?
⇒中日ドラゴンズの人気が、全国民を対象に
した調査結果よりも、高く出ることが予想さ
れる。⇒標本に偏りがある。
8
標本抽出論(続)
• 偏りのない標本調査は当たり前?珍し
い?
例)咋年2月~3月の小泉内閣の支持率
Y新聞(やや保守):49.4%
A新聞(やや革新):41.0%
どちらを信じればよい?
9
標本抽出論(続々)
☆無作為抽出(Random Sampling)
母集団を構成するどの個体についても、そ
れが標本に選ばれる機会(確率)が同じで
あるようにする方法。[例:くじ引き]
⇒新聞の内閣支持率調査は、自社の読者を
対象にしていれば、無作為抽出ではない。
10
標本統計量
• 調査した標本から、標本統計量を計算す
る。
• 推定したい母集団パラメータが
平均ならば、標本平均
分散ならば、標本分散
何かの比率ならば、標本比率。
11
標本平均
最も代表的な標本統計 量の一つ。
標本調査で観測された 変数Xの値の平均
1
X  ( X1  X 2    X n )
n
X はサンプル次第で値が 変わる確率変数。
 その平均値(期待値) と分散は?
12
標本平均の平均値
標本平均は大体どのくらいの値?
⇒期待値を取る(付論参照)
1
 1 n
E X   E  ( X 1  X 2    X n )   E X i 
n
 n i 1
X i の期待値は X なので、
1 n
E X     X   X
n i 1
重要:標本平均は平均 的には  Xに等しい。
13
標本平均の分散
標本平均はどれくらい値が散らばる?
⇒分散を取る(付論参照)
1
 1
V ( X )  V  ( X 1    X n )  2 V ( X 1    X n )
n
 n
無作為抽出された標本 なら、それぞれの Xは独立。
1
n X2  X2
V ( X )  2 V ( X 1 )    V ( X n )  2 
n
n
n
 標本平均の分散はサン プルの個体数を
多くとる程、小さくな
る(結果が安定)。
14
超重要:中心極限定理
平均値 X ,分散 
2
X の母集団から
採られた大きさ n の標本をもとに
標本平均 Xを計算すると、そ の
確率分布は次のように なる。
 X ~N (  X ,

2
X
n
)
15
標準化(復習)
• 正規分布に従う変数の標準化
確率変数が正規分布に従う場合は、
平均を引いて、標準偏 差で割れば、
その変数は標準正規分 布に従う。
Z
X  X
 X2 n
~N (0,1)
 この統計量を元に検定 (次回)。
16
付論:期待オペレーター
• X、Yは確率変数、c は定数。
E ( X  Y )  E ( X )  E (Y )
E (cX )  cE( X )
E ( X  c)  E ( X )  c
確率変数の分散は次のようにも書ける。
V ( X )  E[{X  E ( X )}2 ]
これより、次の関係が
導ける。
V (cX )  E[c 2 { X  E ( X )}2 ]  c 2V ( X )
17