stat_2_1_2011

確率の基礎
兼平・菅原
平均値(位置の尺度)
• 相加平均
• 相乗平均
• トリム平均
ただし、x>0
– データの最大値と最小値付近の値を平均値 の計算から除外
– ウィンザライズド平均
• 除外した後、最大値と最小値の個数を増やし、元のデータの個数に戻す
• 中央値(メディアン)
– データのちょうど真ん中の値
• 最頻値
平均値(追加!)
• 調和平均
– 逆数の算術平均の逆数
– データに0があると使えない
→ 0への極限を取ると調和平均は0になる。
– 正負が混在してても計算できる
→ 逆数の和が0になるときは発散してしまう。
– 比率の平均などに使う
• 時速 etc.
平均値(位置の尺度)
Q. トリム平均や中央値はいつ使う?
A. 異常値を含むデータや、左右非対称のデー
タに使用する。
– 正規分布
→ 平均値
– コーシー分布
→ メディアン
具体例
• 1日の平均訪問者数 4699人
– 平日 6223人 → 9/14 を除外 3942人
– 週末 888人
• 長所
– 意味が明確
– 対象となるすべてのデータを扱って算出
• 短所
– 外れ値の影響を受けやすい
– 適切な代表値ではない場合がある
具体例
• 平均値や中央値がデータの代表値でない例
– 最頻値
• ホームページの滞在時間
• 服や靴のサイズ別の売れ行き
– 中央値
• 給料や年収
• 長所
– 外れ値の影響を受けにくい
• 短所
– ピークが複数あるときに特徴を
見逃してしまう(最頻値)
確率変数・期待値
• 確率変数=乱数
– 調べるたびに値が変わるような変数
• 期待値
–
において n → ∞ にしたとき
の値
– 期待値 = Σ (確率 ×確率変数)
参考文献
• 統計学基礎
http://sun.econ.seikei.ac.jp/~nakanisi/educa/educa.htm
• 統計の基礎
http://oku.edu.mie-u.ac.jp/~okumura/stat/basics.php
• 「平均のひとつ覚え」から卒業
http://webtan.forum.impressrd.jp/e/2007/12/25/2006
• 統計学
http://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/toukeihy.htm
平均値(位置の尺度)
Q. トリム平均や中央値はいつ使う?
A. 異常値を含むデータや、左右非対称のデー
タに使用する。
– 正規分布
→ 平均値
– コーシー分布
→ メディアン
具体例
• 1日の平均訪問者数 4699人
– 平日 6223人 → 9/14 を除外 3942人
– 週末 888人
• 長所
– 意味が明確
– 対象となるすべてのデータを扱って算出
• 短所
– 外れ値の影響を受けやすい
– 適切な代表値ではない場合がある
具体例
• 平均値や中央値がデータの代表値でない例
– 最頻値
• ホームページの滞在時間
• 服や靴のサイズ別の売れ行き
– 中央値
• 給料や年収
• 長所
– 外れ値の影響を受けにくい
• 短所
– ピークが複数あるときに特徴を
見逃してしまう(最頻値)
確率変数・期待値
• 確率変数=乱数
– 調べるたびに値が変わるような変数
• 期待値
–
において n → ∞ にしたとき
の値
– 期待値 = Σ (確率 ×確率変数)
参考文献
• 統計学基礎
http://sun.econ.seikei.ac.jp/~nakanisi/educa/educa.htm
• 統計の基礎
http://oku.edu.mie-u.ac.jp/~okumura/stat/basics.php
• 「平均のひとつ覚え」から卒業
http://webtan.forum.impressrd.jp/e/2007/12/25/2006
• 統計学
http://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/toukeihy.htm
基礎中の基礎
・平均値(相加平均 μ) = 全データの総和 ÷ データ数
・分散 σ2 = ((データ - μ)2 )の総和 ÷ データ数
(例)
データ1:(5,5,5)
データ2:(0,5,10)
・データ1 平均 = 5、 分散 = 0
・データ2 平均 = 5、 分散 = 16.666・・・
→分散は元のデータを2乗しているため、元のデータや平均値
と比較できない
→平方根をとって単位を揃える(標準偏差)
・標準偏差 σ = 分散
基礎中の基礎
・母集団 ~ 調査対象となるデータの集合全体
・標本 ~ 母集団から抽出された限られた数のデータ、
母集団の部分集合
→標本の抽出方法で結果が変わってくる
母集団を調べられないことが多いので、標本から母集団の平均
値や分散を推定する
標本1
平均1
分散1
標本2
平均2
分散2
標本3
平均3
分散3
標本4
平均4
分散4
母集団
母平均
母分散
標本平均の平均
標本分散の平均
分散
・標本平均の平均から母平均を推定することができる
・標本分散の平均は母分散より小さくなることが知られている
→母分散の推定には標本分散ではなく、不偏分散が用いられ
る
標本X1 , X2 ,・・・,Xn の相加平均を X とした時、
・不偏分散 u2 =
1 n
( X i  X )2

n  1 i 1
・標本分散 s2 =
1 n
( X i  X )2

n i 1
→何故不偏分散は(データ数-1)とするのか
不偏推定量
・抽出した標本が偏っている場合、そこから得られる平均値、分
散が母集団の平均値、分散より偏っていることがある
→偏りのない値が欲しい
母平均μと等しい標本平均の平均E[標本平均]、つまり
E[標本平均] = μ
母分散σ2 と等しい標本分散の平均E[標本分散]、つまり
E[標本分散] = σ2
これらを不偏推定量と呼ぶ
不偏推定量からは母集団の平均値・分散を推定できる
X1 , X2 ,・・・,Xn を、平均 μ と分散 σ2 をもつ分布から得られた標
本とする
E[Xi] = μ
(i = 1,2,・・・,n)
つまり、 X1 , X2 ,・・・,Xn はそれぞれ不偏推定量である
次に、
1 n
X  Xi
n i 1
とすると、
1
1 n
1 n
E[ X ] = E[ n  X i ] = n  E[Xi] = n
i 1
i 1
nμ=μ
つまり標本平均 X は不偏推定量である
→大数の法則
…ある母集団から無作為抽出された標本平均は、サンプルサ
イズを大きくすると真の平均に近づく
同様にX1 , X2 ,・・・,Xn を、平均 μ と分散 σ2 をもつ分布から得ら
れた標本とする
(色々やってます)
結論は、標本分散は不偏推定量でなく、不偏分散は不偏推定
量である
区間推定
・不偏推定量だからといって、必ず標本平均が母平均と等しくな
る訳ではない。あくまで推定値である
・母平均がだいたいこのあたりの値である、という区間を推定す
る必要がある
・確率~%で母平均が含まれている区間を「~%信頼区間」
95%、99%などが使われる
信頼区間を求める
・X1 , X2 ,・・・,Xn を、平均 μ と分散 σ2 の正規分布に従う母集団
から得られた独立な標本とする
1 n
X  Xi
n i 1
T
X 
u/ n
1 n
2
u 
(
X

X
)
 i
n  1 i 1
2
とすると、
は自由度n-1のt分布に従う
このTが従う分布は母数μ 、σ2 によらない
ある点tから-tまでの範囲の面積が、t分布全体の面積の~%と
なるようなtを求める
信頼区間を求める
1 n
X  Xi
n i 1
1 n
u 
( X i  X )2

n  1 i 1
標準誤差 =
信頼区間 =
2
u
n
X t
u
n
つまり標本平均から±(t×標準誤差)の範囲となる
この範囲内に母平均は~%の確率で存在する
中心極限定理
母集団の分布がどんな分布であっても、母平均と標本平均
の誤差はサンプルのサイズを大きくしたとき近似的に正規分
布に従う。
中心極限定理により,母平均μ,母分散σ2を持つ母集団から,
大きさ n の無作為標本を抽出するとき,標本平均 X は,n が
大きいとき,近似的に正規分布 N(μ, σ2/n) に従う
このとき, T 
X 
u/ n
は近似的に標準正規分布 N(0,1) に従う