確率の基礎 兼平・菅原 平均値(位置の尺度) • 相加平均 • 相乗平均 • トリム平均 ただし、x>0 – データの最大値と最小値付近の値を平均値 の計算から除外 – ウィンザライズド平均 • 除外した後、最大値と最小値の個数を増やし、元のデータの個数に戻す • 中央値(メディアン) – データのちょうど真ん中の値 • 最頻値 平均値(追加!) • 調和平均 – 逆数の算術平均の逆数 – データに0があると使えない → 0への極限を取ると調和平均は0になる。 – 正負が混在してても計算できる → 逆数の和が0になるときは発散してしまう。 – 比率の平均などに使う • 時速 etc. 平均値(位置の尺度) Q. トリム平均や中央値はいつ使う? A. 異常値を含むデータや、左右非対称のデー タに使用する。 – 正規分布 → 平均値 – コーシー分布 → メディアン 具体例 • 1日の平均訪問者数 4699人 – 平日 6223人 → 9/14 を除外 3942人 – 週末 888人 • 長所 – 意味が明確 – 対象となるすべてのデータを扱って算出 • 短所 – 外れ値の影響を受けやすい – 適切な代表値ではない場合がある 具体例 • 平均値や中央値がデータの代表値でない例 – 最頻値 • ホームページの滞在時間 • 服や靴のサイズ別の売れ行き – 中央値 • 給料や年収 • 長所 – 外れ値の影響を受けにくい • 短所 – ピークが複数あるときに特徴を 見逃してしまう(最頻値) 確率変数・期待値 • 確率変数=乱数 – 調べるたびに値が変わるような変数 • 期待値 – において n → ∞ にしたとき の値 – 期待値 = Σ (確率 ×確率変数) 参考文献 • 統計学基礎 http://sun.econ.seikei.ac.jp/~nakanisi/educa/educa.htm • 統計の基礎 http://oku.edu.mie-u.ac.jp/~okumura/stat/basics.php • 「平均のひとつ覚え」から卒業 http://webtan.forum.impressrd.jp/e/2007/12/25/2006 • 統計学 http://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/toukeihy.htm 平均値(位置の尺度) Q. トリム平均や中央値はいつ使う? A. 異常値を含むデータや、左右非対称のデー タに使用する。 – 正規分布 → 平均値 – コーシー分布 → メディアン 具体例 • 1日の平均訪問者数 4699人 – 平日 6223人 → 9/14 を除外 3942人 – 週末 888人 • 長所 – 意味が明確 – 対象となるすべてのデータを扱って算出 • 短所 – 外れ値の影響を受けやすい – 適切な代表値ではない場合がある 具体例 • 平均値や中央値がデータの代表値でない例 – 最頻値 • ホームページの滞在時間 • 服や靴のサイズ別の売れ行き – 中央値 • 給料や年収 • 長所 – 外れ値の影響を受けにくい • 短所 – ピークが複数あるときに特徴を 見逃してしまう(最頻値) 確率変数・期待値 • 確率変数=乱数 – 調べるたびに値が変わるような変数 • 期待値 – において n → ∞ にしたとき の値 – 期待値 = Σ (確率 ×確率変数) 参考文献 • 統計学基礎 http://sun.econ.seikei.ac.jp/~nakanisi/educa/educa.htm • 統計の基礎 http://oku.edu.mie-u.ac.jp/~okumura/stat/basics.php • 「平均のひとつ覚え」から卒業 http://webtan.forum.impressrd.jp/e/2007/12/25/2006 • 統計学 http://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/toukeihy.htm 基礎中の基礎 ・平均値(相加平均 μ) = 全データの総和 ÷ データ数 ・分散 σ2 = ((データ - μ)2 )の総和 ÷ データ数 (例) データ1:(5,5,5) データ2:(0,5,10) ・データ1 平均 = 5、 分散 = 0 ・データ2 平均 = 5、 分散 = 16.666・・・ →分散は元のデータを2乗しているため、元のデータや平均値 と比較できない →平方根をとって単位を揃える(標準偏差) ・標準偏差 σ = 分散 基礎中の基礎 ・母集団 ~ 調査対象となるデータの集合全体 ・標本 ~ 母集団から抽出された限られた数のデータ、 母集団の部分集合 →標本の抽出方法で結果が変わってくる 母集団を調べられないことが多いので、標本から母集団の平均 値や分散を推定する 標本1 平均1 分散1 標本2 平均2 分散2 標本3 平均3 分散3 標本4 平均4 分散4 母集団 母平均 母分散 標本平均の平均 標本分散の平均 分散 ・標本平均の平均から母平均を推定することができる ・標本分散の平均は母分散より小さくなることが知られている →母分散の推定には標本分散ではなく、不偏分散が用いられ る 標本X1 , X2 ,・・・,Xn の相加平均を X とした時、 ・不偏分散 u2 = 1 n ( X i X )2 n 1 i 1 ・標本分散 s2 = 1 n ( X i X )2 n i 1 →何故不偏分散は(データ数-1)とするのか 不偏推定量 ・抽出した標本が偏っている場合、そこから得られる平均値、分 散が母集団の平均値、分散より偏っていることがある →偏りのない値が欲しい 母平均μと等しい標本平均の平均E[標本平均]、つまり E[標本平均] = μ 母分散σ2 と等しい標本分散の平均E[標本分散]、つまり E[標本分散] = σ2 これらを不偏推定量と呼ぶ 不偏推定量からは母集団の平均値・分散を推定できる X1 , X2 ,・・・,Xn を、平均 μ と分散 σ2 をもつ分布から得られた標 本とする E[Xi] = μ (i = 1,2,・・・,n) つまり、 X1 , X2 ,・・・,Xn はそれぞれ不偏推定量である 次に、 1 n X Xi n i 1 とすると、 1 1 n 1 n E[ X ] = E[ n X i ] = n E[Xi] = n i 1 i 1 nμ=μ つまり標本平均 X は不偏推定量である →大数の法則 …ある母集団から無作為抽出された標本平均は、サンプルサ イズを大きくすると真の平均に近づく 同様にX1 , X2 ,・・・,Xn を、平均 μ と分散 σ2 をもつ分布から得ら れた標本とする (色々やってます) 結論は、標本分散は不偏推定量でなく、不偏分散は不偏推定 量である 区間推定 ・不偏推定量だからといって、必ず標本平均が母平均と等しくな る訳ではない。あくまで推定値である ・母平均がだいたいこのあたりの値である、という区間を推定す る必要がある ・確率~%で母平均が含まれている区間を「~%信頼区間」 95%、99%などが使われる 信頼区間を求める ・X1 , X2 ,・・・,Xn を、平均 μ と分散 σ2 の正規分布に従う母集団 から得られた独立な標本とする 1 n X Xi n i 1 T X u/ n 1 n 2 u ( X X ) i n 1 i 1 2 とすると、 は自由度n-1のt分布に従う このTが従う分布は母数μ 、σ2 によらない ある点tから-tまでの範囲の面積が、t分布全体の面積の~%と なるようなtを求める 信頼区間を求める 1 n X Xi n i 1 1 n u ( X i X )2 n 1 i 1 標準誤差 = 信頼区間 = 2 u n X t u n つまり標本平均から±(t×標準誤差)の範囲となる この範囲内に母平均は~%の確率で存在する 中心極限定理 母集団の分布がどんな分布であっても、母平均と標本平均 の誤差はサンプルのサイズを大きくしたとき近似的に正規分 布に従う。 中心極限定理により,母平均μ,母分散σ2を持つ母集団から, 大きさ n の無作為標本を抽出するとき,標本平均 X は,n が 大きいとき,近似的に正規分布 N(μ, σ2/n) に従う このとき, T X u/ n は近似的に標準正規分布 N(0,1) に従う
© Copyright 2024 ExpyDoc