数理統計学 西 山 前回の最後 クイズ 確率変数Xは、一様分布に従い0から1までの任 意の値を等しい可能性でとる。いま変数Yを𝑌 = 𝑋と定義すると、𝑌はどんな分布に従い、期待値 はいくらになるか? 6月10日(火)授業までに提出(任意)。中間試 験・問4の理解度判定の参考にする。 変数Xは一様分布 𝑋 2 は小さい値をとりやすい 𝑋は大きい値をとりやすい 各自、R@情報処理センターで確かめること > > > > > x <- runif(10000) par(mfrow=c(3,1)) hist(x,prob=T) hist(x^2,prob=T) hist(sqrt(x),prob=T) Xが一様分布ということは 𝐹 𝑥 =𝑥 1 期待値の計算をすると(例題17) 1 1 𝐸𝑋 = 𝑉𝑋 = 2 12 𝑓 𝑥 = 𝐹′ 𝑥 = 1 0 𝑥 (任意のある値) 1 X 問題はYの分布の形がどうなるか? 確率(=面積)に着目する G ( y ) P(Y y ) P(2 X y ) y P X 2 y F 2 y 2 0 2 1 g ( y) G' ( y) 2 次の目標<教科書第3章> 標本分布(サンプリング分布) 標本分布とは何のことか? 出やすいデータ、出にくいデータ・・・ まとめて考えます。 ここは統計の勉 強全体で最大 の難関 (今までは) 教科書: 第3章の頁99~111、特に 108頁の例題29 【最初の例】データの出方 vs サンプルの結果の出方 サイコロを2回振って出る目の数を合計します。 予測できますか? 1 2 3 4 5 6 1 2 3 4 5 6 7 2 3 4 5 6 7 8 3 4 5 6 7 8 9 4 5 6 7 8 9 10 5 6 7 8 9 10 11 6 7 8 9 10 11 12 出やすい目はない。しかし、2回の合計は7になりやすい。 『合計7が出やすい』 本当か?確認しよう Rの実行例 > sample(1:6,2,replace=T) ← その時によって出る目は違う [1] 4 4 > sum(sample(1:6,2,replace=T)) [1] 3 > sum(sample(1:6,2,replace=T)) [1] 7 > jikken <- replicate(6000,sum(sample(1:6,2,replace=T))) > barplot(table(jikken)) 上の実験で「合計が7になった」割合は、確率の理論計算とほ > sum(jikken==7)/6000 ぼ一致したか? [1] 0.1651667 実験結果(6千回) 頻度 2回の合計 【発展】サイコロを10回振った平均 Rの実行例 > sample(1:6,10,replace=T) [1] 3 3 2 3 4 4 2 3 1 3 > sample(1:6,10,replace=T) [1] 2 5 3 6 6 6 3 2 3 6 データの出方は分かっている 10回の平均値はどんな値が、どう出るのか? > mean(sample(1:6,10,replace=T)) [1] 3.8 > mean(sample(1:6,10,replace=T)) [1] 3.5 > mean(sample(1:6,10,replace=T)) [1] 3.4 サンプルの平均値の出方を「標本分布」という 実験結果(1万回) 平均値の標本分布 定理8(106頁) > mean(jikken) [1] 3.49604 > sd(jikken) [1] 0.5330016 第3章のテーマ 標本分布 合計の出方(=分布) 平均の出方(=分布) 他にも、サンプルの分散、標準偏差、最大値 サイコロを6回振って、2番目に大きい目 理論的説明 さいころを10回振る問題<合計> 独立 𝑌 = 𝑋1 + 𝑋2 + ⋯ + 𝑋10 値 確率 1 1 6 2 1 6 3 1 6 4 1 6 5 1 6 6 1 6 合計の期待値と分散・標準偏差 E Y E X 1 X 2 X 10 E X 1 E X 2 E X 10 10 3.5 35 V Y V X 1 X 2 X 10 V X 1 V X 2 V X 10 10 2.92 29.2 SDY 29.2 5.40 【続】合計の特徴 ⇔ 平均の特徴 E X Y E 10 1 35 10 3.5 V X Y V 10 2 1 V Y 10 2 1 10 2.92 10 2.92 10 2.92 SDX 0.540 10 最も有名な統計学の定理 中心極限定理 木曜 ここに戻る 同じ母集団からN個のサンプルをとって合 計を求めるとき、Nが十分大きくなれば、 合計や平均に当てはまる確率分布は(常 に)正規分布に近づく。 教科書: 定理10 正規分布を当てはめる! << データは 30~100個以上が目安 サイコロ10回の平均値 実験結果(1万回) 平均値の出方には 正規分布が当てはまる 【例題】社会の視聴率15% 300人への視聴率調査 1. 何人くらいが「みた」と答えるか? 2. 300人のサンプルの結果は視聴率 何%くらいか? アンケート調査: ゼロイチデータ 同じように考える 無作為データ、故に互いに独立 𝑌 = 𝑋1 + 𝑋2 + ⋯ + 𝑋300 値 0 1 確率 0.85 0.15 E Y E X 1 X 2 X 299 X 300 このあとどうなる?次に、分散V 𝑌 は? データはすべて0か1である データの出方 (どれも同じ) E X 1 0.15 V X 1 0.15 0.85 2 結果の出方 E Y 300 0.15 45 (300個合計) V Y 300 0.15 0.85 38.25 SDY 38.25 6.2 実験結果(1万回) 正規分布が 当てはまる > mean(jikken1); sd(jikken1) [1] 45.0199 [1] 6.197979 人数(合計) 正規分布が 当てはまる > mean(ritu1); var(ritu1); sd(ritu1) [1] 0.1500663 [1] 0.0004268327 [1] 0.02065993 平均値 (合計÷人数) 定理8(106頁)が重要ポイント 証明は合計の公式ですぐできる 母集団の特徴は、平均がμ、標準偏差がσ N個のサンプルをとると 合計値 期待値 N 分散 N 2 標準偏差 N 平均値(定理8) 期待値 2 分散 N 標準偏差 N 【クイズ】 サイコロを40回振って出る 目の数の平均値は? 期待値±標準偏差(=1シグマ区間)で 結果を予想せよ。 木曜 ここから 前に戻る 理論的計算の検証(1万回) > mean(jikken40) [1] 3.499728 > sd(jikken40) [1] 0.2704703 > jikken <- replicate(10000,mean(sample(1:6,40,replace=T))) 【解答】 データの特徴 (サイコロの目) 𝜇 = 3.5 σ=1.7 平均値の出方は? E X 3.5 1.7 V X 40 2 1.7 SDX 0.269 40 母集団 サンプル 結果 【クイズ】100個の0-1変数の合計 値 -10 +10 確率 0.5 0.5 1000 100回後の標準偏差? 100日目 -1000
© Copyright 2024 ExpyDoc