モジュール1のまとめ

数理統計学
西山
前回の最後
クイズ
確率変数Xは、一様分布に従い0から1までの任
意の値を等しい可能性でとる。いま変数Yを𝑌 =
𝑋と定義すると、𝑌はどんな分布に従い、期待値
はいくらになるか？
6月10日（火）授業までに提出（任意）。中間試
験・問４の理解度判定の参考にする。
変数Xは一様分布
𝑋 2 は小さい値をとりやすい
𝑋は大きい値をとりやすい
各自、R＠情報処理センターで確かめること
>
>
>
>
>
x <- runif(10000)
par(mfrow=c(3,1))
hist(x,prob=T)
hist(x^2,prob=T)
hist(sqrt(x),prob=T)
Xが一様分布ということは
𝐹 𝑥 =𝑥
1
期待値の計算をすると（例題１７）
1
1
𝐸𝑋 =
𝑉𝑋 =
2
12
𝑓 𝑥 = 𝐹′ 𝑥 = 1
0
𝑥
（任意のある値）
1
X
問題はYの分布の形がどうなるか？
確率（＝面積）に着目する
G ( y )  P(Y  y )
 P(2 X  y )
y

 P X  
2

 y
 F 
2
y

2
0
２
1
 g ( y)  G' ( y) 
2
次の目標＜教科書第3章＞
標本分布（サンプリング分布）
標本分布とは何のことか？
出やすいデータ、出にくいデータ・・・
まとめて考えます。
ここは統計の勉
強全体で最大
の難関
（今までは）
教科書：第３章の頁99～111、特に
108頁の例題29
【最初の例】データの出方
vs
サンプルの結果の出方
サイコロを2回振って出る目の数を合計します。
予測できますか？
１
２
３
４
５
６
1
2
3
4
5
6
7
2
3
4
5
6
7
8
3
4
5
6
7
8
9
4
5
6
7
8
9
10
5
6
7
8
9
10
11
6
7
8
9
10
11
12
出やすい目はない。しかし、2回の合計は７になりやすい。
『合計７が出やすい』
本当か？確認しよう
Ｒの実行例
> sample(1:6,2,replace=T) ← その時によって出る目は違う
[1] 4 4
> sum(sample(1:6,2,replace=T))
[1] 3
> sum(sample(1:6,2,replace=T))
[1] 7
> jikken <- replicate(6000,sum(sample(1:6,2,replace=T)))
> barplot(table(jikken))
上の実験で「合計が７になった」割合は、確率の理論計算とほ
> sum(jikken==7)/6000
ぼ一致したか？
[1] 0.1651667
実験結果（6千回）
頻度
2回の合計
【発展】サイコロを10回振った平均
Ｒの実行例
> sample(1:6,10,replace=T)
[1] 3 3 2 3 4 4 2 3 1 3
> sample(1:6,10,replace=T)
[1] 2 5 3 6 6 6 3 2 3 6
データの出方は分かっている
10回の平均値はどんな値が、どう出るのか？
> mean(sample(1:6,10,replace=T))
[1] 3.8
> mean(sample(1:6,10,replace=T))
[1] 3.5
> mean(sample(1:6,10,replace=T))
[1] 3.4
サンプルの平均値の出方を「標本分布」という
実験結果（1万回）
平均値の標本分布
定理８（106頁）
> mean(jikken)
[1] 3.49604
> sd(jikken)
[1] 0.5330016
第3章のテーマ
標本分布
合計の出方（＝分布）
平均の出方（＝分布）
他にも、サンプルの分散、標準偏差、最大値
サイコロを6回振って、2番目に大きい目
理論的説明
さいころを10回振る問題＜合計＞
独立
𝑌 = 𝑋1 + 𝑋2 + ⋯ + 𝑋10
値
確率
１
1 6
２
1 6
３
1 6
４
1 6
５
1 6
６
1 6
合計の期待値と分散・標準偏差
E Y  



E X 1  X 2    X 10 
E X 1   E X 2     E X 10 
10  3.5
35
V Y  



V X 1  X 2    X 10 
V X 1   V X 2     V X 10 
10  2.92
29.2
SDY   29.2  5.40
【続】合計の特徴 ⇔ 平均の特徴
E X 
Y 
 E 
10 
1

 35
10
 3.5
V X  



Y 
V 
10 
2
1
   V Y 
 10 
2
1
  10  2.92
 10 
2.92
10
2.92
SDX  
 0.540
10
最も有名な統計学の定理
中心極限定理
木曜
ここに戻る
同じ母集団からＮ個のサンプルをとって合
計を求めるとき、Ｎが十分大きくなれば、
合計や平均に当てはまる確率分布は（常
に）正規分布に近づく。
教科書：定理10
正規分布を当てはめる！＜＜データは
30～100個以上が目安
サイコロ10回の平均値
実験結果（1万回）
平均値の出方には
正規分布が当てはまる
【例題】社会の視聴率15%
300人への視聴率調査
1. 何人くらいが「みた」と答えるか？
2. 300人のサンプルの結果は視聴率
何％くらいか？
アンケート調査：ゼロイチデータ
同じように考える
無作為データ、故に互いに独立
𝑌 = 𝑋1 + 𝑋2 + ⋯ + 𝑋300
値
０
１
確率
0.85
0.15
E Y   E X 1  X 2    X 299  X 300 
このあとどうなる？次に、分散V 𝑌 は？
データはすべて０か１である
データの出方
（どれも同じ）
E X 1   0.15  
 
V X 1   0.15  0.85  2
結果の出方 E Y   300  0.15  45
（300個合計） V Y   300  0.15  0.85  38.25
 SDY   38.25  6.2
実験結果（1万回）
正規分布が
当てはまる
> mean(jikken1); sd(jikken1)
[1] 45.0199
[1] 6.197979
人数（合計）
正規分布が
当てはまる
> mean(ritu1); var(ritu1); sd(ritu1)
[1] 0.1500663
[1] 0.0004268327
[1] 0.02065993
平均値
（合計÷人数）
定理８（106頁）が重要ポイント
証明は合計の公式ですぐできる
母集団の特徴は、平均がμ、標準偏差がσ
N個のサンプルをとると
合計値
期待値  N  
分散  N   2
標準偏差  N  
平均値（定理８）
期待値  
2
分散 
N
標準偏差 

N
【クイズ】
サイコロを40回振って出る
目の数の平均値は？
期待値±標準偏差（＝1シグマ区間）で
結果を予想せよ。
木曜
ここから
前に戻る
理論的計算の検証（1万回）
> mean(jikken40)
[1] 3.499728
> sd(jikken40)
[1] 0.2704703
> jikken <- replicate(10000,mean(sample(1:6,40,replace=T)))
【解答】
データの特徴
（サイコロの目）
𝜇 = 3.5
σ=1.7
平均値の出方は？
E X   3.5
1.7
V X  
40
2
1.7
SDX  
 0.269
40
母集団
サンプル
結果
【クイズ】１００個の０-１変数の合計
値
－１０
＋１０
確率
０．５
０．５
1000
100回後の標準偏差？
100日目
－1000

Download Report