モジュール1のまとめ

数理統計学
西 山
前回の最後
クイズ
確率変数Xは、一様分布に従い0から1までの任
意の値を等しい可能性でとる。いま変数Yを𝑌 =
𝑋と定義すると、𝑌はどんな分布に従い、期待値
はいくらになるか?
6月10日(火)授業までに提出(任意)。中間試
験・問4の理解度判定の参考にする。
変数Xは一様分布
𝑋 2 は小さい値をとりやすい
𝑋は大きい値をとりやすい
各自、R@情報処理センターで確かめること
>
>
>
>
>
x <- runif(10000)
par(mfrow=c(3,1))
hist(x,prob=T)
hist(x^2,prob=T)
hist(sqrt(x),prob=T)
Xが一様分布ということは
𝐹 𝑥 =𝑥
1
期待値の計算をすると(例題17)
1
1
𝐸𝑋 =
𝑉𝑋 =
2
12
𝑓 𝑥 = 𝐹′ 𝑥 = 1
0
𝑥
(任意のある値)
1
X
問題はYの分布の形がどうなるか?
確率(=面積)に着目する
G ( y )  P(Y  y )
 P(2 X  y )
y

 P X  
2

 y
 F 
2
y

2
0
2
1
 g ( y)  G' ( y) 
2
次の目標<教科書第3章>
標本分布(サンプリング分布)
標本分布とは何のことか?
出やすいデータ、出にくいデータ・・・
まとめて考えます。
ここは統計の勉
強全体で最大
の難関
(今までは)
教科書: 第3章の頁99~111、特に
108頁の例題29
【最初の例】データの出方
vs
サンプルの結果の出方
サイコロを2回振って出る目の数を合計します。
予測できますか?
1
2
3
4
5
6
1
2
3
4
5
6
7
2
3
4
5
6
7
8
3
4
5
6
7
8
9
4
5
6
7
8
9
10
5
6
7
8
9
10
11
6
7
8
9
10
11
12
出やすい目はない。しかし、2回の合計は7になりやすい。
『合計7が出やすい』
本当か?確認しよう
Rの実行例
> sample(1:6,2,replace=T) ← その時によって出る目は違う
[1] 4 4
> sum(sample(1:6,2,replace=T))
[1] 3
> sum(sample(1:6,2,replace=T))
[1] 7
> jikken <- replicate(6000,sum(sample(1:6,2,replace=T)))
> barplot(table(jikken))
上の実験で「合計が7になった」割合は、確率の理論計算とほ
> sum(jikken==7)/6000
ぼ一致したか?
[1] 0.1651667
実験結果(6千回)
頻度
2回の合計
【発展】サイコロを10回振った平均
Rの実行例
> sample(1:6,10,replace=T)
[1] 3 3 2 3 4 4 2 3 1 3
> sample(1:6,10,replace=T)
[1] 2 5 3 6 6 6 3 2 3 6
データの出方は分かっている
10回の平均値はどんな値が、どう出るのか?
> mean(sample(1:6,10,replace=T))
[1] 3.8
> mean(sample(1:6,10,replace=T))
[1] 3.5
> mean(sample(1:6,10,replace=T))
[1] 3.4
サンプルの平均値の出方を「標本分布」という
実験結果(1万回)
平均値の標本分布
定理8(106頁)
> mean(jikken)
[1] 3.49604
> sd(jikken)
[1] 0.5330016
第3章のテーマ
標本分布
合計の出方(=分布)
平均の出方(=分布)
他にも、サンプルの分散、標準偏差、最大値
サイコロを6回振って、2番目に大きい目
理論的説明
さいころを10回振る問題<合計>
独立
𝑌 = 𝑋1 + 𝑋2 + ⋯ + 𝑋10
値
確率
1
1 6
2
1 6
3
1 6
4
1 6
5
1 6
6
1 6
合計の期待値と分散・標準偏差
E Y  



E X 1  X 2    X 10 
E X 1   E X 2     E X 10 
10  3.5
35
V Y  



V X 1  X 2    X 10 
V X 1   V X 2     V X 10 
10  2.92
29.2
SDY   29.2  5.40
【続】合計の特徴 ⇔ 平均の特徴
E X 
Y 
 E 
10 
1

 35
10
 3.5
V X  



Y 
V 
10 
2
1
   V Y 
 10 
2
1
  10  2.92
 10 
2.92
10
2.92
SDX  
 0.540
10
最も有名な統計学の定理
中心極限定理
木曜
ここに戻る
同じ母集団からN個のサンプルをとって合
計を求めるとき、Nが十分大きくなれば、
合計や平均に当てはまる確率分布は(常
に)正規分布に近づく。
教科書: 定理10
正規分布を当てはめる! << データは
30~100個以上が目安
サイコロ10回の平均値
実験結果(1万回)
平均値の出方には
正規分布が当てはまる
【例題】社会の視聴率15%
300人への視聴率調査
1. 何人くらいが「みた」と答えるか?
2. 300人のサンプルの結果は視聴率
何%くらいか?
アンケート調査: ゼロイチデータ
同じように考える
無作為データ、故に互いに独立
𝑌 = 𝑋1 + 𝑋2 + ⋯ + 𝑋300
値
0
1
確率
0.85
0.15
E Y   E X 1  X 2    X 299  X 300 
このあとどうなる?次に、分散V 𝑌 は?
データはすべて0か1である
データの出方
(どれも同じ)
E X 1   0.15  
 
V X 1   0.15  0.85  2
結果の出方 E Y   300  0.15  45
(300個合計) V Y   300  0.15  0.85  38.25
 SDY   38.25  6.2
実験結果(1万回)
正規分布が
当てはまる
> mean(jikken1); sd(jikken1)
[1] 45.0199
[1] 6.197979
人数(合計)
正規分布が
当てはまる
> mean(ritu1); var(ritu1); sd(ritu1)
[1] 0.1500663
[1] 0.0004268327
[1] 0.02065993
平均値
(合計÷人数)
定理8(106頁)が重要ポイント
証明は合計の公式ですぐできる
母集団の特徴は、平均がμ、標準偏差がσ
N個のサンプルをとると
合計値
期待値  N  
分散  N   2
標準偏差  N  
平均値(定理8)
期待値  
2
分散 
N
標準偏差 

N
【クイズ】
サイコロを40回振って出る
目の数の平均値は?
期待値±標準偏差(=1シグマ区間)で
結果を予想せよ。
木曜
ここから
前に戻る
理論的計算の検証(1万回)
> mean(jikken40)
[1] 3.499728
> sd(jikken40)
[1] 0.2704703
> jikken <- replicate(10000,mean(sample(1:6,40,replace=T)))
【解答】
データの特徴
(サイコロの目)
𝜇 = 3.5
σ=1.7
平均値の出方は?
E X   3.5
1.7
V X  
40
2
1.7
SDX  
 0.269
40
母集団
サンプル
結果
【クイズ】100個の0-1変数の合計
値
-10
+10
確率
0.5
0.5
1000
100回後の標準偏差?
100日目
-1000