数理統計学
西山
第3章 3.3節のポイント①
サンプルの特徴は平均値と不偏分散
サンプルの平均値は「標本平均」

X
N
X
i
i 1
N
サンプルの分散は「（標本）不偏分散」
X


N
ˆ
2
i 1
X
2
i
N 1
平均値の確
率的性質、
覚えてる？
第3章 3.3節のポイント②
不偏分散の確率的な性質
サンプルの分散は「（標本）不偏分散」
X


N
ˆ
2
i 1
X
2
i
N 1
シグマ二乗
ハット
分散はどんな出方をするか？
出やすい結果、出にくい結果？
𝜎 2 の標本分布（サンプリング分布）
ポイント① －（標本）不偏分散
サンプルの分散（＝平均二乗偏差）は「不
偏」ではない
誤差（サンプルの分散－母集団の分散）が、
マイナスになることが非常に多い。故に、多
分マイナス。誤差を修正したほうがいい。
標本分散と（標本）不偏分散
両方とも簡単に「分散」と呼ぶのが実情
二乗偏差計
標本分散＝
データ数
（10ページ）
二乗偏差計
（標本）不偏分散＝
データ数－１
（103ページ）
統計分析ではこちらがデフォールト
サイコロの目のばらつき
真の値：分散2.92、標準偏差1.7
• サイコロの目の出方は確率的に決まっている
• 期待値は3.5
• ばらつきは、分散2.92、標準偏差1.7
16回振って、目の数の平均値、目
の数のばらつき方が分かるか？
実験結果（1万回）
平均値と分散の出方
標準誤差
> mean(jikken.m); sd(jikken.m)
[1] 3.502775 真の値：3.50
[1] 0.4285975
不偏（＝バイアスがない）
> mean(jikken.s); sd(jikken.s)
[1] 2.74469 真の値：2.92
[1] 0.6354335
誤差はマイナスであ
ることが多い
R：前頁の実行方法
> varp <- function(x){mean((x-mean(x))^2)} ➡最初に実行しておく
> sample(1:6,16,replace=T)
[1] 1 4 3 1 5 5 5 5 5 4 2 4 2 4 3 1
> sample(1:6,16,replace=T)
[1] 2 2 2 1 4 4 3 3 3 6 2 3 5 5 4 3
> mean(sample(1:6,16,replace=T))
[1] 3.625 ➡ こんな平均値が出た
> varp(sample(1:6,16,replace=T))
[1] 3.609375 ➡ こんな分散が出た
>
>
>
>
>
jikken.s <- replicate(10000,varp(sample(1:6,16,replace=T)))
jikken.m <- replicate(10000,mean(sample(1:6,16,replace=T)))
par(mfrow=c(2,1))
hist(jikken.m,main="平均値のサンプリング分布",breaks="FD")
hist(jikken.s,main="分散のサンプリング分布",breaks="FD"
実験結果（1万回）：体重データ
平均50Kg、標準偏差10Kg、10人
真値100
に対して
小さすぎる
> mean(jikken)
[1] 89.41373
標準偏差＝9.5前後
偏りが
とれた
> mean(jikken1)
[1] 99.63248
標準偏差＝１０前後
身長データで実験
母集団は、μ＝170、σ2＝102、データ数は5個で反復
標本分散の分布
標本平均の分布
データの分散の値
<=
15
2.9
815
15
6.4 6. 41
115
15
9.
9.8
85
51
6
16
3.2 3. 28
816
16
6.7 6. 72
217
17
0.
0.1
15
51
7
17
3.5 3. 59
917
17
7.0 7. 02
218
18
0.
0.4
46
61
8
18
3.8 3. 89
918
7.
33
25
-5
0
75
-1
00
12
515
0
17
520
0
22
525
0
27
530
0
32
535
0
37
540
0
42
545
0
47
550
0
700
600
500
400
300
200
100
0
0
頻度
900
800
700
600
500
400
300
200
100
0
最大値
最小値
平均値
分散
歪み度
尖り度
187.33
152.9773
169.9806
20.43845
0.007936
0.042042
最大値
最小値
平均値
分散
歪み度
尖り度
477.6252
0.448268
79.85362
3114.514
1.367639
2.805332
標本分散の偏りをまとめると
サンプル数：16個 𝜎 2 =2.92
標本分散𝑆 2 ＝2.74前後
サンプル数：10個 𝜎 2 =100
2
標本分散𝑆 ＝90前後
サンプル数：5個 𝜎 2 =100
2
標本分散𝑆 ＝80前後
15
2.92 
16
9
100
10
4
100
5
2
標本分散S のバイアスの大きさ
 
ES
2
n 1 2


n
𝜎 2 は真の（＝母集団の）分散、
𝑆 2 は標本分散、
𝑛はデータ数
母平均＝１７０、母分散＝１００、データ数＝５
5
 X
i 1
 170 

2
i
真の偏差二乗和

 X
i 1
5
 X
i 1

 X
5
i 1
 X  X  170
i
 X   5  X  170
2
2
2
 X     X i  170   5  X  170
2
i
i
5
5
2
2
i 1
データの偏差二乗和
2
10
E偏差二乗和  5 10  5 
 4 102
5
2
バイアス修正のための計算
2
𝑆
𝐸
𝑁
×
𝑁−1
×
𝑁
を使う
𝑁−1
𝑆2
𝑁 𝑁−1 2
=
𝜎
𝑁−1 𝑁
= 𝜎2
故に、『（標本）不偏分散』という
不偏分散の利用目的
不偏分散は平均二乗偏差にはなっていない
定義（分散＝平均二乗偏差）どおりだと
1
2
S 
N
 X
N
i 1
 X
2
i
母集団の分散の見当をつけたいなら
N
1
2
2
ˆ
X i  X 
 

N  1 i 1
 
E ˆ 2   2
教科書127ページ
【例題１】二つの分散の違い
ランダムに5個のデータをとると
１，２，３，４，５
★ このデータの分散は
二乗偏差の合計 10
S 

2
データ数
5
2
★ このデータはどんな分散をもつ母集団からとられたか
二乗偏差の合計 10
ˆ 

 2.5
データ数－１
4
2
ポイント② －カイ二乗分布
1. サンプルの分散は、サンプルによる。
2. どんなサンプル、どんな分散が出やすいか？
3. まとまったサンプルが出やすいか？バラつき
の大きいサンプルが出やすいか？
4. 分散について標本分布は分かるか？
5. 期待値、標準誤差は分かるのか？
６月26日
ここから
母集団を一つ選びます
データ数４個、母平均170、標準偏差10
値
 X
4
i 1
μ
 170
2
i
この期待値は100
4
 X i  170 
i 1  10 
2
4
標準値の二乗和
これがどう出るか
この期待値が４
【例題】
標準正規分布の変数を二乗すると
分布はどう変わる？
あるデータ（1000個）には標準正規分布が当てはまっている
データの二乗は右図のように分布している
【発展】
標準正規分布の変数の二乗を4個合計しよう
データZ1からZ4には標準正規分布が当ては
まっている（各1000個）。
では、𝑍12 + 𝑍22 + 𝑍32 + 𝑍42 の値は、どんな値に
なる確率が高いか？
『自由度４のカイ二乗』
自由度４のカイ二乗分布
実際にデータをとって確かめる
> mean(w); var(w)
[1] 3.945907
[1] 8.280892
𝑊 = 𝑍12 + 𝑍22 + 𝑍32 + 𝑍42
R: 前のページの実行方法
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
z1 <- rnorm(1000)
標準正規分布から1000個のデータをとる
z2 <- rnorm(1000)
z3 <- rnorm(1000)
z4 <- rnorm(1000)
4回くりかえす
par(mfrow=c(2,2))
hist(z1,prob=T)
curve(dnorm(x),add=T,col="red")
hist(z2,prob=T)
curve(dnorm(x),add=T,col="red")
hist(z3,prob=T)
curve(dnorm(x),add=T,col="red")
hist(z4,prob=T)
curve(dnorm(x),add=T,col="red")
二乗和にする（1000個）
w <- z1^2 + z2^2 + z3^2 + z4^2
hist(w,prob=T,breaks="FD")
curve(dchisq(df=4,col="red",add=T)
自由度４のカイ二乗分布を当てはめる
『カイ二乗』値とは？
ここから
7月1日
標準値（正規分布）を二乗したもの
𝑍 2 自由度１のカイ二乗
𝑍12 + 𝑍22 + 𝑍32 自由度３のカイ二乗
𝑍12 + 𝑍22 + 𝑍32 + 𝑍42 自由度４のカイ二乗
4
2
W で表すことが多い
『カイ二乗値』の確率分布 → カイ二乗分布
何個の𝑍 2 を足すか
による。K個足す。
 
V    2 自由度
E  自由度
2
2
Karl Pearson
カイ二乗値
Ｋは自由度。教科書123頁
もし歪み度、尖り度を知っていれば
（1章20ページ、2章75ページ
正規分布の場合、標準値にすれば
1. 期待値： 𝐸 𝑍 = 0
2
2. 分散： 𝑉 𝑍 = 𝐸 𝑍 = 1
3
3. 歪み度： 𝐸 𝑍 = 0
4
4. 尖り度： 𝐸 𝑍 = 3
      
V Z EZ  EZ
2
4
2
2
 3 1  2
カイ二乗分布の期待値と分散
 
E k
2
 
V k
2


     
 E Z1  Z 2  Z 3
2
2
2
 E Z1  E Z 2  E Z 3
 111
2
2
2


     
 V Z1  Z 2  Z 3
2
2
2
 V Z1  V Z 2  V Z 3
 222
2
2
2
結論①：母平均と母分散が分かっている場合
母平均＝170、母分散＝100
𝑊=
4
𝑖=1
𝑋𝑖 − 170
10
2
1
=
100
4
𝑖=1
𝑋𝑖 − 170
自由度４のカイ二乗分布
𝐸 𝑊 =4 𝑉 𝑊 =8
4
𝑖=1
𝑋𝑖 − 170
4
2
正しい分散の計算法
これはいくらくらい？
2
カイ二乗分布応用の鍵：定理１４
平均値の定理８に該当
母集団
（正規）
サンプル：
𝝁 = 𝟏𝟕𝟎
𝝈𝟐 = 𝟏𝟎𝟎
X1, X 2 , X 3 , X 4
自由度4 − 1の
カイ二乗分布
1
2
X i  X 
W

100 i 1
4
教科書124～125頁
平均𝜇、分散𝜎 2 、データ数𝑛個で計算しましょう
n
 X
i 1
 
2
i
いまの例は
𝜇 = 170,
𝜎 2 = 100,
𝑛=4
データをｎ個とって、真の偏差二乗和
2
  X i  X  X   
n
i 1
2
  X i  X   2 X i  X X     nX   
n
n
i 1
2
i 1
2
ゼロになります
   X i  X   n X   
n
2
i 1

 X
2
n
i 1
i
2
 X     X i     n X   
n
i 1
2
これが大事
μ＝１７０
前のつづき
1

2
 X
2
n
i 1
σ2＝１００
i
X 
Xi  

1

2
 X
i 1
i
  
n

2
X   
2
は標準値Zになっている
 X  




X



 2 n 
2


n
2
n
2
2
 これも１個の標準値
Z2の個数はn個でなく、n－1個になる → 自由度ｎ－1のカイ二乗
結論②：母平均と母分散が分かっている場合
母平均＝170、母分散＝100
𝑊=
4
𝑖=1
𝑋𝑖 − 𝑋
10
2
1
=
100
4
𝑖=1
𝑋𝑖 − 𝑋
2
自由度3のカイ二乗分布
𝐸 𝑊 =3 𝑉 𝑊 =6
4
𝑖=1
𝑋𝑖 − 𝑋
4
2
これはいくらくらい？
サンプル分散S2の期待値と分散は？
S
μ＝１７０
2
σ2＝１００
1
2
  X i  X 
n i 1
n
標準値でみる
2 1 n
2 平均の分布
X i  X 

2 
n  i 1
カイ二乗値でみる
2 n
分散の分布
2

X X




n
i
i 1

2
n
 n21

本当の分散の
𝑛−1
倍くらいになる
𝑛
教科書126～127頁
【問題】前のスライドを参考に次の一般
的な質問に答えなさい
サンプル分散S2の期待値を求めてください。
 
ES
2
サンプル分散S2の分散を求めてください。
 
VS
2
教科書126～127ページ
【問題】不偏分散の期待値と分散・標準
偏差は？
サンプル分散𝜎 2 の期待値を求めてください。
2
 
E ˆ
サンプル分散𝜎 2 の分散・標準偏差は？
 
V ˆ
2
 
SD ˆ
2
教科書126～127ページ

Download Report