1 条件付き期待値

確率収束・分布収束・統計的性質
宮﨑憲治
2016 年 1 月 4 日
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
1 / 36
.
目次
1
はじめに
2
確率収束
3
分布収束
4
統計的性質
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
2 / 36
.
ヒストグラム
もし無限に観測値を取ることができ, それのヒストグラムは, 理論
的な密度関数に一致する.
x ∼ N [0, 1] の分布をヒストグラムで表す.
set.seed(1234)
I <- 1000
x <- rnorm(I)
par(mar=c(5,4,1,1))
hist(x, freq=FALSE)
curve(dnorm(x), type="l",add=T)
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
3 / 36
.
ヒストグラム
0.2
0.1
0.0
Density
0.3
0.4
Histogram of x
-3
-2
-1
0
1
2
3
x
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
4 / 36
.
確率収束
確率変数列 xn とある値 a を考える. 任意の正数 ϵ に対して,
lim P r[|xn − a| ≥ ϵ] = 0
n→∞
が成り立つとき, xn は a に 確率収束 するという.
p
xn → a
確率変数列 xi が独立同一分布にしたがい, 平均 E[x] が存在する.
このとき,
n
1∑
xi
x̄ =
n
i=1
p
は E[x] に確率収束する (x̄ → E[x]) ことが知られている. このこ
とを 大数の法則 という.
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
5 / 36
.
確率収束
xi ∼ U nif [0, 1] が独立同一分布にしたがうとする. 大数の法則よ
り, 標本平均は E[x] = 1/2 に確率収束する.
N <-500
x <- runif(N)
xbar <- cumsum(x)/(1:N)
par(mar=c(5,4,1,1))
plot(xbar, type='l')
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
6 / 36
.
0.3
0.2
0.1
xbar
0.4
0.5
確率収束
0
100
200
300
400
500
Index
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
7 / 36
.
確率収束
xn が x に確率収束するとする. 関数 g が連続関数であるなら, こ
のとき, g(xn ) は g(x) に確率収束する.
例えば, 標本平均 x̄ が E[x] に確率収束するならば, x̄2 は (E[x])2
に確率収束する.
もし, xi が独立同一分布にしたがうなら,
g(xi ) も独立同一分布に
∑
したがい, n1 ni=1 g(xi ) は E[g(x)] に確率収束する.
∑
例えば, n1 ni=1 x2i は E[x2 ] に確率収束する.
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
8 / 36
.
確率収束
xi ∼ U nif [0, 1] が独立同一分布にしたがうとするなら, ∑
x2i も独立
同一分布にしたがう. 大数の法則より, 標本平均 (1/n) x2i は
E[x2 ] = 1/3 に確率収束する.
N <-500
x <- runif(N)
x2bar <- cumsum(x*x)/(1:N)
par(mar=c(5,4,1,1))
plot(x2bar, type='l')
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
9 / 36
.
0.3 0.4 0.5 0.6 0.7 0.8 0.9
x2bar
確率収束
0
100
200
300
400
500
Index
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
10 / 36
.
確率収束
xn が x に, yn が y に確率収束するとする.
このとき, xn ± yn が x ± y に, xn · yn が x · y に確率収束する.
y ̸= 0 なら, xn /yn が x/y に確率収束する.
xi ∼ U nif [0, 1] と yi ∼ N (0, 1) が IID のとき, 標本平均は, それぞ
れ, 0.5 と 0 に確率収束する.
x̄ + ȳ は 0.5 に確率収束する. xi と yi とが相関があっても成立する.
x̄ · ȳ は 0 に確率収束する. xi と yi とが相関があっても成立する.
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
11 / 36
.
確率収束
なお, ∑
xi · yi については IID であるので, 大数の法則より, 標本平均
(1/n) xi yi は E[xy] に確率収束するが, たとえ E[x] = E[y] = 0
であってもゼロとは限らない.
E[x] = E[y] = 0 で x と y が無相関ならば, E[xy] = 0 に確率収
束する
N <-500
x <- runif(N)
y <- rnorm(N)
xybar <- cumsum(x*y)/(1:N)
par(mar=c(5,4,1,1))
plot(xybar, type='l')
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
12 / 36
.
1.0
0.5
0.0
xybar
1.5
確率収束
0
100
200
300
400
500
Index
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
13 / 36
.
分布収束
確率変数列 xi の分布関数列 Fi が分布関数 F に (各点) 収束する
場合, 確率変数 xi は F (もしくはその分布を持つ確率変数 x) に
分布収束 するという.
確率変数列 xi が独立同一分布にしたがい, 平均 E[x] と分散 V [x]
が存在する. このとき,
√
√
n(x̄ − E[x])/ V [x]
は標準正規分布に分布収束することが知られている. このことを
中心極限値定理 と呼ぶ.
またこれを次のように記述する:
√
√
d
n(x̄ − E[x])/ V [x] → N (0, 1)
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
14 / 36
.
分布収束
xi ∼ U nif [0, 1] が独立同一分布にしたがうとき, 平均は
√ 1/2, 分散
√
は 1/12 である. 中心極限値定理より, n(x̄ − E[x])/ V [x] は標準
正規分布に分布収束する.
mu = 1/2; sig = sqrt(1/12)
N <-500; I <-1000
xbar <- replicate(I, mean(runif(N)))
z <- sqrt(N)*(xbar-mu)/sig
hist(z, freq=FALSE)
curve(dnorm(x), type="l",add=T)
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
15 / 36
.
分布収束
0.2
0.1
0.0
Density
0.3
Histogram of z
-3
-2
-1
0
1
2
3
z
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
16 / 36
.
分布収束
√
n(x̄ − E[x]) が N (0, V [x]) に分布収束する.
∑
また十分 n がおおきいもとで,
xi は N (nE[x], nV [x]) に近似で
きる.
中心極限値定理より,
x ∼ B(n, p) なら, n がおおきいもとで, x は N (np, np(1 − p)) に近似
できる.
x ∼ χ2 (k) なら, k がおおきいもとで, x は N (k, 2k) に近似できる.
x ∼ P ois(λ) なら, λ がおおきいもとで, x は N (λ, λ) に近似できる.
xn が x に分布収束するとする. 関数 g が連続関数であるなら, こ
のとき, g(xn ) は g(x) に分布収束する.
xn が正規分布 N (µ, σ 2 ) に分布収束するとする. このとき, exp(xn )
は対数正規分布 LN (µ, σ 2 ) に分布収束する.
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
17 / 36
.
分布収束
√
x ∼ N (0, 1) が独立同一分布にしたがうとき, n · x̄ は標準正規分
布に分布収束する.
√
よって, exp( n · x̄) は対数正規分布 LN (0, 1) に分布収束する.
N <-500; I <-1000
xbar <- replicate(I, mean(rnorm(N)))
lxbar <- exp(sqrt(N)*xbar)
hist(lxbar, xlim=c(0,10),freq=FALSE, nclass=40)
curve(dlnorm(x), type="l",add=T)
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
18 / 36
.
分布収束
0.0 0.1 0.2 0.3 0.4 0.5
Density
Histogram of lxbar
0
2
4
6
8
10
lxbar
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
19 / 36
.
分布収束
an が a に確率収束し, bn が b に確率収束し, xn が x に分布収束
するとする. このとき, an + bn xn は a + bx に分布収束する.
とくに, x が標準正規分布 N (0, 1) に分布収束するとき, N (a, b2 )
に分布収束する.
例えば, x ∼ U nif [0, 1] と y ∼ N (0, 1) が独立同一分布にしたがう
√
とき, x̄ は 1/2 に確率収束し, n · ȳ は標準正規分布に分布収束す
√
る. よって, x̄ + n · x̄ · ȳ は N (1/2, (1/2)2 ) に分布収束する.
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
20 / 36
.
分布収束
mu <- 1/2
N <-500; I <-1000
xbar <- replicate(I, mean(runif(N)))
ybar <- replicate(I, mean(rnorm(N)))
xybar <- xbar+sqrt(N)*xbar*ybar
hist(xybar, freq=FALSE, nclass=20)
curve(dnorm(x, mean=mu,sd=mu), type="l",add=T)
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
21 / 36
.
分布収束
0.4
0.2
0.0
Density
0.6
0.8
Histogram of xybar
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
xybar
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
22 / 36
.
分布収束
√
連続関数 g(x) について, n(xn − µ) が正規分布 N (0, σ 2 ) に分布
√
収束するとき, n(g(xn ) − g(µ)) が N (0, σ 2 g(µ)2 ) に分布収束する
ことが知られている.
√
例えば, xi ∼ N (2, 1) が独立同一分布にしたがうとき, n(x̄ − 2)
は標準正規分布に分布収束する. よって, g(x) = 1/x として,
√
n(1/x̄ − 1/2) は N (0, 1/4) に分布収束する.
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
23 / 36
.
分布収束
mu <- 2; sig <- 1
N <-500; I <-1000
xbar <- replicate(I, mean(rnorm(N,mu,sig)))
ixbar <- sqrt(N)*(1/xbar-1/mu)
hist(ixbar, freq=FALSE, nclass=20)
curve(dnorm(x, mean=0,sd=sig/(mu^2)), type="l",add=T)
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
24 / 36
.
分布収束
1.0
0.5
0.0
Density
1.5
Histogram of ixbar
-0.5
0.0
0.5
ixbar
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
25 / 36
.
統計量
サイズ n の標本, つまり n 個の確率変数 Xi を考える.
この確率変数の関数 T = T (X1 , . . . , Xn ) を統計量という.
統計量は確率変数である.
標本平均:
1∑
X̄ =
Xi
n
n
i=1
は統計量である.
標本分散:
1∑
(Xi − X̄)2
S =
n
n
2
i=1
も統計量である.
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
26 / 36
.
統計量
ここでは横断面データに限定して考察する.
つまり, 母集団がひとつの確率変数で, 観測値が母集団と同じ確率
分布にしたがい, 互いに独立とかんがえる.
たとえば, X がベルヌーイ分布にしたがう場合, n1 を 1 が出た回
数とする.
∑
標本平均は X̄ = n1 ni=1 Xi = nn1 である.
∑
∑
標本分散は, n1 = ni=1 Xi = ni=1 Xi2 なので,
=
1∑ 2
Xi − X̄ 2
n
=
n1 n21
n1 (
n1 )
1−
= X̄(1 − X̄)
− 2 =
n
n
n
n
n
S
2
i=1
である.
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
27 / 36
.
推定量
母集団の特性についてその特性値を母数という.
データから母数の値を推測する推定問題を考える. 推定のための
統計量を推定量という.
統計的性質としてこれまで, 不偏性と有効性と正規性を議論して
きた.
母数 θ の推定量を θ̂ とする. E[θ̂] = θ のとき, θ̂ は不偏である.
また不偏推定量のもと他の推定量より分散が小さいとき, 有効であ
る.
横断面データのもと標本平均は不偏で線形不偏推定量の中で最も有
効である.
しかしながら横断面データは正規分布にしたがうとは限らない.
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
28 / 36
.
一致性
p
いま, θ̂ → θ のとき θ̂ は一致 (consistent) であるという.
標本平均は大数の法則より一致である.
標本分散も一致である. 実際,
1∑
1∑ 2
(Xi − X̄)2 =
Xi − X̄ 2
n
n
n
S2 =
i=1
であり,
1
n
∑
p
p
p
Xi2 → E[X 2 ], X̄ → E[X], X̄ 2 → (E[X])2 であるので,
p
S 2 → E[X 2 ] − (E[X])2
である.
標本分散の平方根である標本標準偏差も一致である.
不偏分散は母分散の一致推定量であり, 不偏分散の平方根も母標
準偏差の一致推定量である.
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
29 / 36
.
漸近正規性
推定量 θ̂ と母数 θ の差の自乗平均を平均平方誤
差M SE(θ̂) = E[(θ̂ − θ)2 ] といった.
これをもちいて, 一致推定量のもと, nM SE(θ̂) がゼロでない有限
値に収束し,
√
d
n(θ̂ − θ) → N (0, nM SE(θ̂))
となるとき, θ̂ は漸近正規 (Asymptotic Normal) であるという. ま
た nM SE(θ̂) を漸近分散という.
標本平均は中心極限値定理であり,
√
d
n(X̄ − µ) → N (0, σ 2 )
なので, 漸近正規で漸近分散は σ 2 である.
p
S 2 → E[X 2 ] − (E[X])2 = s2
なので S 2 は漸近分散の一致推定量である.
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
30 / 36
.
区間推定
ここまでは, 標準偏差が既知の場合であった.
標準偏差が未知の場合でも, 標準偏差の一致推定量 S が存在する
なら,
√
√
n(X̄ − µ)
σ n(X̄ − µ) d
=
→ N (0, 1)
S
S
σ
となる.
S を不偏分散の平方根 U に置き換えても漸近的に正規分布にした
がう.
よって, 標本サイズ n が十分大きいもとで, 95% 信頼区間は
√
√
P r[X̄ − 1.96S/ n ≤ µ ≤ X̄ + 1.96S/ n] = 0.95
たとえば X がベルヌーイ分布に従う場合の 95% 信頼区間は
√
√
P r[X̄ − 1.96 X̄(1 − X̄)/n ≤ µ ≤ X̄ + 1.96 X̄(1 − X̄)/n] = 0.95
となる.
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
31 / 36
.
検定統計量
データから母数の仮説を検証する検定問題を考える. 検定のため
の統計量を検定量という.
検定統計量
√
n(x̄ − m)
T =
S
は µ = m という帰無仮説が正しいもとで, 十分大きな n のもと標
準正規分布に近似できる.
帰無仮説が µ = 0 のときの検定統計値はティー値とよばれている.
もしティー値の絶対値が 1.96 より大きい場合, 有意水準 5% のも
と, 帰無仮説は棄却される.
なお, X が正規分布にしたがい, S が不偏分散の平方根に置き換え
た場合, 検定統計量 T は自由度 n − 1 のティー分布に従う.
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
32 / 36
.
単回帰モデル
2 つのデータ (xi , yi ) についてつぎの線形関係が成り立つとする.
yi = α + βxi + ui
この式を単純回帰モデルという.
yi は結果となる変数で被説明変数と呼ぶ.
xi は原因となる変数で説明変数と呼ぶ.
α と β は回帰係数とよばれ, 前者は切片を表し, 後者は傾きを表す.
被説明変数の変化のうち説明変数の変化だけで説明できない部分
ui を観測不能項と呼ぶ.
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
33 / 36
.
最小二乗推定量
最小二乗推定量は
∑n
(xi − x̄)yi
β̂ = ∑i=1
n
2
i=1 (xi − x̄)
となる. α̂ = ȳ − β̂ x̄ である.
残差を ỹi = yi − α̂ − β̂xi として
1 ∑ 2
ỹi
n−2
n
σ̂ 2 =
i=1
が考えられる. n − 2 で除していることに注意されたい.
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
34 / 36
.
説明変数が非確率変数
観測不能項 ui を確率変数とし, 説明変数 xi を非確率変数とする.
1
2
3
観測不能項の平均値がゼロのとき, 最小二乗推定量は不偏である.
観測不能項の平均値がゼロで分散が一定で共分散がゼロとする. 最
小二乗推定量は有効である. また σ̂ 2 は不偏である.
観測不能項の平均値がゼロで分散一定の独立同一分布な正規分布に
したがうとき, 最小二乗推定量は正規分布にしたがう. ティー値は
係数ゼロの帰無仮説のもと自由度 n − 2 のティー分布にしたがう.
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
35 / 36
.
説明変数が確率変数
観測不能項 ui と説明変数 xi は確率変数で, i について独立同
一分布にしたがうとする.
1
2
観測不能項の平均値がゼロで説明変数と無相関のとき, 最小二乗推
定量は一致である. また σ̂ 2 およびその平方根 σ̂ も一致推定量であ
る.
観測不能項の平均値がゼロで説明変数と独立のとき, 最小二乗推定
量は一致で不偏で漸近的に正規分布にしたがう. ティー値は係数ゼ
ロ帰無仮説のもと標準正規分布分布にしたがう.
.
宮﨑憲治
確率収束・分布収束・統計的性質
.
.
.
.
.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
2016 年 1 月 4 日
.
.
.
.
.
.
.
36 / 36
.