Åý·×²Ê³ØƱ±é½¬ Âè12²ó

統計科学同演習 第 12 回
清 智也 + TA’s
2014 年 7 月 4 日(金)
偏相関の補足
母集団
1 / 19
偏相関係数(復習)
他の変量の影響を除いたあとの相関係数.
I
p 変量データ X = (x1 , . . . , xp ) ∈ Rn×p を考える.
I
以下,X は中心化されているものとする.
I
span(x3 , . . . , xp ) への直交射影行列を A ∈ Rn×n とする.
I
変量 x1 と x2 の偏相関係数 (partial correlation) を
ρ12·rest = ρ(x1 − Ax1 , x2 − Ax2 )
と定義する.
I
同様に ρij·rest も定義し,行列 (ρij·rest ) を偏相関行列と呼ぶ.
I
定理 1:
ρij·rest = √
−(R −1 )ij
,
(R −1 )ii (R −1 )jj
i 6= j.
ただし R −1 は相関行列の逆行列.
2 / 19
定理 1 の証明
I
I
I
i = 1, j = 2 の場合を証明する.
Y = (x1 , x2 ),Z = (x3 , . . . , xp ) とおく.
このとき,x3 , . . . , xp が張る線形部分空間への直交射影行列
は次のように書ける:
A = Z (Z T Z )−1 Z T
I
ここで SYY = Y T Y , SYZ = Y T Z などとして,
B := (Y − AY )T (Y − AY )
= SYY − SYZ (SZZ )−1 SZY .
I
B の成分を bij と書けば,ρ12·rest の定義より,
b12
.
ρ12·rest = √
b11 b22
I
ここで次の補題を使う.
3 / 19
補題(Schur complement)
I
ブロック行列
(
)
S11 S12
S=
S21 S22
に対して
S
I
−1
(
)
−1
(S11 − S12 S22
S21 )−1 ∗
=
∗
∗
証明 → 黒板.
4 / 19
定理 1 の証明(つづき)
I
補題から,
−1
B = SYY − SYZ SZZ
SZY
= ((S −1 )YY )−1
となり,2 次正方行列の逆行列の公式を用いれば
ρ12·rest = √
−(S −1 )12
(S −1 )11 (S −1 )22
を得る. → 演習
5 / 19
p.cor 偏相関行列を求める
> p.cor # 自分で定義する必要がある. ← e12.R に定義されている.
function(X){
R = cor(X)
Rinv = solve(R)
d = sqrt(diag(Rinv))
P = -Rinv / (d %*% t(d))
diag(P) = 1
P
}
> X
[1,]
[2,]
[3,]
[4,]
[,1] [,2] [,3]
0
0
0
1
0
0
1
1
0
1
1
1
> p.cor(X)
[,1] [,2]
[,3]
[1,] 1.0 0.5 7.4e-17
[2,] 0.5 1.0 5.0e-01
[3,] 0.0 0.5 1.0e+00
6 / 19
母集団という考え方
I
Q. 相関の有無はどうやって判断するのか?
I
Q. 「相関がゼロ」などということはほとんど起こりえない
のではないか?
I
A. 「標本」と「母集団」の区別が必要.
統計学におけるデータの捉え方
I
データとは,より大きな集団(母集団 =population)からラ
ンダムに得られた標本(sample)であると見なす.
I
選挙の出口調査のように,母集団がはっきりしている場合も
あるが,そうでない場合も多い.
I
母集団がはっきりしなくても,
「データは確率変数の実現値で
ある」と積極的に仮定する. → 統計的モデリング
I
モデル = 模型.あくまでも近似.
7 / 19
準備:確率変数と期待値
I
確率空間 (Ω, P) 上の確率変数 X : Ω → R に対し,
∫
X (ω)P(dω) (ルベーグ積分)
X の期待値 E [X ] =
Ω
I
次を知っていれば十分.
1. 線形性:
E [aX + bY ] = aE [X ] + bE [Y ].
∫
2. 連続分布の場合:P(X ∈ I ) = I f (x)dx のとき(I は区間)
∫ ∞
E [g (X )] =
g (x)f (x)dx.
−∞
3. 離散分布の場合:P(X ∈ I ) =
E [g (X )] =
∑
x∈I
∞
∑
f (x) のとき(I は区間)
g (x)f (x).
x=−∞
4. X と Y が独立ならば,E [g (X )h(Y )] = E [g (X )]E [h(Y )].
(独立性の定義は次のページ)
8 / 19
準備:独立性
I
確率変数 X , Y が互いに独立であるとは,任意の集合 A, B に
対して
P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B).
が成り立つこと.
「任意の区間 A, B 」としても同値.
I
必要十分条件
P(Y ∈ B | X ∈ A) = P(Y ∈ B)
I
I
I
この条件の方が,意味は分かりやすい.
c.f. 株価データの時間に関する独立性.
n 個の確率変数列 X1 , . . . , Xn∏
に対しては,
P(X1 ∈ B1 , . . . , Xn ∈ Bn ) = ni=1 P(Xi ∈ Bi ) で定義する.
9 / 19
母平均,母分散,母共分散
I
以下,X および X1 , . . . , Xn は独立同一分布に従う (i.i.d.) と
仮定する.
I
母平均(未知)
µ = E [X ]
I
標本平均
¯ = 1 (X1 + · · · + Xn ).
X
n
I
標本平均は,母平均をデータから推定している.
I
¯] = µ
根拠 1:不偏性 E [X
I
根拠 2:一致性(説明しない)
→ 演習
10 / 19
母分散と標本分散
I
母分散
σ 2 = V [X ] = E [(X − µ)2 ]
I
(不偏)標本分散
1 ∑
¯ )2 .
(Xi − X
n−1
n
σ
ˆ2 =
i=1
→ 黒板で.
I
根拠 1:不偏性 E [ˆ
σ2] = σ2
I
根拠 2:一致性(説明しない)
11 / 19
母共分散と標本共分散
I
(X , Y ) および (X1 , Y1 ), . . . , (Xn , Yn ) は 2 次元の独立同一分布
に従うとする(Xi と Yi は独立とは限らない).
I
母共分散
C [X , Y ] = E [(X − E [X ])(Y − E [Y ])].
I
(不偏)標本共分散
1 ∑
¯ )(Yi − Y¯ )
(Xi − X
n−1
n
ˆ =
C
i=1
I
根拠 1:不偏性 → 分散のときと同様.
I
根拠 2:一致性(説明しない)
12 / 19
母相関と標本相関
I
母相関
ρ[X , Y ] = √
I
C [X , Y ]
V [X ]V [Y ]
標本相関
ˆXY
C
ρˆ = √
σ
ˆX2 σ
ˆY2
I
不偏性は一般には成り立たない.
I
根拠:一致性(説明しない)
13 / 19
母偏相関と標本偏相関
I
母偏相関:標本偏相関と同様に定義(定理 1 と母相関から).
I
標本偏相関
I
不変性は一般には成り立たない.
I
根拠:一致性(説明しない)
14 / 19
補足:ブートストラップによる誤差評価
I
I
どのくらい標本相関が小さければ,母相関が 0 といえるか?
一般に,推定量 θˆ の誤差は,その標準偏差
√
ˆ
V [θ]
で見積もることができる.
I
I
ˆ は求まらない.
しかしそもそも確率分布が未知なので V [θ]
ˆ をデータから推定した値を標準誤差 (standard error) と
V [θ]
いう.
I
ブートストラップ法:分布を経験分布に置き換えることによ
り,標準誤差を求める.
I
他にも,n → ∞ のときの漸近理論(主に中心極限定理)に
基づく方法がある.ブートストラップ法も漸近理論で正当化
されるが,使う上では意識しなくてよい.
15 / 19
例:気象データ
> cor(X)
pressure
rain
temp
humid
wind
sun
altitude
pressure
rain
temp
1.000 0.251 0.269
0.251 1.000 0.605
0.269 0.605 1.000
0.123 0.342 -0.146
0.208 0.094 0.011
0.074 -0.182 0.158
-0.984 -0.270 -0.305
humid
wind
sun altitude
0.12 0.208 0.074
-0.984
0.34 0.094 -0.182
-0.270
-0.15 0.011 0.158
-0.305
1.00 0.266 -0.592
-0.080
0.27 1.000 -0.313
-0.255
-0.59 -0.313 1.000
-0.093
-0.08 -0.255 -0.093
1.000
> f = function(X, w) cor(X[w,4], X[w,7])
> library(boot)
> boot(X, f, 1000)
ORDINARY NONPARAMETRIC BOOTSTRAP
Call:
boot(data = X, statistic = f, R = 1000)
Bootstrap Statistics :
original bias
std. error
t1*
-0.08 0.0047
0.13
16 / 19
例:気象データ
> source("e12.R")
> p.cor(X)
pressure
pressure
1.000
rain
-0.144
temp
-0.028
humid
0.295
wind
-0.348
sun
-0.019
altitude
-0.985
rain
temp humid
wind
sun altitude
-0.144 -0.028 0.30 -0.348 -0.019
-0.985
1.000 0.669 0.46 -0.122 -0.078
-0.155
0.669 1.000 -0.35 0.026 0.073
-0.057
0.456 -0.353 1.00 0.177 -0.442
0.271
-0.122 0.026 0.18 1.000 -0.248
-0.389
-0.078 0.073 -0.44 -0.248 1.000
-0.056
-0.155 -0.057 0.27 -0.389 -0.056
1.000
> f = function(X, w) p.cor(X[w,])[1,2]
> boot(X,f,1000)
ORDINARY NONPARAMETRIC BOOTSTRAP
Call:
boot(data = X, statistic = f, R = 1000)
Bootstrap Statistics :
original bias
std. error
t1*
-0.14 -0.0048
0.14
17 / 19
参考
I
データ行列 X に対し,関数 var は(不偏)標本共分散行列を
求める.
I
正方行列 A に対し,関数 eigen は固有値,固有ベクトルを求
める.
対称行列の場合の例
I
> A = matrix(c(2,1,1,0), 2, 2)
> A
[,1] [,2]
[1,]
2
1
[2,]
1
0
> eigen(A)
$values
[1] 2.4142136 -0.4142136
$vectors
[,1]
[,2]
[1,] -0.9238795 0.3826834
[2,] -0.3826834 -0.9238795
18 / 19
参考
I
非対称行列の場合の例
> A
[,1] [,2]
[1,]
1
3
[2,]
2
4
> eigen(A)
$values
[1] 5.3722813 -0.3722813
$vectors
[,1]
[,2]
[1,] -0.5657675 -0.9093767
[2,] -0.8245648 0.4159736
> lam =eigen(A)$val
> v = eigen(A)$vec
> A %*% v[,1] - lam[1] * v[,1]
[,1]
[1,] 0.000000e+00
[2,] -8.881784e-16
19 / 19