統計科学同演習 第 12 回 清 智也 + TA’s 2014 年 7 月 4 日(金) 偏相関の補足 母集団 1 / 19 偏相関係数(復習) 他の変量の影響を除いたあとの相関係数. I p 変量データ X = (x1 , . . . , xp ) ∈ Rn×p を考える. I 以下,X は中心化されているものとする. I span(x3 , . . . , xp ) への直交射影行列を A ∈ Rn×n とする. I 変量 x1 と x2 の偏相関係数 (partial correlation) を ρ12·rest = ρ(x1 − Ax1 , x2 − Ax2 ) と定義する. I 同様に ρij·rest も定義し,行列 (ρij·rest ) を偏相関行列と呼ぶ. I 定理 1: ρij·rest = √ −(R −1 )ij , (R −1 )ii (R −1 )jj i 6= j. ただし R −1 は相関行列の逆行列. 2 / 19 定理 1 の証明 I I I i = 1, j = 2 の場合を証明する. Y = (x1 , x2 ),Z = (x3 , . . . , xp ) とおく. このとき,x3 , . . . , xp が張る線形部分空間への直交射影行列 は次のように書ける: A = Z (Z T Z )−1 Z T I ここで SYY = Y T Y , SYZ = Y T Z などとして, B := (Y − AY )T (Y − AY ) = SYY − SYZ (SZZ )−1 SZY . I B の成分を bij と書けば,ρ12·rest の定義より, b12 . ρ12·rest = √ b11 b22 I ここで次の補題を使う. 3 / 19 補題(Schur complement) I ブロック行列 ( ) S11 S12 S= S21 S22 に対して S I −1 ( ) −1 (S11 − S12 S22 S21 )−1 ∗ = ∗ ∗ 証明 → 黒板. 4 / 19 定理 1 の証明(つづき) I 補題から, −1 B = SYY − SYZ SZZ SZY = ((S −1 )YY )−1 となり,2 次正方行列の逆行列の公式を用いれば ρ12·rest = √ −(S −1 )12 (S −1 )11 (S −1 )22 を得る. → 演習 5 / 19 p.cor 偏相関行列を求める > p.cor # 自分で定義する必要がある. ← e12.R に定義されている. function(X){ R = cor(X) Rinv = solve(R) d = sqrt(diag(Rinv)) P = -Rinv / (d %*% t(d)) diag(P) = 1 P } > X [1,] [2,] [3,] [4,] [,1] [,2] [,3] 0 0 0 1 0 0 1 1 0 1 1 1 > p.cor(X) [,1] [,2] [,3] [1,] 1.0 0.5 7.4e-17 [2,] 0.5 1.0 5.0e-01 [3,] 0.0 0.5 1.0e+00 6 / 19 母集団という考え方 I Q. 相関の有無はどうやって判断するのか? I Q. 「相関がゼロ」などということはほとんど起こりえない のではないか? I A. 「標本」と「母集団」の区別が必要. 統計学におけるデータの捉え方 I データとは,より大きな集団(母集団 =population)からラ ンダムに得られた標本(sample)であると見なす. I 選挙の出口調査のように,母集団がはっきりしている場合も あるが,そうでない場合も多い. I 母集団がはっきりしなくても, 「データは確率変数の実現値で ある」と積極的に仮定する. → 統計的モデリング I モデル = 模型.あくまでも近似. 7 / 19 準備:確率変数と期待値 I 確率空間 (Ω, P) 上の確率変数 X : Ω → R に対し, ∫ X (ω)P(dω) (ルベーグ積分) X の期待値 E [X ] = Ω I 次を知っていれば十分. 1. 線形性: E [aX + bY ] = aE [X ] + bE [Y ]. ∫ 2. 連続分布の場合:P(X ∈ I ) = I f (x)dx のとき(I は区間) ∫ ∞ E [g (X )] = g (x)f (x)dx. −∞ 3. 離散分布の場合:P(X ∈ I ) = E [g (X )] = ∑ x∈I ∞ ∑ f (x) のとき(I は区間) g (x)f (x). x=−∞ 4. X と Y が独立ならば,E [g (X )h(Y )] = E [g (X )]E [h(Y )]. (独立性の定義は次のページ) 8 / 19 準備:独立性 I 確率変数 X , Y が互いに独立であるとは,任意の集合 A, B に 対して P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B). が成り立つこと. 「任意の区間 A, B 」としても同値. I 必要十分条件 P(Y ∈ B | X ∈ A) = P(Y ∈ B) I I I この条件の方が,意味は分かりやすい. c.f. 株価データの時間に関する独立性. n 個の確率変数列 X1 , . . . , Xn∏ に対しては, P(X1 ∈ B1 , . . . , Xn ∈ Bn ) = ni=1 P(Xi ∈ Bi ) で定義する. 9 / 19 母平均,母分散,母共分散 I 以下,X および X1 , . . . , Xn は独立同一分布に従う (i.i.d.) と 仮定する. I 母平均(未知) µ = E [X ] I 標本平均 ¯ = 1 (X1 + · · · + Xn ). X n I 標本平均は,母平均をデータから推定している. I ¯] = µ 根拠 1:不偏性 E [X I 根拠 2:一致性(説明しない) → 演習 10 / 19 母分散と標本分散 I 母分散 σ 2 = V [X ] = E [(X − µ)2 ] I (不偏)標本分散 1 ∑ ¯ )2 . (Xi − X n−1 n σ ˆ2 = i=1 → 黒板で. I 根拠 1:不偏性 E [ˆ σ2] = σ2 I 根拠 2:一致性(説明しない) 11 / 19 母共分散と標本共分散 I (X , Y ) および (X1 , Y1 ), . . . , (Xn , Yn ) は 2 次元の独立同一分布 に従うとする(Xi と Yi は独立とは限らない). I 母共分散 C [X , Y ] = E [(X − E [X ])(Y − E [Y ])]. I (不偏)標本共分散 1 ∑ ¯ )(Yi − Y¯ ) (Xi − X n−1 n ˆ = C i=1 I 根拠 1:不偏性 → 分散のときと同様. I 根拠 2:一致性(説明しない) 12 / 19 母相関と標本相関 I 母相関 ρ[X , Y ] = √ I C [X , Y ] V [X ]V [Y ] 標本相関 ˆXY C ρˆ = √ σ ˆX2 σ ˆY2 I 不偏性は一般には成り立たない. I 根拠:一致性(説明しない) 13 / 19 母偏相関と標本偏相関 I 母偏相関:標本偏相関と同様に定義(定理 1 と母相関から). I 標本偏相関 I 不変性は一般には成り立たない. I 根拠:一致性(説明しない) 14 / 19 補足:ブートストラップによる誤差評価 I I どのくらい標本相関が小さければ,母相関が 0 といえるか? 一般に,推定量 θˆ の誤差は,その標準偏差 √ ˆ V [θ] で見積もることができる. I I ˆ は求まらない. しかしそもそも確率分布が未知なので V [θ] ˆ をデータから推定した値を標準誤差 (standard error) と V [θ] いう. I ブートストラップ法:分布を経験分布に置き換えることによ り,標準誤差を求める. I 他にも,n → ∞ のときの漸近理論(主に中心極限定理)に 基づく方法がある.ブートストラップ法も漸近理論で正当化 されるが,使う上では意識しなくてよい. 15 / 19 例:気象データ > cor(X) pressure rain temp humid wind sun altitude pressure rain temp 1.000 0.251 0.269 0.251 1.000 0.605 0.269 0.605 1.000 0.123 0.342 -0.146 0.208 0.094 0.011 0.074 -0.182 0.158 -0.984 -0.270 -0.305 humid wind sun altitude 0.12 0.208 0.074 -0.984 0.34 0.094 -0.182 -0.270 -0.15 0.011 0.158 -0.305 1.00 0.266 -0.592 -0.080 0.27 1.000 -0.313 -0.255 -0.59 -0.313 1.000 -0.093 -0.08 -0.255 -0.093 1.000 > f = function(X, w) cor(X[w,4], X[w,7]) > library(boot) > boot(X, f, 1000) ORDINARY NONPARAMETRIC BOOTSTRAP Call: boot(data = X, statistic = f, R = 1000) Bootstrap Statistics : original bias std. error t1* -0.08 0.0047 0.13 16 / 19 例:気象データ > source("e12.R") > p.cor(X) pressure pressure 1.000 rain -0.144 temp -0.028 humid 0.295 wind -0.348 sun -0.019 altitude -0.985 rain temp humid wind sun altitude -0.144 -0.028 0.30 -0.348 -0.019 -0.985 1.000 0.669 0.46 -0.122 -0.078 -0.155 0.669 1.000 -0.35 0.026 0.073 -0.057 0.456 -0.353 1.00 0.177 -0.442 0.271 -0.122 0.026 0.18 1.000 -0.248 -0.389 -0.078 0.073 -0.44 -0.248 1.000 -0.056 -0.155 -0.057 0.27 -0.389 -0.056 1.000 > f = function(X, w) p.cor(X[w,])[1,2] > boot(X,f,1000) ORDINARY NONPARAMETRIC BOOTSTRAP Call: boot(data = X, statistic = f, R = 1000) Bootstrap Statistics : original bias std. error t1* -0.14 -0.0048 0.14 17 / 19 参考 I データ行列 X に対し,関数 var は(不偏)標本共分散行列を 求める. I 正方行列 A に対し,関数 eigen は固有値,固有ベクトルを求 める. 対称行列の場合の例 I > A = matrix(c(2,1,1,0), 2, 2) > A [,1] [,2] [1,] 2 1 [2,] 1 0 > eigen(A) $values [1] 2.4142136 -0.4142136 $vectors [,1] [,2] [1,] -0.9238795 0.3826834 [2,] -0.3826834 -0.9238795 18 / 19 参考 I 非対称行列の場合の例 > A [,1] [,2] [1,] 1 3 [2,] 2 4 > eigen(A) $values [1] 5.3722813 -0.3722813 $vectors [,1] [,2] [1,] -0.5657675 -0.9093767 [2,] -0.8245648 0.4159736 > lam =eigen(A)$val > v = eigen(A)$vec > A %*% v[,1] - lam[1] * v[,1] [,1] [1,] 0.000000e+00 [2,] -8.881784e-16 19 / 19
© Copyright 2024 ExpyDoc