高次元枠組みにおける共分散構造に関する検定について

高次元枠組みにおける共分散構造に関する検定について
専修大・経営
東京理科大・理・院
大阪府立大・工
西山 貴弘
山田 雄紀
兵頭 昌
1. はじめに
本報告では共分散構造に関する検定問題について議論する. 一般に, p < N の場合, 共
分散構造の検定問題に対して尤度比検定が用いられるが, p ≥ N の場合は標本共分散行
列や標本相関行列が退化してしまうため尤度比検定統計量を構成することが出来ないと
いう問題が生じる. そこで近年, 高次元データに対して球面構造や対角構造を持つかどう
かの検定や, 共分散行列の同等性検定問題などについて多くの研究がされている(Schott
(2005), Chen, Zhang and Zhong (2010), Hyodo, et al. (2015) などを参照). ここでは非
正規母集団の下で, 特に共分散構造が“ ブロック対角構造 ”を持つかどうかの検定につい
て議論し, この問題に対して新たな検定統計量を提案する.
2. ブロック対角構造に対する検定方式
いま, x1 , . . . , xN を平均ベクトル µ, 分散共分散行列 Σ の p 次元母集団からの互いに独
立な N 個の観測ベクトルとし, xi = µ + Γz i (i = 1, . . . , N ) を満たすものとする. ここで,
Γ は ΓΓ0 = Σ を満たす p × m 行列であり, z i = (zi1 , . . . , zim )0 は E[z i ] = 0, Var[z i ] = Im を
満たす互いに独立な m 次元ベクトルである. また, xi , µ, Σ はそれぞれ次のように分割さ
れるものとする.
 (1) 




xi
µ(1)
Σ11 Σ12 · · · Σ1q
 x(2) 
 µ(2) 
 Σ21 Σ22 · · · Σ2q 
 i 




xi =  .  , µ =  ..  , Σ =  ..
.. . .
..  .
.
 . 
 . 
 .
. . 
.
(q)
(q)
Σq1 Σq2 · · · Σqq
µ
x
i
(g)
ここで, g, h = 1, . . . , q に対して x(g) , µ(g) は pg 次元ベクトル, Σgh は pg ×ph 行列とし, xi =
0
0
0
µ(g) + Γ(g) z i (i = 1, . . . , N ) を満たすものとする. ただし, Γ(g) は Γ = (Γ(1) , Γ(2) , . . . , Γ(q) )0
となる pg × m 行列である. さらに標本平均ベクトル, 標本共分散行列をそれぞれ
N
N
1 ∑
1 ∑
x=
xi , S =
(xi − x)(xi − x)0
N i=1
N − 1 i=1
(g)
とし, xi に対する標本平均ベクトル, 標本共分散行列をそれぞれ
x
(g)
N
N
1 ∑ (g)
1 ∑ (g)
(g)
=
xi , S g =
(xi − x(g) )(xi − x(g) )0
N i=1
N − 1 i=1
とする.
このとき, Σd = diag(Σ11 , Σ22 , · · · , Σqq ) とし, 次の仮説検定問題を考える.
H0 : Σ = Σ d
vs. H1 : Σ 6= Σd .
(1)
一般に, p < N の場合, 共分散構造の検定問題に対して尤度比検定統計量が用いられるが,
p ≥ N の場合は用いることが出来ない. そのため Hyodo et al. (2015) では, (1) の仮説検
定問題に対して, p ≥ N の場合でも用いることができる検定方式を正規母集団の下で提案
している. なお, p ≥ N の場合における仮説 (1) に対して, 特に pg = 1 (g = 1, 2, . . . , q) の
ケースは Schott (2005), Chen, Zhang and Zhong (2010) などによって, q = 2 のケースは
Srivastava and Reid (2012), Yata and Aoshima (2015) などによって議論されている.
ここでは正規性を仮定しない場合の議論を行うが, 帰無仮説 H0 の下での共分散行列
Σd と真の共分散行列 Σ の間の距離を次の尺度によって測るものとする.
tr(Σ − Σd )2 = trΣ2 − trΣ2d .
(2)
この (2) の推定量を, Himeno and Yamada (2014) や Srivastava, Yanagihara and Kubokawa
(2014) などで提案されている trΣ2 の推定量を用いることによって, 次のように与える.
d2 .
d2 − trΣ
T = trΣ
d
ここで,
{
}
N −1
(N − 1)(N − 2)trS 2 + (trS)2 − N Q
N (N − 2)(N − 3)
q
∑
{
}
N −1
(N − 1)(N − 2)trSg2 + (trSg )2 − N Qg
=
N (N − 2)(N − 3) g=1
d2 =
trΣ
d2
trΣ
d
であり,
1 ∑
2
{(xi − x)0 (xi − x)}
N − 1 i=1
N
Q =
Qg
N
}2
1 ∑ { (g)
(g)
(g) 0
(g)
=
(xi − x ) (xi − x ) .
N − 1 i=1
この推定量 T を検定統計量として (1) に対する検定方式を構築するために, T の極限分布
の導出を以下の仮定 (A1) ∼ (A4),
(A1) (i) E[zij3 ] = κ3 , E[zij4 ] = κ4 + 3.
(ii) 任意の正の整数 r ∈ [1, 8], α` ∈ [1, 4] に対して,
E[zijα11 zijα22 · · · zijαrr ] = E[zijα11 ]E[zijα22 ] · · · E[zijαrr ].
ただし, j1 6= j2 6= · · · 6= jr ∈ [1, m] であり, α` は
r
∑
α` ≤ 8 を満たす.
`=1
(A2) 次の 2 つの漸近枠組みのどちらかを仮定する.
(i) N → ∞, q : fix, かつ p1 , . . . , pq の少なくとも 1 つは発散する.
(ii) N → ∞, q → ∞, かつ p1 , . . . , pq : fix.

)2 
( q


∑
= o(τ ).
(A3) min trΣ4 ,
(trΣ4gg )1/4 (trΣ4hh )1/4


g6=h
ただし, τ =
q
∑
(trΣ2gg )(trΣ2hh ).
g6=h
∑
g6=h6=i6=j6=g (trΣgh Σhg )(trΣij Σji )
(A4) (i)
τ
N tr{Σ(Σ − Σd )}2
(ii)
= o(1).
τ
の下で行い, 次の定理が得られる.
= o(1).
定理 1. 仮定 (A1) ∼ (A4) の下で,
T − tr(Σ − Σd )2 d
→ N (0, 1).
σH0
ここで,
∑
4
=
(trΣ2gg )(trΣ2hh ).
N (N − 1) g6=h
q
2
σH
0
実際には, trΣ2gg の不偏推定量
2 =
[
trΣ
gg
{
}
N −1
(N − 1)(N − 2)trSg2 + (trSg )2 − N Qg
N (N − 2)(N − 3)
2
を用いた σH
の推定量
0
∑
4
2
[
2 )(trΣ
[
(trΣ
=
gg
hh )
N (N − 1) g6=h
q
2
σ
bH
0
2
を用いるが, この σ
bH
の性質に関して次の定理が得られる.
0
定理 2. 仮定 (A1), (A2) の下で,
2
σ
bH
p
0
→
1.
2
σH
0
d
定理 1, 定理 2 より, H0 の下で T /b
σH0 →
N (0, 1) が成り立ち, この結果より, zα を標準
正規分布の上側 100α% 点とすると, T > σ
bH0 zα ならば帰無仮説を棄却するという検定方
式を提案することができる.
3. 提案手法の漸近検出力
本節では, 提案手法の漸近検出力について議論する. ここでは, 前節の仮定 (A1) の代
わりに次の (A10 ) を仮定する.
(A10 ) (i) E[zij3 ] = κ3 , E[zij4 ] = κ4 + 3, E[zij` ] = κ` (` = 5, . . . , 8).
(ii) 任意の正の整数 r ∈ [1, 8], α` ∈ [1, 8] に対して,
E[zijα11 zijα22 · · · zijαrr ] = E[zijα11 ]E[zijα22 ] · · · E[zijαrr ].
ただし, j1 6= j2 6= · · · 6= jr ∈ [1, m] であり, α` は
r
∑
`=1
α` ≤ 8 を満たす.
このとき, 次の定理が得られる.
定理 3. 仮定 (A10 ), (A2), (A3) の下で,
T − tr(Σ − Σd )2 d
→ N (0, 1).
σ
ここで,
σ2 =
∑
4
(trΣgh Σhg )(trΣij Σji )
N (N − 1) g6=i,h6=j
+
4κ4
8
tr{Σ(Σ − Σd )}2 +
tr[{Γ0 (Σ − Σd )Γ} ¯ {Γ0 (Σ − Σd )Γ}].
N
N
さらに, ν = tr(Σ − Σd )2 /σ とすると, H1 : Σ 6= Σd の下で提案統計量の漸近検出力に関
して, 以下の系が得られる.
系 1. 仮定 (A10 ), (A2), (A3) の下で,
Pr(T > σ
bH0 zα |Σ 6= Σd ) → 1 − Φ
(σ
H0
σ
)
zα − ν ≥ 1 − Φ(zα − ν).
ただし, Φ(x) は標準正規分布の累積分布関数である.
4. 数値実験
いくつかのパラメータ設定および共分散構造に対して, モンテカルロ・シミュレーショ
ンによって提案統計量の近似分布の近似精度と, 検出力を数値的に評価する. 詳細は当日
報告する.
参考文献
[1] Chen, S. X., Zhang, L. X. and Zhong, P. S. (2010). “Tests for high-dimensional covariance
matrices”, Journal of the American Statistical Association, 105, 810–819.
[2] Himeno, T. and Yamada, T. (2014). “Estimations for some functions of covariance matrix
in high dimension under non-normality and its applications”, Journal of Multivariate
Analysis, 130, 27–44.
[3] Hyodo, M., Shutoh, N., Nishiyama, T. and Pavlenko, T. (2015). “Testing block-diagonal
covariance structure for high-dimensional data”, to appear in Statistica Neerlandica.
[4] Schott, J. R. (2005). “Testing for complete independence in high dimensions”, Biometrika,
92, 951–956.
[5] Srivastava, M. S. and Reid, N. (2012). “Testing the structure of the covariance matrix with
fewer observations than the dimension”, Journal of Multivariate Analysis, 112, 156–171.
[6] Srivastava, M. S., Yanagihara, H. and Kubokawa, T. (2014). “Tests for covariance matrices
in high dimension with less sample size”, Journal of Multivariate Analysis, 130, 289–309.
[7] Yata, K and Aoshima, M. (2015). “High-dimensional inference on covariance structures via
the extended cross-data-matrix methodology”, submitted (arxiv:1503.06492).