判別分析における情報量規準を用いた変数選択法の高次元漸近的性質

判別分析における情報量規準を用いた変数選択法の高次元漸近的性質
広島大・理・名誉教授
藤越 康祝
本報告では, 2 群の判別分析における AIC 規準に基づく変数選択法の高次元での漸近的性
質を問題にする. p 変数 x = (x1 , . . . , xp )′ に関する 2 群 Np (µ(1) , Σ), Np (µ(2) , Σ) の母線形判
別関数の係数ベクトルを
β = Σ−1 (µ(1) − µ(2) ) = (β1 , . . . , βp )′
とする. 変数の集合を添え字の集合で表す. 例えば, {x1 , x2 } を {1, 2} と表す. {1, . . . , p} の
任意の部分集合を j とし, j 以外の集合を単に j c と表す. 大きさ n1 , n2 の標本に基づく変数
xj , x のマハラノビスの距離を Dj , D と表す. このとき, 変数選択モデル
Mj ; βk ̸= 0 for k ∈ j and βk = 0 for k ∈ j c
に対する AIC 規準は
{
AICj =n log 1 +
g(D2 − Dj2 )
n − 2 + gDj2
}
{
}
1
+ 2 p + pj + p(p + 1)
2
+ n log |(1/n)W | + np{1 + log(2π)}
と表せる. ここに, n = n1 + n2 , g = (n1 n2 )/n, W は群内平方和積和行列である. AIC を用
いた変数選択法は, AIC の値が最小となる変数を選ぶ方法であって, ˆ
jA = arg minj AICj と
表せる.
変数 xj , x の母マハラノビスの距離を δj , δ と表す. 真のモデルを含む最小なモデルを Mj∗
とする. 大標本漸近的枠組
p, δj ; 固定 n → ∞
のもとでは, ˆ
jA は一致性をもたなく, 過剰特定化モデル Mj (j ⊃ j0 ) を選ぶ確率はゼロでは
ないことが知られている. 例えば, Fujikoshi (1989, Hiroshima Math. J., 13, 203-214) を参
照されたい.
本報告では, 高次元漸近的枠組
pj → ∞, n → ∞, lim pj /n ∈ [0, 1), δj2 = O(p)
のもとでの ˆ
jA の振る舞いを調べる. j を j0 とは異なる任意の過剰特定化モデルとし, 次を仮
定する.
(1) rj = pj − pj∗ → ∞, (2) rj /n → cj ∈ [0, ca ).
ここに, ca (≈ 0.797) は log(1 − ca ) + 2ca = 0 の解である. このとき, Yanagihara, Wakaki
and Fujikoshi (2014, EJS に掲載予定) よるラムダ分布に関する評価式を利用して
P (ˆjA = j) ≤ P (AICj < AICj∗ ) = O(rj−m ), m 任意の正整数
を示す. この結果は, 過剰特定化モデルを選ぶ確率は漸近的にゼロであることを示唆してい
る. 過小特定化 (過剰特定化でない) モデル j に対しては, j および j∗ を含む最小なモデルを
j+ とするとき
P (ˆjA = j) ≤ P (AICj < AICj+ )
の右辺の確率に対して, ある種の確率表示を与える.