高次元データにおける二段階モデル選択法とその性質 参考文献

高次元データにおける二段階モデル選択法とその性質
広島大学大学院 理学研究科
伊森 晋平
本発表では, 線形回帰モデルにおける変数選択問題を考える. y を n 次元目的変数ベクトル,
X = (w1 , . . . , wp ) を n × p 説明変数行列とする. このとき, フルモデル jF = {1, . . . , p} の部分集
合であるモデル j は, 以下の候補のモデルを表す.
y = Xj βj + σ∗ ε.
ただし, Xj は X の部分行列, βj は pj 次元回帰係数ベクトル, pj = #(j), そして ε ∼ Nn (0n , In )
である.
本研究では, 以下の高次元データの枠組みを考える.
p/n → c ∈ [0, 1).
考えられるモデルは 2p 個あり, このような p が大きい高次元データに対しては, 全てのモデルで情
報量規準を計算することは計算時間の観点から不可能である. そこで, Imori, Katayama & Wakaki
(2014) により提案された, 変数選択をスクリーニングステップと選択ステップの二段階にする方法
(二段階モデル選択法) を用いて, 計算時間の短縮を考える. 各ステップは以下の通りである.
! スクリーニングステップ
各変数 ℓ ∈ jF に対し, [−ℓ] = jF \ {ℓ} とし, PXj = Xj (Xj′ Xj )−1 Xj′ とする. さらに, モデル j
に対する残差平方和を RSS(j) = y ′ (In − PXj )y と定義する. このとき, スクリーニングされた候
補のモデル集合を Jˆn = {ˆ
j1 , . . . , ˆjp } とする. ここで, ˆjk = {ℓ1 , . . . , ℓk } であり, ℓ1 , . . . , ℓp ∈ jF は
RSS([−ℓ1 ]) ≥ · · · ≥ RSS([−ℓp ]) を満たす.
! 選択ステップ
このようにスクリーニングされた候補のモデル集合に対し, 以下をベストモデルとして選択する.
RSS(ˆjk ) − RSS(ˆjk+1 )
NC(cn ) = ˆjm , m = 1 + max {kI(Fk > cn )}, Fk =
.
1≤k≤p−1
RSS(jF )/(n − p)
ただし, cn は閾値パラメータである.
モデル選択の一致性を成立させるために, 最小の非心度
min µ′∗ (PX − PXj )µ∗
j̸⊃j∗
がサンプル数 n とともに発散する条件がしばしば仮定される. ただし, µ∗ = E[y] は真の平均値, j∗
は真のモデルである. 本発表では, 最小の非心度が発散しない, より一般の状況において二段階モ
デル選択法により選ばれるモデルの性質について発表する.
参考文献
Imori, S., Katayama, S. & Wakaki, H. (2014). Screening and Selection Methods in HighDimensional Linear Regression Model. TR 14-01, Statistical Research Group, Hiroshima University, Hiroshima.