高次元データにおける二段階モデル選択法とその性質 広島大学大学院 理学研究科 伊森 晋平 本発表では, 線形回帰モデルにおける変数選択問題を考える. y を n 次元目的変数ベクトル, X = (w1 , . . . , wp ) を n × p 説明変数行列とする. このとき, フルモデル jF = {1, . . . , p} の部分集 合であるモデル j は, 以下の候補のモデルを表す. y = Xj βj + σ∗ ε. ただし, Xj は X の部分行列, βj は pj 次元回帰係数ベクトル, pj = #(j), そして ε ∼ Nn (0n , In ) である. 本研究では, 以下の高次元データの枠組みを考える. p/n → c ∈ [0, 1). 考えられるモデルは 2p 個あり, このような p が大きい高次元データに対しては, 全てのモデルで情 報量規準を計算することは計算時間の観点から不可能である. そこで, Imori, Katayama & Wakaki (2014) により提案された, 変数選択をスクリーニングステップと選択ステップの二段階にする方法 (二段階モデル選択法) を用いて, 計算時間の短縮を考える. 各ステップは以下の通りである. ! スクリーニングステップ 各変数 ℓ ∈ jF に対し, [−ℓ] = jF \ {ℓ} とし, PXj = Xj (Xj′ Xj )−1 Xj′ とする. さらに, モデル j に対する残差平方和を RSS(j) = y ′ (In − PXj )y と定義する. このとき, スクリーニングされた候 補のモデル集合を Jˆn = {ˆ j1 , . . . , ˆjp } とする. ここで, ˆjk = {ℓ1 , . . . , ℓk } であり, ℓ1 , . . . , ℓp ∈ jF は RSS([−ℓ1 ]) ≥ · · · ≥ RSS([−ℓp ]) を満たす. ! 選択ステップ このようにスクリーニングされた候補のモデル集合に対し, 以下をベストモデルとして選択する. RSS(ˆjk ) − RSS(ˆjk+1 ) NC(cn ) = ˆjm , m = 1 + max {kI(Fk > cn )}, Fk = . 1≤k≤p−1 RSS(jF )/(n − p) ただし, cn は閾値パラメータである. モデル選択の一致性を成立させるために, 最小の非心度 min µ′∗ (PX − PXj )µ∗ j̸⊃j∗ がサンプル数 n とともに発散する条件がしばしば仮定される. ただし, µ∗ = E[y] は真の平均値, j∗ は真のモデルである. 本発表では, 最小の非心度が発散しない, より一般の状況において二段階モ デル選択法により選ばれるモデルの性質について発表する. 参考文献 Imori, S., Katayama, S. & Wakaki, H. (2014). Screening and Selection Methods in HighDimensional Linear Regression Model. TR 14-01, Statistical Research Group, Hiroshima University, Hiroshima.
© Copyright 2025 ExpyDoc