変数選択

変数選択
2015/9/30
EM141019 鶴田 実可子
先行研究と研究の方向性の概要
•n≥p
• n< p
n : observation
p: variable
• ビックデータは上記の2つに分類される
• n< pの場合、説明変数が多すぎてAIC,BICで計算することができない
• 2段階に分けてScreeningを行い、重要な説明変数を見つける
1. p →dに次元を減らす
2. 重要な説明変数をSCAD, adaptive LASSOを用いて見つける
先行研究と研究の方向性の概要
• Toshio Honda et al.(2014)
• Screeningの方法の一つとしてForward variable selection procedureを
考える
• 変動係数モデルをB-spline basis を用いて近似をして、その後局所的
に回帰を行う
• Reduction in sum of squares criterion や BIC-based stopping ruleによ
り、重要な説明変数を全て選び出すことができる
先行研究と研究の方向性の概要
• 修士論文では
1. additive model を使用する際、 BIC-based stopping ruleや一致性を
満たすことなど、理論的に証明をする
2. 最新のScreening 方法をまとめる
3. シミュレーションを行う
model
(1)
(2)
(基準点を決める)
を計算する
• 新しい変数を加えるかはEBICで判断する
今後の課題
• additive modelのシミュレーションを実行する
• 最新のScreening法を理解する
Robust rank correlation screening
Censored rank independence screening
など
参考文献
• Cheng., Ming-Yen., Honda Toshio., Zhang., Jin-Ting., 2014, “Forward
variable selection for sparse ultra-hibh dimensional varying coefficient
models.”
• Li, G., Peng, H., Zhang, J., & Zhu, L. ,2012, “Robust rank correlation
based screening. “
• Song, R., Lu, W., Ma, S., & Jeng, X. J. ,2014., “Censored rank
independence screening for high-dimensional survival data.”