多変量一般化リッジ回帰モデルにおけるリッジパラメータの選択法

多変量一般化リッジ回帰モデルにおけるリッジパラメータの選択法
(概要)
広島大学大学院理学研究科博士課程前期数学専攻
永井 勇
Y を n × p 目的変数行列, X を n × k の説明変数行列 (ただし rank(X) = k < n),
E = (ε1 , . . . , εn )0 を n × p 誤差行列とする. ここで, n は標本を大きさを表し,
ε1 , . . . , εn は互いに独立に平均 0, 共分散行列 Σ を持つ分布に従っている p × 1 誤
差ベクトルとする. 今, Ξ を k × p 未知回帰係数行列とすると, 多変量線形回帰モデ
ルは次の式で書ける.
Y = XΞ + E.
(1)
この未知回帰係数行列 Ξ の最小二乗推定量 (Least Square Estimator: LSE) (また
ˆ = (X 0 X)−1 X 0 Y で与
は誤差の分布に正規分布を仮定した場合の最尤推定量) は Ξ
えられる. Ξ の LSE は形が簡単で Ξ の不偏推定量であることから, 様々なデータ解
析の場面で用いられる. しかし, 説明変数間の相関が高い場合, X 0 X の固有値が小
ˆ は Ξ の不
さくなり, その結果, 推定量の分散が大きくなることが知られている. Ξ
偏推定量ではあるが, 分散が大きくなると平均二乗誤差 (Mean Square Error: MSE)
の意味で予測値の精度が悪くなり問題がある.
この問題を回避する一つの方法としては, リッジパラメータ θ (≥ 0) を導入して
推定を行うリッジ推定法 (Hoerl & Kennard, 1970) がある. このリッジ推定は, 単変
量のとき, つまり p = 1 のモデルに対し提案された手法ではあるが, 以下のように,
多変量への自然な拡張が可能である.
ˆ θ = (X 0 X + θIk )−1 X 0 Y .
Ξ
(2)
この推定値はリッジパラメータ θ により変化するので, θ の最適化が重要となる. 最
適なリッジパラメータの決定法の一つとしては, Mallows の CL 規準 (Mallows, 1973)
に代表される情報量規準の最小化により決定する方法 (例えば Yanagihara & Satoh,
2008 等参照) がある.
しかしながらこの決定法においては, 最適なパラメータ θ の値を得るために繰り返
し計算が必要になるという欠点がある. このような欠点を改善する方法として, 単一
0
のリッジパラメータではなく, k 個のリッジパラメータ θ = (θ1 , . . . , θk ) (θi ≥ 0, i =
1, . . . , k) を用いる一般化リッジ推定 (Hoerl & Kennard, 1970) がある. この推定法
も単変量のときに提案された手法ではあるが, 以下のように, 多変量への自然な拡張
が可能である.
ˆ Θ = (X 0 X + QΘQ0 )−1 X 0 Y ,
Ξ
(3)
ただし, Θ = diag(θ) であり, Q は X 0 X を対角化する k × k の直交行列である. (3)
式において, θ1 = · · · = θk = θ とすると (2) 式と一致するので, (3) 式は (2) 式を拡
1
張したものであることがわかる. さらに, θ1 = · · · = θk = 0 とすると, LSE と一致す
る. また, リッジ回帰は, 単一のリッジパラメータによって LSE を一様に縮小する推
定方法である. 一方で, 一般化リッジ回帰は, 各説明変数に対して縮小の度合いが異
なる. それゆえ, 一般化リッジ回帰はリッジ回帰より柔軟であると考えられる. この
観点から, 本論文では一般化リッジ回帰を扱い, 多変量に拡張した推定量 (3) に対し
てのリッジパラメータの最適化法に関して議論した.
p = 1 のとき, 予測値の MSE を小さくする θ を陽な形で求めるには, 大きく分け
て次の二種類の方法があることが分かった (単変量の場合は, 例えば Lawless, 1981
参照).
(i) MSE を最小にする θ1 , . . . , θk が未知パラメータを含む形で導出される場合に,
未知パラメータをその推定量で置き換える,
(ii) MSE の推定量を構成し, その推定量を最小にする θ1 , . . . , θk を求める.
本論文では, このような手法を多変量の場合に拡張することで, リッジパラメータの
いくつかの推定法を提案した. 特に後者の推定法に対応する CL 規準に対し, バイア
スを補正した新たな情報量規準 M CL 規準を提案した. ここで, バイアス補正した情
報量規準 M CL 規準が
1. Var (MCL ) < Var (CL ) .
2. 誤差に正規分布を仮定した場合, MSE の一様最小分散不偏推定量.
という特性を持っていることを示した. また, これらの規準を用いたリッジパラメー
タの推定量が, 陽な形で導出されることを示した.
さらに, これらのリッジパラメータの推定法と仮説検定問題の検定統計量や有意
水準との関係や, 変数選択との関係, それぞれの推定法が LSE をどのくらい縮小し
ているかについて, 考察した. 単変量のリッジパラメータの推定手法から拡張して得
た様々な推定手法を, シミュレーションにより比較を行った. またさらなる改良の可
能性について, 考察した.
引用文献:
[1] Hoerl, A. E. & Kennard, R. W. (1970). Ridge regression: biased estimation
for nonorthogonal problems. Technometrics, 12, 55–68.
[2] Lawless, J. F. (1981). Mean squared error properties of generalized ridge
estimators. Journal of the American Statistical Association, 76, 462–466.
[3] Mallows, C. L. (1973). Some comments on Cp . Technometrics, 15, 661–675.
[4] Yanagihara, H. & Satoh, K. (2008). An unbiased Cp criterion for multivariate ridge regression. TR No. 08-04, Statistical Research Group, Hiroshima
University.
2