1 はじめに 2 カーネル分位点回帰分析 3 Generalized Decremental

平 成 20 年 度
情報工学科卒業研究概要
竹内研究室
カーネル分位点回帰における
No. 17115092
一般化 Decremental アルゴリズムに関する研究
1
はじめに
棚橋 優樹
元上のパス追跡を考えることで最短のパスを通ること
分位点回帰では, 絶対値誤差を利用して条件付分位
が可能となる.
点を推定する. 本論文では, 分位点回帰にカーネルト
4
リックを適用したカーネル分位点回帰(KQR)[1, 2]
4.1
を扱う. KQR の交差検証でモデル選択を行う場合, 複
数のデータ点を一度に削除して再学習する必要があ
る. そこで本論文では, 複数データ点が同時に削除さ
れた場合にカーネル分位点回帰のモデルを効率的に更
新する方法を提案する.
2
知能系
数値実験と考察
実験方法
使用したデータはサンプル数が 1385, 次元数が 7 の
微分方程式に従って生成された人工データを正規化し
たものである. τ = 0.1, 0.9 のそれぞれの場合におい
て, 今回の提案法と, 一つずつデータを削除する従来
法, データを直接削除して分位点回帰をはじめから学
カーネル分位点回帰分析
習する方法(再学習法)とで計算時間を比較した. 図
分位点(quantile)とは, 標本の分布の特徴を表す
統計量の一種であり, 学習データを昇順に並べて先頭
2 にその結果を示す. 横軸は削除したデータの数, 縦
軸は計算時間(秒)を対数で表したものである.
から 100τ % の位置にある値のことを τ 分位点という.
オーダー τ における分位点回帰の回帰関数は,
y
10
15
20
25
30
35
40
0.1quantile
0.2quantile
0.3quantile
0.4quantile
0.5quantile
0.6quantile
0.7quantile
0.8quantile
0.9quantile
図 2: CPU 時間の比較(左:τ = 0.1, 右:τ = 0.9)
10
15
20
25
30
35
40
x
4.2
図 1: 分位点回帰
n
∑
f (x) = C{
αi K(xi , x) + α0 }
削除するデータ数が少ない場合, 提案法は従来法や
(1)
再学習法よりも十分短い時間でパラメータを推定でき
ている. 削除するデータ数を増やすにつれ, 直接デー
i=1
と定式化される. ただし, C は正則化パラメータ, K
はカーネル関数とする. パラメータ α, α0 は二次最適
化問題を解くことで得られる. また, この式における
タから回帰を行う方が単純に元データよりもサンプル
数が減少するため計算量が減少し, 提案法は計算しな
ければならない行列のサイズは変化せずステップ数が
増大するため, 効果は薄くなる.
KKT条件は以下のように表される.
5
まとめ
αi = τ, i ∈ {i | yi > fτ (xi )}
(2)
αi ∈ [τ − 1, τ ], i ∈ {i | yi = fτ (xi )}
(3)
データを変化させる前後のパラメータの変化量の距離
αi = τ − 1, i ∈ {i | yi < fτ (xi )}
n
∑
αi = 0
(4)
が小さい時に有効なアルゴリズムであることが確認で
(5)
i=1
3
考察
Generalized Decremental Algorithm
適応的学習では最適性条件を満たしながらデータを
削除していかなければならない. 従来法ではデータを
一つずつ繰り返し削除していく必要があり, これは一
次元のパス追跡を繰り返すことになり, パラメータ空
間上を迂回するようなパスとなる. それに対し提案法
では複数データを一度に 0 に近づけていくため, 多次
実験結果より, 提案法の性質を明確にするとともに,
きた. 今後の課題として, 行列の数値計算に関する高
速化が必要であると考えられる.
参考文献
[1] I. Takeuchi, Q. V. Le, T. D. Sears, and A. J. Smola,
Nonparametric Quantile Estimation. J. Mach. Learn.
Res. 7, 1231-1264, 2006.
[2] Y. Li, Y. Liu, and J. Zhu, Quantile Regression in
Reproducing Kernel Hilbert Spaces, Journal of the
American Statistical Association, vol. 102, pages
255-268, 2007.