w - 情報論的学習理論と機械学習 (IBISML)

大規模機械学習のための
事例と特徴のセーフスクリーニング
竹内一郎
名古屋工業大学
本日の講演内容の一部は以下の方々との共同研究です
小川晃平,鈴木良規,中川和也,津田宏治,烏山昌幸,奥村翔太,柴垣篤志(敬称略)
I. Takeuchi, Nagoya Institute of Technology
1/38
スパースモデリング
▶
線形モデル
f (x) = w1 x1 + w2 x2 + . . . + wd xd
▶
カーネルモデル
f (x) = α1 K(x, x1 ) + α2 K(x, x2 ) + . . . + αn K(x, xn )
▶
スパースモデリング
▶
{wj }dj=1 の一部が零(一部の特徴のみで f を表現)
▶
{αi }ni=1 の一部が零(一部の事例のみで f を表現)
I. Takeuchi, Nagoya Institute of Technology
2/38
スパースモデリングの例
▶
LASSO(L1 正則化による特徴のスパース化)
w∗ := arg min λ ∥w∥1 +
| {z }
w∈Rd
L1 正則化
n
∑
(yi − f (xi ))2
i=1
(λ > 0 は正則化パラメータ)
▶
SVM(ヒンジ損失関数による事例のスパース化)
∑
1 ⊤
max{0, 1 − yi f (xi )}
α Kα + C
|
{z
}
2
n
α∗ := arg minn
α∈R
i=1
ヒンジ損失関数
(C > 0 は正則化パラメータ,K はカーネル行列)
I. Takeuchi, Nagoya Institute of Technology
3/38
スパース学習の計算コストとスクリーニング
▶
▶
スパース学習の計算コスト
▶
学習後の最適解において,どの wj やどの αi が零とな
るかわからない
▶
スパース学習の計算コストはオリジナルの次元数 d や
事例数 n に依存する
スクリーニングによる高速化
▶
学習前に wj = 0 となる特徴や αi = 0 となる事例を推
定/同定することをスクリーニングと呼ぶ
▶
これらの特徴や事例を訓練集合から除去することによ
り効率的な学習が可能となる
I. Takeuchi, Nagoya Institute of Technology
4/38
ヒューリスティクスと安全スクリーニング
▶
ヒューリスティクス
wj = 0 となる特徴や αi = 0 となる事例を推測して取り除き,
学習後に最適性を確認
▶
▶
Sure independence screening
▶
Shrinking option in libsvm
(Fan et al., 2007)
(Fan et al., 2005)
安全スクリーニング(safe screening)
wj = 0 や αi = 0 となることが保障された特徴や事例を取り
除く(最適性の確認は不要)
▶
安全特徴スクリーニング
(El Ghaoui et al., 2012)
▶
安全事例スクリーニング
(Ogawa et al., 2013)
I. Takeuchi, Nagoya Institute of Technology
5/38
本日の講演内容
▶
Part 1:SVM の安全事例スクリーニング
Ogawa, Suzuki, and Takeuchi. Safe screening of non-support vectors in
pathwise SVM computation. ICML2013.
▶
Part 2:高次交互作用モデルの安全特徴スクリーニング
Nakagawa, Suzumura, Karasuyama, Tsuda, and Takeuchi. Safe feature pruning
for sparse high-order interaction models. arXiv:1506.08002.
▶
Part 3:安全スクリーニング技術の応用
▶
感度分析
Okumura, Suzuki, and Takeuchi. Quick sensitivity analysis for
incremental data modification. KDD2015.
▶
モデル選択
Shibagaki, Suzuki, Karasuyama, and Takeuchi. Regularization Path of
Cross-Validation Error Lower Bounds. NIPS2015.
I. Takeuchi, Nagoya Institute of Technology
6/38
Part 1
SVM の安全事例スクリーニング
I. Takeuchi, Nagoya Institute of Technology
7/38
SVM の安全事例スクリーニングの例
2
x2
1
0
-1
-2
-3
-2
-1
0
x1
1
2
Before safe screening
人工データ (n = 1000 and d = 2)
I. Takeuchi, Nagoya Institute of Technology
8/38
SVM の安全事例スクリーニングの例
[
[
Before safe screening
人工データ (n = 1000 and d = 2)
I. Takeuchi, Nagoya Institute of Technology
8/38
2
1
0
[
x2
SVM の安全事例スクリーニングの例
-1
-2
-3
-2
-1
0
x1
1
2
Before safe screening
[
After safe screening
人工データ (n = 1000 and d = 2)
I. Takeuchi, Nagoya Institute of Technology
8/38
[
[
SVM の安全事例スクリーニングの例
[
Before safe screening
[
After safe screening
人工データ (n = 1000 and d = 2)
I. Takeuchi, Nagoya Institute of Technology
8/38
[
[
SVM の安全事例スクリーニングの例
[
Before safe screening
[
After safe screening
人工データ (n = 1000 and d = 2)
事例を削除しても解の最適性が保障される
I. Takeuchi, Nagoya Institute of Technology
8/38
サポートベクトルと非サポートベクトル
▶
SVM の分類規則
{
−1 if f (x) < 0,
ŷ =
+1 if f (x) ≥ 0,
f (x) = w∗⊤ x =
n
∑
αi∗ yi K(x, xi )
i=1
主形式
双対形式
ただし,{(xi , yi )}ni=1 は訓練事例集合
▶
SVM は事例に関してスパース
αi∗ = 0 ⇒ 分類関数 f に影響を与えない ⇒ 非 SV
I. Takeuchi, Nagoya Institute of Technology
9/38
マージンと非サポートベクトル
4
• サポートベクトル (SVs)
*
2
X2
0
事例スパース
*
−2
−1
*
*
*
−3
◦ ◦: yi f (xi ) > 1 ⇒ αi = 0
|
{z
}
*
* *
*
*
**
*
*
* **** * * *
*
*
*
*** * *
* ***
* *
* *
*
*
**
* *
** * *
**
*
*
*
*
*
1
• •: yi f (xi ) = 1 ⇒ αi ∈ [0, C]
• 非サポートベクトル (non-SVs)
*
3
⋆ ⋆: yi f (xi ) < 1 ⇒ αi = C
*
*
−3
−2
−1
0
1
2
3
X1
事前に最適解 w∗ において,
yi f (xi ) = (yi xi )⊤ w∗ > 1
が成り立つことがわかれば,事例 (xi , yi ) を捨ててもよい
I. Takeuchi, Nagoya Institute of Technology
10/38
安全事例スクリーニングの基本アイデア1
▶
主問題の解空間 Rd において,最適解 w∗ は未知だが,最適
解を含む球 B
w∗ ∈ B := {w ∥w − m∥ ≤ r},
が既知である状況を考える(m:中心,r:半径)
I. Takeuchi, Nagoya Institute of Technology
11/38
安全事例スクリーニングの基本アイデア1
▶
主問題の解空間 Rd において,最適解 w∗ は未知だが,最適
解を含む球 B
w∗ ∈ B := {w ∥w − m∥ ≤ r},
が既知である状況を考える(m:中心,r:半径)
I. Takeuchi, Nagoya Institute of Technology
11/38
安全事例スクリーニングの基本アイデア1
▶
主問題の解空間 Rd において,最適解 w∗ は未知だが,最適
解を含む球 B
w∗ ∈ B := {w ∥w − m∥ ≤ r},
が既知である状況を考える(m:中心,r:半径)
I. Takeuchi, Nagoya Institute of Technology
11/38
安全事例スクリーニングの基本アイデア2
▶
マージン yi f (xi ) = (yi xi )⊤ w∗ の下限と上限:
下限: (yi xi )⊤ w∗ ≥ min (yi xi )⊤ w = (yi xi )⊤ m − ∥yi xi ∥r,
w∈B
⊤
∗
上限: (yi xi ) w ≤ max(yi xi )⊤ w = (yi xi )⊤ m + ∥yi xi ∥r
w∈B
I. Takeuchi, Nagoya Institute of Technology
12/38
安全事例スクリーニングの基本アイデア2
▶
マージン yi f (xi ) = (yi xi )⊤ w∗ の下限と上限:
下限: (yi xi )⊤ w∗ ≥ min (yi xi )⊤ w = (yi xi )⊤ m − ∥yi xi ∥r,
w∈B
⊤
∗
上限: (yi xi ) w ≤ max(yi xi )⊤ w = (yi xi )⊤ m + ∥yi xi ∥r
w∈B
I. Takeuchi, Nagoya Institute of Technology
12/38
安全事例スクリーニングの基本アイデア2
▶
マージン yi f (xi ) = (yi xi )⊤ w∗ の下限と上限:
下限: (yi xi )⊤ w∗ ≥ min (yi xi )⊤ w = (yi xi )⊤ m − ∥yi xi ∥r,
w∈B
⊤
∗
上限: (yi xi ) w ≤ max(yi xi )⊤ w = (yi xi )⊤ m + ∥yi xi ∥r
w∈B
I. Takeuchi, Nagoya Institute of Technology
12/38
安全事例スクリーニングの基本アイデア3
最適解 w∗ が球 B に含まれている,すなわち,w∗ ∈ B ならば,
min(yi xi )⊤ w > 1 ⇒ (yi xi )⊤ w∗ > 1 ⇒ αi∗ = 0
|
{z
}
|
{z
}
| {z }
w∈B
マージンの下限>1
マージン>1
非 SV
最適解 w∗ が未知であっても,最適解を含む
球 B が既知であれば,非 SV を同定できる!
I. Takeuchi, Nagoya Institute of Technology
13/38
最適解を含む球(定理)
▶
以下のクラスの最適化問題(SVM を含む)を考える:
∑
1
w := arg min J(w) := ∥w∥2 + C
ℓi (w).
2
w∈Rd
n
∗
i=1
ただし,ℓi (w) := ℓ(yi , x⊤
i w) は凸な損失関数とする.
▶
任意の ∈ Rd に対し,最適解 w∗ は以下の球に含まれる:
{ }
w∗ ∈ B := w ∥w − m∥ ≤ r .
ただし,球の中心と半径は,∇ℓi () ∈ Rd を ℓi の における
任意の劣勾配すると,以下のように与えられる:
(
)
n
n
∑
∑
1
1
m :=
−C
∇ℓi () , r := + C
∇ℓi () .
2
2
i=1
I. Takeuchi, Nagoya Institute of Technology
i=1
14/38
最適解を含む球(定理)
▶
以下のクラスの最適化問題(SVM を含む)を考える:
∑
1
w := arg min J(w) := ∥w∥2 + C
ℓi (w).
2
w∈Rd
n
∗
i=1
ただし,ℓi (w) := ℓ(yi , x⊤
i w) は凸な損失関数とする.
▶
任意の w̃ ∈ Rd に対し,最適解 w∗ は以下の球に含まれる:
{ }
w∗ ∈ B := w ∥w − m∥ ≤ r .
ただし,球の中心と半径は,∇ℓi (w̃) ∈ Rd を ℓi の w̃ におけ
る任意の劣勾配すると,以下のように与えられる:
(
)
n
n
∑
∑
1
1
m :=
w̃ − C
∇ℓi (w̃) , r := w̃ + C
∇ℓi (w̃) .
2
2
i=1
I. Takeuchi, Nagoya Institute of Technology
i=1
14/38
最適解を含む球(定理)
▶
以下のクラスの最適化問題(SVM を含む)を考える:
∑
1
w := arg min J(w) := ∥w∥2 + C
ℓi (w).
2
w∈Rd
n
∗
i=1
ただし,ℓi (w) := ℓ(yi , x⊤
i w) は凸な損失関数とする.
▶
任意の w̃ ∈ Rd に対し,最適解 w∗ は以下の球に含まれる:
{ }
w∗ ∈ B := w ∥w − m∥ ≤ r .
ただし,球の中心と半径は,∇ℓi (w̃) ∈ Rd を ℓi の w̃ におけ
る任意の劣勾配すると,以下のように与えられる:
(
)
n
n
∑
∑
1
1
m :=
w̃ − C
∇ℓi (w̃) , r := w̃ + C
∇ℓi (w̃) .
2
2
i=1
I. Takeuchi, Nagoya Institute of Technology
i=1
14/38
直感的には
▶
最適解 w∗ を含む球 B を構成するには任意の近似解 w̃ ∈ Rd
を利用する
▶
近似解 w̃ が最適解 w∗ に近いと半径 r が小さくなり,スク
リーニングできる非 SV が増える
MATLAB demo
I. Takeuchi, Nagoya Institute of Technology
15/38
[
[
安全事例スクリーニングの例
[
Before safe screening
I. Takeuchi, Nagoya Institute of Technology
[
After safe screening
16/38
近似解 w̃ の求め方
▶
正則化パラメータ C が小さいときの自明な解を近似解とする
▶
異なる正則化パラメータ C における解を近似解とする
▶
サブサンプリングなどにより近似解を得る(Part 3 参照)
I. Takeuchi, Nagoya Institute of Technology
17/38
実験結果1
Data
Sample Size n
LIBLINEAR
Sc.Rule
Sc.SVM
Sc.Total
acoustic
covtype
yahoo
url
kdd-a
kdd-b
78,832
581,012
1,036,492
2,396,130
8,407,752
19,264,097
0.16
0.54
5.55
10.39
18.20
37.54
0.03
0.09
1.13
1.71
2.37
4.53
0.01
0.11
1.39
6.92
3.37
2.26
0.038
0.199
2.518
8.631
5.740
6.788
最小の正則化パラメータ C0 = (||yy ⊤ ⊙ K||∞ )−1 における自明な最適解を近似
解として C = C0 /0.8 における線形 SVM の最適解を求める計算コスト(秒)
I. Takeuchi, Nagoya Institute of Technology
18/38
実験結果2(C1 < C2 < . . . の解を順次求める)
Data Set
Kernel (γ)
LIBSVM/LIBLINEAR
Sc.Rule
Sc.SVM
Sc.Total
dna
n = 2, 000
d = 180
Linear
RBF (0.1/d)
RBF (1/d)
RBF (10/d)
27.54
138.8
6.13
2.95
0.184
0.6979
0.6239
0.4729
26.14
104.4
3.4
2.43
26.32
105.1
4.024
2.903
DIGIT1
n = 1, 500
d = 241
Linear
RBF (0.1/d)
RBF (1/d)
RBF (10/d)
235.5
801
72.84
5.57
0.4799
1.302
1.281
1.096
231.6
731
63.82
3.08
232.1
732.3
65.1
4.176
satimage
n = 4, 435
d = 36
Linear
RBF (0.1/d)
RBF (1/d)
RBF (10/d)
115.2
21345
448
32.06
0.3319
6.465
7.966
8.181
114
20604
322.3
5.74
114.3
20610
330.3
13.92
gisette
n = 6, 000
d = 5, 000
Linear
RBF (0.1/d)
RBF (1/d)
RBF (10/d)
994.1
418.9
55.74
56.68
32.34
15.19
14.26
10.32
937.4
389.5
37.93
54.44
969.7
404.7
52.19
64.76
mushrooms
n = 8, 124
d = 112
Linear
RBF (0.1/d)
RBF (1/d)
RBF (10/d)
5.22
757.2
143.6
100.2
0.5139
28.23
24.24
16.32
4.25
603.7
95.79
81.21
4.765
631.9
120
97.53
news20
n = 19, 996
d = 1, 355, 191
Linear
RBF (0.1/d)
RBF (1/d)
RBF (10/d)
4403
22.15
4664
59656
26.59
16.05
83.55
166.5
4504
21.52
3760
51310
4531
37.57
3844
51477
shuttle
n = 43, 500
d=9
Linear
RBF (0.1/d)
RBF (1/d)
RBF (10/d)
81.53
58866
55717
51568
1.607
638.1
692.7
738.5
73.31
56118
49999
43053
74.92
56756
50692
43792
I. Takeuchi, Nagoya Institute of Technology
19/38
Part 2
スパース高次交互作用モデルの
安全特徴スクリーニング
I. Takeuchi, Nagoya Institute of Technology
20/38
L1 正則化によるスパース線形モデル(LASSO)
▶
LASSO の主問題
∗
w := arg min λ∥w∥1 +
n
∑
w∈Rd
▶
i=1
LASSO の双対問題
1
γ ∗ := arg minn
γ∈R 2
▶
(yi − w⊤ xi )2
(
)2
n
∑
1
γ i − yi
s.t. xij γi ≤ 1, ∀j
λ
スパース性の条件
n
∑
xij γi∗ < 1
i=1
⇒
wj∗ = 0,
i=1
I. Takeuchi, Nagoya Institute of Technology
21/38
LASSO の安全特徴スクリーニング
▶
▶
双対最適解 γ ∗ を含む領域 R
▶
(El Ghaoui et al., 2012)
▶
(Liu et al., 2014)
▶
(Fercoq et al., 2015)
特徴スクリーニング
γ ∗ ∈ R ならば,
n
n
∑
∑
max xij γi < 1 ⇒ xij γi∗ < 1 ⇒ wj∗ = 0
γ∈R i=1
|
{z
}
|i=1 {z
}
| {z }
スコアの上限が 1 未満
スコアが 1 未満
スパース
双対最適解 γ ∗ が未知であっても,最適解を含む領域
R が既知であれば,係数が零の特徴を同定できる!
I. Takeuchi, Nagoya Institute of Technology
22/38
高次交互作用モデル
▶
オリジナルの特徴(特徴数 d 個)
{(zi , yi )}ni=1 , zi ∈ [0, 1], yi ∈ R
▶
高次交互作用モデル(特徴数 D =
∑r
()
d
ρ=1 ρ
個)
f (zi ) = w1 z1 + w2 z2 + . . . + wd zd
+ w1,2 z1 z2 + w1,3 z1 z3 + . . . + wd−1,d zd−1 zd
+ w1,2,3 z1 z2 z3 + w1,2,4 z1 z2 z4 + . . . + wd−2,d−1,d zd−2 zd−1 zd
▶



X := 

n×D
拡張入力行列 X ∈ Rn×D を考え,LASSO とスクリーニング
(main effect)
1
z1
.
.
.
n
z1
(2
nd
...
1
zd
1 1
z1
z2
.
.
.
.
n
zd
.
.
.
n n
z1 z2
.
.
...
I. Takeuchi, Nagoya Institute of Technology
···
order interactions)
...
.
.
.
...
1
1
zd−1
zd
.
.
.
n
n
zd−1
zd
...
.
.
.
...
1 1
1
z1
z2 · · ·zr
.
.
.
n n
n
z1 z2 · · ·zr
(r
th
...
.
.
.
...
order interactions)
1
1
1
zd−r+1
zd−r+2
· · ·zd
.
.
.
n
n
n
zd−r+1
zd−r+2
· · ·zd





23/38
計算コストとコスト削減のトリック
▶
例えば,d = 5000, r = 5 の場合,D > 1016
▶
すべての高次交互作用特徴のスコアの上限を計算できない
n
∑
γi xij , j = 1, . . . , D.
max γ∈R i=1
▶
高次交互作用項の木構造を利用
I. Takeuchi, Nagoya Institute of Technology
24/38
安全枝刈りルール(Safe Pruning Rule)
ノード(特徴)j のための安全枝刈りルール:spr(j)
n
∑
spr(j) is true ⇒ xij ′ γi∗ < 1 ⇒ wj∗′ = 0 for all j ′ ∈ Des(j),
i=1
ただし,Des(j) はノード j の子孫ノードの集合
I. Takeuchi, Nagoya Institute of Technology
25/38
安全枝刈りルールの動作
spr(z1 ) = false,
I. Takeuchi, Nagoya Institute of Technology
A = {z1 }
26/38
安全枝刈りルールの動作
spr(z1 z2 ) = true,
I. Takeuchi, Nagoya Institute of Technology
A = {z1 }
26/38
安全枝刈りルールの動作
spr(z1 z3 ) = false,
I. Takeuchi, Nagoya Institute of Technology
A = {z1 , z1 z3 }
26/38
安全枝刈りルールの動作
spr(z1 z3 z4 ) = false,
I. Takeuchi, Nagoya Institute of Technology
A = {z1 , z1 z3 , z1 z3 z4 }
26/38
安全枝刈りルールの動作
spr(z1 z4 ) = true,
I. Takeuchi, Nagoya Institute of Technology
A = {z1 , z1 z3 , z1 z3 z4 }
26/38
安全枝刈りルールの動作
spr(z2 ) = true,
I. Takeuchi, Nagoya Institute of Technology
A = {z1 , z1 z3 , z1 z3 z4 }
26/38
安全枝刈りルールの動作
spr(z3 ) = true,
I. Takeuchi, Nagoya Institute of Technology
A = {z1 , z1 z3 , z1 z3 z4 }
26/38
安全枝刈りルールの動作
spr(z4 ) = false,
I. Takeuchi, Nagoya Institute of Technology
A = {z1 , z1 z3 , z1 z3 z4 , z4 }
26/38
安全枝刈りルールの動作
A = {z1 , z1 z3 , z1 z3 z4 , z4 }
I. Takeuchi, Nagoya Institute of Technology
26/38
実験結果
(λ1 > λ2 > . . . の最適解の計算)
180
1.8e+08
IB
SPR
140
1.4e+08
traverse
time
120
100
80
7000
IB
SPR
1.6e+08
1.2e+08
1e+08
8e+07
60
6e+07
40
4e+07
20
2e+07
0
-2 -1.8 -1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0
6000
# of feature
160
depth 1
depth 2
depth 3
4000
3000
2000
1000
0
-2 -1.8 -1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0
log Lam/LamMax
5000
0
-2 -1.8 -1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0
log Lam/LamMax
log Lam/LamMax
protein
450
2.5e+08
IB
SPR
350
traverse
time
300
250
200
1600
IB
SPR
2e+08
1.5e+08
1e+08
150
100
1400
1200
# of feature
400
depth 1
depth 2
depth 3
1000
800
600
400
5e+07
200
50
0
-2 -1.8 -1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0
log Lam/LamMax
0
-2 -1.8 -1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0
log Lam/LamMax
0
-2 -1.8 -1.6 -1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0
log Lam/LamMax
mnist
Itemset Boosting (Saigo et al., 2006) と比較
I. Takeuchi, Nagoya Institute of Technology
27/38
Part 3
安全スクリーニング技術の応用
(概要)
I. Takeuchi, Nagoya Institute of Technology
28/38
安全スクリーニング技術の応用
▶
▶
安全スクリーニング技術のキモ
▶
よい近似解 w̃ が得られているとき,
▶
最適解 w∗ を含む領域 B がわかり,
▶
最適解の線形スコア θ ⊤ w∗ の下限と上限を計算可能
線形スコアの例(2クラス分類問題)
{
+1 if x⊤ w∗ > 0,
⊤ ∗
ŷ = sign(f (x)) = sign(x w ) =
−1 if x⊤ w∗ < 0.
すなわち,
min x⊤ w > 0 ⇒ ŷ = +1,
w∈B
max x⊤ w < 0 ⇒ ŷ = −1.
w∈B
最適解を知らなくても2クラス分類ができる!
I. Takeuchi, Nagoya Institute of Technology
29/38
逐次学習のための感度分析 (KDD2015)
I. Takeuchi, Nagoya Institute of Technology
30/38
逐次学習のための感度分析 (KDD2015)
I. Takeuchi, Nagoya Institute of Technology
30/38
逐次学習のための感度分析 (KDD2015)
I. Takeuchi, Nagoya Institute of Technology
30/38
逐次学習のための感度分析 (KDD2015)
The computational cost depends only on |A| + |R|.
I. Takeuchi, Nagoya Institute of Technology
30/38
感度分析
▶
方針
∗ を近似解 w̃ とし,更新後の最適解
更新前の最適解 wold
∗
wnew に関する感度分析(2クラス分類など)を行う
▶
▶
実験設定
▶
kdd2010 ベンチマークデータ
ntrain = |D old | > 8 million and ntest > 0.5 million
▶
訓練事例の 0.01, 0.1, 1%を更新
実験結果
% of updated instances
0.01%
0.1%
1%
% of label identification
% of speed-ups
99.987%
99.888%
99.958%
99.887%
99.867%
99.791%
99%以上のテストラベルを 1/1000 の計算コストで確定
I. Takeuchi, Nagoya Institute of Technology
31/38
精度保障付クロスバリデーション
(NIPS2015)
0.32
0.3
Validation Error
0.28
0.26
0.24
0.22
0.2
0.18
0.16
0.001
0.01
0.1
1
10
Regularization Parameter C
100
1000
Model selection can be done with approximation guarantee.
I. Takeuchi, Nagoya Institute of Technology
32/38
精度保障付クロスバリデーション
(NIPS2015)
0.32
0.3
Validation Error
0.28
0.26
0.24
0.22
0.2
0.18
0.16
0.001
0.01
0.1
1
10
Regularization Parameter C
100
1000
Model selection can be done with approximation guarantee.
I. Takeuchi, Nagoya Institute of Technology
32/38
精度保障付クロスバリデーション
(NIPS2015)
0.32
9DOLGDWLRQ(UURU3DWK
0.3
*ULG6HDUFK
Validation Error
0.28
0.26
0.24
0.22
0.2
0.18
0.16
0.001
0.01
0.1
1
10
Regularization Parameter C
100
1000
Model selection can be done with approximation guarantee.
I. Takeuchi, Nagoya Institute of Technology
32/38
精度保障付クロスバリデーション
(NIPS2015)
0.32
9DOLGDWLRQ(UURU3DWK
0.3
$SS9DO(UU3DWK
Validation Error
0.28
0.26
0.24
0.22
0.2
0.18
0.16
0.001
0.01
0.1
1
10
Regularization Parameter C
100
1000
Model selection can be done with approximation guarantee.
I. Takeuchi, Nagoya Institute of Technology
32/38
精度保障付クロスバリデーション
(NIPS2015)
0.32
9DOLGDWLRQ(UURU3DWK
0.3
$SS9DO(UU3DWK
Validation Error
0.28
0.26
0.24
0.22
0.2
ε 0.18
0.16
0.001
0.01
0.1
1
10
Regularization Parameter C
100
1000
Model selection can be done with approximation guarantee.
I. Takeuchi, Nagoya Institute of Technology
32/38
なぜ保障できるか(その1)
▶
∗ の下
安全スクリーニング技術を使うと,評価スコア x⊤ wC
限・上限を正則化パラメータ C の関数として表現可能
▶
∗ の符号が不
正則化パラメータが一定範囲内にあれば,x⊤ wC
変であることを利用
MNPM O
RTQ SUVX[ WZY \^_a] ` VcQ [eb d
KLNK M
V [ WfY \ ] Nhg
PRO QTSVUNZ WYX [/]R\ ^ U`O Zb_ a
,
+*
(' )
&
%
#$
"!
,
-/.120 463 587:;=9 <
IG H JLK
> .?2 0 4 3 5@7 ; 9 <BADC .FEB.?2 0 4 3 < 587 ; 9 <
I. Takeuchi, Nagoya Institute of Technology
+*
(' )
&
%
#$
"!
U Z WYX [ \ LTc
-/.120 463 587:;9 <
GE F HJI
= . 20 4 3 5>7:; 9 <@?BA .DC@. 20 4 3 < 587:; 9 <
33/38
なぜ保障できるか(その2)
∗⊤ x′ is written as
A lower and an upper bounds of wC
i
∗⊤ ′
LB(wC
xi ) =
α(ŵC̃ , x′i ) −
∗⊤ ′
UB(wC
xi ) = −β(ŵC̃ , x′i ) +
C
C̃
C
C̃
(β(ŵC̃ , x′i ) + γ(g(ŵC̃ ), x′i )),
(α(ŵC̃ , x′i ) + δ(g(ŵC̃ ), x′i )),
where, for C ≥ C̃,
1
∗⊤ ′
(∥ŵC̃ ∥∥x′i ∥ + wC̃
xi ) ≥ 0,
2
1
∗⊤ ′
β(ŵC̃ , x′i ) := (∥ŵC̃ ∥∥x′i ∥ − wC̃
xi ) ≥ 0,
2
α(ŵC̃ , x′i ) :=
and
1
⊤ ′
)xi ) ≥ 0,
(∥g(ŵC̃ ), x′i )∥∥x′i ∥ + g(ŵC̃
2
1
⊤ ′
δ(g(ŵC̃ ), x′i ) := (∥g(ŵC̃ ), x′i )∥∥x′i ∥ − g(ŵC̃
)xi ) ≥ 0,
2
γ(g(ŵC̃ ), x′i ) :=
where g(ŵC̃ ), x′i ) is the gradient vector of the objective function at w = ŵC̃ .
I. Takeuchi, Nagoya Institute of Technology
34/38
なぜ保障できるか(その3)
▶
評価誤差の変化の下限・上限を正則化パラメータ C の関数
として計算可能
796 8$:;=<>:?ABD@ CFE ?HBJG IKC
LM6 8$:N;O<>:?ABD@ CFE ?HBJG IKC
354
2
.
)1 22
0
+/- .
(
*+,
')(
I. Takeuchi, Nagoya Institute of Technology
!"# $&%
35/38
なぜ保障できるか(その3)
▶
評価誤差の変化の下限・上限を正則化パラメータ C の関数
として計算可能
796 8$:;=<>:?ABD@ CFE ?HBJG IKC
LM6 8$:N;O<>:?ABD@ CFE ?HBJG IKC
354
2
.
)1 22
0
+/- .
(
*+,
')(
I. Takeuchi, Nagoya Institute of Technology
!"# $&%
35/38
まとめと今後の課題
▶
▶
大規模データのスパース学習に安全スクリーニングは有効
▶
安全事例スクリーニング
▶
高次交互作用モデルの安全特徴スクリーニング
▶
特徴と事例の同時スクリーニング
十分によい近似解 ⇒ 最適解の線形スコアの下限・上限
▶
感度分析
▶
モデル選択
▶
差分プライバシ
I. Takeuchi, Nagoya Institute of Technology
36/38
参考文献
▶
▶
▶
▶
▶
▶
▶
▶
▶
L. El Ghaoui, V. Viallon and T. Rabbani. Safe feature elimination in sparse supervised learning. Pacific
Journal of Optimization, 2012.
J. Liu, Z. Zhao, J. Wang and J. Ye. Safe Screening with Variational Inequalities and Its Application to
Lasso. ICML2014.
J. Fan and J. Lv. Sure independence screening for ultrahigh dimensional feature space. Journal of The
Royal Statistical Society B, 70:849911, 2008.
R. Fan, K. Chang, C. Hsieh, X. Wang and C. Lin. LIBLINEAR: A library for large linear classification.
Journal of Machine Learning Research, vol. 9, pp. 18711874, 2008.
H. Saigo, T. Uno and K. Tsuda. Mining complex genotypic features for predicting hiv-1 drug resistance.
Bioinformatics, 24:24552462, 2006.
K. Ogawa, Y. Suzuki and I. Takeuchi. Safe screening of non-support vectors in pathwise SVM
computation. ICML2013.
K. Nakagawa, S. Suzumura, M. Karasuyama, K. Tsuda and I. Takeuchi. Safe feature pruning for sparse
high-order interaction models. arXiv:1506.08002, 2015.
S. Okumura, Y. Suzuki and I. Takeuchi. Quick sensitivity analysis for incremental data modification and
its application to leave-one-out CV in linear classification problems. KDD2015.
A. Shibagaki, Y. Suzuki, M. Karasuyama and I. Takeuchi. Regularization path of cross-Validation error
lower bounds. NIPS2015.
ご静聴ありがとうございました
I. Takeuchi, Nagoya Institute of Technology
37/38