``Exponentiated Gradient Algorithms for LogLinear Structured Prediction’’
A.Globerson, T.Y.Koo, X.Carreras, M.Collins
を読んで
渡辺一帆(東大・新領域)
構成
1.Introduction
2.Primal and Dual Problems for Log-Linear Models(モデルと主、双対問題)
3.Exponentiated Gradient Algorithms(Kivinen & Warmuth, 1997)(アルゴリズム)
4.Convergence Results (収束性の証明)
4.1 Divergence Measures
4.2 Convergence of the Batch Algorithm
4.3 Convergence of the Online Algorithm
この辺りがメイン
4.4 Convergence Rate of the Batch Algorithm
4.5 Convergence for Max-Margin Learning
5. Structured Prediction with LLEG (ラベルが構造を持つ場合)
6. Related Work
7. Experiments(多クラス分類と係り受け解析で実験)
8. Conclusion
対数線形モデル(2節)
入力 x
ラベル y Y (xに依存しても良い)
時系列、木などの内部構造をもつ高次元データ
特徴ベクトル
( x, y) R d
を用意
(条件付き)対数線形モデル
p( y | x; w )
1 w ( x , y )
e
Zx
w
○ x の分類は
y* arg maxw ( x, y)
y
○ ロジスティック回帰モデルを含む
:パラメータ
主問題と双対問題(2節)
n
学習データ ( xi , yi )i1
正則化された対数尤度を最大化
主問題
C
n
w arg max log p( yi | xi ; w) || w ||2
2
w
i 1
*
Q (α ) とおく
双対問題
n
1
α arg min i , y log i , y
|| w(α) ||2
2C
α
i 1 y
*
n
w(α) i , y i , y
i 1
i, y ( xi , yi ) ( xi , y)
y
制約: 各 αi は確率分布 ( i , y 1)
y
( αi
と書く)
導出
n
log p( yi | xi ; w)
i 1
C
|| w ||2
2
C
log expw( ( xi , y) ( xi , yi )) || w ||2
i 1
y
2
w i, y Zi exp w i , y
n
i, y
n
i , y log
i 1
y
1 w i , y
e
Z i w
(等号は i , y
C
log Z i || w ||2 L(w, α)
2
i 1
e
i,y
e
w i , y
y
L(w, α )
0
w
y
n
のとき)
1 n
w i , y i , y
C i 1 y
これを L(w, α) に代入してQを得る
とおく
Exponentiated Gradient(3節)
• Exponentiated Gradient Algorithm (Kivinen and Warmuth, 1997)
α t n を
t 1
i, y
1
it, y e i , y
Zi
i , y
Q(α)
i , y
により更新
Zi it, yˆ e
i , yˆ
:学習係数
ˆ
y
オンラインだと
i , y
i , y
Q(α1t 1 , α t21 ,...,α ti 11 , α ti ,...,α tn )
双対問題のQだと
i , y 1 log i , y
1
w (α ) i , y
C
とする
ダイバージェンス(4.1節)
α, β n 間のダイバージェンス
• KL-ダイバージェンス
D[α i || βi ] i , y log
y
i, y
D[α || β] D[α i || βi ] i , y log
i , y
i
i
y
• Bregman ダイバージェンス
i, y
i , y
Qˆ (α) i , y logi , y
i
y
Qˆ (α):凸関数
BQˆ [α || β] Qˆ (α ) Qˆ (β) Qˆ (β) (α β)
• マハラノビス距離
M A [α || β]
1
(α β)T A(α β)
2
1
Qˆ (α ) α T Aα
2
収束性の証明(4.2節)
• Lemma 1
Qˆ は任意の凸関数(具体的な形にはよらない)
D[α t 1 || α t ] BQˆ [α t 1 || α t ] のようにηをとれば
1
Qˆ (α t ) Qˆ (α t 1 ) D[α t || α t 1 ]
EGの更新で Qˆ は単調減少する
双対問題のQだと
• Lemma 2
0
1
1 n | A |
1
| A | max (i , y ),( j , z ) | A(i , y ),( j , z ) | max (i , y ),( j , z ) | i , y j , z |
C
ととれば
Q(α t ) Q(α t 1 )
1
D[α t || α t 1 ]
(略証)
BQ[αt 1 || αt ] D[αt 1 || αt ] M A[αt 1 || αt ] となることを使う
○ オンラインも同様に証明可能 (4.3節)
収束の速さ(4.4節)
• Lemma 4 (Kivinen & Warmuth, 1997)
任意の u に対し、
n
Q(αt ) Q(u) D[u || αt ] D[u || αt 1 ] D[αt || αt 1 ]
Q(αt 1 ) Q(u) D[u || αt ] D[u || αt 1 ]
Lemma 2
Q(α
T 1
t=1,…Tの和をとり
Qが単調減少することから
D[u || α1 ] D[u || αT 1 ]
) Q(u)
T
Q(α
u α*(最適解)とすると
T 1
D[α* || α1 ]
) Q(α )
T
*
1
Q(αT 1 ) Q(α* ) とするには T O
1
2
○ Max-Marginの場合( QMM (α) bT α α T Aα のとき)も同様 (4.5節)
構造があるとき(5節)
ラベル
はパーツ r の集合だとする
y
yR
( x, y) ( x, r )
:パーツ全体
のように分解できるとする
ry
αti の代わりに θti
変換は
を使う
θti {it,r | r R}
ry
t
it, y (θ ti ) exp
i ,r
t
it,r 1 it,r
i , r
パーツの個数だけ
1
w (α(θt )) ( xi , r )
C
で更新できる。
(EGでの i, y はyに含まれるrに関する項のみきいてくるので)
実験(7節)
この例では(たまたま)
• 多クラス分類
w y x
p( y | x) e
y {1,...,10}
wy , x R
784
目
的
関
数
の
値
EG(primal)も単調増加(しかも速い)
分
類
精
度
共役勾配法、L-BFGSと比較
計算時間
計算時間
• 構造がある場合(係り受け解析)
目
的
関
を単語のペア (h, m)に与える 数
の
値
解
析
精
度
特徴ベクトル ( x, h, m)
計算時間
計算時間
結論
• 対数線形モデルに対し最適解への収束が保証され
たアルゴリズムを提案
• 証明のほとんどはBregmanダイバージェンスとKLダ
イバージェンスの間の関係に因る
• 他の関数Qについても同様の解析が可能であると
期待される
• オンラインアルゴリズムについても1/Tの収束の速さ
を証明するのは今後の課題
© Copyright 2026 ExpyDoc