相対的係りやすさを考慮した 日本語係り受け解析

相対的な係りやすさを考慮した
日本語係り受け解析
NAIST
(4月よりNTT CS研 PD)
工藤 拓
松本 裕治
日本語の係り受け解析
生テキスト
太郎は花子と京都に行きます
形態素解析, 文節同定
太郎は / 花子と / 京都に / 行きます
係り受け解析
太郎は / 花子と / 京都に / 行きます
統計的日本語係り受け解析
 確信度に基づく手法
[春野98, 内元99, 工藤00]
 係り関係はすべて独立と仮定
 統計的な確信度に基づき複数の係り先候補から
係り先を1つ選択
 過去多くの研究
 決定的な手法
[工藤 02]
 Shift-Reduce と同種の手法で決定的に解析
 確信度は必ずしも必要でない
 確信度に基づく手法と同程度の性能
1
準備
太郎は / 花子と / 京都に / 行きます
2
3
4
文節列:
B  {b1 ,, bm }
係り受けパターン列:
D  {d1 ,, d m }
bi
bi
bi , b j
が
bj
に係る:
の係り先候補:
に関する素性:
学習データ:
bi  b j di  j,
d m  1
Ci  {bi 1 ,, bm }
(bi , b j )  R n
(品詞, 単語,それらの組等)
T  { B1, D1 ,, BM , DM }
 { b1, d1 ,, bL , d L }
(係り関係はすべて独立と仮定)
解析手法
[関根 99]
 文末の文節から順に同定
太郎は 花子が 持っている 本を 探している
係り先の選択
cˆ  arg max f( bi , c )
cCi
確信度 f の設計に帰着される
絶対モデルと相対モデル
絶対モデル (旧モデル)
 候補二文節が「係る」か「係らない」かのニ値
分類を考える
 写像 (bi , b j )  {1,1} の導出
+1
-1
太郎は 花子が 持っている 本を 探している
絶対モデル cont.
 線形分類器 (SVM, ME) の場合, 以下の戦略
で分離平面 y  w  (bi , b j ) を構築
学習戦略 1
i, c  Ci
w   (bi , c)  0
if c  bd i
w   (bi , c)  0
if c  bd i
係り先の選択
cˆ  arg max w  (bi , c)
cCi
係りやすさの確信度
絶対モデルの問題点 (1/2)
+1
-1
太郎は 花子が 持っている 本を 探している
+1
太郎は 本を 持っている
{太郎は→探している} → +1
{太郎は→持っている} → +1 ? -1
 素性の工夫で解決可能だが, 別途素性選択が必要
 解析時に正例が複数あったり, 正例が1つもない場合
どうすればよいのか?
相対モデル (提案手法)
 係りやすさは他の候補との関係できまる
 他の候補と比較したときの相対的な係りやすさ
を学習すべき
絶対モデル vs 相対モデル cont.
1 太郎は 花子が 持っている 本を 探している
A: {太郎は→花子が}
B: {太郎は→持っている}
C: {太郎は→本を}
D: {太郎は→探している}
E: {持っている→本を}
F: {持っている→探している}
2 太郎は 本を 持っている
-1
-1
-1
+1
+1
-1
C: {太郎は→本を}
B: {太郎は→持っている}
相対モデル
絶対モデル
w
A (-1)
E (+1)
-1
+1
A
B (+1/-1)
E
D (+1)
C (-1)
F (-1)
2つのグループの境界を求める
B
C
F
D
D > { A,B,C }
E>{F}
B>{C}
相対的な大小関係は数直線上に保持
相対モデル cont.
 以下の戦略で射影ベクトル
wを構築
学習戦略 2
i, c  Ci \ bd i
w  (bi , bd i )  w  (bi , c)
係り先の選択
cˆ  arg max w  (bi , c)
cCi
係りやすさの確信度
絶対モデル vs 相対モデル
絶対モデル
i, c  Ci
絶対的な基準点
w   (bi , c)  0
if c  bd i
w   (bi , c)  0
if c  bd i
相対モデル
i, c  Ci \ bd i
w  (bi , bd i )  w  (bi , c)
相対モデルと優先度学習
 相対モデル: 優先度学習[Herbrich 98] の日本
語係り受け解析への自然な適用
 学習手法
 RankBoost [Freund03]
 Ranking SVM [Joachims02], SVOR [Herbrich 00]
 Markov Random Fields (最大エントロピー法)
 応用
 情報検索, QA 結果のリランキング [Joachims02]
 構文解析結果のリランキング [Collins00,02]
 照応解析 [Iida03,Isozaki04]
最大エントロピー法による定式化
相対モデル
P(bi  b j | Ci ) 
b j  Ci
exp[w  (bi , b j )]
 exp[w  (b , c)]
i
cCi
絶対モデル
P(bi  b j | bi , b j ) 
exp[w  (bi , b j )]
 exp[y  w  (b , b )]
y{1, 1}
周辺化する対象が異なる
i
j
最大エントロピー法による定式化 cont.
P(bi 
学習戦略
2b j | Ci ) 
exp[w  (bi , b j )]
 exp[w  (b , c)]
cCi
i
i, Tc{
d i, b , d }
学習: 最尤推定
b1C
, di1 \,b

L
L
wL (bi , bd i )  w   (bi , c)


ˆ  arg max log[P(bi  bdi | Ci )]
w
w
 i 1




 L



 arg max log  exp[w  (bi , bdi )  w  (bi , b j )]
w

 cCi

 i 1

ここをできるだけ大きくすればよい
相対モデルの学習戦略を近似的に実現するような学習
関連研究
後方文脈モデル [内元 00]
3つ組み/4つ組みモデル [金山 00]
決定的解析モデル [工藤 02]
後方文脈モデル
[内元 00]
 二値分類を三値分類に
 「係る」「係らない」→「係る」「越える」「手前」
 解析時: 確率値の統合
bj
bi
越える
係る
手前
j 1
m
k i 1
k  j 1
P(係る | bi , b j )  P(係る | bi , b j )  P(越える |bi , bk )  P(手前 |bi , bk )
2
 絶対モデルの本質的な問題は解決されない
 学習と解析の戦略が異なる
3つ組み/4つ組みモデル
[金山 00]
 文法を用いて候補を 2つないし 3つに限定
係り先候補:
ci ,1 , ci , 2
P(bi  ci ,n ) 
exp[w  (n, bi , ci ,1 , ci , 2 )]
 exp[w  (n' , b , c
n '1, 2
i
i ,1
, ci , 2 )]
 基本的に多値分類 (3つ組み, 4つ組みは別モデル)
 一般の k 組モデルに拡張困難 (データスパースネス)
 事前に候補を限定する必要がある
候補を用意する必要があるので, 比較対象に含めない
決定的解析モデル
[工藤02]
 Shift-Reduce の変種を用い決定的に解析
 Shift vs Reduce の動作を二値分類
 複数の候補から係り先を選択しない
cˆ  arg max w  (bi , c)
cCi
 長距離の係り関係は shift が多用される
 近くに係りやすいという性質を反映
 長距離の係りうけに弱い
実験
 性能比較
 相対
 絶対
 後方文脈
 決定的解析
(提案法)
(「係る」「係らない」)
(「係る」「越える」「手前」)
(Shift-Reduce)
 係り受けの距離ごとに評価すると?
設定
京大コーパス 3.0
 学習データ:
24,263 文 234,474 文節
 デベロップメントデータ: 4,833 文 47,580 文節
 評価データ:
9,287 文
89,982 文節
 比較対象
 相対
(提案法)
 絶対
(「係る」「係らない」)
 後方文脈
(「係る」「越える」「手前」)
 決定的解析 (shift-reduce) (CaboCha をそのまま利用)
 評価方法
 係りうけ正解率
 文正解率
 素性: 内元 00 とほぼ同一の素性

実験結果
モデル
相対
絶対
後方
決定
係り受け正解率 (%) 文正解率 (%)
(80695)
(9287)
91.37 (73773)
56.00 (5201)
90.93 (73379)
54.21 (5035)
91.09 (73510)
55.21 (5128)
91.23 (73624)
55.59 (5163)
有意差検定 (マクネマー検定 有意水準 1%)
 相対 vs {絶対, 後方} → 有意差あり
 相対 vs 決定
→ 有意差なし
(距離 X で係る係り受けの precision, recall, F値)
学習結果 (距離ごとの評価)
1
2-3
4-5
6-7
8-9
10以上
52,546
15,705
5,607
2,836
1,590
2,411
相対
97.2
86.7
78.1
76.8
75.3
80.8
絶対
97.1
85.5
77.0
75.1
74.6
80.7
後方
97.0
85.9
78.0
76.2
74.9
81.3
決定
97.3
86.8
78.5
75.3
72.6
79.4
 相対, 後方:
 決定:
 相対:
長距離依存に強い
短距離依存に強い
比較的バランスが取れている
(距離によるバイアスがかかりにくい)
モデルの組み合わせ
 性質の違い
 相対モデル: 長距離依存に強い
 決定モデル: 短距離依存に強い
 これらを組み合わせると精度向上!?
 単純な組み合わせ手法
 決定モデルの距離3以下の係り先は無条件に採
用, 残りは相対モデル
 非交差条件が崩れる場合は相対モデルを採用
注意: 予稿集には掲載されておりません
モデルの組みあわせ cont.
モデル
相対
決定
組み合わせ
係り受け正解率
文正解率 (%)
(%)
(80695)
(9287)
91.37 (73773) 56.00 (5201)
91.23 (73624) 55.59 (5163)
91.66 (73969) 56.31 (5229)
 確信度などを用いない単純な組み合わせ
 係り受け正解率は有意に向上
 2つのモデルの戦略, 性質の違い
学習効率
モデル
相対
絶対
後方
決定
学習時間 (分)
71
240
402
1009
{相対, 絶対, 後方}: L-BFGS (準ニュートン法の一種)
決定:
SMOに基づく標準的な SVM パッケージ
 相対モデルは学習効率が非常に良い
 対立する事例は学習を困難にする
まとめと今後の課題
 相対モデル
 他の候補との係りやすさの相対的な比較
 従来法より高性能, 高効率
 性質の違い
 短距離依存: 決定的解析モデルが優位
 長距離依存: 相対モデルが優位
 ad-hoc な統合でもそれなりに精度向上
 どんな時に全係り先候補を見ればよいのか?
実験結果
システム
1 vs 2
(有意差検定)
P値
係り受け
文
相対 vs 絶対
1.3 x 10^-12
6.4 x 10^-9
相対 vs 後方
0.00014
0.031
後方 vs 絶対
0.011
0.0012
相対 vs チャ
0.11
0.34
後方 vs チャ
0.10
0.38
絶対 vs チャ
0.00048
0.0011
検定手法: マクネマー検定 (対応が取れてる場合の母比率差の検定)
P値: 同一母集団からサンプルとられた確率