構造的言語処理を指向する

整合性尺度を用いた
構造的対訳文アラインメント
中澤 敏明 Yu Kun
東京大学大学院情報理工学系研究科
黒橋 禎夫
京都大学大学院情報学研究科
アラインメントの位置付け
入力文
対訳
コーパス
アライメント
翻訳知識
EBMT
翻訳
翻訳文
アラインメントの精度は翻訳知識の質に影響する
⇒ 翻訳知識の質は翻訳の精度に影響する
⇒ アラインメントの精度を向上させることは重要!
アラインメント
• 統計翻訳(SMT)
– さまざまな確率的パラメータを学習
– 辞書などの言語資源は基本的には利用しない
– 頑健な数学的知識に基づいている
• 用例ベース翻訳(EBMT)
– 翻訳用例の獲得
– 辞書などの言語資源を積極的に利用
– アドホックなルールを利用することが多い [Arul 01]
目次
• 研究背景
• 用例ベース翻訳におけるアラインメント
• 整合性尺度を用いた構造的アラインメント
• 実験と考察
• 結論
目次
• 研究背景
• 用例ベース翻訳におけるアラインメント
• 整合性尺度を用いた構造的アラインメント
• 実験と考察
• 結論
アラインメント
• Step1:依存構造解析
• Step2:対応候補の探索
• Step3:対応候補の選択
• Step4:未対応部分の推定
Step1:依存構造解析
• 日本語:形態素解析器JUMAN/構文解析器KNP
• 英語:Charniak’s nlparser → ルールによる変換
J: 交差点で、突然あの車が
飛び出して来たのです。
交差
点で、
突然
あの
車が
飛び出して 来た のです
E: The car came at me from
the side at the intersection.
the car
came
at me
from the side
at the intersection
Step2:対応候補の探索
• 対訳辞書 (研究社の和英・英和辞書)
• 数字の汎化 (二十三 ⇔ twenty three)
• Transliteration (新宿 ⇔ Shinjuku)
交差
点で、
突然
あの
車が
飛び出して 来た のです
the car
came
at me
from the side
at the intersection
Step3:対応候補の選択
• 曖昧性がある候補や、不適切な候補も見つかる
曖昧な対応の例
日本 で
you
保険
will have to file
会社 に 対して
insurance
保険
請求 の
申し立て が
可能です よ
an claim
insurance
with the office
in Japan
Step3:対応候補の選択
• 曖昧性がある候補や、不適切な候補も見つかる
→ 様々な対応候補から適切なものを取捨選択
する必要がある
このステップが
最も重要!
詳細は後ほど。。。
Step4:未対応部分の推定
• 残っているルートノード同士を対応付ける
• 名詞句内のノードをまとめる
• そのほかは親ノードへまとめる
交差
点で、
突然
あの
車が
飛び出して 来た のです
the car
came
at me
from the side
at the intersection
目次
• 研究背景
• 用例ベース翻訳におけるアラインメント
• 整合性尺度を用いた構造的アラインメント
• 実験と考察
• 結論
アラインメントの整合性
• 1 対 複数、複数 対 複数などの曖昧な対応
• 曖昧ではないが誤った対応 (中国=中 ⇔ in)
曖昧な対応の例
日本 で
you
保険
will have to file
会社 に 対して
insurance
保険
請求 の
申し立て が
可能です よ
an claim
insurance
with the office
in Japan
アラインメントの整合性
• 1 対 多、多 対 多などの曖昧な対応
• 曖昧ではないが誤った対応 (中国=中 ⇔ in)
木構造全体が最も整合的に対応づくような
ロバストなアラインメント手法が必要
アラインメントの整合性
近い!
遠い!
アラインメントの整合性
• 1対複数、複数対複数などの曖昧な対応
• 曖昧ではないが誤った対応 (中国=中 ⇔ in)
木構造全体が最も整合的に対応づくような
ロバストなアラインメント手法が必要
距離-スコア関数
arg max f d J (ai , a j ), d E (ai , a j )
alignment
i
j
日本語側距離
英語側距離
整合性スコア(整合性尺度)
ベースライン手法
• 曖昧性のない対応候補は無条件で採用
• 曖昧性のある対応候補は整合性尺度を利用
• 一つの枝の距離はすべて1
→ 二つの対応間の距離=木構造上での移動距離
• 距離-スコア関数
1
1
f d J , d E  

dJ dE
スコア計算例
日本 で
you
保険
will have to file
会社 に 対して
insurance
保険
請求 の
申し立て が
可能です よ
an claim
insurance
1 1

2 1
with the office
in Japan
ベースライン手法
• 曖昧性のない対応候補は無条件で採用
• 曖昧性のある対応候補は整合性尺度を利用
• 一つの枝の距離はすべて1
→ 二つの対応間の距離=木構造上での移動距離
• 距離-スコア関数
1
1
f d J , d E  

dJ dE
距離と距離-スコア関数を改善
距離-スコア関数の改善(1/2)
• 毎日新聞4万対訳文のアラインメント正解データで
距離ペアの頻度分布を計数 [Uchimoto04]
頻
度
の
log
英語側の距離
日本語側の距離
距離-スコア関数
arg max f d J (ai , a j ), d E (ai , a j )
alignment
i
j
日本語側距離
英語側距離
整合性スコア(整合性尺度)
距離-スコア関数の改善(2/2)
• 距離が近い同士のペア → プラス
• 距離が遠い同士のペア → 0
• 距離が近いものと遠いものとのペア → マイナス
ス
コ
ア
英語側の距離
日本語側の距離
距離-スコア関数
arg max f d J (ai , a j ), d E (ai , a j )
alignment
i
j
日本語側距離
英語側距離
整合性スコア(整合性尺度)
係り受けタイプと距離
3
デ格
日本 で
1
文節内
1
連用
3
NP
保険
2
ノ格
2
ガ格
will have to file
1
NN
会社 に 対して
1
文節内
可能です よ
保険
3
NP
insurance
an claim
1
NN
請求 の
申し立て が
you
insurance
3
PP
with the office
3
PP
in Japan
距離-スコア関数
arg max f d J (ai , a j ), d E (ai , a j )
alignment
i
j
日本語側距離
英語側距離
整合性スコア(整合性尺度)
係り受けタイプと距離
日本語
英語
用言:レベルC
6
S / SBAR / SA / :
5
用言:レベルB+ / B
5
VP / ADVP
4
用言:レベルB- / A
4
ADJP / WHADVP
ト格
WHADJP
ヲ格 / ニ格 / デ格
3
NP / PP / INTJ
ガ格 / ノ格 / 連体
2
QP / PRT / PRN
文節内
1
others
用言:レベルA+
3
2
距離を利用した整合性計算
3
デ格
日本 で
1
文節内
1
連用
3
NP
保険
2
ノ格
2
ガ格
will have to file
1
NN
会社 に 対して
1
文節内
可能です よ
保険
3
NP
insurance
an claim
1
NN
請求 の
申し立て が
you
距離=(1,1)
スコア +
insurance
3
PP
with the office
3
PP
in Japan
距離-スコア関数
arg max f d J (ai , a j ), d E (ai , a j )
alignment
i
j
日本語側距離
英語側距離
整合性スコア(整合性尺度)
距離を利用した整合性計算
3
デ格
日本 で
1
文節内
1
連用
3
NP
保険
2
ノ格
2
ガ格
will have to file
1
NN
会社 に 対して
1
文節内
可能です よ
保険
3
NP
insurance
an claim
1
NN
請求 の
申し立て が
you
距離=(1,7)
スコア -
insurance
3
PP
with the office
3
PP
in Japan
距離-スコア関数
arg max f d J (ai , a j ), d E (ai , a j )
alignment
i
j
日本語側距離
英語側距離
整合性スコア(整合性尺度)
アラインメントの整合性尺度
日本 で
you
保険
will have to file
距離-スコア関数
arg max f d J (ai , a j ), d E (ai , a j )
会社 に 対して
alignment
i
j 保険 日本語側距離
請求 の
申し立て が
可能です よ
insurance
an claim
英語側距離
整合性スコア(整合性尺度)
insurance
with the office
in Japan
目次
• 研究背景
• 用例ベース翻訳におけるアラインメント
• 整合性尺度を用いた構造的アラインメント
• 実験と考察
• 結論
アラインメント実験
• 毎日新聞対訳コーパスからランダムに500文
• 正解データとの比較
– 日本語:文字単位 英語:単語単位
– 適合率・再現率・F値
• 対訳辞書
– 研究社 和英 36K 見出し 214K エントリー
– 研究社 英和 50K 見出し 303K エントリー
精度の計算例
E1
9
適合率(P)=
=75%
12
E2
E3
E4
再現率(R)=
E5
E6
9
=82%
11
E7
E8
E9
J1
J2
J3
J4
J5
J6
J7
J8
J9
F値= PとRの調和平均
=78%
結果と考察
適合率
再現率
F値
ベースライン
60.26
61.68
58.79
+距離-スコア関数改善
64.35
61.58
60.81
+係り受け距離
64.93
62.64
61.91
GIZA++ (with JUMAN)
59.9
17.0
26.4
• 距離-スコア関数改善により大幅な適合率向上
• 係り受け距離を考慮することにより全体的な精
度の向上
改善例(1)
J:妥当な判決であると評価したい。
E:I would like to commend that it was a reasonable judgment.
改善例(2)
J:チェチェン紛争は、東欧諸国
の北大西洋条約機構への加盟
要求を一層高めることになろう。
E:The Chechen conflict will
accelerate the call for the
participation of Eastern
European nations in NATO
結論と今後の課題
• 係り受けタイプと距離-スコア関数を導入
• アラインメントの整合性尺度を定義し、適切な
対応候補の選択を可能とすることにより、アラ
インメント精度の向上に成功
• 係り受けタイプに基づく距離を自動学習
• 距離スコア関数のチューニング
• 他の有効なフィーチャの導入