ppt - 知能情報・生体工学研究室(MIBEL)

整数計画法を用いたフレーズ対応
最適化による翻訳システムの改良
システム情報工学研究科 1年
学籍番号:200820634
氏名:越川 満
指導教員:山本 幹雄
統計的機械翻訳
研究の目的
提案手法
評価実験
まとめ
機械翻訳に対する需要

現在、ウェブ上には膨大なテキスト情報
が存在


様々な言語で表現
翻訳手段の一つ:機械翻訳
その他
韓国語
ポルトガル語
イタリア語
ロシア語
英語
スペイン語

機械翻訳システム

ルールベース手法




フランス語
1960年代~
excite翻訳など
性能は頭打ち状態
統計的手法



1990年代~
google翻訳
近年著しく性能向上, 未だルールベースの
性能には追いつけず
中国語
ドイツ語
日本語
2004-2006年
言語別webページ数
童芳, 平手,山名. 2008.
全世界のWebサイトの
言語分布と日本語を含む
Webサイトのリンク・地理
的位置の解析, DEWS2008.
2
統計的機械翻訳
研究の目的
提案手法
統計的機械翻訳
評価実験
まとめ
対訳コーパス:同じ意味をもつ異なる言語の文対集合

対訳コーパスから確率的翻訳規則を自動学習

原言語文fが与えられたとき、あらゆる目的言語文の中か
^
ら翻訳として最も確率の高い目的言語文eを求める
 原言語
:翻訳元言語 foreign language
 目的言語 :翻訳先言語 english
原言語文 f: it is rainy today .
対訳コーパス
it is fine today.
今日は天気がよい。
統計的機械翻訳システム
翻訳候補
確率
今日は雨です
0.45
今日それは雨です。 0.12
・・・
・・・
確率的
翻訳規則
^ 今日は雨です。
目的言語文 e:
学習
fig.9 is the flowchart …
図9はフローチャート…
・
・
・
3
統計的機械翻訳
研究の目的
提案手法
評価実験
まとめ
フレーズベース翻訳

フレーズを翻訳の最小単位とする
 フレーズ:連続する1単語以上の単語列
原言語文 f
it is
rainy
today
フレーズ単位に分割
f1
各原言語フレーズを
目的言語側の
フレーズに翻訳
フレーズ
f2
f3
it is
rainy
today
.
です
雨
今日 は
。
フレーズの並び替え
目的言語文 e
.
c1
今日 は
e1
c2
歪み
雨
e2
c3
f4
c4
です
。
e3
e4
4
統計的機械翻訳
研究の目的
提案手法
評価実験
まとめ
フレーズベース翻訳

フレーズを翻訳の最小単位とする
 フレーズ:連続する1単語以上の単語列
原言語文 f
it is
rainy
today
フレーズ単位に分割
f1
フレーズ
f2
it is
.
f3
rainy
today
各原言語フレーズを
フレーズベースモデルでは
目的言語側の
fに対するeの翻訳確率を
フレーズに翻訳
f4
.
です
雨
今日で近似する
は 。
各フレーズごとの翻訳確率の積
フレーズの並び替え
目的言語文 e
c1
今日 は
e1
c2
歪み
雨
e2
c3
c4
です
。
e3
e4
5
統計的機械翻訳
研究の目的
提案手法
評価実験
まとめ
統計的機械翻訳システム
原言語文 f
it is
語順変化 c
cc1 1
eˆ  arg max  Pe, c f 
c
 arg max max Pe, c f 
e
e
e
e ,c
today
c2
c2
c3
.
c4c4
です 。
今日 はは 雨雨 です
目的言語文 e
e
rainy
適切なフレーズ対応に確率が集中
→ Σcをmaxcで近似
c
 arg max' Pe, c f 
max’: 近似解のmax
デコーダ(ヒューリスティック探索)
与えられたfに対する翻訳としてあらゆ
るeを確率で順位付け、最も確率の高
^
いeを出力
6
統計的機械翻訳
研究の目的
提案手法
評価実験
まとめ
研究の目的

デコーダの問題点
 ヒューリスティック探索を用いているため、フレーズ区切り・
対応について確率が最大化されていない
eˆ  arg max ' P e, c f 
e ,c
e
デコーダ

本研究の目的
各翻訳候補に対してより適切なフレーズ区切り・対応
を適用し(maxc)、デコーダの探索エラーを減少させる
→ 翻訳精度の改善
max '  max ' max
e,c
e
c
7
統計的機械翻訳
研究の目的
提案手法
評価実験
まとめ
提案手法

翻訳候補の再順位付け(reranking)
 デコーダの順位付けた翻訳候補上位n個につい
てフレーズ区切り・対応を最適化
max '  max ' max
e,c

e
c
整数計画法を用いたフレーズ対応最適化
 数理計画法として対訳文の最適なフレーズ対応
を求める問題を定式化
8
統計的機械翻訳
研究の目的
提案手法
評価実験
まとめ
翻訳候補のreranking
デコーダの順位付けた翻訳候補上位n個
フレーズ区切り・対応を最適化し、確率を再計算
翻訳候補のrerankingを行う
確率最大の候補を翻訳結果として出力
1.
2.
3.
4.
翻訳候補上位n個
順位
1
翻訳候補
フレーズ対応最適化後
確率
順位
1
it is fine today .
翻訳候補
it is fine today .
0.21
今日 それは 晴れ だ。
2
2
it is fine today .
it is fine today .
0.35
今日 は よい天気 です 。
今日 は よい天気 です 。
・
・
・
0.21
今日 それは 晴れ だ。
0.13
・
・
・
確率
・
・
・
・
・
・
・
・
・
・
・
・9
統計的機械翻訳
研究の目的
提案手法
評価実験
まとめ
フレーズ対応の最適化

フレーズ対応
対訳文:同じ意味をもつ原言語文と目的言語文のペア
 対訳文の各単語を一度ずつ被覆するフレーズ対の組合せ
f 1 f2 f3 f4
f1 f2 f3 f4
f1 f2 f3 f4
e1 e2 e3
e1 e2 e3
e1 e2 e3
フレーズ対応が成立

フレーズ対応が不成立
フレーズ対応取得問題
 対訳文およびフレーズ対とその翻訳確率が与えられたとき、
フレーズ区切り・対応の候補の中から、確率最大の候補を
求める問題
 解を求めるシステム: フレーズアライナ
10
統計的機械翻訳
研究の目的
提案手法
評価実験
まとめ
整数計画法を用いた定式化(1)
フレーズ対集合
原言語側
フレーズ対kを使うか?
使う
:xk=1
使わない:xk=0
フレーズ対番号
 x1 
 
 x2 
1
0
1
1
0
0


f1 
 x 
f2 1 1 0 0 1 0  3
・  x4 


0 1 0 0 0 1
f3

  
f 4  0 1 0 0 0 1   x5 
x 
各フレーズが被覆する単語位置を
 6
1として表す0-1行列
1 2 3 4 5 6
=
1
 
1
1
 
1
 
f1
f2
f3
f4
各単語が一度だけ被覆
されることを表す
11
統計的機械翻訳
研究の目的
提案手法
評価実験
まとめ
フレーズアライナの定式化(1)

目的関数

max Σxklog pk
k∈K

制約条件
関連研究
John DeNero and Dan Klein, 2008
“The complexity of phrase alignment
problems”,
Proceedings of ACL08, pp.25-28
Fx = 1
・・・原言語側単語の被覆条件
 Ex = 1
・・・目的言語側単語の被覆条件
 xk ∈ {0,1} (∀k∈K)
・・・各フレーズ対の使用変数

12
統計的機械翻訳
研究の目的
提案手法
評価実験
まとめ
フレーズアライナの定式化(1)

目的関数

max Σxklog pk
k∈K
関連研究
John DeNero and Dan Klein, 2008
“The complexity of phrase alignment
problems”,
Proceedings of ACL08, pp.25-28
 個々のフレーズ対の使用変数xでは
制約条件
(1次の項として)
 Fx = 1
・・・原言語側単語の被覆条件
フレーズ対同士の位置関係(歪み)
を表すことができない
Ex = 1
・・・目的言語側単語の被覆条件
 xk ∈ {0,1} (∀k∈K)
・・・各フレーズ対の使用変数

13
統計的機械翻訳
研究の目的
提案手法
評価実験
まとめ
整数計画法を用いた定式化(2)
フレーズ対集合
フレーズ対の原言語側についてグラフ化
フレーズ対番号
有向グラフ
f1
f2
f3
f4
1
3
s
4
5
目的言語側に
ついても同様
6
2
g
14
統計的機械翻訳
研究の目的
提案手法
評価実験
まとめ
フレーズ対応と有向グラフ
原言語側
フレーズ対応
フレーズ対番号
f1
フレーズ対6
e1 e2 e3
フレーズ対5
f3
f4
1
フレーズ対4
f1 f2 f3 f4
f2
3
s
5
6
4
2
g
原言語側グラフと目的言語側グラフの
どちらでも開始ノードsから終端ノードgへの
目的言語側
パスになっている場合がフレーズ対応
e1
e2
e3
4
6
1
3
s
5
2
g
15
統計的機械翻訳
研究の目的
提案手法
評価実験
まとめ
有向グラフと語順変化
原言語側
フレーズ対応
フレーズ対番号
f1
フレーズ対6
3
s
e1 e2 e3
フレーズ対5
f3
f4
1
フレーズ対4
f1 f2 f3 f4
f2
5
6
4
2
目的言語側で隣接している
g
フレーズ対ペアに対する歪み(語順変化)確率は
目的言語側の枝に割り当てられる
(目的言語側で隣接しないフレーズ対ペアは考慮しない)
目的言語側
e1
e2
e3
4
6
1
3
s
5
2
g
16
統計的機械翻訳
研究の目的
提案手法
評価実験
まとめ
フレーズアライナの定式化(2)

目的関数
 max Σxklog pk +Σze log de
k∈K

e∈E
歪み確率を表す項
制約条件

My = b
 x = Ny
 M’z = b’
 x = N’z



xk ∈ {0,1}
ye ∈ {0,1}
ze ∈ {0,1}
・・・原言語側でパスとなっている制約
・・・原言語側の仮変数yからxを導出
・・・目的言語側でパスとなっている制約
・・・目的言語側の仮変数zからxを導出
(∀k∈K)
(∀e∈E)
(∀e∈E)
・・・各フレーズの使用変数
・・・原言語側の枝変数
・・・目的言語側の枝変数
17
統計的機械翻訳
研究の目的
提案手法
評価実験
まとめ
評価実験

実験条件
 ベースライン:Mosesデコーダ
 学習データ:

特許対訳文 180万文ペア
約10年分の特許データ
 テストデータ:
899文
 翻訳精度の評価基準:BLEU
正解例との一致率
 100[%]に近いほどよい翻訳

 reranking対象:Mosesの翻訳候補上位100個

提案手法(Solver:CPLEX11.0)を用いてrerankingを行う
18
統計的機械翻訳
研究の目的
提案手法
評価実験
まとめ
実験結果
翻訳精度:良
翻訳精度:悪
19
統計的機械翻訳
研究の目的
提案手法
評価実験
まとめ
翻訳例
(確率は改善されたが、BLEUは改善されなかった例)
 原言語文:
the use of a robot for deburring work is a known prior art .
 正解文:
バリ 取り 作業 に ロボット を 利用 する こと は 従来 より 公
知 の 技術 で ある 。
 ベースライン:
バリ 取り 作業 用 ロボット を 用い て 従来 技術 が 知ら れ
て いる 。
 提案手法:
従来 技術 の バリ 取り 作業 用 の ロボット が 知ら れ て い
る。
20
統計的機械翻訳
研究の目的
提案手法
評価実験
まとめ
まとめと今後の課題

本研究で提案した手法
 整数計画法を用いたフレーズ対応の最適化
 フレーズアライナを用いた翻訳候補のreranking

評価実験
 ベースラインの翻訳精度を改善することはできなかった
 翻訳候補の確率の最大化とBLEUの向上は等価とは言えない
 フレーズアライナの確率計算部分に誤りがある可能性

今後の課題
 実験結果の検証
 定式化1と定式化2の融合によるアライナの高速化
21