統計翻訳における フレーズ対応最適化を利用した 翻訳候補のリランキング ~整数計画法の機械翻訳への応用~ 越川 満(筑波大学) 内山将夫(情報通信機構) 梅谷俊治(大阪大学) 松井知己(中央大学) 山本幹雄(筑波大学) SCOPE@つくば 2009 1 Webページの言語別割合 韓国語 ポルトガル語 その他 イタリア語 ロシア語 スペイン語 フランス語 韓国語 その他 ポルトガル語 イタリア語 ロシア語 中国語 英語 スペイン語 ドイツ語 フランス語 日本語 英語 中国語 ドイツ語 日本語 2002年 2004~2006年 童芳, 平手,山名. 2008. 全世界のWebサイトの言語分布と日本語 を含むWebサイトのリンク・地理的位置の解析, DEWS2008. SCOPE@つくば 2009 2 翻訳とは暗号解読だ! The letter of Warren Weaver to Nobert Wiener, March 4, 1947. When I look at an article in Russian, I say: "This is really written in English, but is has been coded in some strange symbols. I will now proceed to decode." (Statistical) Machine Translation (統計的)機械翻訳 (統計翻訳システムのことをdecoderと呼ぶ) SCOPE@つくば 2009 3 暗号解読ライクな翻訳 翻訳規則の抽出 実際の翻訳 共起回数から規則を見出す ドイツ語 対訳文 翻訳元言語の文(原言語文) Es ist warm heute . Es ist sonnig heute . 今日 は 暖かい です 。 頻度を調べれば(=統計的に) Es ist warm . 翻訳が可能! 暖かい です 。 Es ist sonnig . 晴れ です 。 翻訳規則の適用 翻訳先言語の文(目的言語文) … 今日 は 晴れ です 。 対訳データ SCOPE@つくば 2009 4 統計的機械翻訳の枠組み 対訳データ (数百~数千万 対訳文) 本発表のテーマ おおよそ 整数計画問題に落ちる 翻訳結果 目的言語文 (翻訳候補) モデル化の問題 eˆ arg max P(e | f ) e デコードの問題 原言語文(入力文) デコーダ 翻訳の(確率)モデル fに対してモデルの確率 が最大となるeを探索 文(の組)に対する確率は組合せが 多すぎて表にできない 部分的な翻訳規則の組合せ f: 原言語文 Source language e:目的言語 Target language SCOPE@つくば 2009 5 フレーズ翻訳モデルとフレーズ対応a P(e | f) ∝ P(e, f) = ΣP(e,a, f ) フレーズ a 原言語文 f 文頭 フレーズ対応 a a0 目的言語文 e 文頭 But a1 しかし it is rainy a2 今日 は Mono. Dis. P(e,a, f )=P(e) P(a|e) P( f |e,a) a3 雨 today . a5 a4 です 。 Swap. 言語モデル: P(e) ≒ P(しかし)×P(今日 | しかし)×P(は | しかし, 今日 × 歪みモデル: P(a|e) ≒P(Mono| しかし)×P(Dis.| 今日は)×P(Swap| 雨)×... × 翻訳モデル: P(f |e,a) ≒ P(But|しかし)×P(today|今日 は)×... SCOPE@つくば 2009 6 デコーダの近似とフレーズ対応問題 eˆ arg (e | f . ) arg原言語文 max P f (e it max is rainy Ptoday it ,is f ) rainy 原言語文 f e e arg max P(e, a, f )目的言語文 e 今日 は 雨です 。 フレーズ対応 a 目的言語文 e^ today . です 。 フレーズ対応 a e 今日 は 雨 a arg max P(e ) P(a | e ) P( f | e, a ) e a arg max P(e ) max P(a | e ) P( f | e, a ) e a フレーズ対応問題(フレーズ対応最適化) f と e が与えられた状況で、 P(a|e)P( f |e,a) を最大とする a を求める しかし、現在のデコーダは両方のmaxを同時にかつ近似的に解いている 7 SCOPE@つくば 2009 さらに ˆ arg max P(e | f ) arg max P(e, f ) e 研究の目的 e arg max P(e, a, f ) デコーダの探索を厳密化 e a e 整数計画法を用いて arg max P(e ) P(a | e ) P( f | e, a ) 翻訳候補に最適なフレーズ対応を付与 e a arg max P(e )| max (a |max e ) P(Pf(e|,ef, a) ) eˆ f ) Parg e a arg max P(e, a, f ) e maxaを厳密化=フレーズ対応最適化 e a arg max P(e ) P(a | e ) P( f | e, a ) e a → デコーダの探索エラーの低減 arg max P(e ) max P(a | e ) P( f | e, a ) → 翻訳精度の改善 e a SCOPE@つくば 2009 8 フレーズ対応問題 ~ ~ 歪みコストdi 翻訳コストti フレーズ対応問題はコスト最小化問題 SCOPE@つくば 2009 9 フレーズ対応問題の入出力 入力: 原言語文 目的言語文 f = ( f1, f2, f3, f4 ) e = (e1 , e2, e3) 対訳文 pi (i=1~K(=4)) フレーズ翻訳コスト ti 各フレーズ対間の歪みコスト dij フレーズ対 f= e= p1 f 1, p 2 e1 , f2, p3 e2, フレーズ対 f3, f4 p4 e3 出力: 全単語を一度ずつ覆うフレーズ対集合(=フレーズ対応)のう ち、コスト最小のもの SCOPE@つくば 2009 10 提案手法:フレーズ対応の制約 原言語側 F1 F4 f1 f2 f3 f4 フレーズ対応 F2 F3 F4 f1 f2 f3 f4 集合 f1 f2 f3 f4 F2 F3 F4 f1 f2 f3 f4 分割 e1 e2 e3 f1 f2 E3 E2 E4 F2 F3 目的言語側 e1 歪み f1 e2 e3 フレーズ対番号 1 4 f2 e1 e2 P3 P2 s(文頭) 3 2 SCOPE@つくば 2009 g(文末) 11 フレーズ対応問題の定式化 目的関数 min. Σ tk xk + Σ de ye k∈K e∈E あとはCPLEXに おまかせ 制約条件 Fx = 1 ・・・原言語側の集合分割制約 My = b ・・・目的言語側の流量保存則(s→g) x = Ny ・・・目的言語側の変数yからxを導出 xk ∈ {0,1} (∀k∈K)・・・フレーズ対の変数 ye ∈ {0,1} (∀e∈E) ・・・目的言語側の枝変数 SCOPE@つくば 2009 E:目的言語側 枝集合 12 フレーズ対応最適化を用いた翻訳候補の リランキング デコーダにより翻訳候補上位n個を獲得 2. フレーズ対応を最適化、確率を再計算 1. フレーズ対応最適化後 翻訳候補上位n 個 順位 1 翻訳候補 確率 it is fine today . 0.21 それは 今日 晴れ 2 it is fine today 順位 1 翻訳候補 it is fine today . 0.21 だ。 それは 今日 晴れ . 確率 2 だ。 it is fine today . 0.35 0.13 今日 は よい 天気 だ。 今日 は ・ ・ ・ よい 天気 だ 。 ・ ・ ・ SCOPE@つくば 2009 13 実験条件 データセット:NTCIR-7 特許翻訳タスク コーパス 学習用対訳データ: 180万文ペア テストデータ: 1,371文(フォーマルラン) 翻訳精度の評価基準:BLEU 正解翻訳例との一致率 = 100%に近いほどよい 翻訳方向:日→英 比較:Mosesデコーダ vs. 提案手法 ビーム幅(翻訳候補数): 10, 20, 50, 100, 200, 500, 1,000 整数計画問題のSolver: CPLEX 11.0 オープンソースの世界標準 統計翻訳システム SCOPE@つくば 2009 14 翻訳精度:高 ビーム幅と翻訳精度(BLEU)の関係 有意水準5%で有意差あり ベースラインシステム Mosesに比べて rerank(提案手法)は 翻訳精度が若干高い ビーム幅が大きいとき Mosesとrerankの差は ほとんどなくなる ベースラインの探索精度:良 SCOPE@つくば 2009 翻訳候補数:多 15 まとめ 提案手法 フレーズ対応問題の新たな定式化 フレーズ対応についての厳密な確率最大化 リオーダリングモデルの考慮 フレーズ対応最適化による翻訳候補のリランキング 評価実験 フレーズ対応最適化により若干精度向上 ⇔ フレーズ対応についての探索精度は従来法で十分 そもそもデコーダはあまり多くの目的言語文のバリエー ションを探索していない SCOPE@つくば 2009 16 大きな可能性 ~翻訳速度向上~ 29 翻訳精度:高 入力文:The vehicle has also a pair of rear wheels wr . また、車両が一対の 後輪Wrを備える 。 BLEU [%] 28 27 26 25 24 また、車両が一対の後輪Wr。 0.01 0.1 1 10 100 翻訳時間 [sec/sentence] SCOPE@つくば 2009 17 大きな可能性 ~翻訳速度向上~ 29 翻訳精度:高 入力文:The vehicle has also a pair of rear wheels wr . また、車両が一対の 後輪Wrを備える 。 BLEU [%] 28 翻訳時間をかければ翻訳精度改善 ただし、1000倍の時間・・・ 27 私たち(AI系)の探索技術がしょぼい? タブーサーチ etc… 26 デコーダ本体へのOR系探索技法の導入 25 → デコーダの劇的な速度向上の可能性! 24 また、車両が一対の後輪Wr。 → 統計翻訳の(一般的な)実用化 0.01 0.1 1 10 100 翻訳時間 [sec/sentence] SCOPE@つくば 2009 18 ご清聴ありがとうございました SCOPE@つくば 2009 19 P(e | f )の近似 フレーズ対応 a P (e | f ) P (e ) P ( f | e ) P (e ) P ( f , a | e ) a= a P(e ) P( f | e, a )P(a | e) f1 f2 f3 f1 f2 f3 e1 e2 e1 e2 f1 f2 f3 f1 f2 f3 e1 e2 e1 e2 f1 f2 f3 e1 e2 a 言語モデル 歪みモデル l P(e) P(ei | eii1n1 ) i 1 翻訳モデル* m' m' i 1 i 1 P(a | e) P(ai | ai 1 , ei ) P(oi | ei ) m' P( f | e, a ) P( f ai | ei ) i 1 フレーズ(単語列) (*フレーズ翻訳モデル) SCOPE@つくば 2009 aiとai-1が ・モノトーンoi=M, ・スワップoi=S, ・その他 oi=D. 20 実行可能解の例 出力:コスト最小のフレーズ対応候補 実行可能解1 実行可能解2 p2 p3 p4 p1 f = f1, f2, f3, f4 f = f1, e= e1 , e2, e3 e= C可能解1= t2+t3+t4 + d文頭 2+ d23+d34+d4 文末 e1 , p4 f2, e2, f3, f4 e3 C可能解2=t1+t4 + d文頭 1+d14+d4 文末 SCOPE@つくば 2009 21 単純な定式化の制約条件 Fx = 1 フレーズ対集合 原言語側 フレーズ対kを使うか? 使う :xk=1 使わない:xk=0 フレーズ対番号 x1 x2 1 0 1 1 0 0 f1 x 3 f2 1 1 0 0 1 0 ・x 0 1 0 0 0 1 4 f3 f 4 0 1 0 0 0 1 x5 x 各フレーズが被覆する単語位置を 6 1として表す0-1行列 1 2 3 4 5 6 SCOPE@つくば 2009 = 1 1 1 1 f1 f2 f3 f4 各単語が一度だけ被覆 されることを表す 22 目的言語側の有向グラフ 変数: 枝(i, j)の使用有無を表す0-1変数 yij yijが1 ・・・ 枝(i,j)の両端のフレーズ対iとjが使用される リオーダリング確率は枝に対する重み P3とP2との フレーズ対番号 e1 e2 リオーダリング確率 e3 y32・d32 1 4 s 3 2 g リオーダリング確率 フレーズ対 P2 フレーズ対 P3 f1 e1 f2 f3 f4 e2 e3 f1 f2 e1 e2 P3 P2 SCOPE@つくば 2009 f1 e1 f2 f3 f4 e2 e3 23 補足:制約条件My=b e1 フレーズ対番号 1 e2 e3 4 1 4 s 2 枝番号 3 2 6 g 5 3 SCOPE@つくば 2009 24 処理時間とBLEUの関係 同じ翻訳精度を得るなら Moses(従来法)の方が、 2倍速い Moses(従来法) rerank(提案手法) SCOPE@つくば 2009 適化時間 ・・・翻訳時間そのもの ・・・翻訳時間 + フレーズ対応最 25 補足:翻訳例 正解例の下線部が Mosesでは分離していたのに対して、 提案手法(rerank)ではリオーダリング スコアも考慮して最適化したことで 結合している SCOPE@つくば 2009 26 補足:翻訳例(詳細) 翻訳結果にリオーダリングスコア最適化効果が見られる (上図:黒下線部) フレーズ対応がよりよくなった?(下図:赤太枠) SCOPE@つくば 2009 27 まとめ2 統計的機械翻訳 自然言語処理で現在最もホットな研究テーマ 自動学習で ルールベースを超える可能性 WEBの多言語化により機械翻訳のニーズが高くなっている Googleが機械翻訳を統計的なものに置き換えた 今のところ最適化の技術はあまり重要視されていない 学習データの問題 モデル化の問題 しかし、上記の問題は解決されつつある デコードの問題ではおそらく最適化技術が主役! 今がチャンス! SCOPE@つくば 2009 28
© Copyright 2024 ExpyDoc