自動学習された 機能語の翻訳パターンを用いた 用例ベース機械翻訳 中澤敏明 黒橋禎夫 京都大学 NLP2008 3月18日(火) 高精度な機械翻訳を実現するには? 語順 機能表現を正確に扱う 訳語選択 X 始める。 begin to X 電界強度が21.4kV/mmを越えると分極反転電流が流れる。 when the electric field strength and the polarization reversal current flows over 21.4 kv / mm . 電界強度が21.4kV/mmを越えると分極反転電流が流れ始める。 electric field intensity was 21.4 kv / mm and the polarization reversal current flows over . the domain inversion current begins to flow , when the field intensity exceeds 21.4kv / mm . Hierarchical Phrase-Based SMT (Chiang 2005, Watanabe et al. 2006) Chinese 的 在 X1的X2 English the in the X2 of X1 X1之一 今年X1 在X1下 one of X1 X1 this year under X1 before X1 在X1前 与X1有X2 have X2 with X1 • Phrase-based SMTの手法か ら翻訳のruleを抽出 • synchronous CFGのようにrule を再帰的に適用することにより、 目的の翻訳を得る • ruleの数が爆発するため、rule の枝狩りや効率的なdecoding が必要 構文情報を考慮し、 機能表現にのみ注目したパターンを抽出 目次 1. 背景 2. 用例ベース翻訳システム概要 3. 機能表現パターンの学習 4. 実験と考察 5. まとめ 目次 1. 背景 2. 用例ベース翻訳システム概要 3. 機能表現パターンの学習 4. 実験と考察 5. まとめ 用例データベースの構築 日本語 英語 本部のパソコンのリストにはさまざまな訴えが並 ぶ。 At the headquarters, different kinds of complaints are stored on a computer list. 一九九七年七月の中国返還に向けてカウントダ ウンに入った香港。 [0] 本部の Hong Kong [0] hasatbegun the countdown to its the headquarters reversion to China in July, 1997. [1] パソコンの 今春の都知事選をめぐる候補者選びの動きは混 [2] リストには 迷の様相のまま、越年した。 [3] さまざまな [4] 訴えが 我々の生活が知らず知らずにどれだけ規制でし [5] 並ぶ。 ばられているか、規制緩和によって豊かさが変 わっていくのかを考えてみた。 [5] are stored *[2] リストには 韓さんは最後まで買収運動を拒否した。 [5] 並ぶ。 *[2] on a list [3] different The New Year come while the selection [3] has kinds of candidates for the gubernatorial election of [4] of complaints Tokyo slated for this spring remains confused. [5] are stored Not realizing just how much our lives are [1] computer restricted by rules and regulations, I have on a list thought of a[2] number of ways our lives could be enriched by deregulation. [0] 本部の [0] at the headquarters Han continued to refuse money politics to the end. *[1] パソコンの *[5] are stored [2] energetically リストには declared. *[1] computer [3] different Chage [2] on a list *[2] リストには *[5] 並ぶ。 [3] kinds The Russia's Chechen issue will certainly be ロシア・チェチェン共和国情勢も話し合われると [3] さまざまな [4] of complaints [1] パソコンの *[5] are stored on the agenda. みられる。 [4] 訴えが [5] are stored [1] computer [2] リストには [5] 並ぶ。 *[2] on a list [2] on a list *[5] 並ぶ。 チャゲが威勢よく言った。 入力文:だが、構造改革の効果が表れるには時間がかかる。 用例のスコア付け基準 ・用例のサイズ ・付属語の一致、不一致 ・用例内外の係り受け 出力文:Still it will take time for structural reforms to take effect. 機能表現の翻訳(1/2) 方法 として 入力 1.親の用例に のりしろがある 親 子 親 2.子の用例に のりしろがある 3.のりしろ情報が ない 子 出力 検討 した。 as a method (目的) として was studied was studied 検討 した。 as (a purpose) as a method 方法 (から) (from) a method 検討 した。 方法 として (利用 する。) was studied (used) 検討 した。 子 方法 (から) (from) a method (X) として was studied as a method as a method 親 機能表現パターン was studied was studied as (X) was studied as a method 機能表現の翻訳(2/2) 入力 調査 し なくて は なら ない 。 用例 調査 (する こと に なる 。) パターン (X) し なくて は なら ない 。 examine have to (X) 目次 1. 背景 2. 用例ベース翻訳システム概要 3. 機能表現パターンの学習 4. 実験と考察 5. まとめ 機能表現パターンの学習 [0] the politicians [0] 政治 に [1] リーダーシップ を [2] must regain [1] their [2] 回復 しなくてはならない。 [1] leadership X | root X:動詞 回復 し なくてはならない。 must regain X:名詞 に X | pre X:名詞 を X | post 日本語表現 X/動詞 なくてはならない。 X/動詞 ためには X/名詞 に X/名詞 を X/名詞 は X/名詞 より 英語表現 must X | root in order to X | post to X | post to X | pre to X | post in X | post X | pre X | post X | pre of X | post X | pre X | post of X | post than X | post from X | post of X | post 頻度 6 115 103 95 7987 7833 6720 60352 41705 11588 36463 2716 2105 322 256 212 翻訳実験 • JST日英抄録コーパス(100万文対)を利用 – 96.6万文対でトレーニング 用例データベース、翻訳パターンの学習 – 500文を翻訳 • 1リファレンスのBLEUで評価 • 機能表現パターンを適用することにより翻訳精 度が向上するかを検証 翻訳実験結果 BLEU4 テストデータ全て (500文) 機能表現パターンが 適用された文(335文) 翻訳結果が 変化した文(287文) 参考: Mosesを用いた翻訳 チューニングなし 18.87 チューニングあり 21.85 パターンなし パターンあり パターンなし パターンあり パターンなし パターンあり 18.14 18.66 16.93 17.65 16.08 16.89 +0.52 +0.72 +0.81 スコアが向上した文数:162文 スコアが低下した文数:68文 改善例 入力: 出力1: 40.83 出力2: 48.18 正解: 電界強度が21.4kV/mmを越えると分極反転電流が流れ始める。 Then the inverse current flows when field intensity exceeds 21.4 kV / mm . Then the inverse current begins to flow when field intensity exceeds 21.4 kV / mm . The domain inversion current begins to flow when the field intensity exceeds 21.4 kV / mm . 入力: 高齢者に対するセメントレスTHAの適応については,長期経過を十分に 配慮し,適応性を判断する必要があると考えた。 出力1: 19.60 It was considered deeply consider the long term progress that had to judge the adaptability on the adaptation of the cementless THA the elderly . 出力2: On the adaptation of the cementless THA for the elderly it was 25.94 considered deeply consider the long term progress that had to judge the adaptability . 正解: On the adaptation of cementless THA for the old people , the attention should be paid on the long term progress , and it is regarded that judging the adaptability is necessary . 失敗例 入力:ダイオキシンに汚染された環境をいかにして治療す るかは,環境科学の最も大切な問題の一つである。 出力1:How treatment for polluted dioxin environment is 27.23 one of the most important problems of environmental science . 出力2:How treatment for polluted to dioxin environment 26.07 is one of the most important problems of environmental science . 正解:How to remedy dioxin polluted environments is one of the most challenging problems in environmental technology . まとめ • 高精度な翻訳を実現するためには、機能表現 を正しく扱うことが重要 • 機能表現パターンを利用した翻訳 • 今後の課題 – 機能表現パターンとして保持すべき情報の再考 汎化のレベルは品詞でよいか? 係り先の情報は必要か? – 日英以外の言語対(英日、日中、中日)での実験
© Copyright 2024 ExpyDoc