NLP2007 C1-1 2007.08.29 担当:内田 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) 重文・複文の日英機械翻訳のために文型パターン辞書を作ってきた。 これまでに構築した文型パターン辞書を使って機械翻訳(日→英)をやってみる。 実験は基本的にはクローズド。 出力英文:完全一致したのは11% 人手判断で正解だったのは54% 実験 ◎評価方法1 文型パターン作成時に使用した日本語原文から250文を抽出。 システムに翻訳をさせて、出力が英語原文と等しい場合○、 それ以外は×。ただし、冠詞は無視。 ◎結果:○が11.6% ×が88.4% ◎分析 文型パターン辞書 12万文の対訳コーパスから23万件の対訳パターン抽出 例えば… ◎日本語パターン:#1{N1が,N2に}なってからN3を(V4^meirei|V4.meireigo)。 ◎英語パターン :V4 N3 after N1 turn N2. 上のパターンと「信号が青になってから道路を渡りなさい。」を照合すると… #1=N1がN2に N1=信号 N2=青 N3=道路 V4=渡り パターン翻訳手法 1.英語文の構造決定 入力文(日本語)とマッチする日本語パターンに基づいて決定 2.局所翻訳と英語パターンへの代入 変数ごとに翻訳→複数候補を保持したまま英語パターンに代入 変数が一致しない場合は日本語をちょっといじってから辞書引き 例)日本語変数:ADJ 英語変数:N 日本語要素:うまく →うまさ 最も多い失敗は手順2.の局所翻訳で既存の辞書を使ったこと。 手順の3.が原因で失敗したものはない。 ◎評価方法2 さっきの250文を人手で評価する。 評価値4:文の構造・単語の訳全てOK 評価値3:文の構造は正しいけど単語の誤訳がある 評価値2:文の構造が部分的に正しい 評価値1:文の構造がダメ ◎結果 全体の評価値の平均は3.5。 内訳は評価値4が54.4%、3が42.8%、2が2.8%、1が0%。 ◎分析 ・尤度を使って単語を選択するときに間違ってしまった ・英語パターンの表記が不十分だった 上記の問題点を解決すると評価値4が9割を超えそう。 3.英語パターンの絞込み パターンに含まれる変数や関数によって2.で得られた候補を絞り込む 例)^past関数がついていれば過去形の候補を残す とか 評価4だった出力例 入力文1:欠点はあるがそれでも彼が好きだ。 出力文1:I like him in spite of his faults. 正解文1:I like him in spite of his faults. 4.英語の言語モデルによる翻訳候補の選択 2-gramを使って最終的な出力を選択 英文パターン辞書作成時に使用した12万文が言語モデル 入力文2:足音が遠くて聞こえなくなった。 出力文2:Footsteps died away in a long way. 正解文2:His footsteps died away in the distance.
© Copyright 2024 ExpyDoc