スライド 1

NLP2007 C1-1
2007.08.29 担当:内田
関数・記号付き文型パターンを用いた機械翻訳の試作と評価
石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大)
重文・複文の日英機械翻訳のために文型パターン辞書を作ってきた。
これまでに構築した文型パターン辞書を使って機械翻訳(日→英)をやってみる。
実験は基本的にはクローズド。
出力英文:完全一致したのは11% 人手判断で正解だったのは54%
実験
◎評価方法1
文型パターン作成時に使用した日本語原文から250文を抽出。
システムに翻訳をさせて、出力が英語原文と等しい場合○、
それ以外は×。ただし、冠詞は無視。
◎結果:○が11.6% ×が88.4%
◎分析
文型パターン辞書
12万文の対訳コーパスから23万件の対訳パターン抽出
例えば…
◎日本語パターン:#1{N1が,N2に}なってからN3を(V4^meirei|V4.meireigo)。
◎英語パターン :V4 N3 after N1 turn N2.
上のパターンと「信号が青になってから道路を渡りなさい。」を照合すると…
#1=N1がN2に N1=信号 N2=青 N3=道路 V4=渡り
パターン翻訳手法
1.英語文の構造決定
入力文(日本語)とマッチする日本語パターンに基づいて決定
2.局所翻訳と英語パターンへの代入
変数ごとに翻訳→複数候補を保持したまま英語パターンに代入
変数が一致しない場合は日本語をちょっといじってから辞書引き
例)日本語変数:ADJ 英語変数:N 日本語要素:うまく →うまさ
最も多い失敗は手順2.の局所翻訳で既存の辞書を使ったこと。
手順の3.が原因で失敗したものはない。
◎評価方法2
さっきの250文を人手で評価する。
評価値4:文の構造・単語の訳全てOK
評価値3:文の構造は正しいけど単語の誤訳がある
評価値2:文の構造が部分的に正しい
評価値1:文の構造がダメ
◎結果
全体の評価値の平均は3.5。
内訳は評価値4が54.4%、3が42.8%、2が2.8%、1が0%。
◎分析
・尤度を使って単語を選択するときに間違ってしまった
・英語パターンの表記が不十分だった
上記の問題点を解決すると評価値4が9割を超えそう。
3.英語パターンの絞込み
パターンに含まれる変数や関数によって2.で得られた候補を絞り込む
例)^past関数がついていれば過去形の候補を残す とか
評価4だった出力例
入力文1:欠点はあるがそれでも彼が好きだ。
出力文1:I like him in spite of his faults.
正解文1:I like him in spite of his faults.
4.英語の言語モデルによる翻訳候補の選択
2-gramを使って最終的な出力を選択
英文パターン辞書作成時に使用した12万文が言語モデル
入力文2:足音が遠くて聞こえなくなった。
出力文2:Footsteps died away in a long way.
正解文2:His footsteps died away in the distance.