ニュースも会話も精読して翻訳します

Written and spoken language analysis and machine translation
13
00
ニュースも会話も精読して翻訳します
~書き言葉から話し言葉へ~自然言語解析と機械翻訳~
どんな研究
外国語は日本語と語順が異なるもの
が多く、機械翻訳を難しくしていま
す。語順は文法で決まるため、文法
に基づいた構文解析が重要です。こ
の研究は、ニュースのような書き言
葉だけでなく、話し言葉に対しても、
構文解析を利用して語順を外国語に
近づけるよう並べ替えて、翻訳しや
すくするためのものです。
どこが凄い
目指す未来
私たちは構文解析によって得られる
各単語間の係り受けとその役割に応
じて、翻訳先の言語の文法に合うよ
うに語順を並べ替える方式で翻訳精
度を向上させてきました。今回日本
語の話し言葉についても学習データ
を整備し、書き言葉と同じように精
度よく構文解析、並べ替え、翻訳を
できるようにしました。
日本語と外国語の間の双方向の機械
翻訳を、書き言葉・話し言葉とも高
精度に行うことで、言語の壁を越え
て情報収集、情報発信、コミュニ
ケーションを円滑にします。また,
本技術を拡張し,音声認識と連携し
た効率的な音声翻訳の実現が見込め
ます。
文を精読すればうまく訳せる!
彼は長い尻尾の
技術のポイント① 言語解析
精読
(言語解析)
猫を見た。
[1,2]
-単語分かち書き
-単語間の係り受けの関係と役割を求める
-今回日本語話し言葉への対応を強化
(学習用の解析正解データを整備)
主語
連体
一般的な方式
(語順を総当たり)
彼 は 長い
連体
尻尾
目的語 助動詞
の 猫 を
見 た
技術のポイント② 事前並べ替え
並べ替え
He is a long tail
of cat saw.
-翻訳先言語の文法に合わせて並べ替え
(日本語:SOV → 英語/中国語: SVO 等)
訳語は正しいが
語順に誤り
主語
は 彼
目的語
連体
助動詞
見
た
猫
-係り受け役割をもとに細かく語順を決定
連体
の 長い
尻尾
翻訳
技術のポイント③ 統計的機械翻訳
He saw a cat with a long tail.
-大量の対訳データから翻訳規則を学習
-並べ替えがほぼ不要で簡単に解ける!
話し言葉でも!
連体
主語
[3]
文末
疑問
文末
助動詞
他 の ご質問 は ございます でしょう
か ?
敬語・疑問文・口語表現も解析
疑問
か ある
主語
は
連体
他
の
質問
?
並べ替えと表現の簡略化
Are there any other questions ?
【関連文献】
[1] T. Tanaka, M. Nagata, “Word-based Japanese typed dependency parsing with grammatical function analysis,” in Proc. ACL-IJCNLP,
2015
[2] S. Takeno, M. Nagata, K. Yamamoto, “Empty category detection using path features and distributed case frames,” in Proc. EMNLP,
2015.
[3] S. Hoshino et al., “Discriminative preordering meets Kendall’s tau maximization,” in Proc. ACL-IJCNLP, 2015
【連絡先】
協創情報研究部 言語知能研究グループ
須藤 克仁 (Katsuhito Sudoh)
E-mail:sudoh.katsuhito(at)lab.ntt.co.jp
Copyright (C) 2016 NTT Communication Science Laboratories