統語構造に基づく入力文分割と そのハイブリッド音声翻訳

統語構造に基づく入力文分割と
そのハイブリッド音声翻訳への応
用
(株)東芝 研究開発センター
Copyright 2007, Toshiba Corporation.
釜谷聡史
背景
• 実用的な音声翻訳への要求
(a) 任意の表現を、正しく翻訳
(b) 正確で自然な表現で、翻訳
• 既存の翻訳手法
(1)
•
(2)
•
抽象化された規則に基づく手法
長所:広カバレージ、短所:機械的な訳文
具体的な用例に基づく手法
長所:自然な訳文、短所:狭カバレージ
(e.g. RBMT)
→(a)の解決に有利
(e.g. TM,EBMT)
→(b)の解決に有利
• (1)と(2)とを融合して、両者の長所を引き出す
– RBMTとEBMTとのハイブリッド翻訳→(a),(b)を同時に実現
2
文分割に基づくハイブリッド翻訳方式
1.
入力文:
[ 私はサイズが大きいのが気に入ったけどやめます]
2.
最適セグメント割当:
[ サイズ/が/大きい/のが ] + [ 気に入っ/た/けど ] + [ 私/は/やめ/ます ]
3.
ハイブリッド翻訳結果:
[ It's so big ]EBMT + [ I like it but ]RBMT + [ I just can't buy it. ]EBMT
3
評価
• 翻訳方向 = 日本語→英語
旅行ドメイン
• 用例翻訳 = 用例数:123,819対 旅行ドメイン
• 評価指標 = NIST/BLEU
正解訳=各1文
○評価セットA (open)
1000文、平均13.4文字/文
EBMT
RBMT
Hybrid MT
NIST
4.9372
4.4644
5.0474
BLEU
0.2403
0.1885
0.2511
○評価セットB (open)
200文、平均20.5文字/文
EBMT
RBMT
Hybrid MT
NIST
3.8798
3.8191
4.1127
BLEU
0.1351
0.1252
0.1597
Hybrid 方式での性能改善を確認
4