統語構造に基づく入力文分割と そのハイブリッド音声翻訳への応 用 (株)東芝 研究開発センター Copyright 2007, Toshiba Corporation. 釜谷聡史 背景 • 実用的な音声翻訳への要求 (a) 任意の表現を、正しく翻訳 (b) 正確で自然な表現で、翻訳 • 既存の翻訳手法 (1) • (2) • 抽象化された規則に基づく手法 長所:広カバレージ、短所:機械的な訳文 具体的な用例に基づく手法 長所:自然な訳文、短所:狭カバレージ (e.g. RBMT) →(a)の解決に有利 (e.g. TM,EBMT) →(b)の解決に有利 • (1)と(2)とを融合して、両者の長所を引き出す – RBMTとEBMTとのハイブリッド翻訳→(a),(b)を同時に実現 2 文分割に基づくハイブリッド翻訳方式 1. 入力文: [ 私はサイズが大きいのが気に入ったけどやめます] 2. 最適セグメント割当: [ サイズ/が/大きい/のが ] + [ 気に入っ/た/けど ] + [ 私/は/やめ/ます ] 3. ハイブリッド翻訳結果: [ It's so big ]EBMT + [ I like it but ]RBMT + [ I just can't buy it. ]EBMT 3 評価 • 翻訳方向 = 日本語→英語 旅行ドメイン • 用例翻訳 = 用例数:123,819対 旅行ドメイン • 評価指標 = NIST/BLEU 正解訳=各1文 ○評価セットA (open) 1000文、平均13.4文字/文 EBMT RBMT Hybrid MT NIST 4.9372 4.4644 5.0474 BLEU 0.2403 0.1885 0.2511 ○評価セットB (open) 200文、平均20.5文字/文 EBMT RBMT Hybrid MT NIST 3.8798 3.8191 4.1127 BLEU 0.1351 0.1252 0.1597 Hybrid 方式での性能改善を確認 4
© Copyright 2024 ExpyDoc