統語構造に基づく入力文分割と、そのハイブリッド音声翻訳への応用 (株)東芝 研究開発センター 釜谷 聡史 概要 ・入力文を統語構造に基づいて分割し、各断片を規則/用例翻訳で最良の方法に切り替えて訳出 ・旅行ドメインの話し言葉翻訳において、規則/用例の単体翻訳性能に比べて6.0~13.4%の改善を確認 背景 ・実用的な話し言葉翻訳の実現への要求 ・任意の表現を ・正確で自然な表現に 豊かな 知識・ノウハウの 蓄積 ・東芝の翻訳技術 ・The翻訳シリーズ ・文書を対象とした規則ベース翻訳 ・概念トランスファ方式 翻訳したい 規則ベース翻訳 用例ベース翻訳 ~ 統語森駆動・概念トランスファ方式 ~ ~ チャンクベース用例翻訳 ~ ・長所/短所 ・特徴 ・特徴 ・Chunk (Phrase)単位の処理 ↑頑健な訳文生成 ↑細かな翻訳制御が可能 ↓やや硬い不自然な訳 ・節の構造中心の解析文法 - 非文法構造を区別、許容 ・Robust GLR Parsing - 統語森上で最尤解を推定 ・話し言葉と書き言葉の 依存構造間差異を吸収 - 従来の翻訳知識の最大活用 (1) C (2) NP (3) NPweak (4) VP (5) VP (6) VP VP N CM N NP V NPweak VP V (7) Cweak (8) Cweak (9) S (10) S (11) SC (12) SC ・長所/短所 → 高精度化 ↑自然で正確な訳出 ↓用例数の制約 ・複数用例の統合 NPweak NP Cweak C SC SC VP CP ・翻訳信頼度を計算 ˆ T arg max C (T ) C : Clause, SC : Subordinate Clause NP: Noun Phrase, VP Verb Phrase CP : Conjunctive Particle, N : Noun, V : Verb T C(T ) A * A(T ) F * F (T ) 文法の一例 T : 翻訳結果 C(T): 信頼度 F(T): 3-gram model A(T): 翻訳確率 文分割とハイブリッド翻訳 統語森構造=分割候補構造 (i)S (h)C <h2> <h1> (f)SC ・各断片の用例翻訳候補 ・断片間の関係を保存、訳出 ・非連続区間への用例適用 ・各構文構造の尤度を評価 - 部分森構造変換 (g)C (b)SC (c)SC 森 (d)C (a)NP は 統語森 統語森 (e)SC 私 ・用例翻訳結果と確信度 節a サ変V 森 Transfer ? 節a+必須 森 サ変V 森 しなくちゃいけない サイズ が 大きい ので 気に入っ た けど やめ ます - 統語森係り受け解析 用例の最適割当推定 (i)S p( 彼, c , が, 面白い, c ) cC ・確信度最大 ・係り受け構造保存 (h)C (g)C p( 彼, c , が, 行く, c ) cC p( 彼, c , が, 勧める , c ) cC (e)SC (b)SC (c)SC ・話し言葉の特徴を捉えて 意味を絞り込む ・曖昧性を保持したまま 森から森に構造変換 (d)C (a)NP ・統語森上で最尤依存構造を推定 - 意味クラス+共起モデル - 表層文字列に基づく構造制約 彼が 勧めるので 行ったが 面白かった B類 C類 節の包含関係の分類を応用した尤度 私 は サイズ が 大きい ので 気に入っ た けど やめ ます (a)+(d) I just can’t buy it. (b) It’s so big for me. トランスファ/生成 I like it, but it’s so big for me, so I just can’t buy it. 本手法の利点 ・全ての解釈を考慮した、最尤の訳文生成が可能 ・少ない用例でも、その適用可能性が高まる ・断片間の統語的・意味的情報を反映した訳出が可能 評価 実験 まとめ 翻訳方向 = 日本語→英語 用例翻訳 = 用例数:123,819対 評価指標 = NIST/BLEU ○評価セットA (open) 1000文、平均13.4文字/文 EBMT RBMT Hybrid MT NIST BLEU 4.9372 0.2403 4.4644 0.1885 5.0474 0.2511 旅行ドメイン 旅行ドメイン 正解訳=各1文 ○評価セットB (open) 200文、平均20.5文字/文 EBMT RBMT Hybrid MT NIST BLEU 3.8798 0.1351 3.8191 0.1252 4.1127 0.1597 ・ハイブリッド方式を提案 ・規則翻訳と用例翻訳とを連携 ・規則ベースの文の分割と、統合の制御 ・実験により効果を確認 ・今後の課題 ・分割単位の拡張 ・用例選択性能の改善
© Copyright 2024 ExpyDoc