ブースターセッション資料

ピボット言語を介したフレーズベース統計的
機械翻訳を用いた対訳辞書の構築
綱川 隆司1
岡崎 直観1
辻井 潤一1,2
1東京大学大学院情報理工学系研究科コンピュータ科学専攻
2School
辻井研究室
of Computer Science, University of Manchester / National Centre for Text Mining, UK
モチベーション
• 英語とその他の言語の2言語間の対訳辞書は,英
語以外の2言語間の対訳辞書に比べ資源が豊富
英語を中間言語(ピボット言語)として英語以外の2
言語の単語を結びつけることで,既存の対訳辞書
に比べより多くの対訳項目の獲得が期待できる
• 辞書の英語項目によって単純に結びつけるだけで
なく,統計的機械翻訳を用いて可能な限り結びつけ
る
対訳辞書のマージ
Chinese
English
代谢综合症
metabolic syndrome
道恩综合症
Down’s syndrome
抗体缺乏
综合症
antibody-deficiency
syndrome
Japanese
Chinese
道恩综合症
Japanese
ダウン
症候群
English
代謝異常
metabolic disorder
ダウン症候群
Down’s syndrome
メタボリック
metabolic
シンドローム
syndrome
抗体欠乏
antibody deficiency
単純な辞書マッチング
では1対訳しか
獲得できない
対訳辞書のマージ
Chinese
English
代谢综合症
metabolic syndrome
道恩综合症
Down’s syndrome
抗体缺乏
综合症
antibody-deficiency
syndrome
Japanese
English
代謝異常
metabolic disorder
ダウン症候群
Down’s syndrome
メタボリック
metabolic
シンドローム
syndrome
抗体欠乏
antibody deficiency
Chinese
Japanese
道恩综合症
ダウン
症候群
代谢综合症
メタボリック
シンドローム
代谢综合症
代謝症候群
抗体缺乏
综合症
抗体欠乏
症候群
フレームワーク
代谢综合症
中英
対訳辞書
単語アラインメ
ント・対訳フレー
ズ対抽出
日英
対訳辞書
中英対訳
フレーズ対
(確率付き)
同一の英語を持つフ
レーズ対の併合・確率
の再計算
日英対訳
フレーズ対
(確率付き)
p(メタボリック|代谢)=0.35
p(シンドローム|综合症)=0.50
マージした
日中対訳
フレーズ対
(確率付き)
その他の特徴等
フレーズ
ベース
統計的
機械翻訳
メタボリック
シンドローム
中英辞書の
日本語訳