整合性尺度を用いた 構造的対訳文アラインメント 中澤 敏明 Yu Kun 東京大学大学院情報理工学系研究科 黒橋 禎夫 京都大学大学院情報学研究科 アラインメントの位置付け 入力文 対訳 コーパス アライメント 翻訳知識 EBMT 翻訳 翻訳文 アラインメントの精度は翻訳知識の質に影響する ⇒ 翻訳知識の質は翻訳の精度に影響する ⇒ アラインメントの精度を向上させることは重要! アラインメント • 統計翻訳(SMT) – さまざまな確率的パラメータを学習 – 辞書などの言語資源は基本的には利用しない – 頑健な数学的知識に基づいている • 用例ベース翻訳(EBMT) – 翻訳用例の獲得 – 辞書などの言語資源を積極的に利用 – アドホックなルールを利用することが多い [Arul 01] 目次 • 研究背景 • 用例ベース翻訳におけるアラインメント • 整合性尺度を用いた構造的アラインメント • 実験と考察 • 結論 目次 • 研究背景 • 用例ベース翻訳におけるアラインメント • 整合性尺度を用いた構造的アラインメント • 実験と考察 • 結論 アラインメント • Step1:依存構造解析 • Step2:対応候補の探索 • Step3:対応候補の選択 • Step4:未対応部分の推定 Step1:依存構造解析 • 日本語:形態素解析器JUMAN/構文解析器KNP • 英語:Charniak’s nlparser → ルールによる変換 J: 交差点で、突然あの車が 飛び出して来たのです。 交差 点で、 突然 あの 車が 飛び出して 来た のです E: The car came at me from the side at the intersection. the car came at me from the side at the intersection Step2:対応候補の探索 • 対訳辞書 (研究社の和英・英和辞書) • 数字の汎化 (二十三 ⇔ twenty three) • Transliteration (新宿 ⇔ Shinjuku) 交差 点で、 突然 あの 車が 飛び出して 来た のです the car came at me from the side at the intersection Step3:対応候補の選択 • 曖昧性がある候補や、不適切な候補も見つかる 曖昧な対応の例 日本 で you 保険 will have to file 会社 に 対して insurance 保険 請求 の 申し立て が 可能です よ an claim insurance with the office in Japan Step3:対応候補の選択 • 曖昧性がある候補や、不適切な候補も見つかる → 様々な対応候補から適切なものを取捨選択 する必要がある このステップが 最も重要! 詳細は後ほど。。。 Step4:未対応部分の推定 • 残っているルートノード同士を対応付ける • 名詞句内のノードをまとめる • そのほかは親ノードへまとめる 交差 点で、 突然 あの 車が 飛び出して 来た のです the car came at me from the side at the intersection 目次 • 研究背景 • 用例ベース翻訳におけるアラインメント • 整合性尺度を用いた構造的アラインメント • 実験と考察 • 結論 アラインメントの整合性 • 1 対 複数、複数 対 複数などの曖昧な対応 • 曖昧ではないが誤った対応 (中国=中 ⇔ in) 曖昧な対応の例 日本 で you 保険 will have to file 会社 に 対して insurance 保険 請求 の 申し立て が 可能です よ an claim insurance with the office in Japan アラインメントの整合性 • 1 対 多、多 対 多などの曖昧な対応 • 曖昧ではないが誤った対応 (中国=中 ⇔ in) 木構造全体が最も整合的に対応づくような ロバストなアラインメント手法が必要 アラインメントの整合性 近い! 遠い! アラインメントの整合性 • 1対複数、複数対複数などの曖昧な対応 • 曖昧ではないが誤った対応 (中国=中 ⇔ in) 木構造全体が最も整合的に対応づくような ロバストなアラインメント手法が必要 距離-スコア関数 arg max f d J (ai , a j ), d E (ai , a j ) alignment i j 日本語側距離 英語側距離 整合性スコア(整合性尺度) ベースライン手法 • 曖昧性のない対応候補は無条件で採用 • 曖昧性のある対応候補は整合性尺度を利用 • 一つの枝の距離はすべて1 → 二つの対応間の距離=木構造上での移動距離 • 距離-スコア関数 1 1 f d J , d E dJ dE スコア計算例 日本 で you 保険 will have to file 会社 に 対して insurance 保険 請求 の 申し立て が 可能です よ an claim insurance 1 1 2 1 with the office in Japan ベースライン手法 • 曖昧性のない対応候補は無条件で採用 • 曖昧性のある対応候補は整合性尺度を利用 • 一つの枝の距離はすべて1 → 二つの対応間の距離=木構造上での移動距離 • 距離-スコア関数 1 1 f d J , d E dJ dE 距離と距離-スコア関数を改善 距離-スコア関数の改善(1/2) • 毎日新聞4万対訳文のアラインメント正解データで 距離ペアの頻度分布を計数 [Uchimoto04] 頻 度 の log 英語側の距離 日本語側の距離 距離-スコア関数 arg max f d J (ai , a j ), d E (ai , a j ) alignment i j 日本語側距離 英語側距離 整合性スコア(整合性尺度) 距離-スコア関数の改善(2/2) • 距離が近い同士のペア → プラス • 距離が遠い同士のペア → 0 • 距離が近いものと遠いものとのペア → マイナス ス コ ア 英語側の距離 日本語側の距離 距離-スコア関数 arg max f d J (ai , a j ), d E (ai , a j ) alignment i j 日本語側距離 英語側距離 整合性スコア(整合性尺度) 係り受けタイプと距離 3 デ格 日本 で 1 文節内 1 連用 3 NP 保険 2 ノ格 2 ガ格 will have to file 1 NN 会社 に 対して 1 文節内 可能です よ 保険 3 NP insurance an claim 1 NN 請求 の 申し立て が you insurance 3 PP with the office 3 PP in Japan 距離-スコア関数 arg max f d J (ai , a j ), d E (ai , a j ) alignment i j 日本語側距離 英語側距離 整合性スコア(整合性尺度) 係り受けタイプと距離 日本語 英語 用言:レベルC 6 S / SBAR / SA / : 5 用言:レベルB+ / B 5 VP / ADVP 4 用言:レベルB- / A 4 ADJP / WHADVP ト格 WHADJP ヲ格 / ニ格 / デ格 3 NP / PP / INTJ ガ格 / ノ格 / 連体 2 QP / PRT / PRN 文節内 1 others 用言:レベルA+ 3 2 距離を利用した整合性計算 3 デ格 日本 で 1 文節内 1 連用 3 NP 保険 2 ノ格 2 ガ格 will have to file 1 NN 会社 に 対して 1 文節内 可能です よ 保険 3 NP insurance an claim 1 NN 請求 の 申し立て が you 距離=(1,1) スコア + insurance 3 PP with the office 3 PP in Japan 距離-スコア関数 arg max f d J (ai , a j ), d E (ai , a j ) alignment i j 日本語側距離 英語側距離 整合性スコア(整合性尺度) 距離を利用した整合性計算 3 デ格 日本 で 1 文節内 1 連用 3 NP 保険 2 ノ格 2 ガ格 will have to file 1 NN 会社 に 対して 1 文節内 可能です よ 保険 3 NP insurance an claim 1 NN 請求 の 申し立て が you 距離=(1,7) スコア - insurance 3 PP with the office 3 PP in Japan 距離-スコア関数 arg max f d J (ai , a j ), d E (ai , a j ) alignment i j 日本語側距離 英語側距離 整合性スコア(整合性尺度) アラインメントの整合性尺度 日本 で you 保険 will have to file 距離-スコア関数 arg max f d J (ai , a j ), d E (ai , a j ) 会社 に 対して alignment i j 保険 日本語側距離 請求 の 申し立て が 可能です よ insurance an claim 英語側距離 整合性スコア(整合性尺度) insurance with the office in Japan 目次 • 研究背景 • 用例ベース翻訳におけるアラインメント • 整合性尺度を用いた構造的アラインメント • 実験と考察 • 結論 アラインメント実験 • 毎日新聞対訳コーパスからランダムに500文 • 正解データとの比較 – 日本語:文字単位 英語:単語単位 – 適合率・再現率・F値 • 対訳辞書 – 研究社 和英 36K 見出し 214K エントリー – 研究社 英和 50K 見出し 303K エントリー 精度の計算例 E1 9 適合率(P)= =75% 12 E2 E3 E4 再現率(R)= E5 E6 9 =82% 11 E7 E8 E9 J1 J2 J3 J4 J5 J6 J7 J8 J9 F値= PとRの調和平均 =78% 結果と考察 適合率 再現率 F値 ベースライン 60.26 61.68 58.79 +距離-スコア関数改善 64.35 61.58 60.81 +係り受け距離 64.93 62.64 61.91 GIZA++ (with JUMAN) 59.9 17.0 26.4 • 距離-スコア関数改善により大幅な適合率向上 • 係り受け距離を考慮することにより全体的な精 度の向上 改善例(1) J:妥当な判決であると評価したい。 E:I would like to commend that it was a reasonable judgment. 改善例(2) J:チェチェン紛争は、東欧諸国 の北大西洋条約機構への加盟 要求を一層高めることになろう。 E:The Chechen conflict will accelerate the call for the participation of Eastern European nations in NATO 結論と今後の課題 • 係り受けタイプと距離-スコア関数を導入 • アラインメントの整合性尺度を定義し、適切な 対応候補の選択を可能とすることにより、アラ インメント精度の向上に成功 • 係り受けタイプに基づく距離を自動学習 • 距離スコア関数のチューニング • 他の有効なフィーチャの導入
© Copyright 2024 ExpyDoc