用例ベース翻訳のための パラレルコーパスからの対訳対発見 荒牧英治 †, 黒橋禎夫‡, 佐藤理史†, 渡辺日出雄* † 京都大学大学院 情報学研究科 ‡ 東京大学大学院 情報理工系研究科 * 日本IBM東京基礎研究所 概要 対訳文から対応関係の発見 He hurt my feelings . 彼は 私の感情を 害した 。 概要 対訳文から対応関係の発見 He hurt my feelings . 彼は 私の感情を 害した 。 発表内容 • • • • • 背景と目的 システムの特徴 システムの詳細 実験と考察 まとめと今後の課題 背景 • 用例ベース翻訳 数万から数十万の翻訳用例が必要 統計的手法 頻出する対応関係を発見 背景 • 用例ベース翻訳 数万から数十万の翻訳用例が必要 単語辞書 統計的手法 頻出する対応関係を発見 本手法 目標 • より多くの対訳対を発見する • 統計的手法と同程度の精度を達成する 発表内容 • 背景と目的 システムの特徴 • システムの詳細 • 実験と考察 • まとめと今後の課題 システムの特徴 • 句を形成した後、句同士の対応を求める • 統語情報や文全体の整合性を考慮する システムの特徴 句を形成した後、句同士の対応を求める • 統語情報や文全体の整合性を考慮する 句を作成してから対応を求める • 語を辞書引きした場合 information technology 科学 技術 に in science technology おける 情報 技術 句を作成してから対応を求める • 語を辞書引きした場合→ 一意に対応を決定 できない information technology 科学 技術 に in science technology おける 情報 技術 句を作成してから対応を求める • 句単位で対応関係を求める information technology 科学 技術 に in science technology おける 情報 技術 句を作成してから対応を求める • 句同士の対応候補を評価可能 information technology 科学 技術 に in science technology おける 情報 技術 句を作成してから対応を求める information technology 科学 技術 に in science technology おける 情報 技術 システムの特徴 • 句を形成した後、句同士の対応を求める 統語情報や文全体の整合性を考慮する 統語情報や文全体の整合性を考慮する • 辞書引きでは対応がつかずに句が残る Japan play 日本 は 役割 を the role 果たす 統語情報や文全体の整合性を考慮する • 句レベルの依存構造や全体の整合を考慮 play Japan the role 果たす 日本 は 役割 を 統語情報や文全体の整合性を考慮する • 句レベルの依存構造や全体の整合を考慮 play Japan the role 果たす 日本 は 役割 を 統語情報や文全体の整合性を考慮する • 句レベルの依存構造や全体の整合を考慮 play Japan the role 果たす 日本 は 役割 を 発表内容 • 背景と目的 • システムの特徴 システムの詳細 • 実験と考察 • まとめと今後の課題 システムの流れ 句を作成 STEP 1 STEP 2 辞書引き 基本対訳対発見 候補生成 評価 STEP 3 残った句について 候補生成 拡張対訳対発見 評価 システムの流れ 句を作成 STEP 1 STEP 2 辞書引き 基本対訳対発見 候補生成 評価 STEP 3 残った句について 候補生成 拡張対訳対発見 評価 日本語文の句の作成 私はこの自動車を月賦払いで買った KNP日本語パーサー 私 は この 自動車 を 月賦 払い で 買った 英語文の句の作成 I bought this car by monthly installments. ESG英語パーサー 修正ルール I bought this car by monthly installments 英語文の句の作成 修正ルール 機能語は後続する内容語に付加する。 複合名詞は1句に含める。 be動詞は後続する動詞に付加する。 (is playing, was tired,….) 並列関係を示す語は、単独で句とする。 (and , or ,…) システムの流れ 句を作成 STEP 1 STEP 2 辞書引き 基本対訳対発見 候補生成 評価 STEP 3 残った句について 候補生成 拡張対訳対発見 評価 基本対訳対の候補生成 • 単語辞書によって、語の対応リンクを作成 information technology 科学 技術 に in science technology おける 情報 技術 基本対訳対の候補生成 • 対応リンクで接続されている句同士を候補に する。 information technology 科学 技術 に in science technology おける 情報 技術 基本対訳対の候補生成 • 対応リンクで接続されている句同士を候補に する。 information technology 科学 技術 に in science technology おける 情報 技術 基本対訳対の候補生成 • 複数の句からなる候補も生成する。 information technology 科学 技術 に in science technology おける 情報 技術 基本対訳対の候補生成 • それぞれの文内で隣接していない場合 は・・・ information technology 科学 技術 に in science technology おける 情報 技術 基本対訳対の候補生成 • それぞれの文内で隣接していない場合 は・・・候補としない information technology 科学 技術 に in science technology おける 情報 技術 システムの流れ 句を作成 STEP 1 STEP 2 辞書引き 基本対訳対発見 候補生成 評価 STEP 3 残った句について 候補生成 拡張対訳対発見 評価 基本対訳対の採用 3つの評価基準 Sufficiency 多くの内容語が対応している候補を優先 多くの句からなる候補を優先 近傍支持度 周辺に他の多くの候補が存在する候補を優先 優先される候補から採用していく 評価基準による採用 候補B 候補C 候補E 候補D : 候補K • 採用された候補と同じ句を含んだ 候補は棄却する 評価基準による採用 候補B 候補C 候補E 候補D : 候補K • 採用された候補と同じ句を含んだ 候補は棄却する システムの流れ 句を作成 STEP 1 STEP 2 辞書引き 基本対訳対発見 候補生成 評価 STEP 3 残った句について 候補生成 拡張対訳対発見 評価 拡張対訳対の候補生成 残った句について 修正 (基本対訳対に加える) 新規 (新しい対訳対を発見する) 2つの可能性を考慮して候補を作成する 修正による拡張対訳対の候補 • 未対応の句を基本対訳対に加えて候補と する in post Cold war years 冷戦 終結 後 に 修正による拡張対訳対の候補 • 未対応の句を基本対訳対に加えて候補と する in post Cold war years 冷戦 終結 後 に 新しい拡張対訳対の候補生成 未対応の句同士の対訳対を作成する goods 物 や and services サービス の 新しい拡張対訳対の候補生成 未対応の句同士の対訳対を作成する goods 物 や and services サービス の システムの流れ 句を作成 STEP 1 STEP 2 辞書引き 基本対訳対発見 候補生成 評価 STEP 3 残った句について 候補生成 拡張対訳対発見 評価 拡張対訳対の評価 以下を考慮した評価スコアを設定 依存構造 余った句を依存関係のある句に加える候補を優先 全体の整合性 周辺の基本対訳対の内容語の過不足を考慮 品詞情報 動詞句同士、または名詞句同士からなる候補を優先 優先される候補から採用していく 拡張対訳対の候補の評価 採用された候補と同じ句を含んだ候補は棄却 する 閾値以下の評価スコアをもつ候補を棄却する 候補B 候補C 候補E 候補D : 候補K 評価スコア= 3.0 2.5 1.5 0.7 0.1 閾値= 1.0 発表内容 • 背景と目的 • システムの特徴 • システムの詳細 実験と考察 • まとめと今後の課題 実験 コーパスA:科学技術庁、経済企画庁の白書 コーパスB:学研辞書の用例 各100文ずつ無作為抽出し対訳対を発見する 評価方法 あらかじめ人手で正しい句の対応を記述する 正解 :両者が一致した場合正解とする 半正解:両者に過不足が存在した場合 不正解:正解でも半正解でもない場合 基本対訳対の出力例 英語 In particular among major countries in world market in that area into his suitcase Transnational 正解 日本語 特に 主要 国 の 世界 市場 に おける 半正解 (旧 東 ドイツ) 地区 の (彼 は) スーツケース に 国 を [超えて] 拡張対訳対の出力例 英語 is being pursued of G7 nations geographical proximity 正解 日本語 行われている 先進 7カ国の 地理的に 近い スコア 2.75 2.6 2.0 tree (become) went [to bed] She ( held) 半正解 その 木 は 寝る 彼女 は 1.2 1.0 0.5 基本対訳対の内訳 閾値=3 55 10 計338個 273 正解 半正解 不正解 * 人手で記述した個数450個 基本対訳対+拡張対訳対の内訳 閾値=0 43 69 計410個 298 正解 半正解 不正解 * 人手で記述した個数450個 閾値と対訳対の数 個数 正解 半正解 不正解 500 400 300 200 100 0 0 0.5 1 1.5 2 2.5 3 閾値 適合率-再現率の定義 1 (正解の対訳対の数) (半正解の対訳対の数) 2 適合率 発見された対訳対の数 1 (正解の対訳対の数) (半正解の対訳対の数) 2 再現率 人手で発見された対訳対の数 適合率-再現率 90 適合率 85 80 75 70 60 65 70 75 再現率 * 点線部は半正解を不正解と同様に0とした場合 80 考察 発見数を増やす 精度を上げる 最適な閾値は? 翻訳システムに用いて評価する 発表内容 • 背景と目的 • システムの特徴 • システムの詳細 • 実験と考察 まとめと今後の課題 まとめ • コーパスから多くの対訳対を発見することに 成功した • 統計的手法と同程度の精度を達成できた • 発見された対訳対が用例として適当かどうか は不明 今後の課題 • 翻訳システムに用いて評価する 句数 3つの評価基準 充足度 句数 近傍支持度 east and west 東西 の 句の数 = 2 基本対訳対の候補生成 例外:並列を表す機能語による複数句の候補 science and 科学 技術 に technology 充足度 充足度= 対応リンク数 × 2 英語の内容語の数 + 日本語の内容語の数 • 多くの内容語が対応している候補を優先する。 充足度 対応リンク数 × 2 充足度= 英語の内容語の数 + 日本語の内容語の数 in science technology in science technology 情報 技術 情報 技術 1× 2 2× 2 2 + 2 =0.5 2 + 2 =1 句数 句数 = 英語の句の数 + 日本語の句の数 • 多くの句からなる候補を優先する。 • 1句同士からなる候補を優先しない。 近傍支持度 近傍支持度=英語の周辺の候補数+日本語の周辺の候補数 • 周辺の他の候補が多く存在する • 他の候補に指示されている 近傍支持度 近傍支持度=英語の周辺の候補数+日本語の周辺の候補数 science 科学 ~ ~ science and technology 科学に 加え 技術 近傍に存在する他の候補数 = 1 近傍支持度 近傍支持度=英語の周辺の候補数+日本語の周辺の候補数 science 科学 ~ ~ science and technology 科学に 加え 技術 近傍に存在する他の候補数 = 2 評価基準による採用 充足度 > 句数 > 近傍支持度 候補B 候補C 候補E 候補D : 候補K 1 0.5 0.5 0.25 : 0.2 3 4 1 3 : 1 0 2 1 6 : 2 評価の割合と閾値 100% 80% 60% 40% 20% 0% 0 0.5 1 1.5 2 2.5 3 閾値
© Copyright 2024 ExpyDoc