結合価文法による動詞と 名詞の訳語選択能力の評価 鳥取大学大学院工学研究科 金出地真人 徳久雅人 村上仁一 池原悟 研究の背景 複数の訳語を持つ語の 訳語選択の問題 例:送る I send a letter. I see her off. I spend summer vacation. 結合価文法による翻訳方式 結合価文法による訳語選択 結合価パターン対の例 見出し語:『送る』 パターン数12 • N1(人) が N2(休暇) を 送る • N1(人) が N2(生活) を 送る N1 spend N2 N1 live N2 … 用言と格要素(体言+助詞)の関係を記述 一般名詞意味属性によって体言を制約 一般名詞意味属性体系 約40万語の一般名詞を最大12段の木構造 を構成する2710の意味属性に分類 名 具 主 体 詞 抽 体 場 所 抽象物 象 事 人 私、彼、彼女… [ 岩波書店 1997 日本語語彙体系より ] パターンの例文への適用方法 例:彼は友人を家まで送った。 1.用言『送る』のパターンを検索 見出し語:送る (1) N1(人) が N2(休暇) を 送る N1 spend N2 (2) N1(人) が N2(生活) を 送る N1 live N2 (3) N1(主体)が N2(主体) を N3(場所) に/へ/まで 送る N1 see N2 to N3 … 2.格要素、意味属性、助詞の適合率からパターンを決定 3.パターンの意味属性による体言の訳語選択 『家』の意味属性と訳語 <家族>:home、<居住施設>:house、<家屋>:house 研究の目的 結合価文法の効果が定量的には不明 評価実験で定量的に検証 結合価文法の有効性を考察 評価実験 実験の手順 1.結合価文法を用いて例文を翻訳 2.正解例と1の翻訳結果を比較、評価 評価対象:IPAL辞書 [情報処理振興事業協会技術センター 1996] ・重要な日本語基本動詞、名詞を収録 ・各単語の用法ごとに日本語例文付 ・例文の英訳は翻訳家により作成 ・例文は多くが単文 ・例文数:動詞5242文、名詞1062文 結合価文法の適用方法 ・結合価文法の人手ででの適用は困難 ↓ ・翻訳ソフト『ALT-J/E』を使用 実験システム:ALT-J/E <特徴> ・翻訳アルゴリズムに結合価文法を使用 <問題点> ・頻度情報によりパターンを決定 ↓ ・人手による適用より精度が高い可能性 評価基準 ・対象とする動詞、名詞部分のみ評価 ・評価は『○』『△』『×』の三段階 ・評価者1名で判断 評価○:ALTの訳と対訳の訳語が一致した場合 例:二つの川がこの地点で合う。 対訳:The two rivers join at this point. ALT訳:Two rivers join in this point. 評価△:ALTと対訳の訳語が異なるが、 意味的に正しい場合 例:彼は準備を急いだ。 対訳:He prepared quickly. ALT訳:He hurried preparation. 評価×:ALTの訳が意味的にも間違っている場合 例:彼らは海底に沈んでいた船を陸に揚げた。 対訳:They salvaged the sunken vessel on the bottom of the sea. ALT訳:They deep-fried in land the ships that had sunk in the bottom of the sea. 比較対象 デフォルト訳語 ・各単語の訳語で最もよく使われる語 ・PROCEED和英辞書の先頭に表記されている語 例:『送る』 ①【荷物などを】send ← デフォルト訳語に決定 ②【人を】(見送る)see ③【時を過ごす】spend ・評価基準はALTと同じ基準 実験結果(動詞) 評 価 ALT-J/E デフォルト ○ 49% 2572文 22% 1141文 △ 40% 2081文 33% 1740文 × 11% 589文 45% 2361文 合 計 5242文 5242文 正解率 89% 4653文 55% 2881文 実験結果(名詞) 評 価 ALT-J/E デフォルト ○ 62% 658文 58% 615文 △ 29% 312文 27% 289文 × 9% 92文 15% 158文 合 計 1062文 1062文 正解率 91% 970文 85% 904文 考察(動詞) • 実験結果より結合価文法により89%の例 文に対し、意味の正しい動詞の訳語を選 択 • 11%の例文について訳語選択に失敗 ↓ 原因を調査し結合価文法の 有効性の限界を調査 正しい動詞訳語を選択できなかった原因 ・5242文中誤り589文→122文調査 翻訳失敗の原因 割 合 1 パターンが登録されていない場合 21% 26文 2 パターンの照合に失敗した場合 37% 45文 3 慣用表現が用いられている場合 11% 13文 4 形態素解析に失敗した場合 5 係り受け解析に失敗した場合 6 例文が複数の意味にとれる場合 5% 6文 合計 122文 9% 11文 17% 21文 1.パターンが登録されていない場合(21%) 例:学生が教授に教授の都合を電話で伺った。 対訳:The student phoned the professor and asked him when he would be free. ALT:A student listened the professor’s circumstances with a telephone to a professor. 例文に対応したパターンなし ↓ 結合価文法を使えず訳語選択に失敗 足りないパターンの追加により解決 例:N1(人) が N2(人) に N3(状態) を 伺う N1 ask N2’s N3 2.パターンの照合に失敗した場合(37%) 例:彼は海外で夏休みを送った。 対訳:He spend his summer vacation abroad. ALT:He saw a summer vacation off at a foreign country . 動詞『送る』のパターン 「N1(主体) が N2(主体) を N3(場所) で 送る N1 see N2 off at N3」 「N1(人) が N2(休暇、時間) を 送る N1 spend N2」 : ALTがパターン照合に失敗 ↓ パターン照合アルゴリズムの修正により改善の余地有り 3.慣用表現が用いられている場合(11%) 例:彼は話の腰を折った。 対訳:He interrupted a person’s speech. ALT訳:He broke the waist of talk. 慣用表現専用のパターンの登録が必要 例:N1(人)が話の腰を折る N1 interrupt a person’s speech 4.形態素解析に失敗した場合(9%) 5.係り受け解析に失敗した場合(17%) ・訳語選択を行なう前処理の問題 ↓ ・正しく処理されることが前提条件 訳語選択の問題ではないので対象外 6.例文が複数の意味にとれる場合(5%) 例:職場の不満から彼は家族の者に当たった。 対訳:He was hard on his family because of complaints he had about his job. ALT訳:He corresponded to the person of his family from the discontent of a place of work. 例文に対応するパターン 「N1(人) が N2(人) に当たる」 ? ? be hard on correspond to 結合価文法による訳し分けの限界 パターン数別の正解率 ・パターン数の増加による訳語精度の向上 ・パターン数の増加によるパターン選択ミスの可能性 ↓ パターンの数が多いとパターン選択が困難 パターン数 0個 1~5個 5~10個 11個以上 ○ 50% 48% 56% 50% △ 28% 43% 37% 37% × 22% 9% 7% 13% 動詞のまとめ 結合価文法の有効性 ・評価実験の結果、89%の正解率 ・原因の解決により9~10%の精度向上 結合価文法の限界 ・文脈上複数の意味にとれる文に対しては 一意に決定不可 考察(名詞) • デフォルトの訳語に比べ6%の精度向上 ↓ • 動詞の評価結果に比べ効果少 原因 • IPAL名詞の約5割が多義なし ↓ デフォルトの正解率の上昇 ・結合価文法は用言の訳語選択を目的に開発 正しい名詞訳語を選択できなかった原因 ・調査文数1062文 1 2 3 4 5 6 7 翻訳失敗の原因 パターンが登録されていない場合 パターンの照合に失敗した場合 パターンの格要素の制約が弱い場合 対象の名詞がパターンの要素外 形態素解析に失敗した場合 慣用表現 見出し語の名詞が辞書未登録の場合 合計 割 合 39% 36文 4% 4文 17% 16文 8% 7文 5% 5文 24% 22文 2% 2文 92文 3.パターンの格要素の制約が弱い場合(17%) 例:彼は相手に 意向 を質した。 対訳:He asked the other party of their intention. ALT訳:He asked his partner about a mind. 例文に対応するパターン 「N1(主体)がN2(主体)にN3(抽象)を質す」 名詞 意向の意味属性と英訳語 <意図>:intention 具体 抽象 <思想>:mind ↓ いずれの意味属性も<抽象> 思想 配下のため、一意に決定不可 意図 解決手段の考察 ・意味属性の深いパターンを追加 例:「N1(主体)がN2(主体)にN3(意図)を質す」 ↓ 正しいパターン選択は困難 ↓ パターンですべての意味属性を一意に決定不可 原因 ・パターンは用言の訳し分けが目的 ↓ ・用言の英訳語が同じ場合、他のパターンと 区別できるだけの意味属性の定義で充分 4.対象の名詞がパターンの要素外の場合(8%) 例:逃亡した男は地方で生き延びている。 対訳:The man who escaped is surviving in the countryside. ALT訳:The man who escaped has survived in a district. 例に対応するパターン 「N1(主体、動物)が生き延びる」 ↓ 『地方』を含む格要素はパターン外 解決の可能性 パターンに任意格の追加 例:「 N1(主体、動物)が 【N2(村落)で】 生き延びる」 6.慣用表現(24%) 例:彼女は亭主を尻に敷いている。 対訳:She dominates her husband. ALT訳:She is spreading her husband out on the back. ・動詞の場合と同様に個別のパターンを登録で解決 例:「N1(主体)がN2(主体)を尻に敷く N1dominate N2」 その他の原因 パターンの追加などによる解決は不明 (∵原因3、4より) 先行研究との比較 先行研究(桐澤 2000) ・意味属性によるIPALの名詞の訳し分け精度を調査 名詞の例 分類 割合 訳語多義なし 56.4 % 岩 一意に絞り込み可能 24.0 % スキー 3.5% 委員 場合により可能 絞込み可能 不可能 見出し 10.5 % 5.7% 麻 牙 意味属性 英訳語 <岩石> rock <スポーツ> skiing <遊び道具、運動具> ski <成員><複数> committee <成員><単数> member of committee <作物 繊維> flax 亜麻とその繊維 <作物 繊維> hemp 大麻とその繊維 <糸・布> linen 麻製品 <牙> tusk 象など <牙> fang 犬や猫 本研究の結果との対比 意味属性によって訳し分け精度が若干向上 分類 (先行研究より) 訳語多義なし 一意に絞り込み可能 場合により可能 絞り込み可能 不可能 各分類の訳し分け精度 ○ 71% 56% 49% 44% 52% △ 25% 32% 42% 40% 32% × 4% 12% 9% 15% 16% 本研究の結果との対比 ・意味属性決定による訳し分け精度の効果を確認 分類 名詞の例 見出し 訳語多義なし 岩 一意に絞り込み可能 スキー 場合により可能 絞込み可能 不可能 委員 麻 牙 意味属性 英訳語 <岩石> rock <スポーツ> skiing <遊び道具、運動具> ski <成員><複数> committee <成員><単数> member of committee <作物 繊維> flax 亜麻とその繊維 <作物 繊維> hemp 大麻とその繊維 <糸・布> linen 麻製品 <牙> tusk 象など <牙> fang 犬や猫 本研究にお ける誤り率 4% 12% 9% 15% 16% 名詞のまとめ 結合価文法の有効性 ・評価の結果、正解率がデフォルトより6%向上 ・慣用表現のパターン追加により3%の精度向上 結合価文法の限界 ・パターンの定義外の名詞は訳し分け不可 ・すべての名詞についてパターンの登録は不可 まとめ ・IPAL辞書の基本動詞、名詞の訳し分け精度を調査 正解率 動詞89%(デフォルト55%)、名詞91%(85%) 限界 動詞98~99%、名詞94% 今後の課題 ・IPAL辞書以外の動詞、名詞への効果調査
© Copyright 2024 ExpyDoc