結合価文法による動詞の 訳語選択能力の評価

結合価文法による動詞と
名詞の訳語選択能力の評価
鳥取大学大学院工学研究科
金出地真人 徳久雅人
村上仁一
池原悟
研究の背景
複数の訳語を持つ語の
訳語選択の問題
例:送る
I send a letter.
I see her off.
I spend summer vacation.
結合価文法による翻訳方式
結合価文法による訳語選択
結合価パターン対の例
見出し語:『送る』
パターン数12
• N1(人) が N2(休暇) を 送る
• N1(人) が N2(生活) を 送る
N1 spend N2
N1 live N2
…
用言と格要素(体言+助詞)の関係を記述
一般名詞意味属性によって体言を制約
一般名詞意味属性体系
約40万語の一般名詞を最大12段の木構造
を構成する2710の意味属性に分類
名
具
主
体
詞
抽
体
場
所
抽象物
象
事
人
私、彼、彼女…
[
岩波書店 1997
日本語語彙体系より
]
パターンの例文への適用方法
例:彼は友人を家まで送った。
1.用言『送る』のパターンを検索
見出し語:送る
(1) N1(人) が N2(休暇) を 送る N1 spend N2
(2) N1(人) が N2(生活) を 送る N1 live N2
(3) N1(主体)が N2(主体) を N3(場所) に/へ/まで 送る
N1 see N2 to N3
…
2.格要素、意味属性、助詞の適合率からパターンを決定
3.パターンの意味属性による体言の訳語選択
『家』の意味属性と訳語
<家族>:home、<居住施設>:house、<家屋>:house
研究の目的
結合価文法の効果が定量的には不明
評価実験で定量的に検証
結合価文法の有効性を考察
評価実験
実験の手順
1.結合価文法を用いて例文を翻訳
2.正解例と1の翻訳結果を比較、評価
評価対象:IPAL辞書
[情報処理振興事業協会技術センター 1996]
・重要な日本語基本動詞、名詞を収録
・各単語の用法ごとに日本語例文付
・例文の英訳は翻訳家により作成
・例文は多くが単文
・例文数:動詞5242文、名詞1062文
結合価文法の適用方法
・結合価文法の人手ででの適用は困難
↓
・翻訳ソフト『ALT-J/E』を使用
実験システム:ALT-J/E
<特徴>
・翻訳アルゴリズムに結合価文法を使用
<問題点>
・頻度情報によりパターンを決定
↓
・人手による適用より精度が高い可能性
評価基準
・対象とする動詞、名詞部分のみ評価
・評価は『○』『△』『×』の三段階
・評価者1名で判断
評価○:ALTの訳と対訳の訳語が一致した場合
例:二つの川がこの地点で合う。
対訳:The two rivers join at this point.
ALT訳:Two rivers join in this point.
評価△:ALTと対訳の訳語が異なるが、
意味的に正しい場合
例:彼は準備を急いだ。
対訳:He prepared quickly.
ALT訳:He hurried preparation.
評価×:ALTの訳が意味的にも間違っている場合
例:彼らは海底に沈んでいた船を陸に揚げた。
対訳:They salvaged the sunken vessel on
the bottom of the sea.
ALT訳:They deep-fried in land the ships
that had sunk in the bottom of the sea.
比較対象
デフォルト訳語
・各単語の訳語で最もよく使われる語
・PROCEED和英辞書の先頭に表記されている語
例:『送る』
①【荷物などを】send ← デフォルト訳語に決定
②【人を】(見送る)see
③【時を過ごす】spend
・評価基準はALTと同じ基準
実験結果(動詞)
評 価
ALT-J/E
デフォルト
○
49% 2572文
22% 1141文
△
40% 2081文
33% 1740文
×
11% 589文
45% 2361文
合 計
5242文
5242文
正解率
89% 4653文
55% 2881文
実験結果(名詞)
評 価
ALT-J/E
デフォルト
○
62% 658文
58% 615文
△
29% 312文
27% 289文
×
9% 92文
15% 158文
合 計
1062文
1062文
正解率
91% 970文
85% 904文
考察(動詞)
• 実験結果より結合価文法により89%の例
文に対し、意味の正しい動詞の訳語を選
択
• 11%の例文について訳語選択に失敗
↓
原因を調査し結合価文法の
有効性の限界を調査
正しい動詞訳語を選択できなかった原因
・5242文中誤り589文→122文調査
翻訳失敗の原因
割
合
1 パターンが登録されていない場合
21% 26文
2
パターンの照合に失敗した場合
37% 45文
3
慣用表現が用いられている場合
11% 13文
4
形態素解析に失敗した場合
5
係り受け解析に失敗した場合
6
例文が複数の意味にとれる場合
5% 6文
合計
122文
9% 11文
17% 21文
1.パターンが登録されていない場合(21%)
例:学生が教授に教授の都合を電話で伺った。
対訳:The student phoned the professor and asked him
when he would be free.
ALT:A student listened the professor’s circumstances
with a telephone to a professor.
例文に対応したパターンなし
↓
結合価文法を使えず訳語選択に失敗
足りないパターンの追加により解決
例:N1(人) が N2(人) に N3(状態) を 伺う N1 ask N2’s N3
2.パターンの照合に失敗した場合(37%)
例:彼は海外で夏休みを送った。
対訳:He spend his summer vacation abroad.
ALT:He saw a summer vacation off at a foreign country .
動詞『送る』のパターン
「N1(主体) が N2(主体) を N3(場所) で 送る N1 see N2 off at N3」
「N1(人) が N2(休暇、時間) を 送る N1 spend N2」
:
ALTがパターン照合に失敗
↓
パターン照合アルゴリズムの修正により改善の余地有り
3.慣用表現が用いられている場合(11%)
例:彼は話の腰を折った。
対訳:He interrupted a person’s speech.
ALT訳:He broke the waist of talk.
慣用表現専用のパターンの登録が必要
例:N1(人)が話の腰を折る N1 interrupt a person’s speech
4.形態素解析に失敗した場合(9%)
5.係り受け解析に失敗した場合(17%)
・訳語選択を行なう前処理の問題
↓
・正しく処理されることが前提条件
訳語選択の問題ではないので対象外
6.例文が複数の意味にとれる場合(5%)
例:職場の不満から彼は家族の者に当たった。
対訳:He was hard on his family because of
complaints he had about his job.
ALT訳:He corresponded to the person of his
family from the discontent of a place of work.
例文に対応するパターン
「N1(人) が N2(人) に当たる」
?
?
be hard on
correspond to
結合価文法による訳し分けの限界
パターン数別の正解率
・パターン数の増加による訳語精度の向上
・パターン数の増加によるパターン選択ミスの可能性
↓
パターンの数が多いとパターン選択が困難
パターン数 0個
1~5個 5~10個 11個以上
○
50%
48%
56%
50%
△
28%
43%
37%
37%
×
22%
9%
7%
13%
動詞のまとめ
結合価文法の有効性
・評価実験の結果、89%の正解率
・原因の解決により9~10%の精度向上
結合価文法の限界
・文脈上複数の意味にとれる文に対しては
一意に決定不可
考察(名詞)
• デフォルトの訳語に比べ6%の精度向上
↓
• 動詞の評価結果に比べ効果少
原因
• IPAL名詞の約5割が多義なし
↓
デフォルトの正解率の上昇
・結合価文法は用言の訳語選択を目的に開発
正しい名詞訳語を選択できなかった原因
・調査文数1062文
1
2
3
4
5
6
7
翻訳失敗の原因
パターンが登録されていない場合
パターンの照合に失敗した場合
パターンの格要素の制約が弱い場合
対象の名詞がパターンの要素外
形態素解析に失敗した場合
慣用表現
見出し語の名詞が辞書未登録の場合
合計
割 合
39% 36文
4% 4文
17% 16文
8% 7文
5% 5文
24% 22文
2% 2文
92文
3.パターンの格要素の制約が弱い場合(17%)
例:彼は相手に 意向 を質した。
対訳:He asked the other party of their intention.
ALT訳:He asked his partner about a mind.
例文に対応するパターン
「N1(主体)がN2(主体)にN3(抽象)を質す」
名詞
意向の意味属性と英訳語
<意図>:intention
具体
抽象
<思想>:mind
↓
いずれの意味属性も<抽象>
思想
配下のため、一意に決定不可
意図
解決手段の考察
・意味属性の深いパターンを追加
例:「N1(主体)がN2(主体)にN3(意図)を質す」
↓
正しいパターン選択は困難
↓
パターンですべての意味属性を一意に決定不可
原因
・パターンは用言の訳し分けが目的
↓
・用言の英訳語が同じ場合、他のパターンと
区別できるだけの意味属性の定義で充分
4.対象の名詞がパターンの要素外の場合(8%)
例:逃亡した男は地方で生き延びている。
対訳:The man who escaped is surviving in the countryside.
ALT訳:The man who escaped has survived in a district.
例に対応するパターン
「N1(主体、動物)が生き延びる」
↓
『地方』を含む格要素はパターン外
解決の可能性
パターンに任意格の追加
例:「 N1(主体、動物)が 【N2(村落)で】 生き延びる」
6.慣用表現(24%)
例:彼女は亭主を尻に敷いている。
対訳:She dominates her husband.
ALT訳:She is spreading her husband out on the back.
・動詞の場合と同様に個別のパターンを登録で解決
例:「N1(主体)がN2(主体)を尻に敷く N1dominate N2」
その他の原因
パターンの追加などによる解決は不明
(∵原因3、4より)
先行研究との比較
先行研究(桐澤 2000)
・意味属性によるIPALの名詞の訳し分け精度を調査
名詞の例
分類
割合
訳語多義なし
56.4
%
岩
一意に絞り込み可能
24.0
%
スキー
3.5%
委員
場合により可能
絞込み可能
不可能
見出し
10.5
%
5.7%
麻
牙
意味属性
英訳語
<岩石>
rock
<スポーツ>
skiing
<遊び道具、運動具>
ski
<成員><複数>
committee
<成員><単数>
member of committee
<作物 繊維>
flax 亜麻とその繊維
<作物 繊維>
hemp 大麻とその繊維
<糸・布>
linen 麻製品
<牙>
tusk
象など
<牙>
fang
犬や猫
本研究の結果との対比
意味属性によって訳し分け精度が若干向上
分類
(先行研究より)
訳語多義なし
一意に絞り込み可能
場合により可能
絞り込み可能
不可能
各分類の訳し分け精度
○
71%
56%
49%
44%
52%
△
25%
32%
42%
40%
32%
×
4%
12%
9%
15%
16%
本研究の結果との対比
・意味属性決定による訳し分け精度の効果を確認
分類
名詞の例
見出し
訳語多義なし
岩
一意に絞り込み可能
スキー
場合により可能
絞込み可能
不可能
委員
麻
牙
意味属性
英訳語
<岩石>
rock
<スポーツ>
skiing
<遊び道具、運動具>
ski
<成員><複数>
committee
<成員><単数>
member of committee
<作物 繊維>
flax 亜麻とその繊維
<作物 繊維>
hemp 大麻とその繊維
<糸・布>
linen 麻製品
<牙>
tusk
象など
<牙>
fang
犬や猫
本研究にお
ける誤り率
4%
12%
9%
15%
16%
名詞のまとめ
結合価文法の有効性
・評価の結果、正解率がデフォルトより6%向上
・慣用表現のパターン追加により3%の精度向上
結合価文法の限界
・パターンの定義外の名詞は訳し分け不可
・すべての名詞についてパターンの登録は不可
まとめ
・IPAL辞書の基本動詞、名詞の訳し分け精度を調査
正解率
動詞89%(デフォルト55%)、名詞91%(85%)
限界
動詞98~99%、名詞94%
今後の課題
・IPAL辞書以外の動詞、名詞への効果調査