構造的類似文検索アルゴリズムを応用した日本語文型パ

構造的類似文検索アルゴリズムを応用した
日本語文型パターン抽出法
鳥取大学工学部 知能情報工学科
○田中 康仁 村上 仁一 徳久 雅人 池原 悟
研究の背景
機械翻訳
翻訳精度向上のため用例を用いる方法
翻訳する文に対して表現の類似した文と
その対訳をデータベースから検索することが必要
従来の検索手法
品詞の並びのみで類似度を判断する用例検索
→ 多くの不適切な用例を検索
対策
係り受け関係を利用する方法
(兵藤,河田,応,池田:構文つきコーパスの作成と類似用例検索システムの応
用)
(谷口,池原,村上:依存構造を考慮した文型パターン検索アルゴリズム)
係り受けを用いた検索手法
係り受けを利用した検索アルゴリズム[1]
([1]谷口,池原,村上:依存構造を考慮した文型パターン検索アルゴリズム)
文節単位の係り受けの一致で類似文を検索
一致文節
ペア数
文節ペア数
3
A B
文節ペア
C D
入力
DB
出力
A
A
B
B
C D
3
D
2
…
複数文抽出
構文的制約(係り受け構造)を利用して検索
・ 不適切な用例の絞込み
・ 入力文と最も近い係り受け関係を持つ文を抽出
本研究
(1) 係り受け検索アルゴリズムを使用して、入力文に対する
データベースからの類似文抽出
(2) 翻訳に利用できるかを調査するため、抽出文と入力文の対
訳において類似性を判定(手動)
入力文
入力文対訳
(1)
(1)
DB
(2)
抽出文
…
抽出文対訳
用例翻訳における、係り受け関係を用いた類似
文検索の有効性検証
類似文抽出実験
入力文に対してデータベース中から類似文を抽出
検索対象データベース(DB)
重・複文の例文集[2](約8万文)
([2]村上,池原,徳久:日本語英語の文対応の対訳データベースの作成)
入力文
例文集から100文を選択
抽出文
各入力文対、例文集全文(入力文そのものを除く)で
抽出された文
文節の分類
品詞で類似性を判断 → 文の品詞列への置き換え
例:母は父の帰りを寝ないで待っています
名/副助 名/格助 名/格助 動/助動/助動 動/動/助動
(母/は)
(父/の)
(帰り/を)
(寝/ない/で)
(待っ/てい/ます)
・ 品詞を18種に分類→DB全体の文節の種類:1,738種
文節の例
品詞列
名詞+格助詞
動詞+接続助詞
文節
娘を,語尾を
集めて,見合わせて
係り受け情報の付加
品詞列に置き換えた文節区切りの文に係り受け情報を付加
日英翻訳ソフト ALT-J/E (NTT)
例 : 母は父の帰りを寝ないで待っています
1
3
2
名/副助
名/格助
(母/
は)
(父/
の)
名/格助
(帰り/
を)
4
動/助動/助動
(寝/ない/で)
動/動/助動
(待っ/てい/ま
す)
類似文抽出結果の例
入力文 : 母は父の帰りを寝ないで待っています
抽出文 : 連中は私の失敗を影で笑っているに違いない
1
入力文
抽出文
総数
41
抽出文
名/副助
(母/
は)
1
2
3
4
名/格助
名/格助
動/助動/助動
(父/の)
(帰り/
を)
(寝/ない/
で)
2
動/動/助動
(待っ/てい/ま
す)
3
名/副助
名/格助
名/格助
(連中/
は)
(私/の) (失敗/を)
名/格助
動/動/助動
(影/で)
(笑っ/ている/に違いない)
類似文抽出実験の結果
黒字:抽出文のあった入力文の数
赤字:抽出文の総数
対DB文の係り受け一致文節ペア数
入
力
文
の(
係入
り力
受文
けの
文数
節)
ペ
ア
数
10
9
7
6
5
4
3
2
1
(3)
(3)
(2)
(11)
(25)
(28)
(16)
(10)
(2)
6
11
/
/
/
/
/
5
4
3
2 9 1 11
36
13
3 17 4 13 2 41
7 69 4 9 9 170
/ 12 318 8 83
/
/ 11 580
/
/
/
/
/
/
2
1
1 19
4 144 7 430 1 10
5 94
8 44 2 175
/ 1 125
係り受けの一致が存在した文数
=
入力文数
97
100
0
11
11
11
対訳の類似性の判定
~ 用例翻訳への利用(有効性)の検討 ~
対象:入力文と抽出されたDB文(抽出文)の間で
係り受け関係が一致している部分
入力文、抽出文双方
で
・ 対訳の文法構
・ 日本語、対訳において主語の位置が同じ
造が同様
対訳に類似性があると判定
対訳類似性が有る例
1
入力文
(対訳)
抽出文
総数 3
抽出文
3
2
名/副助
副用語
名/格助
(彼/
は)
(そ
の)
(車/を) (手ごろ
な)
He
bought
S
V
1
the car
名/副助
形容詞
副用語
4
形容詞
(プリズム/
(そ
(光/を) (様々な)
は)
の)
(対訳) The prism
resolved
the light
S
V
動/助動
(値段/で) (買っ/た)
C
3
名/格助
名/格助
at a reasonable price.
O
2
5
4
O
5
名/格助
動/助動
(色/に) (分解し/た)
into various colors.
C
対訳類似性が無い例
1
入力文
(対訳)
(対訳)
3
名/副助
名/格助
(ここ/
は)
(本土/
を)
4
名
is
an island
S
V
C
1
2
3
名/副助
名/格助
(これ/
は)
(彼/か
ら)
I
heard
S
V
動/助動
(遠く) (離れ/た)
This
抽出文
総数 1
抽出文
2
動/助動
(島/だ)
remote from the mainland.
4
名
動/助動
動/助動
(直接) (聞い/た) (話/です)
this story
O
direct
from him.
対訳類似性の判定結果
黒字:類似性ありと判断した文の数
赤字:抽出文のあった入力文の数
対DB文の係り受け一致文節ペア数
6
10 9 7 6 01
5 /
4 /
3 /
2 /
1 /
4
5
- 02
- 03
- 11
03 24
37 04
/ 5 12
/ /
/ /
/ /
3
01
12
29
28
7 11
/
/
2
01
14
47
05
38
/
1
01
12
11
対訳に類似性があると判定した文
入力文数
=
0
01
01
01
33
100
考察
入力文:100文
類似文抽出
抽出文あり
97文
類似性あり
33文
対訳類似性判定
不適切な抽出文の抽出
→ 品詞種の分類法
適切な抽出文の抽出漏れ
→ 複合語の品詞列の多様さ
不適切な抽出文の抽出例
1
入力文
格の違い
2
名/格助
動/接続助
名/格助
(酒/を)
(飲ん/
で)
(顔/が) (ほてる)
My cheeks
S
1
抽出文
3
flush
V
動
with wine.
C
2
3
名/格助
動/接続助
名/格助
動
(風/が)
(吹く/と)
(穂波/
が)
(打つ)
The rice-ears
S
対策
wave
V
in the wind.
C
品詞種別の詳細な分類
複合語による抽出漏れの例
1
入力文
私/は
1
抽出漏れ
彼ら/は
3
2
事故現場/を
4
嘔吐/を
見/て
3
2
運転手/を
催し/た
4
損害/賠償/を
告訴し/て
字面
損害/補償/を
文節
(名詞)+格助詞
=
(名詞)+格助詞
品詞列
名詞+名詞+格助詞
≠
名詞+格助詞
求め/た
嘔吐/を
対策
複合語の単品詞化
まとめ
係り受け関係を用いた用例検索
検索で抽出された抽出文の対訳の中に適切
な文が存在
用例翻訳への利用
今後の課題
問題点 : 検索精度の向上
・ 適切な抽出文の抽出もれ
・ 不適切な抽出文の抽出
の抑制
対策:
• 品詞種別の詳細な分類
• 複合語の単品詞化
• 類似文検索への係り受け種別を用いた判定の追加
入力文とDB文の一致文節ペア数
対
DB
文
の
係
り
受
け
文
節
ペ
ア
数
の
平
均
6
5
4
3
2
1
1
2
3
4
5
6
7
9 10
入力文の係り受け文節ペア数
入力文の係り受け文節ペア数が大き
くても一致文節ペア数は平均して一定
対訳類似性が有る例
入力文
(対訳)
1
2
3
あの
人が
来ると
He
sets
the table
in a roar.
S
V
O
C
1
抽出文
(対訳)
2
4
一座が
3
5
ドッと
高笑いする
5
ドッと
4
クラスが
あの
先生が
来ると
He
sets
the class
in a roar.
S
V
O
C
高笑いする
対訳類似性が無い例
1
入力文
主語の違い
2
名/格助
他用言/接続助
(彼/は)
(有能だ/
が)
He
S
is
V
1
抽出文
3
competent
C
名/格助
(資格/
は)
but
2
他用言
(ない)
(he)
does not belong.
3
名/格助
他用言/接続助
名/格助
他用言
(外/は)
(寒い/が)
(中/は)
(暖かい)
It
S
is
V
cold outside
C
but
it
is
warm inside.
他用言:動詞以外の用言(形容詞、形容動詞)