構造的類似文検索アルゴリズムを応用した 日本語文型パターン抽出法 鳥取大学工学部 知能情報工学科 ○田中 康仁 村上 仁一 徳久 雅人 池原 悟 研究の背景 機械翻訳 翻訳精度向上のため用例を用いる方法 翻訳する文に対して表現の類似した文と その対訳をデータベースから検索することが必要 従来の検索手法 品詞の並びのみで類似度を判断する用例検索 → 多くの不適切な用例を検索 対策 係り受け関係を利用する方法 (兵藤,河田,応,池田:構文つきコーパスの作成と類似用例検索システムの応 用) (谷口,池原,村上:依存構造を考慮した文型パターン検索アルゴリズム) 係り受けを用いた検索手法 係り受けを利用した検索アルゴリズム[1] ([1]谷口,池原,村上:依存構造を考慮した文型パターン検索アルゴリズム) 文節単位の係り受けの一致で類似文を検索 一致文節 ペア数 文節ペア数 3 A B 文節ペア C D 入力 DB 出力 A A B B C D 3 D 2 … 複数文抽出 構文的制約(係り受け構造)を利用して検索 ・ 不適切な用例の絞込み ・ 入力文と最も近い係り受け関係を持つ文を抽出 本研究 (1) 係り受け検索アルゴリズムを使用して、入力文に対する データベースからの類似文抽出 (2) 翻訳に利用できるかを調査するため、抽出文と入力文の対 訳において類似性を判定(手動) 入力文 入力文対訳 (1) (1) DB (2) 抽出文 … 抽出文対訳 用例翻訳における、係り受け関係を用いた類似 文検索の有効性検証 類似文抽出実験 入力文に対してデータベース中から類似文を抽出 検索対象データベース(DB) 重・複文の例文集[2](約8万文) ([2]村上,池原,徳久:日本語英語の文対応の対訳データベースの作成) 入力文 例文集から100文を選択 抽出文 各入力文対、例文集全文(入力文そのものを除く)で 抽出された文 文節の分類 品詞で類似性を判断 → 文の品詞列への置き換え 例:母は父の帰りを寝ないで待っています 名/副助 名/格助 名/格助 動/助動/助動 動/動/助動 (母/は) (父/の) (帰り/を) (寝/ない/で) (待っ/てい/ます) ・ 品詞を18種に分類→DB全体の文節の種類:1,738種 文節の例 品詞列 名詞+格助詞 動詞+接続助詞 文節 娘を,語尾を 集めて,見合わせて 係り受け情報の付加 品詞列に置き換えた文節区切りの文に係り受け情報を付加 日英翻訳ソフト ALT-J/E (NTT) 例 : 母は父の帰りを寝ないで待っています 1 3 2 名/副助 名/格助 (母/ は) (父/ の) 名/格助 (帰り/ を) 4 動/助動/助動 (寝/ない/で) 動/動/助動 (待っ/てい/ま す) 類似文抽出結果の例 入力文 : 母は父の帰りを寝ないで待っています 抽出文 : 連中は私の失敗を影で笑っているに違いない 1 入力文 抽出文 総数 41 抽出文 名/副助 (母/ は) 1 2 3 4 名/格助 名/格助 動/助動/助動 (父/の) (帰り/ を) (寝/ない/ で) 2 動/動/助動 (待っ/てい/ま す) 3 名/副助 名/格助 名/格助 (連中/ は) (私/の) (失敗/を) 名/格助 動/動/助動 (影/で) (笑っ/ている/に違いない) 類似文抽出実験の結果 黒字:抽出文のあった入力文の数 赤字:抽出文の総数 対DB文の係り受け一致文節ペア数 入 力 文 の( 係入 り力 受文 けの 文数 節) ペ ア 数 10 9 7 6 5 4 3 2 1 (3) (3) (2) (11) (25) (28) (16) (10) (2) 6 11 / / / / / 5 4 3 2 9 1 11 36 13 3 17 4 13 2 41 7 69 4 9 9 170 / 12 318 8 83 / / 11 580 / / / / / / 2 1 1 19 4 144 7 430 1 10 5 94 8 44 2 175 / 1 125 係り受けの一致が存在した文数 = 入力文数 97 100 0 11 11 11 対訳の類似性の判定 ~ 用例翻訳への利用(有効性)の検討 ~ 対象:入力文と抽出されたDB文(抽出文)の間で 係り受け関係が一致している部分 入力文、抽出文双方 で ・ 対訳の文法構 ・ 日本語、対訳において主語の位置が同じ 造が同様 対訳に類似性があると判定 対訳類似性が有る例 1 入力文 (対訳) 抽出文 総数 3 抽出文 3 2 名/副助 副用語 名/格助 (彼/ は) (そ の) (車/を) (手ごろ な) He bought S V 1 the car 名/副助 形容詞 副用語 4 形容詞 (プリズム/ (そ (光/を) (様々な) は) の) (対訳) The prism resolved the light S V 動/助動 (値段/で) (買っ/た) C 3 名/格助 名/格助 at a reasonable price. O 2 5 4 O 5 名/格助 動/助動 (色/に) (分解し/た) into various colors. C 対訳類似性が無い例 1 入力文 (対訳) (対訳) 3 名/副助 名/格助 (ここ/ は) (本土/ を) 4 名 is an island S V C 1 2 3 名/副助 名/格助 (これ/ は) (彼/か ら) I heard S V 動/助動 (遠く) (離れ/た) This 抽出文 総数 1 抽出文 2 動/助動 (島/だ) remote from the mainland. 4 名 動/助動 動/助動 (直接) (聞い/た) (話/です) this story O direct from him. 対訳類似性の判定結果 黒字:類似性ありと判断した文の数 赤字:抽出文のあった入力文の数 対DB文の係り受け一致文節ペア数 6 10 9 7 6 01 5 / 4 / 3 / 2 / 1 / 4 5 - 02 - 03 - 11 03 24 37 04 / 5 12 / / / / / / 3 01 12 29 28 7 11 / / 2 01 14 47 05 38 / 1 01 12 11 対訳に類似性があると判定した文 入力文数 = 0 01 01 01 33 100 考察 入力文:100文 類似文抽出 抽出文あり 97文 類似性あり 33文 対訳類似性判定 不適切な抽出文の抽出 → 品詞種の分類法 適切な抽出文の抽出漏れ → 複合語の品詞列の多様さ 不適切な抽出文の抽出例 1 入力文 格の違い 2 名/格助 動/接続助 名/格助 (酒/を) (飲ん/ で) (顔/が) (ほてる) My cheeks S 1 抽出文 3 flush V 動 with wine. C 2 3 名/格助 動/接続助 名/格助 動 (風/が) (吹く/と) (穂波/ が) (打つ) The rice-ears S 対策 wave V in the wind. C 品詞種別の詳細な分類 複合語による抽出漏れの例 1 入力文 私/は 1 抽出漏れ 彼ら/は 3 2 事故現場/を 4 嘔吐/を 見/て 3 2 運転手/を 催し/た 4 損害/賠償/を 告訴し/て 字面 損害/補償/を 文節 (名詞)+格助詞 = (名詞)+格助詞 品詞列 名詞+名詞+格助詞 ≠ 名詞+格助詞 求め/た 嘔吐/を 対策 複合語の単品詞化 まとめ 係り受け関係を用いた用例検索 検索で抽出された抽出文の対訳の中に適切 な文が存在 用例翻訳への利用 今後の課題 問題点 : 検索精度の向上 ・ 適切な抽出文の抽出もれ ・ 不適切な抽出文の抽出 の抑制 対策: • 品詞種別の詳細な分類 • 複合語の単品詞化 • 類似文検索への係り受け種別を用いた判定の追加 入力文とDB文の一致文節ペア数 対 DB 文 の 係 り 受 け 文 節 ペ ア 数 の 平 均 6 5 4 3 2 1 1 2 3 4 5 6 7 9 10 入力文の係り受け文節ペア数 入力文の係り受け文節ペア数が大き くても一致文節ペア数は平均して一定 対訳類似性が有る例 入力文 (対訳) 1 2 3 あの 人が 来ると He sets the table in a roar. S V O C 1 抽出文 (対訳) 2 4 一座が 3 5 ドッと 高笑いする 5 ドッと 4 クラスが あの 先生が 来ると He sets the class in a roar. S V O C 高笑いする 対訳類似性が無い例 1 入力文 主語の違い 2 名/格助 他用言/接続助 (彼/は) (有能だ/ が) He S is V 1 抽出文 3 competent C 名/格助 (資格/ は) but 2 他用言 (ない) (he) does not belong. 3 名/格助 他用言/接続助 名/格助 他用言 (外/は) (寒い/が) (中/は) (暖かい) It S is V cold outside C but it is warm inside. 他用言:動詞以外の用言(形容詞、形容動詞)
© Copyright 2024 ExpyDoc