機械学習による 日本語名詞句照応解析の一手法 奈良先端科学技術大学院大学 飯田龍 乾健太郎 松本裕治 ニューヨーク大学 関根聡 1 名詞句照応解析 文章内の同一指示対象を同定するタスク 先行詞 村山富市首相は八日、超党派の「民主リベラル新党準 備会」を独自に発足させた社会党の新民主連合会長と 会談した。首相は、今春の統一地方選後に党全体で の新党移行を目指す考えを強調、離党など性急な行 動への自重を求めた。 照応詞 照応解析の応用 対話モデル, MT, IR, IE, QA 2 照応解析の先行研究 おおきく2つの手法に分類できる 理論指向の規則作成に基づく手法 (Baldwin 95, Mitkov 97, Vieiraら 00, 村田ら 97) センタリング理論など言語学的な知見をもとに規則を作成 Message Understanding Conference (MUC) • 精度 約70%, 再現率 約60% (対象言語は英語) 規則の保守・洗練が難しい 照応関係タグ付きコーパスを用いた学習手法 (Soonら 01, Ngら 02, Yangら03, Geら 98) 表層情報からわかる単純な手がかりを使用 MUCの同タスクにおいて,規則ベースの手法と 同程度の精度を得ている 3 目的 一般に英語と比較して日本語の方が 名詞の指示性を推定することが困難だと言われている 冠詞(theなど)の情報が無いため 機械学習を用いた日本語照応解析のモデルを提案 このモデルを日本語の名詞句照応解析に適用し, どのような現象がどの程度解析可能かを調査する 4 目次 名詞句照応解析の概要 村田らの日本語名詞句照応解析手法 提案手法 評価実験 実験結果と誤り分析 まとめ 5 村田ら(‘97)の規則に基づく解析手法 2つの処理で解析 1. 名詞句の指示性(総称名詞,定名詞,不定名詞)の推定 2. 局所文脈(助詞,係り元,係り先など)の情報を利用 定名詞句間の照応関係の同定 村山富市首相は八日、超党派の「民主リベラル新党準 備会」を独自に発足させた社会党の新民主連合会長と 会談した。首相は、今春の統一地方選後に党全体で の新党移行を目指す考えを強調、離党など性急な行 動への自重を求めた。 「村山富市首相」 = 「首相」 「社会党」 = 「党」 緑色: 定名詞 6 村田らの手法の問題点 村山富市首相は八日、超党派の「民主リベラル新党準 備会」を独自に発足させた社会党の新民主連合会長と 会談した。首相は、今春の統一地方選後に党全体で の新党移行を目指す考えを強調、離党など性急な行 動への自重を求めた。 名詞句「首相」の指示性を推定するには前方文脈の情報が必要 村田らの手法でも規則として用いられているが 例外を書き尽くすことは困難である 指示性の推定を誤ることで 照応関係の解析全体に影響を及ぼす恐れがある 7 目次 名詞句照応解析の概要 村田らの日本語名詞句照応解析手法 提案手法 評価実験 実験結果と誤り分析 まとめ 8 提案手法 個別の名詞句が定名詞か否かを分類することなく 照応関係を認定する手法 名詞句照応解析の問題を2つに分割 1. 最尤先行詞候補の同定 2. 照応詞候補に対して最も先行詞らしい候補 (最尤先行詞候補)を同定する 照応詞の認定 最尤先行詞候補と照応詞候補の対を用いて 照応詞候補が照応詞かそれ以外(非照応詞)かを分類 照応詞候補と最尤先行詞候補の両方の 情報を参照して指示性を推定 9 最尤先行詞候補の同定 トーナメントモデル (Iida 03) 村山富市首相 最尤先行詞候補 村山富市首相 村山富市首相 超党派 八日 社会党 首相 首相 照応詞候補 先行詞候補 超党派 最尤先行詞候補 超党派 村山富市首相 超党派 先行詞候補 八日 社会党 社会党 照応詞候補 10 提案手法 1. 最尤先行詞候補の同定 照応詞候補に対して最も先行詞らしい候補 (最尤先行詞候補)を同定する 照応詞候補 社会党 首相 2. 最尤先行詞候補 超党派 村山富市首相 照応詞の認定 最尤先行詞候補と照応詞候補の対を用いて 照応詞候補が照応詞かそれ以外(非照応詞)かを分類 超党派 社会党 村山富市首相 首相 照応関係× 照応関係 ○ 11 照応詞の認定 訓練事例の作成 負例集合 正例集合 非照応詞と 最尤先行詞候補の 対を負例とする 超党派 村山富市首相 先行詞 首相 社会党 最尤 超党派 先行詞候補 照応詞 真の照応詞と 先行詞の対を正例とする 村山富市首相 超党派 八日 社会党 非照応詞 先行詞候補 12 照応詞の認定 (Cont’d) 解析 最尤 先行詞候補 社会党 社会党 党 照応関係 … 村山富市首相 … 照応詞 候補 社会党 今春 統一地方選 党 村山富市首相は八日、超党派の「民主リベラル新党準備会」を 独自に発足させた社会党の新民主連合会長と会談した。首相 は、今春の統一地方選後に党全体での新党移行を目指す考え を強調、離党など性急な行動への自重を求めた。 13 目次 名詞句照応解析の概要 村田らの日本語名詞句照応解析手法 提案手法 評価実験 実験結果と誤り分析 まとめ 14 名詞句照応解析の問題設定 照応関係タグ付きコーパスの作成の際の問題 総称名詞や不定名詞の照応関係 図書館1には本1が置いてある。 図書館2の本2は借りることができる。 図書館1 = 図書館2 本1 ⊃ 本2 外界照応 外界の要素を指示 庭師はその植物に水をやりましたか。 包含関係を考慮し てタグ付与する ことは困難 • 指示詞の無い「村山富市首相」は外界照応? 複合名詞句の構成素 • [ [ 八重洲 東 ] [ 駐車 場 ] ] ○ [八重洲 東] ○ [駐車 場] × [[八重洲 東] 駐車] 15 照応関係タグ付きコーパス作成の基準 タグ付与の基準 総称名詞と不定名詞は照応詞,先行詞としない 談話内に出現した名詞句のみを先行詞とする 照応詞は文節の主辞(最右の名詞自立語)を 対象とする 16 訓練・評価データ 作成したタグ付けの基準に従い, 京大コーパスの報道90記事にタグを付与 前処理 883事例を抽出 形態素解析(茶筌) 構文解析・固有表現抽出(CaboCha) 学習器 SVM (Vapnik 98) 17 素性 4種類の素性 語彙的な情報を用いた素性 形態・統語的な情報を用いた素性 意味的な情報を用いた素性 名詞句間の距離情報を用いた素性 18 実験結果 種類 精度 (a)先行詞の同定 (a)+照応詞の検出 86.6% (765/883) 65.9% (582/883) 非照応詞の棄却 適合率 再現率 97.4% (6042/6202) 65.9% (582/883) 78.4% (582/742) 先行詞同定 誤り 13.4% (100 - 86.6) 照応詞認定 誤り 20.7% (86.6 - 65.9) 19 解析の信頼度 解析を誤るよりも精度良く解析したいという要求がある 照応詞認定処理で分類器が出力する値を信頼度として導入 (SVMが出力する分離平面からの距離) 全体の事例のうち 約5割を出力すると 約9割の精度が得られる 20 解析誤りの分析(先行詞同定) 真の照応詞に対する先行詞同定を誤った118事例 誤りの原因 (1) 名詞意味属性の粒度 (2) 特徴的な語の過剰な重み 割合 35.6% (42/118) 16.9% (20/118) (3) 文字列素性が過剰に働く (4) 文章内外の情報が必要 18.6% (22/118) 15.3% (18/118) (5) 定名詞の推定誤り (6) その他 9.3% (11/118) 22.9% (27/118) 21 解析誤りの分析(先行詞同定) (1) 名詞意味属性の粒度 照応解析に必要な意味属性の粒度とは? 「会議」 ≠ 「今日」: 意味属性の違いで棄却できる 「兄」 ≠ 「妹」: 多くの言語資源において 同一の意味概念<人間>に含まれる (3) 文字列素性が過剰に働く 文字列の一致情報は固有表現同士の場合などは有用 しかし 「キリスト教会」と「キリスト教会色」の対が照応関係と解析さ れる 22 解析誤りの分析(照応詞認定) 解析の信頼度が高くかつ解析を誤った50事例の分析 誤りの原因 割合 (1) 定名詞の推定誤り 50.0% (25/50) (2) 文字列素性が過剰に働く (3) 文章内外の情報が必要 14.0% (7/50) 12.0% (6/50) (4) その他 22.0% (11/50) 名詞の指示性の推定方法について 今後さらに検討する必要がある 23 まとめ 最尤先行詞候補を同定した上で 照応詞を認定する名詞句照応解析手法の提案 再現率 65.9%, 精度 78.4% 24 今後の課題 名詞の指示性に着目して センタリング理論で導入されている 局所文脈情報の利用 (不)定名詞と総称名詞を区別するような知識について調査 規則ベースの手法との比較 タグ付きコーパス作成方法の洗練 25 26 実験結果(照応詞で分類) 「照応詞の検出と先行詞の同定」を 照応詞によって分類 固有表現: CaboChaの出力するIREXの8種の固有表現 代名詞 : 茶筌の出力する品詞 普通名詞: それ以外 種類 固有表現 普通名詞 (a)先行詞同定 94.8% (368/388) 81.5% (392/481) (a)+照応詞の検出 84.3% (327/388) 52.8% (254/481) 代名詞 35.7% (5/14) 7.1% (1/14) 27 実験結果(他手法との比較) 種類 Yang(‘03)’s model Tournament model Preference Kernel (Shen 03) 先行詞の同定 (or照応詞の検出) 89.8% (793/883) 86.6% (765/883) 87.5% (773/883) 先行詞の同定と 照応詞の検出 86.5% (764/883) 65.9% (582/883) 65.3% (577/883) 非照応詞の棄却 83.1% (5153/6202) 97.4% (6042/6202) 97.6% (6051/6202) 精度 43.1% (793/1842) 78.4% (582/742) 79.3% (577/728) 再現率 86.5% (764/883) 65.9% (582/883) 65.3% (577/883) F値 57.5 71.6 71.6 28 村田ら(‘97)の名詞句の指示性の分類 総称名詞 • 名詞句の意味する類に属する任意の成員のすべて, もしくは類それ自身 犬は役に立つ動物です。 非総称名詞 不定名詞 • 名詞句が意味する類に属するある不特定の成員 犬が三匹います。 定名詞 • 名詞句の意味する類に属する文脈上唯一の成員 その犬は役に立ちます。 29
© Copyright 2024 ExpyDoc