先行文脈と局所文脈を併用した 照応性判定モデルの学習 飯田 龍 乾 健太郎 松本 裕治 奈良先端科学技術大学院大学 {ryu-i,inui,matsu}@is.naist.jp [NLP11, 17 March 2005] 照応解析 文章内の同一指示関係を同定する処理 先行詞 照応詞 村山富市首相は八日、超党派の「民主リベラル新党準備会」を 独自に発足させた社会党の新民主連合会長と会談した。首相 は、今春の統一地方選後に党全体での新党移行を目指す考え を強調、離党など性急な行動への自重を求めた。 非照応詞 照応解析の応用: MT, IR, IE, QA 2つの部分タスクに分解できる 1. 照応性判定(Anaphoricity determination): 名詞句(照応詞候補)を照応詞か非照応詞に分類 2. 先行詞同定(Antecedent identification): 与えられた照応詞に対して先行詞を同定 [NLP11, 17 March 2005] 2 照応性判定 初期の照応解析に関する研究では統語的な特徴から照応詞 と判断できるものについてのみ研究対象としている (Hobbs `78, Lappin and Leass `94) 文章中のどの要素が照応詞となるかはあらかじめ与えられた上 で先行詞同定の精度向上を目指す 近年では照応性判定に研究者の関心が集まってきている (Bean and Riloff `99, Ng and Cardie `02, Uryupina `03, Ng `04) 英語のような冠詞の情報を手がかりとして利用できる言語であっ ても,照応性を判定することはそれほど単純ではない 照応解析全体の精度は照応性判定の結果に依存する 日本語のように定冠詞を手がかりとして利用できない言語の 場合は,照応性判定の問題はさらに重要である [NLP11, 17 March 2005] 3 目的 日本語の照応性判定の精度向上を目指す 既存の照応性判定手法の利点を組み合わせた手法を 提案 名詞句照応とゼロ照応それぞれにおいて 提案手法が有効であるかを調査する [NLP11, 17 March 2005] 4 目次 1. 2. 3. 4. 5. 6. 目的 照応性判定に必須な情報 提案手法 従来手法との比較 評価実験と考察 まとめと今後の課題 [NLP11, 17 March 2005] 5 照応性判定に必須な情報 2つの言語的な手がかり: 1. 先行文脈情報 照応詞と先行詞の情報 先行文脈情報 先行詞 照応詞 非照応詞 局所文脈情報 2. 局所文脈情報 照応詞と非照応詞の情報 [NLP11, 17 March 2005] 6 1. 先行文脈情報 先行文脈情報 先行詞 局所文脈情報 照応詞 非照応詞 照応詞候補と先行詞候補 から抽出可能な情報 先行詞候補 照応詞候補 村山富市首相は八日、超党派の「民主リベラル新党準備会」を 独自に発足させた社会党の新民主連合会長と会談した。首相 は、今春の統一地方選後に党全体での新党移行を目指す考え を強調、離党など性急な行動への自重を求めた。 先行詞候補集合 照応詞候補 村山富市首相 八日 首相 … 照応詞候補と対となりそうな 先行詞候補を持つ [NLP11, 17 March 2005] 社会党 7 2. 局所文脈情報 先行文脈情報 先行詞 局所文脈情報 照応詞 非照応詞 照応詞と対比すべき 非照応詞の情報 照応詞 村山富市首相は八日、超党派の「民主リベラル新党準備会」を 独自に発足させた社会党の新民主連合会長と会談した。首相 は、今春の統一地方選後に党全体での新党移行を目指す考え を強調、離党など性急な行動への自重を求めた。 非照応詞 指示詞(「その」など)の情報や「同社」のような表層的な手がかり 「首相」 助詞: は, 意味属性: 〈政治家〉 => 照応詞 旧情報 対比 「自重」助詞: を, 意味属性: 〈慎み, 愛〉 => 非照応詞 [NLP11, 17 March 2005] 8 提案手法 先行文脈情報と局所文脈情報を併用 照応詞候補に対して最も先行詞らしい候補(最尤先 行詞候補)を同定し,その情報も参照しながら照応性 を判定する [NLP11, 17 March 2005] 9 2段階の解析手法 照応詞候補 村山富市首相は八日、超党派の「民主リベラル新党準備会」を 独自に発足させた社会党の新民主連合会長と会談した。首相 は、今春の統一地方選後に党全体での新党移行を目指す考え を強調、離党など性急な行動への自重を求めた。 先行詞 候補集合 村山富市首相 八日 先行詞同定モデル 局所文脈情報 超党派 独自 先行文脈情報 最尤先行詞候補 村山富市首相 社会党 村山富市首相 首相 照応性判定モデル … 照応詞 候補 首相 : 照応詞 首相 [NLP11, 17 March 2005] 10 2段階の解析手法 村山富市首相は八日、超党派の「民主リベラル新党準備会」を 独自に発足させた社会党の新民主連合会長と会談した。首相 は、今春の統一地方選後に党全体での新党移行を目指す考え を強調、離党など性急な行動への自重を求めた。 照応詞候補 先行詞 候補集合 村山富市首相 八日 先行詞同定モデル 局所文脈情報 超党派 独自 先行文脈情報 最尤先行詞候補 独自 社会党 独自 自重 照応性判定モデル … 照応詞 候補 自重 :非照応詞 自重 [NLP11, 17 March 2005] 11 訓練事例の作成 正例 (照応性有り) 先行詞候補 集合 先行詞 NP1 NPi:先行詞候補 NP2 NP3 NP4 正例集合 NP5 照応詞 負例 (照応性無し) 先行詞候補 集合 NP1 NP2 ANP 先行詞同定モデル NP3 NP4 NP5 非照応詞 NP4 ANP 最尤先行 詞候補 NP3 負例集合 NP3 NANP [NLP11, 17 March 2005] NANP 12 探索型手法 照応性判定の先行研究 先行詞 分類型手法 照応詞 非照応詞 探索型手法 (Soon et al. `01, Ng and Cardie `02, Yang et al. `03) 先行詞 照応詞 NP1 NP2 NP3 NP4 ANP NP2 正例 ANP NP3 負例 ANP NP4 負例 ANP NP1’ NP2’ NP3’ NP4’ TNP × × ○ × NP1’ NP2’ NP3’ NP4’ × × × × TNP 照応詞 非照応詞 問題点: 局所文脈情報を利用できない 分類型手法 (Bean and Riloff `99, Ng and Cardie `02, Uryupina `03, Ng `04) 照応詞 ANP 非照応詞 NANP ANP 正例 NANP 負例 TNP 照応詞 or 非照応詞 問題点: 先行文脈情報を利用できない [NLP11, 17 March 2005] 13 3つの手法のまとめ 探索型手法 先行詞 分類型手法 照応詞 非照応詞 提案手法 探索型手法 (Soon et al. `01, Ng and Cardie `02, Yang et al. `03) 利点: 先行文脈情報を利用できる 欠点: 局所文脈情報を利用できない 分類型手法 (Bean and Riloff `99, Ng and Cardie `02, Uryupina `03, Ng `04) 利点: 局所文脈情報を利用できる 欠点: 先行文脈情報を利用できない 提案手法 利点: 先行文脈情報と局所文脈情報を利用できる [NLP11, 17 March 2005] 14 目次 1. 2. 3. 4. 5. 6. 目的 照応性判定に必須な情報 提案手法 従来手法との比較 評価実験と考察 まとめと今後の課題 [NLP11, 17 March 2005] 15 評価実験 日本語の名詞句照応における照応性判定 評価事例 (新聞記事コーパス) 名詞句 : 照応詞876, 非照応詞6,292 -> 照応詞候補から照応詞を当てた場合に正解とする 分類器にはSupport vector machinesを利用 10分割交差検定 先行詞同定モデル: トーナメントモデル(飯田 `04) 先行詞候補間で勝ち抜き戦を行い最尤先行詞候補を決定 3つのモデルを比較 1. 探索型モデル (Soon et al. `01) 2. 分類型モデル (Ng and Cardie `02) 3. 提案モデル [NLP11, 17 March 2005] 16 3種の素性 1. タイプA 照応詞候補に関する語彙,統語,意味(名詞の意味属性),位 置情報 2. タイプB (i) 先行詞候補に関する語彙,統語,意味(名詞の意味属性), 位置情報,(ii) 照応詞候補と先行詞候補から抽出可能な情報 3. タイプC トーナメントモデル (飯田 `04) 先行詞候補間の情報 タイプA タイプB タイプC 探索型 モデル 分類型 モデル ○ ○ ○ [NLP11, 17 March 2005] 提案モデル 先行詞同定 照応性判定 ○ ○ ○ ○ ○ 17 名詞句の照応性判定の実験結果 照応詞876, 非照応詞6,292 探索型モデル 分類型モデル 提案モデル 精度 提案モデルは他のモデルより 精度が良い 分類型モデルと比較して 探索型モデルの精度が良い 再現率 [NLP11, 17 March 2005] 18 照応性判定モデルをゼロ照応解析への適用 ゼロ照応解析 ゼロ代名詞(述語の省略された格要素)の先行詞同定 照応性判定と先行詞同定に分類できる ゼロ照応解析における照応性判定 φ1 -> 照応詞 (前方照応) φ2 -> 非照応詞 (後方照応, 外界照応) 先行詞 奈良、平安時代に中央政府の最北の出先機関だったとされ る国史跡・秋田城跡に派遣された役人1は、サケやマスなど を食材にした郷土料理は(φ1ガ)口にせず、あくまで「関西 風」の食事にこだわっていたことが(φ2ガ)分かった。 照応詞 非照応詞 [NLP11, 17 March 2005] 19 ゼロ照応における照応性判定の評価実験 評価事例 (新聞記事コーパス) 主格のゼロ代名詞: 照応詞4,225, 非照応詞1,957 ->照応詞候補から非照応詞を当てた場合に正解とする 名詞句照応と同じ設定で実験 分類器にはSupport vector machinesを利用 10分割交差検定 先行詞同定モデル: トーナメントモデル(飯田 `04) 3つのモデルを比較 1. 探索型モデル (Soon et al. `01) 2. 分類型モデル (Ng and Cardie `02) 3. 提案モデル [NLP11, 17 March 2005] 20 ゼロ代名詞の照応性判定の実験結果 照応詞4,225, 非照応詞1,957 探索型モデル 分類型モデル 提案モデル 精度 名詞句の場合と比較して 精度はすべてのモデルで低下している 提案モデルが最も精度が良い 再現率 [NLP11, 17 March 2005] 21 実験結果 9点平均精度 (再現率 = 0.1, 0.2, …, 0.9) 探索型モデル 分類型モデル 提案モデル 63.6% 49.2% 81.1% ゼロ代名詞 44.2% 47.3% 50.9% 名詞句 ゼロ代名詞の平均精度 << 名詞句の平均精度 -> 抽出可能な素性に依存している 名詞句: 文字列一致情報が有効 先行詞「村山富市首相」と照応詞「首相」 ゼロ代名詞: ゼロ代名詞自体からは表層的な手がかりが抽出 できないため,名詞句の場合と比べ情報が少ない (代わりに利用する選択制限の情報では粒度が荒い) 食べる[ガ: 〈有生物〉, ヲ: 〈食べ物〉] -> 選択制限の質の向上 [NLP11, 17 March 2005] 22 まとめ 照応性判定のモデルを提案 先行文脈情報 局所文脈情報 従来の機械学習を利用した解析モデルと比較し, 解析精度が向上した 63.6% -> 81.1% ゼロ代名詞の照応性判定: 47.3% -> 50.9% 名詞句の照応性判定: [NLP11, 17 March 2005] 23 今後の課題 名詞句の照応性判定: 名詞の定性(名詞句が定名詞か否か)の判定 今回の問題設定では定名詞句のみが照応詞となるとし てタグ付与を行っている 総称名詞 -> 明示的に定性を判定する試み 戦後五十年間で女性が一生の間に産む子供の数は三分の一 に減り、働く場所は家の中から外へ――。総理府男女共同参画 室が三日付で発表した「女性の歩み五十年」で、戦後における 女性の地位や生活の変化が改めて浮き彫りになった。 総称名詞 ゼロ代名詞の照応性判定: 選択制限の質の向上 文章の構造や談話の流れと照応性との関係を調査 [NLP11, 17 March 2005] 24
© Copyright 2024 ExpyDoc