PowerPoint プレゼンテーション

先行文脈と局所文脈を併用した
照応性判定モデルの学習
飯田 龍 乾 健太郎 松本 裕治
奈良先端科学技術大学院大学
{ryu-i,inui,matsu}@is.naist.jp
[NLP11, 17 March 2005]
照応解析
 文章内の同一指示関係を同定する処理
先行詞
照応詞
村山富市首相は八日、超党派の「民主リベラル新党準備会」を
独自に発足させた社会党の新民主連合会長と会談した。首相
は、今春の統一地方選後に党全体での新党移行を目指す考え
を強調、離党など性急な行動への自重を求めた。
非照応詞
 照応解析の応用: MT, IR, IE, QA
 2つの部分タスクに分解できる
1. 照応性判定(Anaphoricity determination):
名詞句(照応詞候補)を照応詞か非照応詞に分類
2. 先行詞同定(Antecedent identification):
与えられた照応詞に対して先行詞を同定
[NLP11, 17 March 2005]
2
照応性判定
 初期の照応解析に関する研究では統語的な特徴から照応詞
と判断できるものについてのみ研究対象としている
(Hobbs `78, Lappin and Leass `94)
 文章中のどの要素が照応詞となるかはあらかじめ与えられた上
で先行詞同定の精度向上を目指す
 近年では照応性判定に研究者の関心が集まってきている
(Bean and Riloff `99, Ng and Cardie `02, Uryupina `03, Ng `04)
 英語のような冠詞の情報を手がかりとして利用できる言語であっ
ても,照応性を判定することはそれほど単純ではない
 照応解析全体の精度は照応性判定の結果に依存する
 日本語のように定冠詞を手がかりとして利用できない言語の
場合は,照応性判定の問題はさらに重要である
[NLP11, 17 March 2005]
3
目的
 日本語の照応性判定の精度向上を目指す
 既存の照応性判定手法の利点を組み合わせた手法を
提案
 名詞句照応とゼロ照応それぞれにおいて
提案手法が有効であるかを調査する
[NLP11, 17 March 2005]
4
目次
1.
2.
3.
4.
5.
6.
目的
照応性判定に必須な情報
提案手法
従来手法との比較
評価実験と考察
まとめと今後の課題
[NLP11, 17 March 2005]
5
照応性判定に必須な情報
2つの言語的な手がかり:
1. 先行文脈情報
 照応詞と先行詞の情報
先行文脈情報
先行詞
照応詞 非照応詞
局所文脈情報
2. 局所文脈情報
 照応詞と非照応詞の情報
[NLP11, 17 March 2005]
6
1. 先行文脈情報
先行文脈情報
先行詞 局所文脈情報
照応詞 非照応詞
 照応詞候補と先行詞候補
から抽出可能な情報
先行詞候補
照応詞候補
村山富市首相は八日、超党派の「民主リベラル新党準備会」を
独自に発足させた社会党の新民主連合会長と会談した。首相
は、今春の統一地方選後に党全体での新党移行を目指す考え
を強調、離党など性急な行動への自重を求めた。
先行詞候補集合
照応詞候補
村山富市首相
八日
首相
…
照応詞候補と対となりそうな
先行詞候補を持つ
[NLP11, 17 March 2005]
社会党
7
2. 局所文脈情報
先行文脈情報
先行詞 局所文脈情報
照応詞 非照応詞
 照応詞と対比すべき
非照応詞の情報
照応詞
村山富市首相は八日、超党派の「民主リベラル新党準備会」を
独自に発足させた社会党の新民主連合会長と会談した。首相
は、今春の統一地方選後に党全体での新党移行を目指す考え
を強調、離党など性急な行動への自重を求めた。
非照応詞
指示詞(「その」など)の情報や「同社」のような表層的な手がかり
「首相」 助詞: は, 意味属性: 〈政治家〉 => 照応詞
旧情報
対比
「自重」助詞: を, 意味属性: 〈慎み, 愛〉 => 非照応詞
[NLP11, 17 March 2005]
8
提案手法
 先行文脈情報と局所文脈情報を併用
 照応詞候補に対して最も先行詞らしい候補(最尤先
行詞候補)を同定し,その情報も参照しながら照応性
を判定する
[NLP11, 17 March 2005]
9
2段階の解析手法
照応詞候補
村山富市首相は八日、超党派の「民主リベラル新党準備会」を
独自に発足させた社会党の新民主連合会長と会談した。首相
は、今春の統一地方選後に党全体での新党移行を目指す考え
を強調、離党など性急な行動への自重を求めた。
先行詞
候補集合
村山富市首相
八日
先行詞同定モデル
局所文脈情報
超党派
独自
先行文脈情報
最尤先行詞候補
村山富市首相
社会党
村山富市首相 首相
照応性判定モデル
…
照応詞
候補
首相 : 照応詞
首相
[NLP11, 17 March 2005]
10
2段階の解析手法
村山富市首相は八日、超党派の「民主リベラル新党準備会」を
独自に発足させた社会党の新民主連合会長と会談した。首相
は、今春の統一地方選後に党全体での新党移行を目指す考え
を強調、離党など性急な行動への自重を求めた。
照応詞候補
先行詞
候補集合
村山富市首相
八日
先行詞同定モデル
局所文脈情報
超党派
独自
先行文脈情報
最尤先行詞候補
独自
社会党
独自
自重
照応性判定モデル
…
照応詞
候補
自重 :非照応詞
自重
[NLP11, 17 March 2005]
11
訓練事例の作成
 正例
(照応性有り)
先行詞候補
集合
先行詞
NP1
NPi:先行詞候補
NP2
NP3
NP4
正例集合
NP5
照応詞
 負例
(照応性無し)
先行詞候補
集合
NP1
NP2
ANP
先行詞同定モデル
NP3
NP4
NP5
非照応詞
NP4
ANP
最尤先行
詞候補
NP3
負例集合
NP3
NANP
[NLP11, 17 March 2005]
NANP
12
探索型手法
照応性判定の先行研究
先行詞
分類型手法
照応詞 非照応詞
 探索型手法
(Soon et al. `01, Ng and Cardie `02, Yang et al. `03)
先行詞
照応詞
NP1
NP2
NP3
NP4
ANP
NP2
正例
ANP
NP3
負例
ANP
NP4
負例
ANP
NP1’
NP2’
NP3’
NP4’
TNP
×
×
○
×
NP1’
NP2’
NP3’
NP4’
×
×
×
×
TNP
照応詞
非照応詞
問題点: 局所文脈情報を利用できない
 分類型手法
(Bean and Riloff `99, Ng and Cardie `02, Uryupina `03, Ng `04)
照応詞
ANP
非照応詞
NANP
ANP
正例
NANP 負例
TNP
照応詞 or 非照応詞
問題点: 先行文脈情報を利用できない
[NLP11, 17 March 2005]
13
3つの手法のまとめ
探索型手法
先行詞
分類型手法
照応詞 非照応詞
提案手法
 探索型手法
(Soon et al. `01, Ng and Cardie `02, Yang et al. `03)
利点: 先行文脈情報を利用できる
欠点: 局所文脈情報を利用できない
 分類型手法
(Bean and Riloff `99, Ng and Cardie `02, Uryupina `03, Ng `04)
利点: 局所文脈情報を利用できる
欠点: 先行文脈情報を利用できない
提案手法
利点: 先行文脈情報と局所文脈情報を利用できる
[NLP11, 17 March 2005]
14
目次
1.
2.
3.
4.
5.
6.
目的
照応性判定に必須な情報
提案手法
従来手法との比較
評価実験と考察
まとめと今後の課題
[NLP11, 17 March 2005]
15
評価実験
 日本語の名詞句照応における照応性判定
 評価事例 (新聞記事コーパス)
 名詞句 : 照応詞876, 非照応詞6,292
-> 照応詞候補から照応詞を当てた場合に正解とする
 分類器にはSupport vector machinesを利用
 10分割交差検定
 先行詞同定モデル: トーナメントモデル(飯田 `04)
 先行詞候補間で勝ち抜き戦を行い最尤先行詞候補を決定
 3つのモデルを比較
1. 探索型モデル (Soon et al. `01)
2. 分類型モデル (Ng and Cardie `02)
3. 提案モデル
[NLP11, 17 March 2005]
16
3種の素性
1. タイプA
 照応詞候補に関する語彙,統語,意味(名詞の意味属性),位
置情報
2. タイプB
 (i) 先行詞候補に関する語彙,統語,意味(名詞の意味属性),
位置情報,(ii) 照応詞候補と先行詞候補から抽出可能な情報
3. タイプC
トーナメントモデル
(飯田 `04)
 先行詞候補間の情報
タイプA
タイプB
タイプC
探索型
モデル
分類型
モデル
○
○
○
[NLP11, 17 March 2005]
提案モデル
先行詞同定 照応性判定
○
○
○
○
○
17
名詞句の照応性判定の実験結果
 照応詞876, 非照応詞6,292
探索型モデル
分類型モデル
提案モデル
精度
提案モデルは他のモデルより
精度が良い
分類型モデルと比較して
探索型モデルの精度が良い
再現率
[NLP11, 17 March 2005]
18
照応性判定モデルをゼロ照応解析への適用
 ゼロ照応解析
 ゼロ代名詞(述語の省略された格要素)の先行詞同定
 照応性判定と先行詞同定に分類できる
 ゼロ照応解析における照応性判定
 φ1 -> 照応詞 (前方照応)
 φ2 -> 非照応詞
(後方照応, 外界照応)
先行詞
奈良、平安時代に中央政府の最北の出先機関だったとされ
る国史跡・秋田城跡に派遣された役人1は、サケやマスなど
を食材にした郷土料理は(φ1ガ)口にせず、あくまで「関西
風」の食事にこだわっていたことが(φ2ガ)分かった。
照応詞
非照応詞
[NLP11, 17 March 2005]
19
ゼロ照応における照応性判定の評価実験
 評価事例 (新聞記事コーパス)
 主格のゼロ代名詞: 照応詞4,225, 非照応詞1,957
->照応詞候補から非照応詞を当てた場合に正解とする
 名詞句照応と同じ設定で実験




分類器にはSupport vector machinesを利用
10分割交差検定
先行詞同定モデル: トーナメントモデル(飯田 `04)
3つのモデルを比較
1. 探索型モデル (Soon et al. `01)
2. 分類型モデル (Ng and Cardie `02)
3. 提案モデル
[NLP11, 17 March 2005]
20
ゼロ代名詞の照応性判定の実験結果
 照応詞4,225, 非照応詞1,957
探索型モデル
分類型モデル
提案モデル
精度
名詞句の場合と比較して
精度はすべてのモデルで低下している
提案モデルが最も精度が良い
再現率
[NLP11, 17 March 2005]
21
実験結果
 9点平均精度 (再現率 = 0.1, 0.2, …, 0.9)
探索型モデル 分類型モデル 提案モデル
63.6%
49.2%
81.1%
ゼロ代名詞 44.2%
47.3%
50.9%
名詞句
 ゼロ代名詞の平均精度 << 名詞句の平均精度
-> 抽出可能な素性に依存している
 名詞句: 文字列一致情報が有効
先行詞「村山富市首相」と照応詞「首相」
 ゼロ代名詞: ゼロ代名詞自体からは表層的な手がかりが抽出
できないため,名詞句の場合と比べ情報が少ない
(代わりに利用する選択制限の情報では粒度が荒い)
食べる[ガ: 〈有生物〉, ヲ: 〈食べ物〉]
-> 選択制限の質の向上
[NLP11, 17 March 2005]
22
まとめ
 照応性判定のモデルを提案
 先行文脈情報
 局所文脈情報
 従来の機械学習を利用した解析モデルと比較し,
解析精度が向上した
63.6% -> 81.1%
 ゼロ代名詞の照応性判定: 47.3% -> 50.9%
 名詞句の照応性判定:
[NLP11, 17 March 2005]
23
今後の課題
 名詞句の照応性判定:
 名詞の定性(名詞句が定名詞か否か)の判定
今回の問題設定では定名詞句のみが照応詞となるとし
てタグ付与を行っている
総称名詞 -> 明示的に定性を判定する試み
戦後五十年間で女性が一生の間に産む子供の数は三分の一
に減り、働く場所は家の中から外へ――。総理府男女共同参画
室が三日付で発表した「女性の歩み五十年」で、戦後における
女性の地位や生活の変化が改めて浮き彫りになった。
総称名詞
 ゼロ代名詞の照応性判定:
 選択制限の質の向上
 文章の構造や談話の流れと照応性との関係を調査
[NLP11, 17 March 2005]
24