PowerPoint プレゼンテーション

照応性判定を含む名詞句照応解析の
実験と分析
飯田 龍 乾 健太郎 松本 裕治
奈良先端科学技術大学院大学
{ryu-i,inui,matsu}@is.naist.jp
[NLP169-15, 2005/09/30]
名詞句の照応解析
 文章内の同一指示関係を同定する処理
先行詞
照応詞
村山富市首相は八日、超党派の「民主リベラル新党準備会」を
独自に発足させた社会党の新民主連合会長と会談した。首相
は、今春の統一地方選後に党全体での新党移行を目指す考え
を強調、離党など性急な行動への自重を求めた。
非照応詞
 照応解析の応用: 機械翻訳,情報抽出,質問応答
 2つの部分タスクに分解できる
1. 照応性判定:
名詞句(照応詞候補)を照応詞か非照応詞に分類
2. 先行詞同定:
与えられた照応詞に対して先行詞を同定
[NLP169-15, 2005/09/30]
2
発表の焦点
1. 文献(飯田, 05)で提案した照応解析手法が,既存の
照応解析手法の利点を効果的に併用できているこ
との説明
2. 提案手法と既存手法を日本語名詞句照応解析の
実験を通じて比較
3. 提案モデルの誤り事例を分析し今後の方向性を提
示
[NLP169-15, 2005/09/30]
3
目次
1. 目的
2. 照応解析の先行研究
1. 探索型モデル (Soon et al., 01) (Ng and Cardie, 02a)
2. 分類先行探索型モデル (Ng and Cardie, 02b) (Ng, 04)
3. トーナメントモデル (飯田, 04)
3.
4.
5.
6.
提案手法
評価実験
誤り分析
まとめ
[NLP169-15, 2005/09/30]
4
照応解析の先行研究
おおきく2つに分類できる
 理論指向の規則に基づく手法
(Mitkov 97, Baldwin 95, 中岩ら 96, 奥村ら 95, 村田ら 97)
 言語学的な知見を人手で規則に取り入れる試み
 文章の繋がりの良さを解釈するセンタリング理論に基づく
 例外的な現象について規則を書き尽くすことができない
 照応タグ付きコーパスを用いた学習に基づく手法
 照応解析の問題を、与えられた照応詞に対して
名詞句が先行詞となるかならないかの2値分類問題に分解
 表層情報から抽出可能な素性を利用したモデルで
規則ベースの手法と同程度の精度を得ている
[NLP169-15, 2005/09/30]
5
探索型モデル (Soon et al., 01) (Ng and Cardie, 02a)
 照応解析の問題を2値分類問題に分解
村山富市首相は八日、超党派の「民主リベラ
ル新党準備会」を独自に発足させた社会党の
新民主連合会長と会談した。首相は、今春の
統一地方選後に党全体での新党移行を目指
す考えを強調、離党など性急な行動への自重
を求めた。
入力テキスト
NPi: 先行詞候補, ANP: 照応詞
NP2: 先行詞
score
村山富市首相
八日
超党派
1.5
-0.8
…
先行詞
候補集合
NP1 … NP2 NP3 … NP4 … … 。
NP5 … … 。
ANP … … 。
社会党
-0.4
新民主連合会長 0.2
照応詞候補
首相
0.1
素性
クラス
NP2 ANP
正例
NP3 ANP
負例
NP4 ANP
負例
NP5 ANP
負例
if ( score ≧ θana) then
村山富市首相 を先行詞に決定
[NLP169-15, 2005/09/30]
6
探索型モデル (Soon et al., 01) (Ng and Cardie, 02a)
 照応性判定と先行詞同定の問題を同時に解く
村山富市首相は八日、超党派の「民主リベラ
NP1 … NP2 NP3 … NP4 … … 。
ル新党準備会」を独自に発足させた社会党の
NP5 … … 。
利点: 先行文脈の情報が利用可能
新民主連合会長と会談した。首相は、今春の
ANA … … 。
統一地方選後に党全体での新党移行を目指
欠点: 非照応詞について訓練事例を作成できない
NPi: 先行詞候補, ANA: 照応詞
す考えを強調、離党など性急な行動への自重
NP2: 先行詞
を求めた。
入力テキスト
村山富市首相
八日
超党派
1.5
-0.8
…
先行詞
候補集合
score
社会党
-0.4
新民主連合会長 0.2
照応詞候補
首相
0.1
素性
クラス
NP2 ANP
正例
NP3 ANP
負例
NP4 ANP
負例
NP5 ANP
負例
if ( score ≧ θana) then
村山富市首相 を先行詞に決定
[NLP169-15, 2005/09/30]
7
分類先行探索型モデル (Ng and Cardie, 02) (Ng, 04)
 探索型モデルの非照応詞を訓練事例に加えることができない
という欠点を克服する
照応詞を正例,非照応詞を負例として照応性を判定するモデ
score
ルを作成する
score ≧ θant
探索型モデル
村山富市首相
1.5
ANP 正例
照応詞
八日
NANP 負例
非照応詞
-0.8
超党派
…
score 
θ ana
照応性判定モデル
score θ
首相
社会党
-0.4
新民主連合会長 0.2
首相
0.1
ana
を非照応詞と決定
照応詞候補
[NLP169-15, 2005/09/30]
首相
8
分類先行探索型モデル (Ng and Cardie, 02) (Ng, 04)
 探索型モデルの非照応詞を訓練事例に加えることができない
という欠点を克服する
照応詞を正例,非照応詞を負例として照応性を判定するモデ
利点:
非照応詞を訓練事例として利用できる
score
ルを作成する
score ≧ θant
Ng(04)の報告によると探索型モデルよりも精度が良い
村山富市首相
1.5
ANP
照応詞
正例
欠点: (1) パラメタを二つ推定してやる必要がある
八日
負例
非照応詞(2)NANP
照応性判定の際に先行詞の情報を
-0.8
超党派
先行詞
score 
θ ana
照応性判定モデル
score θ
首相
…
うまく利用できない候補集合
社会党
-0.4
新民主連合会長 0.2
首相
0.1
ana
を非照応詞と決定
照応詞候補
[NLP169-15, 2005/09/30]
首相
9
トーナメントモデル (飯田, 04)
 先行詞候補間で勝ち抜き戦を行い先行詞を同定する
NP3
素性
(1).
(2).
(3).
(4).
NP1
NP2
NP3
NP4
先行詞候補集合
NP5
ANP
クラス
NP4 NP5 ANP ⇒ right
NP3 NP5 ANP ⇒ left
NP2 NP3 ANP ⇒ right
NP1 NP3 ANP ⇒ right
NP3 を先行詞と決定
照応詞
 ゼロ代名詞の先行詞を同定する実験において,探索型モデル
より精度が良い
[NLP169-15, 2005/09/30]
10
トーナメントモデル (飯田, 04)
 先行詞候補間で勝ち抜き戦を行い先行詞を同定する
NP3
素性
(1).
(2).
(3).
(4).
NP1
NP2
NP3
NP4
NP5
ANP
 訓練事例作成
NP2
先行詞
NP3
NP4
NP4 NP5 ANP ⇒ right
NP3 NP5 ANP ⇒ left
NP2 NP3 ANP ⇒ right
NP1 NP3 ANP ⇒ right
NP3 を先行詞と決定
照応詞
先行詞候補集合
NP1
クラス
ANP
先行詞候補集合 照応詞
[NLP169-15, 2005/09/30]
素性
NP1 NP2 ANP
クラス
left
NP2
NP3
ANP
right
NP2
NP4
ANP
right
11
トーナメントモデル (飯田, 04)
 先行詞候補間で勝ち抜き戦を行い先行詞を同定する
NP3
素性
(1).
(2).
クラス
NP4 NP5 ANP ⇒ right
NP3 NP5 ANP ⇒ left
利点: 先行文脈の情報が利用可能
(3). NP2 NP3 ANA ⇒ right
正例と負例に偏りがない (4). NP1 NP3 ANA ⇒ right
探索型モデルより精度が良い
NP3 を先行詞と決定
NP1 NP2 NP3 NP4 NP5 ANA
欠点: 照応性の判定ができない
照応詞
先行詞候補集合
そのまま名詞句の照応解析に利用できない
 訓練事例作成
NP1
NP2
先行詞
NP3
NP4
ANP
先行詞候補集合 照応詞
[NLP169-15, 2005/09/30]
素性
NP1 NP2 ANP
クラス
left
NP2
NP3
ANP
right
NP2
NP4
ANP
right
12
各モデルの利点と欠点
探索型
モデル
分類先行探索 トーナメント
型モデル
モデル

先行文脈情報が利用可能

非照応詞を訓練事例に利用可能

照応性を判定する

訓練事例中の正例と負例に偏り
がない


 これらの利点を効果的に併用する解析モデルはこれまでのと
ころ報告されていない
これらをうまく併用することで解析精度の向上に貢献
[NLP169-15, 2005/09/30]
13
目次
1.
2.
3.
4.
5.
6.
目的
学習に基づく既存手法
提案手法
評価実験
誤り分析
まとめ
[NLP169-15, 2005/09/30]
14
提案モデル
 分類先行探索型モデルの2段階の処理を逆順で行う
 先行詞同定  照応性判定 の2段階の処理
 そのため提案モデルを探索先行分類モデルと呼ぶ
[NLP169-15, 2005/09/30]
15
提案モデル(探索先行分類型モデル)
照応詞候補
村山富市首相は八日、超党派の「民主リベラル新党準備会」を
トーナメントモデルを
独自に発足させた社会党の新民主連合会長と会談した。首相
利用可能
は、今春の統一地方選後に党全体での新党移行を目指す考え
先行文脈情報を
を強調、離党など性急な行動への自重を求めた。
利用可能
先行詞
候補集合
村山富市首相
八日
先行詞同定モデル
超党派
独自
最尤先行詞候補
村山富市首相
社会党
村山富市首相 首相
照応性判定モデル
…
照応詞
候補
首相 : 照応詞
首相
[NLP169-15, 2005/09/30]
16
照応性判定の訓練事例作成
 正例
(照応性有り)
先行詞候補
集合
先行詞
NP1
NPi:先行詞候補
NP2
NP3
NP4
正例集合
NP5
照応詞
 負例
(照応性無し)
先行詞候補
集合
NP1
NP2
ANP
非照応詞を訓練事例
に利用可能
先行詞同定モデル
NP3
NP4
NP5
非照応詞
NP4
ANP
最尤先行
詞候補
NP3
負例集合
NP3
NANP
[NLP169-15, 2005/09/30]
NANP
17
探索先行分類型モデルの特徴
 既存モデルのすべての利点を併用可能
探索型
モデル
分類先行探
索型モデル
探索先行分
類型モデル

先行文脈情報が利用可能
非照応詞を訓練事例に利用可能

照応性を判定する





訓練事例中の正例と負例に偏り
がない

トーナメントモデルが利用可能

照応性判定の精度向上に貢献
先行詞同定の精度向上に貢献
[NLP169-15, 2005/09/30]
18
目次
1.
2.
3.
4.
5.
6.
目的
学習に基づく既存手法
提案手法
評価実験
誤り分析
まとめ
[NLP169-15, 2005/09/30]
19
評価実験
 日本語の名詞句照応を対象とした照応解析
 評価事例 (新聞記事コーパス) 90記事(10分割交差検定)
 名詞句(照応詞候補) : 照応詞884, 非照応詞6,591
 照応詞は文節の主辞(最右の名詞自立語)を対象とする.
 談話内に出現した名詞句のみを先行詞とする.
 総称名詞は照応詞,先行詞として考えない.
仕様の詳細:http://cl.naist.jp/~ryu-i/coreference_tag.html
 分類器にはSupport vector machinesを利用
 4つのモデルを比較
1. 探索型モデル (Ng and Cardie, 02a)
2. 分類先行探索型モデル (Ng, 04)
3. 探索先行分類型モデル(提案モデル)
1. 先行詞同定に探索型モデルを利用
2. 先行詞同定にトーナメントモデルを利用
[NLP169-15, 2005/09/30]
20
4種の素性
1. TNP: 照応詞候補に関する語彙,統語,意味(名詞の意味属性),位置情報
2. ANT: (i) 先行詞候補に関する語彙,統語,意味(名詞の意味属性),位置情
報,(ii) 照応詞候補と先行詞候補から抽出可能な情報
3. ANT_SET:照応詞候補と先行詞候補集合から抽出可能な情報
e.g., 照応詞候補と文字列一致する先行詞候補が先行文脈に存在するか
4. ANT-ANT:先行詞候補間の情報
探索型
モデル
分類先行探索型モデル
探索先行分類型モデル
(提案モデル)
照応性判定 先行詞同定 先行詞同定 照応性判定
TNP
ANT
ANT_SET
ANT-ANT
○
○
○
○
○
○
○
○
○
○
○
[NLP169-15, 2005/09/30]
21
評価式
 再現率 =
 精度 =
照応関係を正しく同定できた数
照応詞の総数
照応関係を正しく同定できた数
システムが検出した照応詞の総数
 探索型モデル, 探索先行分類型モデル
 パラメタ1つ(θana)を動かして再現率-精度曲線を描く
 分類先行探索型モデル
 パラメタ2つ( θana, θant )を動かして再現率-精度曲線を描く
[NLP169-15, 2005/09/30]
22
実験結果(再現率-精度曲線)
探索先行分類型モデル
(トーナメントモデル)
探索先行分類型モデル
(探索型モデル)
分類先行探索型モデル
探索型モデル
探索型モデル
先行詞同定の精度 86.9% (768/884)
[NLP169-15, 2005/09/30]
トーナメントモデル
89.4% (790/884)
23
誤り分析
 トーナメントモデルを利用した探索先行分類型モデルについて
 先行詞同定の誤り分析
 照応性判定の誤り分析
 解析のスコアが高く,かつ解析を誤った100事例
[NLP169-15, 2005/09/30]
24
先行詞同定の誤り分析
 解析の確信度の高い100事例を分析
誤りの原因
頻度
(a) 高品質な意味属性が必要
26
(b) 一つの名詞句が複数の実体を指す
13
(c) 先行詞ではない名詞句と照応詞の文字列
が(一部,完全) 一致する
11
(d) 前方文脈の照応関係の情報が必要
10
(e) 代名詞の意味属性が学習できていない
6
(f) タグ付与誤り
6
(g) 問題設定の修正(GPE)
3
(h) その他
27
[NLP169-15, 2005/09/30]
25
(a) 高品質な意味属性が必要
 意味的に不整合な名詞句の対の間で照応関係が同定される
e.g., 照応詞「読者」 に対して「日本」が先行詞として同定される
 日本語語彙大系の名詞意味属性の一致情報を利用している
が分類にうまく貢献していない
言語資源をうまく利用する方法を考える必要がある
[NLP169-15, 2005/09/30]
26
(b) 複数実体を指す名詞句
 「両首脳」や「二人」のように一つの名詞句で複数の実体を指
すことができる表現がある
 これらが先行文脈の複数実体を指している場合は
既存モデルでは対応できない
 既存モデルは先行詞を唯一に決定する
複数実体を指す可能性のある表現をあらかじめ保持しておき,
その表現にあてはまる場合は複数個の先行詞を同定
[NLP169-15, 2005/09/30]
27
(g) タグの仕様の問題点
 今回作成した照応関係タグ付与の基準では厳密に実体を区
別しすぎている
ロシア軍1 … … ロシア側2 … … 。
ロシア政府2 … ロシア側1 … … 。
 文脈によって「ロシア側」という表現が「ロシア政府」を指したり
「ロシア軍」を指したりする
 どのていど二つの実体の違いを考慮すべきかは応用分野に依
存  これらの区別が必要な応用分野は多くない
 Automatic Content Extraction (ACE)の仕様では,政府や国民を区
別せず,それらを包含するような地政学的実体(Geo-Political
Entity; GPE)というものを考えている
GPEの採択も含めタグの仕様についても再検討
[NLP169-15, 2005/09/30]
28
照応性判定の誤り分析
 非照応詞の照応性判定誤り
誤りの原因
頻度
(a) 非照応詞と先行詞候補が文字列一致
46
(c) 非照応詞と先行詞候補が別実体を指す
19
(d) 対象とする名詞句が総称名詞
15
 照応詞の照応性判定誤り
誤りの原因
頻度
(a) 照応詞と先行詞候補が文字列一致
86
(b) 対象名詞句単体の情報では実体と対応
付けられない
23
(c) 前方文脈の照応関係の情報が必要
20
[NLP169-15, 2005/09/30]
29
照応性判定の誤り分析(Cont’d)
(a) 先行詞候補が文字列一致
キリスト教会は … 。 キリスト教会色に … 。
 照応性判定モデルが文字列一致に関する素性に過剰に重みを
付与して分類している
 固有表現,普通名詞,代名詞などすべてをまとめて学習している
ことに起因している
名詞句の種類ごとに分けて学習する
出現頻度の低い代名詞の学習事例をどのようにして効率的に作
成するかが課題となる
(c) 先行詞候補が別実体を指す
…ロシア兵 1 八人と一般市民が死亡していたと述
べた。…ロシア側がさらに攻撃を続ければ、捕虜と
なったロシア兵
2を「いつでも処刑できる」と言明し

た。
複数実体をどのように区別するのかも課題となる
[NLP169-15, 2005/09/30]
30
まとめ
 探索先行分類型モデルが既存手法の利点を効果的に併用す
るモデルであることを説明し,日本語名詞句照応解析の評価
実験を通じて提案手法の有効性を示した
 提案モデルで解析を誤った事例を先行詞同定と照応性判定の
観点から分析し今後の方向性について議論した
[NLP169-15, 2005/09/30]
31
おまけ
[NLP169-15, 2005/09/30]
32