Document

NLP2010 11th March, 2010
述語対の項共有情報を利用した
文間ゼロ照応解析
飯田 龍
徳永 健伸
東京工業大学 大学院情報理工学研究科
{ryu-i,take}@cl.cs.titech.ac.jp
1
NLP2010 11th March, 2010
研究背景

ゼロ照応解析
 文章中の省略されている格要素(ゼロ代名詞)を検
出してその指し先(先行詞)を補完するタスク
先行詞
政府1は低所得者を(φ1ガ)支援する計画を
(φexoニ)発表した。
関係省庁2の協力を(φ1ガ)(φ2ニ)要請する。
ゼロ代名詞
情報抽出のような応用処理で必須となる要素技術
 言語理解の実現度を見積る良い試金石

2
NLP2010 11th March, 2010
文内・文間のゼロ照応

ゼロ照応解析の問題を文内と文間の2つに分割
 文内ゼロ照応
太郎は遅刻して(φガ)授業に遅れた。
統語的なパタン
local topicの遷移
 文間ゼロ照応
そこにいたお年寄りたちは、ただボーッとしてい
るような感じの人がほとんどだった。
私は近づくのを躊躇った。
しかし、私が近くに行くと、とてもうれしそうに話
を(φガ)してくれ、笑顔を見せてくれた。

談話の挿入
global topicの遷移
文間の場合は統語的な手がかりが利用できず
解析が困難になる
3
NLP2010 11th March, 2010
本研究で新たに導入する手がかり

「Xガ 壊す  Xガ 修理する」のような
述語対の項の共有情報の利用を考える

太郎が次郎を尋ねたとき、彼はラジオを修理
していた。
先週(φガ)落として(φガ)壊したらしい。
太郎は次郎がラジオを修理しているときに彼
の家を訪ずれた。
先週(φガ)落として(φガ)壊したらしい。
顕現性:高
次郎
太郎
4
NLP2010 11th March, 2010
関連研究

含意関係認識などで利用する事態間関係の
知識獲得
(Pekarら 2006, Abeら 2008, Szpektorら 2008, etc.)
 教師無しであるパタンで出現している述語対を収集
 相互情報量などの共起尺度で重み付け

共起事例を収集するための手がかり
 述語の局所文脈の類似性
(Linら 2001, Szpektorら 2008)
 アンカー(疑似共参照関係)
(Pekarら 2006)
 並列表現
(鳥澤 2003)
5
NLP2010 11th March, 2010
アンカーを用いた知識獲得手法 (Pekarら 2006)
1.
文章中に出現する同一名詞句(アンカー)を
近似的に共参照関係とみなして,述語対を収集

共起事例収集の例
Mary bought a house.
The house belongs to Mary.
2.
{buy(subj:X), belong(obj:X)},
{buy(obj:X), belong(subj:X)}
頻度をもとにMIなどの共起尺度でランク付け
P( x, y)
MI(x, y)  log
P( x)P( y)
6
NLP2010 11th March, 2010
アンカーを用いた知識獲得手法の問題点
同一名詞句が共参照関係にあるとは限らない
 共起にノイズが混入
 ゼロ照応が頻出する
 大規模に獲得できない可能性がある
ゼロ照応関係から知識獲得
 どのようなパタンで出現した場合にも等価に扱っ
てよいのか?

人間は特徴的なパタンで出現している場合には1回
しか出現していない場合でも知識獲得できる
出現パタンの信頼度を導入
7
NLP2010 11th March, 2010
ゼロ照応関係を利用した項共有の知識獲得

ゼロ照応関係に関する述語対がどの程度項を
項共有スコア
共有するかのスコアを見積る
アジア一の国際リゾートを目指し
観光ビジネスに取り組む
地域課題解決を目指して
各市町村が問題解決に取り組んでいる
項共有
モデル
彼はマスコミを嫌っているので
インタビューを拒否した
彼が書類の作成を嫌ったため
会社Aは彼のイベントへの参加を拒否した
※先行詞が明示的に記述されていない場合も
※ガ格-ガ格の組み合わせのみ
述語対タイプの
スコア 算出
3.24
1.83
2.19
-1.05
目指す-取り組む:
3.51
嫌う-拒否する:
0.79
8
NLP2010 11th March, 2010
1. 項共有モデルの構築

機械学習に基づく項共有関係の2値分類
 述語項構造のタグが付与されたコーパスを利用

分類対象
 述語対が係り受け関係にある場合に限定
 「ため」「ので」「が」のような接続表現が項共有を同定する
ための手がかりとなる (南, 1974)
彼女はお茶を飲みながら本を読んでいる

{ガ:飲む,
ガ:読む}
訓練事例
 正例:
係り受け関係にある
述語対が同一の項を取る場合
 負例: それ以外
9
NLP2010 11th March, 2010
1. 項共有モデルの構築: 素性
彼女は / お茶を / 飲みながら / 本を / 読んでいる

語彙的素性
vi
 vi(vj)の述語(基本形)

vj
(例: 飲む)
統語的素性
 vi(vj)を含む文節に出現する機能語
(例: ながら)
 vi(vj)の間の文節に出現する機能語 (例: を)
 vi(vj)の係り元の文節に出現する機能語 (例: は)

項共有の素性
 vi
とvjが大規模コーパス中でどのくらい項を共有して
いるか
 <名詞:格助詞>と<動詞>の共起をpLSIで次元圧縮して得ら
れるP(z|v
)のJS divergence
10
NLP2010 11th March, 2010
ゼロ照応関係を利用した項共有の知識獲得

ゼロ照応関係に関する述語対がどの程度項を
項共有スコア
共有するかのスコアを見積る
アジア一の国際リゾートを目指し
観光ビジネスに取り組む
地域課題解決を目指して
各市町村が問題解決に取り組んでいる
項共有
モデル
彼はマスコミを嫌っているので
インタビューを拒否した
彼が書類の作成を嫌ったため
会社Aは彼のイベントへの参加を拒否した
※先行詞が明示的に記述されていない場合も
※ガ格-ガ格の組み合わせのみ
述語対タイプの
スコア 算出
3.24
1.83
2.19
-1.05
目指す-取り組む:
3.51
嫌う-拒否する:
0.79
11
NLP2010 11th March, 2010
2. 述語対タイプの項共有スコアの計算
述語対のインスタンス( vik , v jk )について
求めたスコア
述語対のタイプ( vi , v j )についてのスコアへ

Nij
arg_share(vi , v j )  log( Nij  1)score(vik , v jk )
k
述語対タイプの頻度
インスタンスのスコア
12
NLP2010 11th March, 2010
評価実験

文間ゼロ照応解析の先行詞同定
1.
項共有のスコアのみで先行詞の順位を評価
2.
項共有のスコアを機械学習に基づく
モデルの素性に加えて評価
13
NLP2010 11th March, 2010
先行詞候補の順序付け: 実験設定 1/2
 項共有モデルの学習事例
(NAISTテキストコーパス(飯田ら, 07)中の係り受け
関係にある述語対, ガ格-ガ格の組み合わせ)
 正例: 8,543事例
 負例: 29,244事例
 述語対インスタンス
 毎日新聞12年分から抽出
 茶筌・CaboChaで形態素・係り受け解析
 項共有学習・分類
 Support Vector Machine (Vapnik, 98)
 線形カーネル + デフォルトパラメタ
14
NLP2010 11th March, 2010
先行詞候補の順序付け: 実験設定 2/2
 評価用データ
 NAISTテキストコーパスの1部 287記事
(2,399文)の文間ゼロ照応394事例
 評価指標
MRR  1/ N 1/ rank(n)
nN
15
NLP2010 11th March, 2010
MRRを用いた評価結果
モデル
ベースライン(ランダム)
アンカーを用いたスコア
提案手法のスコア
MRR
0.436
0.465
0.524
NA
--53
15
NA: スコアを計算できない事例数
 収集できた述語対の数
 アンカーに基づく手法:
 提案手法:
1,651,118対
9,146,543対
約5.5倍
16
NLP2010 11th March, 2010
提案手法の学習曲線
 訓練事例の規模を変化させた際の
MRRの変化を調査
 さらに規模を増やすことで精度が向上する見
込みあり
17
NLP2010 11th March, 2010
評価データ中の述語対を各手法でスコア付けした結果
(上位10事例)
アンカーに基づく手法
述語対
スコア
9.49
適合する-適合する
8.72
亡くす-亡くす
7.75
着陸する-着陸する
7.17
見守る-すすり泣く
6.95
告訴する-告訴する
6.83
引き下げる-引き下げる
6.28
造る-造る
6.12
溶ける-溶かす
6.07
捨てる-捨てる
5.78
収容する-収容する
提案手法
述語対
逮捕する-捜索する
語る-示す
置く-始める
語る-表明する
語る-見せる
示す-けん制する
亡くす-する
亡くす-失う
訴える-示す
強調する-示す
スコア
5.96
3.71
3.40
3.32
2.89
2.61
2.55
2.46
2.35
2.05
18
NLP2010 11th March, 2010
先行詞同定における評価

文間先行詞同定
 ゼロ代名詞が出現する文と異なる文に出現する先
行詞のみを対象に

先行詞同定モデル
 トーナメントモデル(飯田ら, 2003)
 先行詞候補間で比較を行い,最終的に最も先行詞らしい
候補を決定する

項共有のスコアを加えた場合の精度の変化を
調査
19
NLP2010 11th March, 2010
素性

ゼロ代名詞を項として持つ述語の情報
 語彙・統語情報

先行詞候補の情報
 語彙・統語・意味情報,出現位置
 ゼロ代名詞が出現した状況での先行詞候補の
顕現性の情報

述語と先行詞候補の対から抽出可能な素性
 選択選好,述語と先行詞候補の距離など
20
NLP2010 11th March, 2010
先行詞同定の結果
モデル
精度
a)ベースラインモデル
0.668
b) a+ アンカーを用いたスコア 0.689
c) a+ 提案手法のスコア
0.696
d) a+ アンカーを用いたスコア 0.705
+ 提案手法のスコア

項共有のスコアを導入することで
ベースラインより精度向上
21
NLP2010 11th March, 2010
先行詞同定の結果
モデル
精度
a)ベースラインモデル
0.668
b) a+ アンカーを用いたスコア 0.689
c) a+ 提案手法のスコア
0.696
d) a+ アンカーを用いたスコア 0.705
+ 提案手法のスコア
 アンカーを手がかりとするより,
項共有のモデルを導入することが
精度向上に貢献した
22
NLP2010 11th March, 2010
先行詞同定の結果
モデル
精度
a)ベースラインモデル
0.668
b) a+ アンカーを用いたスコア 0.689
c) a+ 提案手法のスコア
0.696
d) a+ アンカーを用いたスコア 0.705
+ 提案手法のスコア
 それぞれのスコアを素性として導入することが
相補的に役立った
23
NLP2010 11th March, 2010
まとめと今後の課題

述語対の項共有モデルを利用したゼロ照応解
析手法
 ゼロ照応解析タグ付きコーパスを用いて項共有モデ
ルを構築
 そのモデルの出力するスコアを素性として利用する
ことにより,先行詞同定で4%の精度向上

今後の課題
 病気ニなる」のような句と句の粒度
で事態間の関係を捉える
 「体調ヲ崩す
24