動詞と格要素の共起と 名詞の出現パターンを用いた

事態性名詞の項構造解析における
共起尺度と構文パターンの有効性の分析
奈良先端科学技術大学院大学
情報科学研究科
小町守・飯田龍・乾健太郎・松本裕治
2007年3月20日
言語処理学会第13回年次大会
事態性名詞の項構造解析の目標
意味の同じ表現の認識
「原子爆弾によって破壊されたドーム」
「ドームが原子爆弾によって破壊された」
「原子爆弾がドームを破壊した」
「原子爆弾によるドームの破壊」
主節
能動態
名詞化
事態性名詞の項構造解析が必要
全て「原子爆弾がドームを破壊した」という事態を指す
事態の認識はテキスト要約・機械翻訳に役立つ
2
事態性名詞の項構造解析
ヲ
ガ
【文外】
リスク管理の必要性が強く叫ばれているが、市場
ヲ
の実態が把握できていないため打つ手がないの
が実情。BISが昨年春から調査の手法について検
討していた。
ガ
管理(する) [ ガ:【文外】, ヲ:リスク ]
調査(する) [ ガ:BIS, ヲ:実態 ]
事態性名詞=
行為・状態・出来事を指す名詞
項構造=
誰が、何を、どうする
種類
例
サ変名詞
管理
動詞由来の名詞 動き
3
事態を示す名詞 運動会
事態性名詞の項構造解析のタスク設定
公衆電話で電話をすることがめっきり減った。
モノとしての電話
「XガYニ電話する」
というコト(事態)
1. 名詞の事態性判別
モノかコトか?
文中の名詞に事態性があるかどうか判別
2. 事態性名詞の項同定
誰ガ何ニどうする?
事態性のある名詞の項を同定
4
目次
はじめに
動詞と格要素の共起モデルの有効性
述語項構造解析モデルを利用した項同定
関連研究
まとめ
今後の予定
5
述語・事態タグと項の出現位置の分布
NAIST テキストコーパス中の述語・事態タグと項の分布(括弧内が述語)
文内
同一文節
ガ
係り受け
その他
文間
文外
総数
総数
7%(0%) 23%(42%) 25%(31%) 18%(12%) 27%(15%)
ヲ 50%(0%) 31%(84%) 10%(13%)
ニ 43%(3%) 22%(88%)
24%(7%)
8%(3%)
0%(0%)
10%(3%)
0%(0%)
 事態性名詞は述語と比べて文間に項が現れる割合が
多い [飯田ら, 2007]
 述語のヲ格・ニ格は9割が係り受け
 事態性名詞のヲ格・ニ格は約半数が同一文節内
係り受け以外の情報を用いた項同定
共起・構文情報
6
PLSI を用いた共起スコアの計算
Probabilistic Latent Semantic Indexing
[Hoffman, 1999] を用い、名詞 n が格助詞 c
を介して動詞 v に係っているときの共起確率
を求める[藤田ら, 2004] 隠れクラスz次元まで圧縮
P( v,c,n )   P( v,c | z)P(n | z)P(z)
zZ
上司が推薦する

が推薦する
上司
P( v,c,n )
PMI( v,c ,n)  log
P( v,c )P(n)
共起スコア=<v,c>とnの間の相互情報量
7
事態性名詞の項同定
項らしさを判定する分類器
入力: 項と文内の項以外の名詞をペアにして入力
出力: どちらがより項らしいか
日本政府による民間支援が活性化する。
支援(する)
ガ
日本,政府
日本,民間
政府,民間
政府,民間
政府,活性
ヲ
民間,活性
8
項と項以外の名詞の共起スコアの比較
全体の71.2%が
第2・第4象限
どのような事例が
含まれているのか?
第1・第3象限の事例は
共起スコアだけでは
決められない
第2・第4象限の事例は
共起スコアの高い方が
項とした場合精度90.0%
→共起のみでも分類可能
項
の
共
起
ス
コ
ア
9
項以外の名詞の共起スコア
述語項構造解析モデルを利用した実験
目的: 共起スコアだけでは項同定できない事
例にどのような問題があるか分析
方法: 述語項構造解析 [Iida et al., 2006] の
素性を用いて SVM による分類器を作成、第
1象限で分類を誤った事例を人手で分類
対象: NAIST テキストコーパス1.2βから新聞
記事1日分(137記事)を訓練データ・別の1日
分(150記事)をテストデータに使用
10
実験結果
新聞記事1日分を対象に第1象限のデータを用いて実験(総数3,132)
素性
誤り個数
287(9.1%)
全ての素性を用いた場
合
303(9.7%)
−語彙素性
320(10.2%)
−共起素性
294(9.4%)
−意味素性
376(12.0%)
−構文素性
290(9.3%)
−位置素性
1,696(44.2%)
共起素性のみを用いる
第一象限の項同定には構文素性と共起素性が有効
11
正しく解析できた事例
ガ
インタファクス通信は五日夕、現地ロシア軍の高官の発言
として「首都総攻撃ではないが、戦闘は続いている」と伝え
た。
ヲ
ガ
精度 66.9
ヲ
81.2
ニ
76.3
(参考)トーナメントモデルでの各項の同定精度
12
誤り分析(1)
第一象限で誤った事例のうち
項のほうが共起スコアが低い事例
構文情報を正しく扱えていない(62/112)
「XガYニ迫られる」の「Xガ」はY(事態性名
詞)のガ格と一致
ドイツは……エリツィン政権に対する支援を続ける
べきかどうか苦しい選択に迫られている。
述語と項を共有するような事態性名詞の出現パ
ターンが存在
13
誤り分析(2)
係り受け関係にある項の間違い
ロシアのチェチェン共和国に対する武力介入……
「の→ガ」「に対する→ニ」という格の交替
誤りのタイプ
動詞と項を共有
格の交替がある
複合名詞内の項
連体節内の項
AのBの形の項
遠く離れた係り受け
数
19
13
12
6
6
6
例
XガYニ迫られる
チェチェン共和国に対する武力介入
安保理はガリ提案を検討
相手は経験の浅い柴田
育英は初出場の三本木農を破り
14
関連研究
事態性名詞の項構造解析のコーパス
NomBank [Meyers et al., 2004]
PropBank [Palmer et al., 2005] に従って英語のコーパ
ス Penn TreeBank にタグづけ
文内の項に限定
京都テキストコーパス Version 4.0 [黒橋, 2005]
京都テキストコーパス全体の1/8にタグづけ
文を超えた項もタグ付与している
格助詞相当の表層格を網羅している
15
関連研究(2)
事態性名詞の項構造解析
NomBank に対する意味役割付与 [Jiang and Ng,
2006]
基本素性は述語の意味役割付与モデルを用いる
事態性名詞の素性も追加(Support verb)
名詞句の関係解析
名詞の格フレーム辞書の構築 [笹野ら, 2005]
一般的な日本語の名詞間の関係解析(事態性名詞の項
構造を包含)
事態性判別問題を扱っていない
16
まとめ
事態性名詞の項構造解析の問題設定
事態性名詞の項同定に向けた動詞と格要素
の共起モデルと構文情報の有効性を分析
17
今後の予定
共起モデルの効果的な使用方法の検討
項同定に有効な構文情報を組み込む
述語と事態性名詞が項を共有するパターンの辞書
を作成中
事態性名詞の項同定を行うシステムの作成
18