動詞と格要素の共起と 名詞の出現パターンを用いた

事態性名詞の項構造解析に向けた
述語項構造に関する資源の作成
松本研 研究会発表
2007年4月25日
奈良先端大(D1)小町守
事態性名詞の項構造解析の目標
意味の同じ表現の認識
「原子爆弾によって破壊されたドーム」
「ドームが原子爆弾によって破壊された」
「原子爆弾がドームを破壊した」
「原子爆弾によるドームの破壊」
主節
能動態
名詞化
事態性名詞の項構造解析が必要
全て「原子爆弾がドームを破壊した」という事態を指す
事態の認識はテキスト要約・機械翻訳に役立つ
2
事態性名詞の項構造解析
ヲ
ガ
【文外】
リスク管理の必要性が強く叫ばれているが、市場
ヲ
の実態が把握できていないため打つ手がないの
が実情。BISが昨年春から調査の手法について検
討していた。
ガ
管理(する) [ ガ:【文外】, ヲ:リスク ]
調査(する) [ ガ:BIS, ヲ:実態 ]
事態性名詞=
行為・状態・出来事を指す名詞
項構造=
誰が、何を、どうする
種類
例
サ変名詞
管理
動詞由来の名詞 動き
3
事態を示す名詞 運動会
事態性名詞の項構造解析のタスク設定
公衆電話で電話をすることがめっきり減った。
モノとしての電話
「XガYニ電話する」
というコト(事態)
1. 名詞の事態性判別
モノかコトか?
文中の名詞に事態性があるかどうか判別
2. 事態性名詞の項同定
誰ガ何ニどうする?
事態性のある名詞の項を同定
4
目次
はじめに
動詞と格要素の共起モデルの有効性
述語項構造解析モデルを利用した項同定
関連研究
まとめ
今後の予定
5
述語・事態タグと項の出現位置の分布
NAIST テキストコーパス中の述語・事態タグと項の分布(括弧内が述語)
文内
同一文節
ガ
係り受け
その他
文間
文外
総数
総数
7%(0%) 23%(42%) 25%(31%) 18%(12%) 27%(15%)
ヲ 50%(0%) 31%(84%) 10%(13%)
ニ 43%(3%) 22%(88%)
24%(7%)
8%(3%)
0%(0%)
10%(3%)
0%(0%)
 事態性名詞は述語と比べて文間に項が現れる割合が
多い [飯田ら, 2007]
 述語のヲ格・ニ格は9割が係り受け
 事態性名詞のヲ格・ニ格は約半数が同一文節内
係り受け以外の情報を用いた項同定
共起・構文情報
6
PLSI を用いた共起スコアの計算
Probabilistic Latent Semantic Indexing
[Hoffman, 1999] を用い、名詞 n が格助詞 c
を介して動詞 v に係っているときの共起確率
を求める[藤田ら, 2004] 隠れクラスz次元まで圧縮
P( v,c,n )   P( v,c | z)P(n | z)P(z)
zZ
上司が推薦する

が推薦する
上司
P( v,c,n )
PMI( v,c ,n)  log
P( v,c )P(n)
共起スコア=<v,c>とnの間の相互情報量
7
事態性名詞の項同定
項らしさを判定する分類器
入力: 項と文内の項以外の名詞をペアにして入力
出力: どちらがより項らしいか
日本政府による民間支援が活性化する。
支援(する)
ガ
日本,政府
日本,民間
政府,民間
政府,民間
政府,活性
ヲ
民間,活性
8
項と項以外の名詞の共起スコアの比較
全体の71.2%が
第2・第4象限
どのような事例が
含まれているのか?
第1・第3象限の事例は
共起スコアだけでは
決められない
第2・第4象限の事例は
共起スコアの高い方が
項とした場合精度90.0%
→共起のみでも分類可能
項
の
共
起
ス
コ
ア
9
項以外の名詞の共起スコア
述語項構造解析モデルを利用した実験
目的: 共起スコアだけでは項同定できない事
例にどのような問題があるか分析
方法: 述語項構造解析 [Iida et al., 2006] の
素性を用いて SVM による分類器を作成、第
1象限で分類を誤った事例を人手で分類
対象: NAIST テキストコーパス1.2βから新聞
記事1日分(137記事)を訓練データ・別の1日
分(150記事)をテストデータに使用
10
実験結果
新聞記事1日分を対象に第1象限のデータを用いて実験(総数3,132)
素性
誤り個数
287(9.1%)
全ての素性を用いた場
合
303(9.7%)
−語彙素性
320(10.2%)
−共起素性
294(9.4%)
−意味素性
376(12.0%)
−構文素性
290(9.3%)
−位置素性
1,696(44.2%)
共起素性のみを用いる
第一象限の項同定には構文素性と共起素性が有効
11
正しく解析できた事例
ガ
インタファクス通信は五日夕、現地ロシア軍の高官の発言
として「首都総攻撃ではないが、戦闘は続いている」と伝え
た。
ヲ
12
誤り分析(1)
第一象限で誤った事例のうち
項のほうが共起スコアが低い事例
構文情報を正しく扱えていない(62/112)
「XガYニ迫られる」の「Xガ」はY(事態性名
詞)のガ格と一致
ドイツは……エリツィン政権に対する支援を続ける
べきかどうか苦しい選択に迫られている。
述語と項を共有するような事態性名詞の出現パ
ターンが存在
13
誤り分析(2)
係り受け関係にある項の間違い
ロシアのチェチェン共和国に対する武力介入……
「の→ガ」「に対する→ニ」という格の交替
誤りのタイプ
動詞と項を共有
格の交替がある
複合名詞内の項
連体節内の項
AのBの形の項
遠く離れた係り受け
数
19
13
12
6
6
6
例
XガYニ迫られる
チェチェン共和国に対する武力介入
安保理はガリ提案を検討
相手は経験の浅い柴田
育英は初出場の三本木農を破り
14
動詞と項を共有する事態性名詞
「WGが耐震性能の違いに検討を加える」
→WGが耐震性能の違いを検討する
精度の高いパターンで項をフィルターできる
15
事態性名詞と述語の項共有の統計
NAIST テキストコーパスの27,665事態性名詞
中6,015事例(21.7%)が動詞と項を共有
SがEをVする(65.4%)
「SがEを行う」:各自が検討を行う→各自が検討する
SがEにVする(13.9%)
「SがEに入る」:彼が作業に入る→彼が作業する
SがNにEをVする(6.3%)
「SがNにEを作る」:母が自分に料理を作る→母が料理する
16
述語パターンの辞書作成作業の流れ
「Xに合わせる」(X=希望・要望・変化・…)
出現していない格を補う
「AがBをXに合わせる」(たとえばA=彼、B=スタイル)
補った格で例文が言えるかチェック
述語ガ:「彼が希望する」「彼を希望する」「彼に希望する」
述語ヲ:「スタイルが合わせる」「スタイルを希望する」「ス
タイルに希望する」
言えるパターンを辞書に登録
「Xに合わせる」:述語ガ→事態性名詞ガ
17
述語パターンの辞書の作成
対象: Web 5億文解析済みデータ
作業日数: 2人の作業者さんに合計1週間
作成済みパターン
見てもらったパターン: 事態性名詞が述語に係って
いるパターンのうち、頻度の高いもの上位2,000個
対応がついたパターン: 1,120個
精度は0.80(693/866)再現率は0.12(693/6,015)
18
トーナメントモデルで項同定精度評価
トーナメントモデル[Iida et al., 2005]で項同定
(素性・データセットは前の実験と同じ)
辞書の述語パターンにマッチしたらトーナメン
トせずに事態性名詞の項を決定
素性
ベースライン
+パターン辞書
ガ
60.5
61.9
ヲ
79.7
79.7
ニ
73.0
76.2
+共起
+パターン辞書+共起
65.5
66.7
80.9
80.9
76.2
79.4
トーナメントモデルでの各項の同定精度
19
誤り分析
武双山が貴乃花の連勝を止めた。
正: 貴乃花が連勝する
誤: 武双山が連勝する
「Xを止める:述語ガ→事態性名詞ガ」にマッ
チしてしまう
辞書の精度を上げる
近場に候補がある場合は近場の候補を選択する
モデルにする
20
関連研究
事態性名詞の項構造解析のコーパス
NomBank [Meyers et al., 2004]
PropBank [Palmer et al., 2005] に従って英語のコーパ
ス Penn TreeBank にタグづけ
文内の項に限定
京都テキストコーパス Version 4.0 [黒橋, 2005]
京都テキストコーパス全体の1/8にタグづけ
文を超えた項もタグ付与している
格助詞相当の表層格を網羅している
21
関連研究(2)
事態性名詞の項構造解析
NomBank に対する意味役割付与 [Jiang and Ng,
2006]
基本素性は述語の意味役割付与モデルを用いる
事態性名詞の素性も追加(Support verb)
名詞句の関係解析
名詞の格フレーム辞書の構築 [笹野ら, 2005]
一般的な日本語の名詞間の関係解析(事態性名詞の項
構造を包含)
事態性判別問題を扱っていない
22
まとめ
事態性名詞の項構造解析の問題設定
事態性名詞の項同定に向けた動詞と格要素
の共起モデルと構文情報の有効性を分析
述語と項を共有する事態性名詞を分析し、述
語のパターンに関するリソースを作成
23
今後の予定
共起モデルの効果的な使用方法の検討
共参照解析を行い、文間・文外の解析モデル
を作成(特にガ格は文間・文外に全体の4割)
精度の高い述語パターンを利用して Web 5
億文から新たな事態性名詞を獲得
24