動詞と格要素の共起と 名詞の出現パターンを用いた

動詞と格要素の共起と
名詞の出現パターンを用いた
事態性名詞の項構造解析
奈良先端科学技術大学院大学
情報科学研究科自然言語処理学講座
小町守
事態性名詞の項構造解析の目標
意味の同じ表現の認識
「原子爆弾によって破壊されたドーム」
「ドームが原子爆弾によって破壊された」
「原子爆弾がドームを破壊した」
「原子爆弾によるドームの破壊」
主節
能動態
名詞化
事態性名詞の項構造解析が必要
全て「原子爆弾がドームを破壊した」という事態を指す
事態の認識はテキスト要約・機械翻訳に役立つ
2
事態性名詞の項構造解析
ヲ
ガ
【文外】
リスク管理の必要性が強く叫ばれているが、市場
ヲ
の実態が把握できていないため打つ手がないの
が実情。BISが昨年春から調査の手法について検
討していた。
ガ
管理(する) [ ガ:【文外】, ヲ:リスク ]
調査(する) [ ガ:BIS, ヲ:実態 ]
事態性名詞=
行為・状態・出来事を指す名詞
項構造=
誰が、何を、どうする
種類
例
サ変名詞
管理
動詞由来の名詞 動き
3
事態を示す名詞 運動会
事態性名詞の項構造解析のタスク設定
公衆電話で電話をすることがめっきり減った。
モノとしての電話
「XガYニ電話する」
というコト(事態)
1. 名詞の事態性判別
モノかコトか?
文中の名詞に事態性があるかどうか判別
2. 事態性名詞の項同定
誰ガ何ニどうする?
事態性のある名詞の項を同定
4
関連研究
事態性名詞の項構造解析のコーパス
NomBank [Meyers et al., 2004]
PropBank [Palmer et al., 2005] に従って英語のコーパ
ス Penn TreeBank にタグづけ
文内の項に限定
名詞句の関係解析
名詞の格フレーム辞書の構築 [笹野ら, 2005]
一般的な日本語の名詞間の関係解析(事態性名詞の項
構造を包含)
事態性判別問題を扱っていない
5
目次
はじめに
事態性名詞の項構造解析
事態性名詞の事態性判定
事態性名詞の項同定
まとめ
今後の予定
第1節
第2節
第3節
第4節
6
事態性判別の方針
出現用例獲得
…に対する説得工作は失敗に…
辞書
名詞
名詞
リスト
リスト
出現パターン
…横にある椅子の取っ手を…
…に対する説得工作は失敗に…
新聞
記事
…横にある椅子の取っ手を…
 大量のデータから事態性名詞を含む 文構造を取得
7
事態性名詞の出現パターンの学習
・・・
説得
交渉
・・・
事態性あり
・・・
椅子
机
・・・
事態性なし
正例
文節内
…説得工作は失敗に…
文節ごとに
表記・品詞・複合名詞
などフラットな木を作成
サ変
サ変
後文脈
…椅子の取っ手を…
負例
の
一般名詞
 用例中の名詞の出現パターンを木構造に変換し、
部分木構造を用いたブースティング BACT [Kudo
and Matsumoto, 2004] で学習
 学習した部分木構造が出現パターンに相当
8
事態性判別実験
方法: Support Vector Machines を用いて名
詞の事態性を判別
評価:10分割交差検定
使った情報
意味的な情報
事態性名詞の意味クラス
文法的な情報
事態性名詞の周辺に項になりそうな名詞があるかどうか
新聞記事から獲得した事態性名詞の出現パターン(計算
量の問題から BACT は出現パターン獲得のみに使用)
9
事態性判別実験結果
精度
再現率
名詞の出現パターンなし 72.3% 58.7%
73.3% 80.2%
提案手法
新聞記事の事態性判別
 精度=事態性があると分類された名詞の正解率
 再現率=名詞のうち事態性を正しく判定できた率
 新聞記事80記事(800文)
 事態性名詞1,237個(うち590個が事態性ありの事例)
名詞の出現パターンを使うことで再現率が大幅に向上
10
目次
はじめに
事態性名詞の項構造解析
事態性名詞の事態性判定
事態性名詞の項同定
まとめ
今後の予定
第1節
第2節
第3節
第4節
11
述語・事態タグと項の出現位置の分布
NAIST テキストコーパス中の述語・事態タグと項の分布(括弧内が述語)
文内
同一文節
ガ
係り受け
その他
文間
文外
総数
総数
7%(0%) 23%(42%) 25%(31%) 18%(12%) 27%(15%)
ヲ 50%(0%) 31%(84%) 10%(13%)
ニ 43%(3%) 22%(88%)
24%(7%)
8%(3%)
0%(0%)
10%(3%)
0%(0%)
 事態性名詞は述語と比べて文間に項が現れる割合が
多い [飯田ら, 2007]
 述語のヲ格・ニ格は9割が係り受け
 事態性名詞のヲ格・ニ格は約半数が同一文節内
係り受け以外の情報を用いた項同定
共起・構文情報
12
PLSI を用いた共起スコアの計算
Probabilistic Latent Semantic Indexing
[Hoffman, 1999] を用い、名詞 n が格助詞 c
を介して動詞 v に係っているときの共起確率
を求める[藤田ら, 2004] 隠れクラスz次元まで圧縮
P( v,c,n )   P( v,c | z)P(n | z)P(z)
zZ
上司が推薦する

が推薦する
上司
P( v,c,n )
PMI( v,c ,n)  log
P( v,c )P(n)
共起スコア=<v,c>とnの間の相互情報量
13
事態性名詞の項同定
項らしさを判定する分類器
入力: 項と文内の項以外の名詞をペアにして入力
出力: どちらがより項らしいか
日本政府による民間支援が活性化する。
支援(する)
ガ
日本,政府
日本,民間
政府,民間
政府,民間
政府,活性
ヲ
民間,活性
14
項と項以外の名詞の共起スコアの比較
全体の71.2%が
第2・第4象限
どのような事例が
含まれているのか?
第1・第3象限の事例は
共起スコアだけでは
決められない
第2・第4象限の事例は
共起スコアの高い方が
項とした場合精度90.0%
→共起のみでも分類可能
項
の
共
起
ス
コ
ア
15
項以外の名詞の共起スコア
述語項構造解析モデルを利用した実験
目的: 共起スコアだけでは項同定できない事
例にどのような問題があるか分析
方法: 述語項構造解析 [Iida et al., 2006] の
情報を用いて SVM による分類器を作成、第
1象限で分類を誤った事例を人手で分類
対象: NAIST テキストコーパス1.2βから新聞
記事1日分(137記事)を訓練データ・別の1日
分(150記事)をテストデータに使用
16
実験に用いた情報
日本政府による民間支援が活性化する。
情報
説明(例)
語彙情報 単語の表記
共起情報 動詞・格要素と名
詞の共起スコア
意味情報 固有表現かどうか
構文情報 文節内の品詞列
位置情報 名詞句の先頭(ま
たは末尾)かどうか
事例
日本
<支援(する),ガ>, 日本
→2.80
固有名詞・地域(日本)
固有名詞-一般名詞-格
助詞(日本政府による)
1(日本政府による)
17
実験結果
新聞記事1日分を対象に第1象限のデータを用いて実験(総数3,132)
情報
誤り個数
287(9.1%)
全ての情報を用いた場
合
303(9.7%)
−語彙情報
320(10.2%)
−共起情報
294(9.4%)
−意味情報
376(12.0%)
−構文情報
290(9.3%)
−位置情報
1,696(44.2%)
共起情報のみを用いる
第一象限の項同定には構文情報と共起情報が有効
18
誤り分析(1)
第一象限で誤った事例のうち
項のほうが共起スコアが低い事例
構文情報を正しく扱えていない(62/112)
「XガYニ迫られる」の「Xガ」はY(事態性名
詞)のガ格と一致
ドイツは……エリツィン政権に対する支援を続ける
べきかどうか苦しい選択に迫られている。
述語と項を共有するような事態性名詞の出現パ
ターンが存在
19
誤り分析(2)
係り受け関係にある項の間違い
ロシアのチェチェン共和国に対する武力介入……
「の→ガ」「に対する→ニ」という格の交替
誤りのタイプ
動詞と項を共有
格の交替がある
複合名詞内の項
連体節内の項
AのBの形の項
遠く離れた係り受け
数
19
13
12
6
6
6
例
XガYニ迫られる
チェチェン共和国に対する武力介入
安保理はガリ提案を検討
相手は経験の浅い柴田
育英は初出場の三本木農を破り
20
まとめ
事態性名詞の項構造解析の問題設定
教師なしに獲得した名詞の出現パターンを用
いた事態性判別手法の提案
事態性名詞の項同定に向けた動詞と格要素
の共起モデルと構文情報の有効性を分析
21
今後の予定
共起モデルの効果的な使用方法
項同定に有効な構文情報を組み込む
事態性名詞の項同定を行うシステムの作成
22
23
研究背景
新人=彼
名詞 動詞 名詞 名詞 名詞 動詞
自然言語処理の基盤技術の発展
新人が来た。彼は上司が推薦した。
助詞 助動詞 助詞
ガ 単位
ヲ
助詞
助動詞
ツール
ガ
コーパス
京都テキスト
コーパス
形態素解析
単語
ChaSen
構文解析
文節
CaboCha
意味解析
単語と文節
SynCha
談話解析
文
---
①事態性名詞の
項構造解析器の開発
NAISTテキスト
コーパス
②事態タグつき
コーパスの作成
24
事態性名詞の項構造解析の応用
事態クラスタリング
同じ事態を指す(統語的には異なる)複数の表現を
まとめてクラスタリング
事態性名詞を用いた情報検索における質問
拡張(query expansion)
同じ事態を指す動詞・名詞を用いてマッチを取る
文体変換
新聞記事を対話調に、口語体を論文風に
25
Web 5億文の共起スコアの分類性能
26
実験結果
新聞記事1日分を対象に全象限のデータを用いて実験(総数13,640)
情報
誤り個数
476(3.5%)
全ての情報を用いた場
合
510(3.7%)
−語彙情報
684(5.0%)
−共起情報
510(3.7%)
−意味情報
644(4.7%)
−構文情報
700(5.1%)
−位置情報
1,305(9.6%)
共起情報のみを用いる
項同定には位置情報と共起情報が有効
27