PowerPoint プレゼンテーション

大規模コーパスから獲得した
名詞の出現パターンを用いた
事態名詞の項構造解析
奈良先端科学技術大学院大学
情報科学研究科
自然言語処理学講座
小町守
研究背景
大規模な web データが利用可能に
有用な情報だけ取り出したい
評判分析
自動要約
質問応答システム
2
名詞間の関係解析
車を止めてアイドリング状態でエアコンを入れた場合車は大丈夫か?
【話し手】
所有
【話し手】 [所有:車]
事態
アイドリング(する) [ガ:【話し手】]
部分全体
エアコン [部分全体:車]
名詞間のさまざまな関係が解析対象
構造化されていないデータからの知識獲得
3
事態に着目した関係解析
車を止めてアイドリング状態でエアコンを入れた場合車は大丈夫か?
事態:文が表す命題のうち、
実世界に対応するもの
事態
【話し手】
アイドリング(する) [ガ:【話し手】]
項構造:事態が伴う項のパターン
関係解析
=項構造解析
項:事態が命題として成立
するための必須要素
4
事態名詞の項構造解析の問題設定
車を止めてアイドリング状態でエアコンを入れた場合車は大丈夫か?
事態名詞: 動詞由来の名詞
サ変名詞,事態を指す名詞
事態
【話し手】
アイドリング(する) [ガ:【話し手】]
1. 事態名詞の事態性判別
出現した事態名詞に事態性があるかどうか判別
2. 事態名詞の項構造決定
事態性のある事態名詞の項構造を決定
3. 事態名詞の項同定
事態性のある事態名詞の項を同定
5
①語の意味クラスの分類問題
事態名詞の項構造解析モデル
出現文脈の情報を使って解く
P(PASi | predi )  P(eventi,CF j ,CAk | predi )
 P(eventi | predi )
P(CF j | eventi , predi )
P(CAk | CF j ,eventi , predi )
事態性判別モデル
項構造決定モデル
項構造同定モデル
PAS: 項構造
②文内の項構造の決定
i:文内の述語候補
CF: 格フレーム
文構造の情報を使って解く
j:述語の格フレーム
CA: 格フレームと格の対応付け
k:格フレームと格の
pred: 述語候補(動詞・事態名詞など)
対応付け
6
event: 事態性の有無
目次
はじめに
事態名詞の項構造解析
事態名詞の事態性判定実験
事態名詞の項構造決定実験
事態名詞の項同定実験
まとめ
今後の予定
7
事態性判別の方針
出現用例獲得
…に対する説得工作は失敗に…
出現パターン
辞書
…横にある椅子の取っ手を…
事態性あり
名詞
名詞
リスト
リスト
…に対する説得工作は失敗に…
新聞
記事
…横にある椅子の取っ手を…
事態性なし
 大量のデータから事態名詞を含む 文構造を取得
8
事態性判別実験
方法: Support Vector Machines を用いて事
態名詞の事態性を判別
使った情報
意味的な情報
事態名詞の意味クラス
文法的な情報
事態名詞の周辺に項になりそうな名詞があるかどうか
新聞記事から獲得した事態名詞の出現パターン
9
事態性判別実験結果
精度
再現率
名詞の出現パターンなし 72.3% 58.7%
73.3% 80.2%
提案手法
新聞記事の事態性判別
 精度=事態性があると分類された事態名詞の正解率
 再現率=事態名詞のうち事態性を正しく判定できた率
 新聞記事80記事(800文)
 事態名詞1,237個(うち590個が事態性ありの事例)
名詞の出現パターンを使うことで再現率が大幅に向上
10
事態名詞の項構造の多義性
異なり単語数 複数の項構造
頻度1以上
2,461
1,363
頻度3以上
1,285
413
事態名詞の1/3 は項構造を決定する必要
人手によるタグづけのミスの例もある
事態名詞の項構造辞書があればミス防止可能
11
事態名詞の項構造決定実験
方法: Support Vector Machines を用いて事
態名詞の項構造を決定
当てる格フレームは4種類(ガ/ガヲ/ガニ/ガヲニ)
使った情報: 事態性判別実験と同じ
対象: 新聞記事80記事(800文)中複数の格フ
レームを持つ事態名詞135個
正解72個/不正解63個(精度 53.3%)
格フレーム決定は難しい
12
事態名詞の項同定実験
 対象: 文内にヲ格の項がある235文
 動詞の項構造解析モデル [飯田ら, 2006] を事態名
詞に対して適応
 使った情報
事態名詞の文節の情報
事態名詞の項の情報
事態名詞と事態名詞の項の関係に関する情報
13
ヲ格の項の同定実験結果
精
度
動詞と同じモデルでも
8割解ける
 評価事例
再現率
新聞記事80記事中文内にヲ格がある事態名詞235個
14
関連研究
 述語項構造解析
[Daniel and Jurafsky, 2002]
PropBank [Palmer et al, 2005]
CoNLL shared task [2004, 2005]
 事態名詞の項構造解析のコーパス
NomBank [Meyers et al, 2004]
 文内の項に限定
 名詞句の関係解析
名詞の格フレーム辞書の構築 [笹野ら, 2005]
 より一般的な枠組み
 事態性判別問題を扱っていない
15
まとめ
名詞の出現パターンを用いた事態性判別手
法を提案した
精度73.3%・再現率80.2%
事態名詞の項構造決定実験を行った
精度53.3%
動詞の項構造解析モデルを用い、事態名詞
の文内のヲ格の項同定実験を行った
精度81.9%・再現率81.5%
16
今後の予定
実験に使ったコーパスの見直し
10月中に外部公開予定
項構造決定の精度を上げる
確率モデルの導入とシステム全体の最適化
17