意味・談話解析勉強会 論文紹介

意味・談話解析勉強会
論文紹介
奈良先端科学技術大学院大学
小町守
mamoru-k@is.naist.jp
2015年9月30日
今日の論文
• “Semantic Role Labeling Using
Dependency Trees”
• Kadri Hacioglu
• CoLING 2004
2015年9月30日
論文の概要
• 依存木に基づいた意味役割ラベル器を作
成した
• 依存関係を意味役割のどれに分類するか
という問題に帰着
• SVM によって意味役割ラベルをつけた
• CoNLL 2004 shared task データで評価
2015年9月30日
CoNLL 2004 Shared Task
Semantic Role Labeling
2015年9月30日
CoNLL 2004 Shared Task
• 意味役割ラベリングを行うタスク
– 述語項構造(のようなもの)を分析する
– 意味役割をもつ構成素を認識する
– PropBank に従って解析
[A0 He] [AM-MOD would] [AM-NEG n’t] [V accept] [A1
anything of value] from [A2 those he was writing about] .
V: verb; A0: acceptor; A1: thing accepted; A2: acceptedfrom; A3: attribute; AM-MOD: modal; AM-NEG: negation
2015年9月30日
2004年時点での状況
• フルに解析木を使う(Collins パーザーとか
Charniak パーザーとか)とF1値で80くらい
• チャンカー使うとF1値で60くらい
2015年9月30日
2004 Shared task の目標
• 意味役割ラベリングを機械学習ベースで
行う
• 表層の統語情報と節境界情報しか使わな
い(2005 のタスクではもっと統語情報使
う)
2015年9月30日
どういう問題を解くか
• 意味役割の認識
– 単語列をグループ化
– グループ化した単語列に意味役割をつける
– 両方合っていれば正解
• precision と recall と F値で評価
– precision: 予測した項のうち正しかった割合
– recall: 正しい項のうち予測できた割合
2015年9月30日
使用するデータ
• PropBank ( 2004年2月版)
– Penn TreeBank に述語項構造をつけたもの
– 動詞の意味は VerbNet による
• 項の種類
– 動詞・項(数字つき)・adjuncts・references
• ついている情報
– POS・ベースチャンク・節・NE
2015年9月30日
本文に入ります
2015年9月30日
イントロダクション
• Semantic Role Labeling(SRL) は単語列
をグループ化し、それを意味役割
(semantic role)によって分類するタスク
• 述語がどのような項を伴うか特定する
• 述語と項の関係で意味役割が決まる
• 情報抽出・QA・文書要約・機械翻訳に役
立つ
2015年9月30日
先行研究
• 述語項構造に基づいた SRL が詳しく研究
されるようになったのは (Gildea and
Jurafsky, 2002) から
• さまざまな研究があるが大きく分けて3つ
– 構成素単位の SRL
– 句単位の SRL
– 単語単位の SRL
2015年9月30日
構成素レベルの SRL
• 統語的な木構造表現は構成素の列に分
解される
• 文構造や構成素のトークンに対して決まる
文脈から構成素に素性を抽出
• 抽出した素性によって構成素に意味役割
をつける分類問題
2015年9月30日
句レベルと単語レベルの SRL
• 基本的にチャンキングのタスク
• ベースフレーズもしくは単語に対して素性
を抽出
• IOB 表現を使って抽出した素性からトーク
ンに意味役割ラベルをつける分類問題
2015年9月30日
依存関係単位の SRL
•
•
•
•
•
本論文が提案する手法
構成素の木構造から依存関係木を生成
構成素単位のシステムと使う情報は同じ
情報の構造や言語学的特性が違う
情報を依存関係によって再構築することで
意味役割を局所化するのに役立つ
2015年9月30日
関連研究
• (Gildea and Hockenmaier, 2003)
• 依存関係を使っているのは同じ
• CCG(Combinatory Categorical
Grammar) を用いて依存関係を導出して
いるところが違う
• ラベリングに使う依存関係や素性、分類器
の実装も違う
2015年9月30日
DepBank
• PropBank の構成素木から依存木に変換
• 依存関係のノードがどの単語列をカバーし
ているか決定するために依存木を解析
• 意味役割のラベルを同じ単語列をカバーし
ているノードに追加
• どの意味役割にも対応しなかった関係に
は “O” というラベルをつける
2015年9月30日
依存関係の SRL
1. 依存木を下から上・左から右方向に一直
線に並べて依存関係の列を作る
•
ヒューリスティックによって項にならなそうな
依存関係は取り除く
2. 各依存関係に対し素性を抽出
3. 素性を SVM に入力
4. one-versus-all SVM を使用して分類
2015年9月30日
依存木展開のヒューリスティック
• 述語に対して局所性の尺度として木構造の
family を定義
– 依存木の中での述語の親・子・孫・姉妹・姉妹の子・姉
妹の孫からなる依存関係ノード集合
• この集合に入らない関係は依存木の展開のとき
には無視
• 依存木の葉に当たる部分でも刈り込み
• 意味ラベル1%の損失でデータを約1/3-1/4に圧縮
2015年9月30日
トークンレベルの素性
•
•
•
•
•
•
•
•
タイプ
家族関係
位置
ヘッドの単語
依存元の単語
ヘッドの単語の品詞
依存元のヘッドの単語の品詞
パス
2015年9月30日
文レベルの素性
•
•
•
•
述語の子の品詞パターン
述語の子の関係パターン
述語の姉妹の品詞パターン
述語の姉妹の関係パターン
2015年9月30日
分類器
•
•
SVM で意味役割の分類器を実装
組み合わせた SVM
1. 単語単位の分類器
2. 構成素単位の分類器
3. 句単位の分類器
•
次元数2の polynominal kernel を用いた
TinySVM と YamCha を使用
2015年9月30日
実験
• PropBank 2004年2月版で実験
– セクション15-18をトレーニングに使用
– セクション20をデベロップに使用
– セクション21をテストに使用
– つまり CoNLL 2004 shared task と同じ
– CoNLL 2004 shared task の結果と比較可能
2015年9月30日
実験結果
• DepBank の dev set と CoNLL の dev
set では再現率がかなり下がった
– 変換プロセスの際約8%の意味役割が失われ
たせい
– 構成素木の句のノードの中には依存木の中
に相当するノードがないものがあったため
– とはいえ (Gildea and Hockenmaier, 2003)
はミスマッチ率23%と報告しているので、それ
よりははるかにまし
2015年9月30日
依存関係単位の SRL の性能
• 構成素単位の SRL と比べて健闘
– CoNLL 2004 で一番性能がよかった SRL シ
ステムは precision: 74.17%, recall: 69.42%,
F1: 71.72
– トレーニングに使えるデータをまだ全部使って
いない
– 構成素単位の SRL で性能が向上することが
分かっている素性も使っていない
2015年9月30日
結論
• 意味役割ラベルつきの依存木からなる
コーパスを自動作成
• 依存関係を分類する SRL システムを開発
• 現在は PropBank と DepBank でアノテー
ションが合わない部分の調査中
• 今後は新しい素性の追加・自動パーズと
の組み合わせ・構成素単位のシステムと
の比較や統合を検討
2015年9月30日