意味・談話解析勉強会 論文紹介 奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp 2015年9月30日 今日の論文 • “Semantic Role Labeling Using Dependency Trees” • Kadri Hacioglu • CoLING 2004 2015年9月30日 論文の概要 • 依存木に基づいた意味役割ラベル器を作 成した • 依存関係を意味役割のどれに分類するか という問題に帰着 • SVM によって意味役割ラベルをつけた • CoNLL 2004 shared task データで評価 2015年9月30日 CoNLL 2004 Shared Task Semantic Role Labeling 2015年9月30日 CoNLL 2004 Shared Task • 意味役割ラベリングを行うタスク – 述語項構造(のようなもの)を分析する – 意味役割をもつ構成素を認識する – PropBank に従って解析 [A0 He] [AM-MOD would] [AM-NEG n’t] [V accept] [A1 anything of value] from [A2 those he was writing about] . V: verb; A0: acceptor; A1: thing accepted; A2: acceptedfrom; A3: attribute; AM-MOD: modal; AM-NEG: negation 2015年9月30日 2004年時点での状況 • フルに解析木を使う(Collins パーザーとか Charniak パーザーとか)とF1値で80くらい • チャンカー使うとF1値で60くらい 2015年9月30日 2004 Shared task の目標 • 意味役割ラベリングを機械学習ベースで 行う • 表層の統語情報と節境界情報しか使わな い(2005 のタスクではもっと統語情報使 う) 2015年9月30日 どういう問題を解くか • 意味役割の認識 – 単語列をグループ化 – グループ化した単語列に意味役割をつける – 両方合っていれば正解 • precision と recall と F値で評価 – precision: 予測した項のうち正しかった割合 – recall: 正しい項のうち予測できた割合 2015年9月30日 使用するデータ • PropBank ( 2004年2月版) – Penn TreeBank に述語項構造をつけたもの – 動詞の意味は VerbNet による • 項の種類 – 動詞・項(数字つき)・adjuncts・references • ついている情報 – POS・ベースチャンク・節・NE 2015年9月30日 本文に入ります 2015年9月30日 イントロダクション • Semantic Role Labeling(SRL) は単語列 をグループ化し、それを意味役割 (semantic role)によって分類するタスク • 述語がどのような項を伴うか特定する • 述語と項の関係で意味役割が決まる • 情報抽出・QA・文書要約・機械翻訳に役 立つ 2015年9月30日 先行研究 • 述語項構造に基づいた SRL が詳しく研究 されるようになったのは (Gildea and Jurafsky, 2002) から • さまざまな研究があるが大きく分けて3つ – 構成素単位の SRL – 句単位の SRL – 単語単位の SRL 2015年9月30日 構成素レベルの SRL • 統語的な木構造表現は構成素の列に分 解される • 文構造や構成素のトークンに対して決まる 文脈から構成素に素性を抽出 • 抽出した素性によって構成素に意味役割 をつける分類問題 2015年9月30日 句レベルと単語レベルの SRL • 基本的にチャンキングのタスク • ベースフレーズもしくは単語に対して素性 を抽出 • IOB 表現を使って抽出した素性からトーク ンに意味役割ラベルをつける分類問題 2015年9月30日 依存関係単位の SRL • • • • • 本論文が提案する手法 構成素の木構造から依存関係木を生成 構成素単位のシステムと使う情報は同じ 情報の構造や言語学的特性が違う 情報を依存関係によって再構築することで 意味役割を局所化するのに役立つ 2015年9月30日 関連研究 • (Gildea and Hockenmaier, 2003) • 依存関係を使っているのは同じ • CCG(Combinatory Categorical Grammar) を用いて依存関係を導出して いるところが違う • ラベリングに使う依存関係や素性、分類器 の実装も違う 2015年9月30日 DepBank • PropBank の構成素木から依存木に変換 • 依存関係のノードがどの単語列をカバーし ているか決定するために依存木を解析 • 意味役割のラベルを同じ単語列をカバーし ているノードに追加 • どの意味役割にも対応しなかった関係に は “O” というラベルをつける 2015年9月30日 依存関係の SRL 1. 依存木を下から上・左から右方向に一直 線に並べて依存関係の列を作る • ヒューリスティックによって項にならなそうな 依存関係は取り除く 2. 各依存関係に対し素性を抽出 3. 素性を SVM に入力 4. one-versus-all SVM を使用して分類 2015年9月30日 依存木展開のヒューリスティック • 述語に対して局所性の尺度として木構造の family を定義 – 依存木の中での述語の親・子・孫・姉妹・姉妹の子・姉 妹の孫からなる依存関係ノード集合 • この集合に入らない関係は依存木の展開のとき には無視 • 依存木の葉に当たる部分でも刈り込み • 意味ラベル1%の損失でデータを約1/3-1/4に圧縮 2015年9月30日 トークンレベルの素性 • • • • • • • • タイプ 家族関係 位置 ヘッドの単語 依存元の単語 ヘッドの単語の品詞 依存元のヘッドの単語の品詞 パス 2015年9月30日 文レベルの素性 • • • • 述語の子の品詞パターン 述語の子の関係パターン 述語の姉妹の品詞パターン 述語の姉妹の関係パターン 2015年9月30日 分類器 • • SVM で意味役割の分類器を実装 組み合わせた SVM 1. 単語単位の分類器 2. 構成素単位の分類器 3. 句単位の分類器 • 次元数2の polynominal kernel を用いた TinySVM と YamCha を使用 2015年9月30日 実験 • PropBank 2004年2月版で実験 – セクション15-18をトレーニングに使用 – セクション20をデベロップに使用 – セクション21をテストに使用 – つまり CoNLL 2004 shared task と同じ – CoNLL 2004 shared task の結果と比較可能 2015年9月30日 実験結果 • DepBank の dev set と CoNLL の dev set では再現率がかなり下がった – 変換プロセスの際約8%の意味役割が失われ たせい – 構成素木の句のノードの中には依存木の中 に相当するノードがないものがあったため – とはいえ (Gildea and Hockenmaier, 2003) はミスマッチ率23%と報告しているので、それ よりははるかにまし 2015年9月30日 依存関係単位の SRL の性能 • 構成素単位の SRL と比べて健闘 – CoNLL 2004 で一番性能がよかった SRL シ ステムは precision: 74.17%, recall: 69.42%, F1: 71.72 – トレーニングに使えるデータをまだ全部使って いない – 構成素単位の SRL で性能が向上することが 分かっている素性も使っていない 2015年9月30日 結論 • 意味役割ラベルつきの依存木からなる コーパスを自動作成 • 依存関係を分類する SRL システムを開発 • 現在は PropBank と DepBank でアノテー ションが合わない部分の調査中 • 今後は新しい素性の追加・自動パーズと の組み合わせ・構成素単位のシステムと の比較や統合を検討 2015年9月30日
© Copyright 2024 ExpyDoc