関連性抽出サーベイ 2009/10/22 高松慎吾 コンテンツ 関連性抽出とは 関連性抽出のアルゴリズム 関連抽出の論文紹介 その他のトピック 関連性抽出とは 「文書から知識を取り出す」タスクの中で、一番シンプルな タスクのひとつ 関連性抽出 文書から、Entity(名詞節、固有名詞など)間の関連を抽出する。 [Entity] [Relation] [Entity] 抽出された関連を意味的に解釈する(分類 or クラスタリング) Paul was born in Tokyo. (Paul, Tokyo): 出生地 関連性抽出の例 [Banko 07 IJCAI] • 2つの名詞節間の関連を抽出 http://www.cs.washington.edu/re search/textrunner/ [Yan 09 ACL] 関連のクラスタリング 関連性抽出の利用例 自動的にwikipediaのinfobox のようなものを作成することに より、コンテンツページを充実 させる コンテンツのメタデータの拡張 (関連コンテンツ) Q&A プロテインの関連の抽出 などなど。 Webの文書を対象とすれば、大量の新鮮な情報を取得できる コンテンツ 関連性抽出とは 関連性抽出のアルゴリズム 関連抽出の論文紹介 その他のトピック 関連性抽出のアルゴリズム 次の2つの処理が含まれる 1. 関連が記述された部分を抽出する。 2. 抽出された関連を意味的に解釈する 関連抽出のアルゴリズム 関連にラベルが付いている場合 1. 関連候補の特定 2. 関連候補のラベル(求める関連かどうか)を判別・分類 (CRFで特定とラベリングを同時に行う場合もあり) 関連にラベルが付いていない場合 1-1. 関連候補の特定 1-2. 関連候補が関連かどうかの判定 2. 関連をクラスタリング (これらの手順が同時に行われる場合もあり) 1.関連が記述された部分を抽出する。 ・・・・・・ Paul was born in Tokyo. ・・・・・・・・・・・・・・ Entityの特定 POSTag、固有名詞抽出、照応解析 関連候補の特定(関連がありそうなEntityペアの特定) 同一文内に出現するEntityペア 「Entity間の単語数が閾値以下」などのルール 関連候補が関連かどうか E0 (関連, not関連)の2値分類 構文解析を利用したルール(Entityペア間の依存パス有無) C:i:V sign V:obj:N V:subj:N Britney Spears N:mod:Prep contract a with recording Prep:pcomp-n:N Jive Records 関連候補をクラスタリングして、小さいクラスタは候補から除去 2.抽出された関連を意味的に解釈する Paul was born in Tokyo. ラベルが付いている場合 (Paul, Tokyo): 出生地 ルールベース・ブートストラップ 関連候補の分類 系列ラベリング(CRF)で抽出と同時にラベル ラベルが付いていない場合 ルールベース クラスタリング 要素数の少ないクラスを刈り取る 最近のトレンド Web上の膨大な文書を対象にする 解析対象が膨大にあるのでprecision重視でよい 計算時間をできるだけ減らしたい MLNもありました 読んでいませんが コンテンツ 関連性抽出とは 関連性抽出のアルゴリズム 関連抽出の論文紹介 その他のトピック 関連性抽出のはしり [Hasegawa, ACL04] <関連性抽出> ・関連候補:同一文 内で単語距離5以下 の固有名詞のペア ・出現頻度30以上の 固有名詞ペアを関連 とする <クラスタリング> ・文脈(固有名詞間 の単語)のcos距離を 利用した階層クラスタ リング 性能 New York Timesの 記事1年分で200程 度の関連を抽出 F値は0.8程度 構文木を利用([Hasegawa, ACL04]の改良) [Zhang, IJCNLP05] 関連性抽出 2つの固有名詞間に構文解析木のパスがあるか クラスタリング 類似度 = 構文木の類似度 性能 高頻度(30回以上)の関連について[Hasegawa, 2004]よりもF値が良かった 低頻度(5回以上)の関連もF値0.6程度で抽出できた 構文木カーネルを関連性抽出に利用する研究は多数あり CRFの利用 [Culottaet, NAACL06] 頻度が1回でも抽出したい 関連性の抽出・ラベル付与:CRF Biographicなテキストに制限し、 target entityに関係のラベル(fatherなど)を付与 それぞれのラベルについてCRF cousin = father-sibling-son などのimplicit relation DBを作成し、 implicit relationを抽出する 自動的にimplicit relation DB作成 pathの方の特徴量もCRFの重み付きで追加 CRFの利用 現在ではベースライン的な手法 教師データ作成コストがかかる TEXTRUNNER http://www.cs.washington.edu/research/textrunner/ [Banko, IJCAI07], [Banko, ACL08] Web上の大量な文書から関連性抽出 113millionの文から27万の関連を抽出 関連性の抽出 Self-Supervised Learner 構文解析木を利用し、ルールベースで関連性を抽出。 抽出された関連性を教師データとし、Entityペアに関連があるか否かをCRF で予測。 Single-pass Extractor 構文解析をせずに、名詞句抽出を行う 特徴量はEntityペア周辺の、品詞、限定詞、前置詞、大文字単語など 分類による抽出(大量のWebリソースを利用) [Mintz 09 ACL] 分類 (supervised) 関連性の抽出 Freebaseというrelation と entityペアが記述された広大なDBを利用(同 じentityペアのrelationはすべて同じという仮定) DBに登録されているentityペアを膨大なコーパスから複数取得し、特徴 量を抽出。(複数なので、通常よりリッチ) 関連性の分類 得られた特徴量でモデルを構成しlogistic regressionでマルチクラス分類 (relationのクラスに分類) 特徴量 Lexical features • entity間の単語・品詞、entityが文頭か、entityの前(後ろ)の単語・品詞 Syntactic features • entity間のdependency path、dependency pathから外れたノード 性能 Precition0.69程度 Web上の大量なリソースを活用 分類による抽出(Transfer Learningの利用) [Jiang 09 ACL] 関連性の抽出・分類 Transfer Learning 教師データ作成コストが大きい。 ⇒ 異なるラベルでも共有できる情報があるはずだ。 ⇒ 別のラベルのパラメータを利用よう。 関連の種類ごとに分類機を用意し、パラメータの一部を分類機間で共有 する。これにより、新しい関連に他の関連の情報を利用できるため、少な いデータでも学習できる 条件付きMax Entropyモデル パラメータの共有 性能 ACE2004コーパスで実験し、F値0.41 Webリソースを活用した クラスタリング [Yan 09 ACL] Webの大量なリソースを活用 “高度な言語解析”と”大量なWeb文書の情報利用”を両立 Wikipediaの信頼性の高い文書については高度な構文解析を利用(precisionを 稼ぐ) 検索エンジンを利用して、Web上の大量の情報を利用(coverageを稼ぐ) 関連性の抽出 2つの名詞間に構文木的なパスがあるか 関連性のクラスタリング:次の2つの距離を利用しk-means Dependency Pattern (Precisionを稼ぐ) Wikipediaのtextにおける、Entityペアが出現する文脈の最短依存木 距離はEntityペア間に共通するpatternの数に基づいて計算 Surface Pattern (Recallを稼ぐ) Entityペアをクエリとし検索エンジンから得られる文書群から得られるパターン 距離は、類似度が高いpatternを類似度順にたしこむことで計算 クラスタのサイズが大きい上位kクラスを関連として抽出 性能 precision : 75%前後, Coverage : 20%前後 ブートストラッピング [Pennacchiotti 06] 特定の関連性抽出 Espresso: a kind of bootstrapping algorithm 与えられたシード(entityペア)からパターンを抽出 ⇒ パターンの信頼度を抽出 ⇒ 信頼度の高いパターンからentityを抽出 ⇒ 信頼度の高いentityを選択 ⇒ (繰り返す) アイデア 信頼度計算にpointwise mutual informationを利用 コーパスが少ないときはWeb検索を利用 Relation Extractionのタグ付きコーパス SemEval2007 Task4 7 semantic relations 210 training sentences per relation ACE (Automatic Content Extraction) RDC (Relation Detection and Characterization) 2002、2003, 2004 データを取得するには会員になる必要があるが、登 録料がかかる タグ付きコーパスの作成 Penn Treebankを使ってルールで関連にラベリング コンテンツ 関連性抽出とは 関連性抽出のアルゴリズム 関連抽出の論文紹介 その他のトピック Freebase http://www.freebase.com/ 人手でつけたRelation Database Reference “Discovering Relations among Named Entities from Large Corpora”, Tkaaki Hasegawa and Satoshi Sekine and Ralph Grishman, ACL2004 “Discovering Relations Between Named Entities from a Large Raw Corpus Using Tree SimilarityBased Clustering”, Min Zhang et al. IJCNLP2005 “Open Information Extraction from the Web”, Michele Banko and Oren Etzioni et al., IJCAI2007 “The Tradeoffs Between Open and Traditional Relation Extraction”, Michele Banko and Oren Etzioni, ACL2008 “Multi-Task Transfer Learning for WeaklySupervised Relation Extraction”, Jing Jiang, ACL2009 “Integrating Probabilistic Extraction Models and Data Mining to Discover Relations and Patterns in Text”, Aron Culottaet. al, NAACL2006 “Distant supervision for relation extraction without labeled data”, Mike Mintz, Dan Jurafsky, et. al, ACL2009 “A Bootstrapping Algorithm for Automatically Harvesting Semantic Relations”, Marco Pennacchiotti, Patric Pantel, 2006
© Copyright 2024 ExpyDoc