Web 文書と検索ログを用いたオープンドメインのクラスとクラス属性の弱

Web 文書と検索ログを用いた
オープンドメインのクラスとクラス
属性の弱教師あり学習
ACL 2008 読み会
2008年6月27日
奈良先端大 松本研 小町守
紹介する論文
• Marius Pasca and Benjamin Van Durme
• Weakly-Supervised Acquisition of OpenDomain Classes and Class Attributes from Web
Documents and Query Logs
• In Proc of ACL 2008
• pages 19-27
08.6.27
2
背景
• 情報抽出で非構造化データの利用が盛ん
– Web 文書(Banko et al., 2007; Snow et al. 2006)
– Web 検索クエリのログ(Pasca, 2007)
• 非構造化データからの弱教師あり学習
08.6.27
3
弱教師あり学習
• Pasca et al., 2006
– シード:対象の属性(例:人々の誕生年=(John
Lennon, 1941))
– コーパス: Web 文書
• Pasca, 2007
– シード: ターゲットクラス(例: Drug)とインスタンス
(例:Vicodin と Xanax)
– コーパス: 検索ログ
• 入力クラスは人手で指定する必要がある
08.6.27
4
目的
• オープンドメインのインスタンス集合を抽出
– 対象: Web 文書 and 検索ログ
– 入力: クラスを事前に指定する必要がない
– 出力:
• インスタンス集合(例:{whales, seals, dolphins, …})
• クラスのラベル(例:marine animals)
• クラスの属性(例: life cycle, food chain, …)
08.6.27
5
本研究の特長
1. クラスの (インスタンス集合, ラベル, 属性) を
同時に獲得できる
2. 非常に少ない4,583個のオープンドメインの
クラスを抽出し、精度は80%以上
3. 自動獲得したオープンドメインのクラス属性
抽出の初めての評価
4. Web 文書と検索ログを両方使って情報抽出
する初の試み
08.6.27
6
概要
Web 文書と検索ログから抽出した知識
Web
文書
オーブンドメインのラベル付きクラスとインスタンス集合
Marine animals = {whales, seals, dolphins, …}
Amino acids = {phenylalanine, 1-cysteine, …}
検索
ログ
オーブンドメインのクラス属性
Marine animals = [life cycle, evolution, food chain, …]
Amino acids = [molecular formula, isoelectric point, …]
08.6.27
7
クラスラベルとインスタンスの抽出
• 入力
– ISA抽出パターン(クラス {such as|including} インス
タンス {and|,|.})
– 検索クエリ
– Web文書
– Precision と recall を調節するパラメータ
• 出力
– クラスラベルとインスタンスのペア(zoonotic
diseases, west nile virus)
08.6.27
8
アルゴリズム
1. Web文書でISAパターンにマッチするペア(クラス
ラベル,インスタンス)を抽出
2. Web文書中のdistributional similarityに基づい
て検索ログをクラスタリング
3. 各クラスタごとに
1. 各検索クエリのラベルをラベル候補集合に追加
2. ラベル候補集合の各ラベルについて
1.
検索ログ中に出てくるクエリで条件に合うものをインスタ
ンスとして出力に(ラベル,インスタンス)のペアを追加
4. ペアのリストを出力
08.6.27
9
ヒューリスティック
• パターンマッチする文の条件
– クラスのラベルは “non-recursive noun phrase
whose last component is a plural-form” (e.g.,
zoonotic diseases)
– インスタンスは検索ログ中にそのままの形で現れ
ているもののみを使う(Downey et al., 2007)
08.6.27
10
クラス属性の獲得(1)
• 検索ログ中でインスタンスを含む検索クエリ
のうち、インスタンスを除いた単語列を属性候
補に追加
– インスタンス: “jay and silent bob strike back”
– 検索クエリ: “cast jay and silent bob strike back”
– →属性候補: “cast”
08.6.27
11
クラス属性の獲得(2,3)
• Internal search-signature vector を作る
–
–
–
–
検索クエリ: “cast selection for kill bill”
属性候補: “cast”
インスタンス: “kill bill”
→Search-signature vector: “selection for” から作る(具
体的には書いていない)
• “X for Y” といった一般的なパターンの特殊化に用いる
• Reference internal search signature vector 作成
– 入力:シードとなる属性
– 出力:シード属性に対応するベクトルの和(正規化)
08.6.27
12
クラス属性の獲得(4)
• 各クラスに対応する属性候補のランクづけ
– シード属性に対応する reference vector との間の
類似度スコアの計算による
– →各クラスについて属性候補のランキングが得ら
れる
• (movies に対して [opening song, cast, characters, …])
08.6.27
13
本研究のクラス属性獲得の特長
• 各クラスに対するインスタンスは自動獲得さ
れたものを用いる
– 先行研究ではシードインスタンスは人手で与える
• シード属性は一つのクラスに対する属性のみ
でよい
– (pasca, 2007) では各クラスについてシード属性
– 一つのクラスに対するシード属性の reference
vector との間の類似度のみの計算に相当
08.6.27
14
実験
• Google 検索エンジン
– 検索ログ: 英語のログのランダムサンプル、5,000
万 unique queries (頻度つき)
– Web 文書: 英語1億 Web 文書
• HTML 除去、単語分割、文分割、品詞付与(TnT tagger)
済み
08.6.27
15
クラスのラベルの評価
• パラメータの決定
– ヒューリスティックに決めた
• クラスのラベルの精度
– WordNet との比較(Table 1)
• 42.2%は WordNet にそのままある
• 57.0%は少し加工すると WordNet にある
– うちランダムサンプリングで評価してみると、77%は正しい、
13.5%は場合によって正しい、9.5%は間違いラベルだった
– WordNet に入っていないが意味のあるクラスラベルの抽出
に成功→WordNet の拡張などにも使えるかもしれない
08.6.27
16
インスタンスの精度
• 獲得された各クラスラベルのインスタンスに
ついてそれぞれ人手で評価
– 先行研究(Pasca, 2007)で人手作成した集合を正
解データとして用いる
– Precision: クラスラベル(90%)インスタンス(80%)
– Recall: インスタンス(26.89%)
• 大量に精度高くインスタンスを獲得することができた
• (recall低いのは大量にprecision低く獲得したためでは
ない)
08.6.27
17
クラス属性の評価
• ランクによるバイアスを避けるためアルファ
ベット順にソートして評価
• 結果をランク順に並べたときの精度
– Figure 3 と Table 5
• 上2つのグラフは各クラスに5個ずつシード(5x37=185)
• 下2つのグラフは1つのクラスのみに5個のシード
– シードが多い方が(当然ながら)よい結果(だが1つのクラスの
みでもそれなりの精度)
• シードを自動抽出した線と人手で与えた線をプロット
– 人手で与えた方が(当然ながら)よい結果
08.6.27
18
インスタンス獲得の関連研究
• クラスインスタンスの獲得
– 非構造化データからインスタンス集合を獲得
• Wikipedia から (Ponzetto and Strube, 2007)
• WordNet から (Snow et al., 2006)
• 両方 (Suchanek et al., 2007)
• 手法
– シードパターンから (Collins and Singer, 1999)
– 新聞記事から抽出したNE使って (Shinyama and
Sekine, 2004)
– 多言語コーパスから (Klementiev and Roth, 2006)
08.6.27
19
弱教師あり学習の関連研究
• 弱教師あり学習
– ブートストラッピング (Riloff and Jones, 1999)
– 固有表現認識(NER)を使うとブートストラップの性
能が向上 (Feldman and Rosenfeld, 2006)
• ただし評価は coarse-grained なデータのみ
• 簡単な実験設定
– Person (Feldman and Rosenfeld, 2006)
– Company and Country (Cafarella et al., 2005)
08.6.27
20
クラスラベル付与の関連研究
• 非構造化データ (Pantel and Ravichandran,
2004)
– クラスラベルの自動獲得
– 評価が甘い(n-best の結果で評価している)
• 非構造化Web文書 (Davidov et al., 2007)
– インスタンスの自動獲得
– 検索エンジンの結果上位1,000件の文書を使用
– 事前にクラスを指定する必要あり
08.6.27
21
まとめ
1. クラスの (インスタンス集合, ラベル, 属性) を
同時に獲得する手法の提案
2. 非常に少ない4,583個のオープンドメインの
クラスを抽出し、精度は80%以上
3. 自動獲得したオープンドメインのクラス属性
抽出の初めての評価
4. Web 文書と検索ログを両方使って情報抽出
する初の試み
08.6.27
22