A Graph-Theoretic Approach to Reducing Semantic Drift in a Family of Bootstrapping Algorithms 小町守(†), 工藤拓(‡), 新保仁(†), 松本裕治(†) (†) 奈良先端科学技術大学院大学 (‡) グーグル株式会社 第7回SVM勉強会定例研究会 2008年8月31日 2015/10/1 背景 自然言語処理における機械学習の成功 教師あり手法 タグ付きコーパスが必要 整備された辞書が必要 人手コストがかかる →できるだけコスト減らしたい 2 ブートスト ラップ 教師なし手法 人手の介在を最小限に しながら学習を行える リソースがない言語でも 扱うことができる 10/1/2015 ブートストラップ パターン抽出とインスタンス獲得を交互に繰り返して少 量のシードインスタンスを反復的に増やす インスタンス MacBook Air コーパス パターン アップルMacBook Air注文 アップル#注文 iPod touch アップルiPod touch注文 MacBook Pro アップルMacBook Pro注文 3 #:インスタンス が入るスロット 10/1/2015 ブートストラップの問題点 意味ドリフトの問題 シード 共起パターン 広末涼子 湯布院 熱海 ジェネリックパターン =多数のインスタンスと共起するパターン 〜の写真 イチロー …… 意味ドリフト=いったんジェ ネリックパターンを獲得して しまうとそれ以降シードイン スタンスと関連性の低いイ ンスタンスを獲得してしまう 理論的裏付けに乏しい 4 パラメータ数が多く調整が難しい タスク・ドメイン依存 10/1/2015 目的 1. ブートストラップのグラフ理論による解析 • • 2. 意味ドリフトと HITS (Kleinberg, 1999) のトピックドリフト との関連性 • 3. ブートストラップにおけるヒューリスティックの意義 グラフに基づくカーネルを用いた意味ドリフトの解決 • 5 Espresso (Pantel and Pennachiotti, 2006) のリンク解析的定式化 Espresso の収束解析 ジェネリックパターンの影響を抑えつつ関連性の高いインスタ ンスを獲得する手法 10/1/2015 2015/10/1 ブートストラップの定式化 シードインスタンスのスコアベクトル i 0 0,...,1,...,0 パターン-インスタンス共起行列P 行列の(p,i)要素はパターンp 0 1 P 1 0 1 0 0 0 0 0 1 0 1 1 1 1 以下を反復 とインスタンスiの共起 インスタンスの類似度行列をM=PTP として、このステップを再帰的に行うと in=Mni0 p Mi i MTp I と p が収束したら終了 7 インスタンスとパターン のベクトルを出力 10/1/2015 簡略化版 Espresso (simplified Espresso) シードインスタンスのスコアベクトル i 0 0,1,0,0 パターン-インスタンス共起行列 行列の(p,i)要素はパターンpと 0.001 0.6 0.001 0.001 0.6 0.001 0.001 0.001 P 0.001 0.2 0.001 0.2 0.001 0.3 0.3 0.001 以下を反復 p Mi i MTp iとpが収束したら終了 8 インスタンスiの正規化された 自己相互情報量 1 pm i(i,p) MP P I P maxpm i T パターン抽出はブートストラップにおいて 必須ではない(小町ら, 2008) ブートストラップの反復の際スコア上位 のパターン・インスタンスを獲得するとい うヒューリスティック 10/1/2015 意味ドリフトと HITS のトピックドリフトの関連性 各反復ごとにinを正規化しながらn→∞とすると、シードイ ンスタンスベクトルi0によらずin→Mの主固有ベクトル Pを隣接行列とするHITSが返す権威度ベクトルと一致 シードインスタンスによらずランキングは一定 ブートストラップの反復を繰り返していくと意味ドリフトは不可避? HITSによるグラフ解析ではトピックドリフトと言われてい る現象 ブートストラップはグラフ解析とは異なり反復の際スコア上位 のパターン・インスタンスのみ使うというヒューリスティック 足切りヒューリスティックは意味ドリフト抑制効果がある? 9 10/1/2015 意味ドリフトとトピックドリフトの評価実験 Senseval-3 English Lexical Sample タスクのデータ Bank の語義を当てる 訓練事例262個・評価事例132個 評価事例中の再頻出語義は「土手」の意味の86個(F=0.674) … the financial benefits of the bank(銀行) 's employee package ( cheap mortgages and pensions, etc ) , bring this up to … In that same year I was posted to South Shields on the south bank(土手) of the River Tyne and quickly became aware that I had an enormous burden … Possibly aligned to water a sort of bank(???) by a rushing river. 10 訓練事例には人手でつけた 語義がついている 評価事例の語義を当てる 10/1/2015 ブートストラップによる語義曖昧性解消 シードインスタンス=語義を当てる対象の用例 システムの出力=スコアの高い順3インスタンスのうち多 数を占める語義(k=3 の k-nearest neighbour) 語義が同数の場合はスコアの一番高い語義 語義曖昧性解消に用いた素性 グローバル素性: パラグラフの bag-of-words 出現すれば1,出現しなければ0 ローカル素性: インスタンスの前後n単語(n=3)から作成した単語列 パターン (例) interest が対象のとき “sale of * interest in * *” Espresso の足切りヒューリスティック(filtered Espresso) 初期パターン数p=200 (反復ごとにp=p+1) 初期インスタンス数m=100 (反復ごとにm=m+100) 11 10/1/2015 Espresso のヒューリスティックの比較結果 反復を繰り返しても意味ドリフトは 起きない →足切りは意味ドリフトを抑えるた めに必要な処理 徐々にジェネリックインスタンスに 高いスコアが割り振られ、意味ド リフトが起きている 12 インスタンスの順番はHITSの重要度ランキングと一致 10/1/2015 →意味ドリフトとHITSのトピックドリフトは同じ原因 Filtered Espresso の学習曲線 最頻出語義の割合が増加 →意味ドリフトが起きている 足切りヒューリスティックを入 れても意味ドリフトは不可避 13 10/1/2015 グラフ解析を用いた意味ドリフトの解決 Espresso 意味ドリフトが避けられない HITS 重要度の高いインスタンスを獲得してしまう 足切りヒューリスティックの効果は限定的 設定しなければならないパラメータが多い 最適化が大変 解決するための2つの手法 ① ノイマンカーネル ② 正則化ラプラシアンカーネル 14 10/1/2015 ノイマンカーネル (Kandola et al., 2002) 拡散係数β(0≦β<λ)のノイマンカーネル行列K β K A(I A) A A 1 n n n 0 A PT P Kβの(i,j)要素=インスタンスi,j間の類似度 シードインスタンスに対する相対的重要度が計算できる 共引用関連度と HITS 重要度との混合を表現(伊藤ら, 2004) 15 10/1/2015 ノイマンカーネルはなにをするか? A=PTPが表す共引用グラフ上での各ノード間の全ての経 路数の重み付き和 N次のパターン共起を考慮に入れている (PTP)nの各行 Nが小さいとき→各ノード間の関連度 Nが大きいとき→HITS 重要度 〜の旅館 湯布院 16 熱海 〜の写真 広末涼子 〜のホームページ イチロー 10/1/2015 …… ノイマンカーネルのパラメータ ノイマンカーネル: n=1〜∞までの(PTP)nの重み付き和 拡散係数βが小さいとき→関連度 拡散係数βが大きいとき→HITSの重要度 βを小さめに設定すれば意味ドリフトを抑制・高次のパタ ーン共起も考慮できるはず あとで実験により検証 〜の旅館 湯布院 17 熱海 〜の写真 広末涼子 〜のホームページ イチロー 10/1/2015 …… ノイマンカーネルの問題点の解決 ノイマンカーネルの問題点 βが小さいとき:高次のパターン共起を十分考慮できない βが大きいとき:ジェネリックパターンに強い重みがつく グラフラプラシアンを用いて解決できる ジェネリックパターンと共起するイ ンスタンスは関連度低くしたい 旅行パターンと共起するイン スタンスは関連度高くしたい 〜の旅館 湯布院 18 熱海 〜の写真 広末涼子 〜のホームページ イチロー 10/1/2015 …… 正則化ラプラシアンカーネル グラフ内の全経路の重み付き和 高次のパターン共起も考慮に入れることができる 負のラプラシアン -L はグラフ G の自己ループの重みを 変更したものに相当 グラフGのラプラシアンL 次数対角行列Dのi番目の対角要素 L D A D(i,i) A(i, j) A:隣接行列 β:拡散係数 j 正則化ラプラシアン行列Rβ R n (L) n (I L)1 ノイマンカーネル行列 n 0 K A n A n n 0 19 においてAの代わりに-Lを使用、右辺第一項のAを削除 10/1/2015 グラフ解析を用いた意味ドリフト解決評価実験 提案手法が意味ドリフトの抑制に成功しているかどうか グラフベースの語義曖昧性解消手法との比較 1. 2. • Agirre et al. (2006) との比較 • HyperLex (Veronis, 2004) と PageRank (Brin and Page, 1998) を用いた実験 ノイマンカーネル・正則化ラプラシアンカーネルにおける 拡散係数の影響の比較 3. • 20 本当にβが大きいときは大域的重要度に、小さいときは関連度 に偏った結果となっているか? 10/1/2015 Bank に対する予測ラベル(再現率) Espresso は意味ドリフトが避けられない アルゴリズム MFS Simplified Espresso 100.0 0.0 Filtered Espresso 100.0 30.2 Filtered Espresso (opt.) 94.4 67.4 ノイマンカーネル (β=10-5) 92.1 65.1 正則化ラプラシアン (β=10-2) 92.1 62.8 それ以外 ノイマンカーネルや正則化ラプラシアンは 意味ドリフトを回避している 21 10/1/2015 グラフベースの語義曖昧性解消(名詞のみ) Espresso はパラメータのチューニングが必要 アルゴリズム 精度 再現率 F値 Most frequent sense 54.5 54.5 54.5 HyperLex 64.6 64.6 64.6 PageRank 64.5 64.5 64.6 Simplified Espresso 44.1 44.1 44.1 Filtered Espresso 46.9 46.9 46.9 Filtered Espresso (opt.) 66.5 66.5 66.5 ノイマンカーネル (β=10-5) 67.2 67.2 67.2 正則化ラプラシアン (β=10-2) 67.1 67.1 67.1 HyperLexやPageRankより数ポイント上 22 10/1/2015 拡散係数βに対する感受性 ノイマンカーネル 正則化ラプラシアンカーネル パラメータによってかなり性能 に違い パラメータによらずほとんど 性能に違いは見られない 24 10/1/2015 まとめ グラフ理論によるブートストラップの解析を提案した HITS におけるトピックドリフトとブートストラップにおける 意味ドリフトの類似性を指摘した ブートストラップにおける意味ドリフトを防ぐために ノイマンカーネル 正則化ラプラシアンカーネル が使えることを語義曖昧性解消タスクで示した 今後の予定 固有表現抽出タスクでも提案手法が適用できるか検証 語義曖昧性解消タスクのドメイン適応 26 10/1/2015
© Copyright 2024 ExpyDoc