NLP2010 11th March, 2010 述語対の項共有情報を利用した 文間ゼロ照応解析 飯田 龍 徳永 健伸 東京工業大学 大学院情報理工学研究科 {ryu-i,take}@cl.cs.titech.ac.jp 1 NLP2010 11th March, 2010 研究背景 ゼロ照応解析 文章中の省略されている格要素(ゼロ代名詞)を検 出してその指し先(先行詞)を補完するタスク 先行詞 政府1は低所得者を(φ1ガ)支援する計画を (φexoニ)発表した。 関係省庁2の協力を(φ1ガ)(φ2ニ)要請する。 ゼロ代名詞 情報抽出のような応用処理で必須となる要素技術 言語理解の実現度を見積る良い試金石 2 NLP2010 11th March, 2010 文内・文間のゼロ照応 ゼロ照応解析の問題を文内と文間の2つに分割 文内ゼロ照応 太郎は遅刻して(φガ)授業に遅れた。 統語的なパタン local topicの遷移 文間ゼロ照応 そこにいたお年寄りたちは、ただボーッとしてい るような感じの人がほとんどだった。 私は近づくのを躊躇った。 しかし、私が近くに行くと、とてもうれしそうに話 を(φガ)してくれ、笑顔を見せてくれた。 談話の挿入 global topicの遷移 文間の場合は統語的な手がかりが利用できず 解析が困難になる 3 NLP2010 11th March, 2010 本研究で新たに導入する手がかり 「Xガ 壊す Xガ 修理する」のような 述語対の項の共有情報の利用を考える 太郎が次郎を尋ねたとき、彼はラジオを修理 していた。 先週(φガ)落として(φガ)壊したらしい。 太郎は次郎がラジオを修理しているときに彼 の家を訪ずれた。 先週(φガ)落として(φガ)壊したらしい。 顕現性:高 次郎 太郎 4 NLP2010 11th March, 2010 関連研究 含意関係認識などで利用する事態間関係の 知識獲得 (Pekarら 2006, Abeら 2008, Szpektorら 2008, etc.) 教師無しであるパタンで出現している述語対を収集 相互情報量などの共起尺度で重み付け 共起事例を収集するための手がかり 述語の局所文脈の類似性 (Linら 2001, Szpektorら 2008) アンカー(疑似共参照関係) (Pekarら 2006) 並列表現 (鳥澤 2003) 5 NLP2010 11th March, 2010 アンカーを用いた知識獲得手法 (Pekarら 2006) 1. 文章中に出現する同一名詞句(アンカー)を 近似的に共参照関係とみなして,述語対を収集 共起事例収集の例 Mary bought a house. The house belongs to Mary. 2. {buy(subj:X), belong(obj:X)}, {buy(obj:X), belong(subj:X)} 頻度をもとにMIなどの共起尺度でランク付け P( x, y) MI(x, y) log P( x)P( y) 6 NLP2010 11th March, 2010 アンカーを用いた知識獲得手法の問題点 同一名詞句が共参照関係にあるとは限らない 共起にノイズが混入 ゼロ照応が頻出する 大規模に獲得できない可能性がある ゼロ照応関係から知識獲得 どのようなパタンで出現した場合にも等価に扱っ てよいのか? 人間は特徴的なパタンで出現している場合には1回 しか出現していない場合でも知識獲得できる 出現パタンの信頼度を導入 7 NLP2010 11th March, 2010 ゼロ照応関係を利用した項共有の知識獲得 ゼロ照応関係に関する述語対がどの程度項を 項共有スコア 共有するかのスコアを見積る アジア一の国際リゾートを目指し 観光ビジネスに取り組む 地域課題解決を目指して 各市町村が問題解決に取り組んでいる 項共有 モデル 彼はマスコミを嫌っているので インタビューを拒否した 彼が書類の作成を嫌ったため 会社Aは彼のイベントへの参加を拒否した ※先行詞が明示的に記述されていない場合も ※ガ格-ガ格の組み合わせのみ 述語対タイプの スコア 算出 3.24 1.83 2.19 -1.05 目指す-取り組む: 3.51 嫌う-拒否する: 0.79 8 NLP2010 11th March, 2010 1. 項共有モデルの構築 機械学習に基づく項共有関係の2値分類 述語項構造のタグが付与されたコーパスを利用 分類対象 述語対が係り受け関係にある場合に限定 「ため」「ので」「が」のような接続表現が項共有を同定する ための手がかりとなる (南, 1974) 彼女はお茶を飲みながら本を読んでいる {ガ:飲む, ガ:読む} 訓練事例 正例: 係り受け関係にある 述語対が同一の項を取る場合 負例: それ以外 9 NLP2010 11th March, 2010 1. 項共有モデルの構築: 素性 彼女は / お茶を / 飲みながら / 本を / 読んでいる 語彙的素性 vi vi(vj)の述語(基本形) vj (例: 飲む) 統語的素性 vi(vj)を含む文節に出現する機能語 (例: ながら) vi(vj)の間の文節に出現する機能語 (例: を) vi(vj)の係り元の文節に出現する機能語 (例: は) 項共有の素性 vi とvjが大規模コーパス中でどのくらい項を共有して いるか <名詞:格助詞>と<動詞>の共起をpLSIで次元圧縮して得ら れるP(z|v )のJS divergence 10 NLP2010 11th March, 2010 ゼロ照応関係を利用した項共有の知識獲得 ゼロ照応関係に関する述語対がどの程度項を 項共有スコア 共有するかのスコアを見積る アジア一の国際リゾートを目指し 観光ビジネスに取り組む 地域課題解決を目指して 各市町村が問題解決に取り組んでいる 項共有 モデル 彼はマスコミを嫌っているので インタビューを拒否した 彼が書類の作成を嫌ったため 会社Aは彼のイベントへの参加を拒否した ※先行詞が明示的に記述されていない場合も ※ガ格-ガ格の組み合わせのみ 述語対タイプの スコア 算出 3.24 1.83 2.19 -1.05 目指す-取り組む: 3.51 嫌う-拒否する: 0.79 11 NLP2010 11th March, 2010 2. 述語対タイプの項共有スコアの計算 述語対のインスタンス( vik , v jk )について 求めたスコア 述語対のタイプ( vi , v j )についてのスコアへ Nij arg_share(vi , v j ) log( Nij 1)score(vik , v jk ) k 述語対タイプの頻度 インスタンスのスコア 12 NLP2010 11th March, 2010 評価実験 文間ゼロ照応解析の先行詞同定 1. 項共有のスコアのみで先行詞の順位を評価 2. 項共有のスコアを機械学習に基づく モデルの素性に加えて評価 13 NLP2010 11th March, 2010 先行詞候補の順序付け: 実験設定 1/2 項共有モデルの学習事例 (NAISTテキストコーパス(飯田ら, 07)中の係り受け 関係にある述語対, ガ格-ガ格の組み合わせ) 正例: 8,543事例 負例: 29,244事例 述語対インスタンス 毎日新聞12年分から抽出 茶筌・CaboChaで形態素・係り受け解析 項共有学習・分類 Support Vector Machine (Vapnik, 98) 線形カーネル + デフォルトパラメタ 14 NLP2010 11th March, 2010 先行詞候補の順序付け: 実験設定 2/2 評価用データ NAISTテキストコーパスの1部 287記事 (2,399文)の文間ゼロ照応394事例 評価指標 MRR 1/ N 1/ rank(n) nN 15 NLP2010 11th March, 2010 MRRを用いた評価結果 モデル ベースライン(ランダム) アンカーを用いたスコア 提案手法のスコア MRR 0.436 0.465 0.524 NA --53 15 NA: スコアを計算できない事例数 収集できた述語対の数 アンカーに基づく手法: 提案手法: 1,651,118対 9,146,543対 約5.5倍 16 NLP2010 11th March, 2010 提案手法の学習曲線 訓練事例の規模を変化させた際の MRRの変化を調査 さらに規模を増やすことで精度が向上する見 込みあり 17 NLP2010 11th March, 2010 評価データ中の述語対を各手法でスコア付けした結果 (上位10事例) アンカーに基づく手法 述語対 スコア 9.49 適合する-適合する 8.72 亡くす-亡くす 7.75 着陸する-着陸する 7.17 見守る-すすり泣く 6.95 告訴する-告訴する 6.83 引き下げる-引き下げる 6.28 造る-造る 6.12 溶ける-溶かす 6.07 捨てる-捨てる 5.78 収容する-収容する 提案手法 述語対 逮捕する-捜索する 語る-示す 置く-始める 語る-表明する 語る-見せる 示す-けん制する 亡くす-する 亡くす-失う 訴える-示す 強調する-示す スコア 5.96 3.71 3.40 3.32 2.89 2.61 2.55 2.46 2.35 2.05 18 NLP2010 11th March, 2010 先行詞同定における評価 文間先行詞同定 ゼロ代名詞が出現する文と異なる文に出現する先 行詞のみを対象に 先行詞同定モデル トーナメントモデル(飯田ら, 2003) 先行詞候補間で比較を行い,最終的に最も先行詞らしい 候補を決定する 項共有のスコアを加えた場合の精度の変化を 調査 19 NLP2010 11th March, 2010 素性 ゼロ代名詞を項として持つ述語の情報 語彙・統語情報 先行詞候補の情報 語彙・統語・意味情報,出現位置 ゼロ代名詞が出現した状況での先行詞候補の 顕現性の情報 述語と先行詞候補の対から抽出可能な素性 選択選好,述語と先行詞候補の距離など 20 NLP2010 11th March, 2010 先行詞同定の結果 モデル 精度 a)ベースラインモデル 0.668 b) a+ アンカーを用いたスコア 0.689 c) a+ 提案手法のスコア 0.696 d) a+ アンカーを用いたスコア 0.705 + 提案手法のスコア 項共有のスコアを導入することで ベースラインより精度向上 21 NLP2010 11th March, 2010 先行詞同定の結果 モデル 精度 a)ベースラインモデル 0.668 b) a+ アンカーを用いたスコア 0.689 c) a+ 提案手法のスコア 0.696 d) a+ アンカーを用いたスコア 0.705 + 提案手法のスコア アンカーを手がかりとするより, 項共有のモデルを導入することが 精度向上に貢献した 22 NLP2010 11th March, 2010 先行詞同定の結果 モデル 精度 a)ベースラインモデル 0.668 b) a+ アンカーを用いたスコア 0.689 c) a+ 提案手法のスコア 0.696 d) a+ アンカーを用いたスコア 0.705 + 提案手法のスコア それぞれのスコアを素性として導入することが 相補的に役立った 23 NLP2010 11th March, 2010 まとめと今後の課題 述語対の項共有モデルを利用したゼロ照応解 析手法 ゼロ照応解析タグ付きコーパスを用いて項共有モデ ルを構築 そのモデルの出力するスコアを素性として利用する ことにより,先行詞同定で4%の精度向上 今後の課題 病気ニなる」のような句と句の粒度 で事態間の関係を捉える 「体調ヲ崩す 24
© Copyright 2024 ExpyDoc