FSNLP 勉強会 Chapter 8 (8.1-8.3) 奈良先端科学技術大学院大学 小町守 mamoru-k@is.naist.jp 2015年10月1日 語彙獲得 • • • • 第5章での内容はコロケーションや句の獲得 第8章ではもっと複雑なものの獲得を扱う 語彙獲得の目標は機械が読める辞書の作成 コロケーション以外の語彙獲得 – 選択制限 – サブカテゴリー化フレーム – 意味カテゴリー化フレーム 2015年10月1日 機械が読める辞書 • 巨大なテキストコーパスから単語のパター ンの出現頻度を見て構築 • 自然言語の生産性 – 新語 – 既知の語の新しい用法 • 常に更新する必要 2015年10月1日 Trask(1993) による語彙の定義 • ある言語における全ての単語の語彙項目 を含んだ文法の一部 • 伝統的な辞書は人間用に作られているの で計算機の処理には向かない(e.g. 頻度 の情報がない) 2015年10月1日 Trask による語彙の定義(後半) • ある言語における特定の文法理論に基づ いたさまざまな情報を含んだ文法の一部 • 語彙情報と語彙情報以外の間に明確な境 界線はない(文法理論に依存) • 前置詞句の付加(PP attachment)は統語 的な問題か? 語彙的な問題か? 2015年10月1日 第8章の内容 • 前半(小町の担当部分) – 動詞のサブカテゴリー化 – 付加の曖昧性 • 後半(青山さんの担当部分) – 選択制限 – 意味の類似性 2015年10月1日 8.1 評価尺度 Evaluation Measures 2015年10月1日 評価尺度 true positive precision true postive false positive true positive recall true postive false negative • 精度と再現率はトレードオフ 2015年10月1日 F値 F 1 1 1 (1 ) P R • P=精度 • R=再現率 • α=0.5とするとこの式はF=2PR/(R+P) 2015年10月1日 精度と再現率を使う理由 • accuracyとerrorという尺度もあるが…… – accuracyは少数の真の正例・偽の正例・偽の 負例に敏感でない – F値は真の正例をより強く反映する尺度であり、 これは我々の直観に合致する – 精度と再現率を使えばほしいものが取れたか どうか、ゴミまで取ったかどうかに違うコストを つけることができる 2015年10月1日 fallout • fallout=偽の正例/(偽の正例+真の負例) • あまり使われない • 偽の正例をあまり出さないシステムを作る のがどれくらい難しいか測る尺度 • 再現率とfalloutのROCカーブがよく使われ る領域もある 2015年10月1日 8.2 動詞のサブカテゴリー化 Verb Subcategorization 2015年10月1日 動詞のサブカテゴリー化 • 動詞は意味役割を担った項をさまざまな統 語的方法を用いて表現する • 動詞が伴うことのできる統語的カテゴリー のことをサブカテゴリー化フレームという フレーム NP NP NP S NP INF 2015年10月1日 機能 主語 目的語 主語 節 主語 不定詞 なぜサブカテゴリー化と呼ぶか? • ある意味役割を担った項の集合をひとつ のカテゴリーだと考えることができる • これらのカテゴリーはいくつかの統語的な 方法を用いて意味役割を担う項を表すこと ができる(=サブカテゴリー) • themeとrecipientを項に取るクラスの動詞 は、それらの項を目的語+前置詞句でも二 重目的語でも表現できる 2015年10月1日 サブカテゴリー化フレーム She told the man where Peter grew up. She found the place where Peter grew up. 動詞 サブカテゴリー化フレーム 機能 tell NP NP S 主語 目的語 節 find NP NP 主語 目的語 • tellとfindのサブカテゴリー化フレームを 知っていれば正しく付加先を決定できる 2015年10月1日 現在の辞書の問題点 • ほとんどの辞書はサブカテゴリー化フレー ムの情報を含んでいない • Levin(1993)が現在のところいちばん包括 的だが、全てのサブカテゴリーを含んでい ないし、量的な情報もない • コーパスからサブカテゴリー化フレームの 情報を獲得する必要性 2015年10月1日 Brent の Lerner アルゴリズム • キューステップ – キュー cj に基づいてフレーム f を動詞 v に割 り当てたときのエラー確率を εj とする • 仮説検定ステップ – 帰無仮説 H0: そのフレームはその動詞には 適切ではない – cj が高い確率で H0 は間違っていると示した 場合この仮説を棄却 2015年10月1日 Brent(1993) のキューステップ • フレーム “NP NP” のキュー – (OBJ | SUBJ_OBJ | CAP) (PUNC CC) • 取れる文 – [...] greet-V Peter-CAP ,-PUNC [...] • 間違って取れる文 – I came Thursday, before the storm started. – 数は少ないので気にしない • 間違いを減らすとよく出る動詞しかテストできな い 2015年10月1日 Brent(ibid.) の仮説検定ステップ n r nr pE p(v ( f ) 0 | C(v ,c ) m) j (1 j ) r r m n i j i j 動詞 vi がフレーム fj を取らない 動詞 vi がキュー cj と共 起した回数が m 以上 fj のエラーレート (そのフレームではないの にキュー cj が出る確率) • pE は帰無仮説 H0 が正しいとしたときの観測 データの確率(pE が小さければ H0 を棄却) 2015年10月1日 Brent の実験 • 精度はほぼ100%だが…… • 再現率は47-100% – 動詞のトークンでなくタイプでランダムサンプリ ングしたとするならかなり低い数字 – 既存の辞書には低頻度の語はあまり載ってな いように思われるので、高頻度の語よりちゃん と当てないといけない 2015年10月1日 Manning(1993) の問題提起 • タガーを使ってそれに対してキュー検出(正 規表現を使う) • 間違う部分が2箇所(タギングとキュー)にな るので間違いやすくなる? • 間違いは仮説検定の段階で取り除かれる ので、間違いを含む手がかりからでも信頼 のおけるデータが得られる 2015年10月1日 タガーを使う利点 • 低い信頼性のキューやタガーの出力に基 づいたキューを使うと利用できるキューの 数がかなり増える • 高い信頼性のキューを持たないサブカテゴ リー化フレームもたくさんある(例:動詞の後 ろの前置詞)が、これらも得ることができる 2015年10月1日 Manning の実験 • 精度は高い • エラー分析 – PP が項なのかそうでないのか判断するのは 難しい(OALD が gold standard なのでそれ に従う) – 一見項がないように見えるので自動詞のフ レームを remark に割り当ててしまった 2015年10月1日 Manning の手法の問題点 • 高精度・低再現率は仮説検定のフレーム ワークの帰結 • よく知られているサブカテゴリー化フレーム しか見つからない • 稀なサブカテゴリー化フレームは見つから ない 2015年10月1日 Manning の手法の改善案 • 事前知識を入れるとかなりよくなる – 同じパターンはある動詞の新しいサブカテゴ リー化フレームの強い証拠になるが、他の動 詞のフレームの証拠としても使える – サブカテゴリー化の検出にパーザーなどもっと 構造化された入力を使う場合特に有効 – 辞書にあるサブカテゴリー化フレームには高 い優先度を与えるなどして利用 2015年10月1日 8.3 付加の曖昧性 Attachment Ambiguity 2015年10月1日 曖昧な文 The children ate the cake with a spoon. • どうすれば曖昧性が解消できるか? 2015年10月1日 PP 付加の曖昧性がない文 a. Moscow sent more than 100,000 soldiers into Afghanistan ... b. Sydney Water breached an agreement with NSW health ... • 語彙的な制限が曖昧性解消に役立つ • 動詞と PP、名詞と PP の共起頻度情報だ けでもほとんどの場合十分 2015年10月1日 語彙的な制限を使うモデル P( p | v) (v,n, p) log P( p | n) 動詞 v のあとに p で始 まる PP が来る確率 名詞 n のあとに p で始 まる PP が来る確率 • λ(v,n,p) > 0 なら動詞に、λ(v,n,p) < 0 なら 名詞に付加 2015年10月1日 尤度比を使うモデルの問題点 • 句は解析木の下の方につけるという原則 を考慮していない • 動詞と名詞とで前置詞句がどちらにも付加 できるときには下の方につけるというバイ アスを無視している • PP 付加に関してこのバイアスを考慮した 確率モデルが Hindle and Rooth (1993) 2015年10月1日 8.3.1 Hindle と Rooth (1993) の手法 Hindle and Rooth (1993) 2015年10月1日 Hindle と Rooth (1993) の設定 • 事象空間 – 動詞が他動詞であり – 動詞の後に NP を持ち – NP の後に PP を持つ • 同時には1つの前置詞しか見ない • 同じ前置詞が2つある場合は最初のものだ け見る 2015年10月1日 一般的なケースで考える p をヘッドとし、動 詞 v に付加される PP があるか? p をヘッドとし、名 詞 n に付加される PP があるか? P(VA p ,NAp | v,n) P(VA p | v,n)P(NAp | v,n) n を修飾する PP と v を修飾する PP は独立 P(VA p | v)P(NAp | n) 動詞が PP によって修飾されるかは名詞とは無関係、 2015年10月1日 名詞が PP によって修飾されるかは動詞とは無関係。 動詞を修飾するか名詞を修飾 するかは独立な事象か? • 直観的には動詞にかかれば名詞にかから ず、名詞にかかれば動詞にかからないが、 動詞にも名詞にもかかる例がある • 独立であると仮定すると経験的な推定が 簡単になる 2015年10月1日 PP が目的語の名詞にかかるか P(Attach( p) n | v,n) P(VA p 0 VA p 1 | v) P(NAp 1 | n) 他の PP が動詞にかかるかもしれない 1.0 P(NAp 1 | n) P(NAp 1 | n) • PP が目的語の名詞にかかるかどうかは その PP が動詞にかかるかどうかとは無 関係 2015年10月1日 VAp = 1 かつ NAp = 1 のとき • タイプ p の前置詞をヘッドにする2つの PP がある • 2つのうちの1つ目は名詞にかかり、2つ目 は動詞にかからなければならない(句構造 の木で線が交差してはいけないので) • ∴最初の PP は名詞にかからなければなら ない⇔Attach(p)≠v 2015年10月1日 PP が動詞にかかるか P(Attach( p) v | v,n) P(VA p 1,NAp 0 | v,n) 句構造木で線が跨いではいけない P(VA p 1 | v)P(NAp 0 | n) 2015年10月1日 尤度比による評価 P(Attach ( p) v | v,n) (v,n, p) log 2 P(Attach ( p) n | v,n) P(VA p 1 | v)P(NAp 0 | v) log2 P(NAp 1 | n) • λが大きい正の値なら動詞に付加し、λが 大きい負の値なら名詞に付加 • ゼロに近い場合もどちらかに付加できるが、 エラー率が高くなってしまう 2015年10月1日 確率の推定(最尤推定) p が v にかかって いる回数 p が n にかかって いる回数 C(v, p) C(n, p) P(VA p 1 | v) , P(NA p 1 | n) C(v) C(n) v の出現回数 n の出現回数 • ラベルなしコーパスからどのように数を計 算すればいいのか 2015年10月1日 p が名詞にかかるか動詞にかか るか決めるヒューリスティック 1. 曖昧性がない例を全て数え上げて初期 モデルを構築する 2. 初期モデルを全ての曖昧性のある例に 適用し、λが閾値以上なら適当なカウント を割り当てる 3. 残りの曖昧性のある例でカウントを平等 に分ける 2015年10月1日 実際に判定してみると…… P(VA p 1 | v)P(NAp 0 | v) (send,soldiers,into) log2 P(NAp 1 | n) C(send,into) 86 C(send ) 1742.5 1 P(NAinto 1 | soldiers) C(send,into) 86 C(send ) 1742.5 0.049 0.9993 log2 6.13 0.0007 • 名詞より動詞にかかりやすい(26.13≒70倍) • 正しい推定 • 閾値を変えれば精度と再現率を調節できる 2015年10月1日 8.3.2 PP 付加に関する 一般的な見解 General remarks on PP attachment 2015年10月1日 Hindle と Rooth の問題点(1) • 前置詞とそれの付加する名詞、もしくは動 詞しか考慮しない • 名詞の前に最上級の形容詞が来ると NP にとても付加しやすくなる傾向があるが、こ れは Hindle と Rooth のモデルでは無視 • PP の内部でヘッドとなる名詞の情報も役 に立つ 2015年10月1日 Hindle と Rooth の問題点(2) • NP の直後に来る PP が直前の名詞か動 詞に付加されるといった単純な場合しか考 えていない – 目的語の NP から他の PP によって切り離さ れた PP は、先行する PP の中にある全ての 名詞、目的語の名詞、先行する動詞のいずれ にもかかることができる – 複文では上位の動詞にかかることすらできる 2015年10月1日 その他の問題 • 付加の曖昧性は PP だけでなく副詞句・分 詞句・分詞節や複合名詞でも起こる – 複合名詞の場合もここでの手法が使えるが、 data sparseness の問題があるので単語の 意味クラスを付加の情報とともに用いることも • かなりの数の PP において実は名詞にか かるか動詞にかかるかは決定不能 2015年10月1日 8.4 選択制限 Selectional Preference 青山さん乞うご期待! 2015年10月1日
© Copyright 2024 ExpyDoc