FSNLP 勉強会 Chapter 8 (8.1-8.3)

FSNLP 勉強会
Chapter 8 (8.1-8.3)
奈良先端科学技術大学院大学
小町守
mamoru-k@is.naist.jp
2015年10月1日
語彙獲得
•
•
•
•
第5章での内容はコロケーションや句の獲得
第8章ではもっと複雑なものの獲得を扱う
語彙獲得の目標は機械が読める辞書の作成
コロケーション以外の語彙獲得
– 選択制限
– サブカテゴリー化フレーム
– 意味カテゴリー化フレーム
2015年10月1日
機械が読める辞書
• 巨大なテキストコーパスから単語のパター
ンの出現頻度を見て構築
• 自然言語の生産性
– 新語
– 既知の語の新しい用法
• 常に更新する必要
2015年10月1日
Trask(1993) による語彙の定義
• ある言語における全ての単語の語彙項目
を含んだ文法の一部
• 伝統的な辞書は人間用に作られているの
で計算機の処理には向かない(e.g. 頻度
の情報がない)
2015年10月1日
Trask による語彙の定義(後半)
• ある言語における特定の文法理論に基づ
いたさまざまな情報を含んだ文法の一部
• 語彙情報と語彙情報以外の間に明確な境
界線はない(文法理論に依存)
• 前置詞句の付加(PP attachment)は統語
的な問題か? 語彙的な問題か?
2015年10月1日
第8章の内容
• 前半(小町の担当部分)
– 動詞のサブカテゴリー化
– 付加の曖昧性
• 後半(青山さんの担当部分)
– 選択制限
– 意味の類似性
2015年10月1日
8.1 評価尺度
Evaluation Measures
2015年10月1日
評価尺度
true positive
precision
true postive false positive

true positive
recall
true postive false negative
• 精度と再現率はトレードオフ
2015年10月1日
F値
F
1
1
1
  (1  )
P
R
• P=精度
• R=再現率
• α=0.5とするとこの式はF=2PR/(R+P)

2015年10月1日
精度と再現率を使う理由
• accuracyとerrorという尺度もあるが……
– accuracyは少数の真の正例・偽の正例・偽の
負例に敏感でない
– F値は真の正例をより強く反映する尺度であり、
これは我々の直観に合致する
– 精度と再現率を使えばほしいものが取れたか
どうか、ゴミまで取ったかどうかに違うコストを
つけることができる
2015年10月1日
fallout
• fallout=偽の正例/(偽の正例+真の負例)
• あまり使われない
• 偽の正例をあまり出さないシステムを作る
のがどれくらい難しいか測る尺度
• 再現率とfalloutのROCカーブがよく使われ
る領域もある
2015年10月1日
8.2 動詞のサブカテゴリー化
Verb Subcategorization
2015年10月1日
動詞のサブカテゴリー化
• 動詞は意味役割を担った項をさまざまな統
語的方法を用いて表現する
• 動詞が伴うことのできる統語的カテゴリー
のことをサブカテゴリー化フレームという
フレーム
NP NP
NP S
NP INF
2015年10月1日
機能
主語 目的語
主語 節
主語 不定詞
なぜサブカテゴリー化と呼ぶか?
• ある意味役割を担った項の集合をひとつ
のカテゴリーだと考えることができる
• これらのカテゴリーはいくつかの統語的な
方法を用いて意味役割を担う項を表すこと
ができる(=サブカテゴリー)
• themeとrecipientを項に取るクラスの動詞
は、それらの項を目的語+前置詞句でも二
重目的語でも表現できる
2015年10月1日
サブカテゴリー化フレーム
She told
the man where Peter grew up.
She found the place where Peter grew up.
動詞 サブカテゴリー化フレーム 機能
tell NP NP S
主語 目的語 節
find NP NP
主語 目的語
• tellとfindのサブカテゴリー化フレームを
知っていれば正しく付加先を決定できる
2015年10月1日
現在の辞書の問題点
• ほとんどの辞書はサブカテゴリー化フレー
ムの情報を含んでいない
• Levin(1993)が現在のところいちばん包括
的だが、全てのサブカテゴリーを含んでい
ないし、量的な情報もない
• コーパスからサブカテゴリー化フレームの
情報を獲得する必要性
2015年10月1日
Brent の Lerner アルゴリズム
• キューステップ
– キュー cj に基づいてフレーム f を動詞 v に割
り当てたときのエラー確率を εj とする
• 仮説検定ステップ
– 帰無仮説 H0: そのフレームはその動詞には
適切ではない
– cj が高い確率で H0 は間違っていると示した
場合この仮説を棄却
2015年10月1日
Brent(1993) のキューステップ
• フレーム “NP NP” のキュー
– (OBJ | SUBJ_OBJ | CAP) (PUNC CC)
• 取れる文
– [...] greet-V Peter-CAP ,-PUNC [...]
• 間違って取れる文
– I came Thursday, before the storm started.
– 数は少ないので気にしない
• 間違いを減らすとよく出る動詞しかテストできな
い
2015年10月1日
Brent(ibid.) の仮説検定ステップ
n r
nr
pE  p(v ( f )  0 | C(v ,c )  m)    j (1  j )
r
r m 
n
i
j
i
j
動詞 vi がフレーム
fj を取らない
動詞 vi がキュー cj と共
起した回数が m 以上
fj のエラーレート
(そのフレームではないの
にキュー cj が出る確率)
• pE は帰無仮説 H0 が正しいとしたときの観測
データの確率(pE が小さければ H0 を棄却)
2015年10月1日
Brent の実験
• 精度はほぼ100%だが……
• 再現率は47-100%
– 動詞のトークンでなくタイプでランダムサンプリ
ングしたとするならかなり低い数字
– 既存の辞書には低頻度の語はあまり載ってな
いように思われるので、高頻度の語よりちゃん
と当てないといけない
2015年10月1日
Manning(1993) の問題提起
• タガーを使ってそれに対してキュー検出(正
規表現を使う)
• 間違う部分が2箇所(タギングとキュー)にな
るので間違いやすくなる?
• 間違いは仮説検定の段階で取り除かれる
ので、間違いを含む手がかりからでも信頼
のおけるデータが得られる
2015年10月1日
タガーを使う利点
• 低い信頼性のキューやタガーの出力に基
づいたキューを使うと利用できるキューの
数がかなり増える
• 高い信頼性のキューを持たないサブカテゴ
リー化フレームもたくさんある(例:動詞の後
ろの前置詞)が、これらも得ることができる
2015年10月1日
Manning の実験
• 精度は高い
• エラー分析
– PP が項なのかそうでないのか判断するのは
難しい(OALD が gold standard なのでそれ
に従う)
– 一見項がないように見えるので自動詞のフ
レームを remark に割り当ててしまった
2015年10月1日
Manning の手法の問題点
• 高精度・低再現率は仮説検定のフレーム
ワークの帰結
• よく知られているサブカテゴリー化フレーム
しか見つからない
• 稀なサブカテゴリー化フレームは見つから
ない
2015年10月1日
Manning の手法の改善案
• 事前知識を入れるとかなりよくなる
– 同じパターンはある動詞の新しいサブカテゴ
リー化フレームの強い証拠になるが、他の動
詞のフレームの証拠としても使える
– サブカテゴリー化の検出にパーザーなどもっと
構造化された入力を使う場合特に有効
– 辞書にあるサブカテゴリー化フレームには高
い優先度を与えるなどして利用
2015年10月1日
8.3 付加の曖昧性
Attachment Ambiguity
2015年10月1日
曖昧な文
The children ate the cake with a spoon.
• どうすれば曖昧性が解消できるか?
2015年10月1日
PP 付加の曖昧性がない文
a. Moscow sent more than 100,000 soldiers into Afghanistan ...
b. Sydney Water breached an agreement with NSW health ...
• 語彙的な制限が曖昧性解消に役立つ
• 動詞と PP、名詞と PP の共起頻度情報だ
けでもほとんどの場合十分
2015年10月1日

語彙的な制限を使うモデル
P( p | v)
(v,n, p)  log
P( p | n)
動詞 v のあとに p で始
まる PP が来る確率
名詞 n のあとに p で始
まる PP が来る確率
• λ(v,n,p) > 0 なら動詞に、λ(v,n,p) < 0 なら
名詞に付加
2015年10月1日
尤度比を使うモデルの問題点
• 句は解析木の下の方につけるという原則
を考慮していない
• 動詞と名詞とで前置詞句がどちらにも付加
できるときには下の方につけるというバイ
アスを無視している
• PP 付加に関してこのバイアスを考慮した
確率モデルが Hindle and Rooth (1993)
2015年10月1日
8.3.1 Hindle と Rooth (1993)
の手法
Hindle and Rooth (1993)
2015年10月1日
Hindle と Rooth (1993) の設定
• 事象空間
– 動詞が他動詞であり
– 動詞の後に NP を持ち
– NP の後に PP を持つ
• 同時には1つの前置詞しか見ない
• 同じ前置詞が2つある場合は最初のものだ
け見る
2015年10月1日
一般的なケースで考える
p をヘッドとし、動
詞 v に付加される
PP があるか?
p をヘッドとし、名
詞 n に付加される
PP があるか?
P(VA p ,NAp | v,n)  P(VA p | v,n)P(NAp | v,n)
n を修飾する PP と v
を修飾する PP は独立
 P(VA p | v)P(NAp | n)
動詞が PP によって修飾されるかは名詞とは無関係、
2015年10月1日
名詞が PP によって修飾されるかは動詞とは無関係。
動詞を修飾するか名詞を修飾
するかは独立な事象か?
• 直観的には動詞にかかれば名詞にかから
ず、名詞にかかれば動詞にかからないが、
動詞にも名詞にもかかる例がある
• 独立であると仮定すると経験的な推定が
簡単になる
2015年10月1日
PP が目的語の名詞にかかるか
P(Attach( p)  n | v,n)  P(VA p  0 VA p 1 | v)  P(NAp 1 | n)
他の PP が動詞にかかるかもしれない
1.0  P(NAp 1 | n)
 P(NAp 1 | n)
• PP が目的語の名詞にかかるかどうかは

その PP
 が動詞にかかるかどうかとは無
関係
2015年10月1日
VAp = 1 かつ NAp = 1 のとき
• タイプ p の前置詞をヘッドにする2つの PP
がある
• 2つのうちの1つ目は名詞にかかり、2つ目
は動詞にかからなければならない(句構造
の木で線が交差してはいけないので)
• ∴最初の PP は名詞にかからなければなら
ない⇔Attach(p)≠v
2015年10月1日
PP が動詞にかかるか
P(Attach( p)  v | v,n)  P(VA p 1,NAp  0 | v,n)
句構造木で線が跨いではいけない
 P(VA p 1 | v)P(NAp  0 | n)

2015年10月1日

尤度比による評価
P(Attach ( p)  v | v,n)
(v,n, p)  log 2
P(Attach ( p)  n | v,n)
P(VA p 1 | v)P(NAp  0 | v)
 log2
P(NAp 1 | n)
• λが大きい正の値なら動詞に付加し、λが
大きい負の値なら名詞に付加
• ゼロに近い場合もどちらかに付加できるが、

エラー率が高くなってしまう
2015年10月1日
確率の推定(最尤推定)
p が v にかかって
いる回数
p が n にかかって
いる回数
C(v, p)
C(n, p)
P(VA p  1 | v) 
, P(NA p  1 | n) 
C(v)
C(n)
v の出現回数
n の出現回数
• ラベルなしコーパスからどのように数を計
算すればいいのか
2015年10月1日
p が名詞にかかるか動詞にかか
るか決めるヒューリスティック
1. 曖昧性がない例を全て数え上げて初期
モデルを構築する
2. 初期モデルを全ての曖昧性のある例に
適用し、λが閾値以上なら適当なカウント
を割り当てる
3. 残りの曖昧性のある例でカウントを平等
に分ける
2015年10月1日
実際に判定してみると……
P(VA p  1 | v)P(NAp  0 | v)
(send,soldiers,into)  log2
P(NAp  1 | n)
C(send,into)
86

C(send )
1742.5
1 P(NAinto 1 | soldiers)

C(send,into)
86

C(send )
1742.5
0.049 0.9993
 log2
 6.13
0.0007
• 名詞より動詞にかかりやすい(26.13≒70倍)
• 正しい推定

• 閾値を変えれば精度と再現率を調節できる
2015年10月1日
8.3.2 PP 付加に関する
一般的な見解
General remarks on
PP attachment
2015年10月1日
Hindle と Rooth の問題点(1)
• 前置詞とそれの付加する名詞、もしくは動
詞しか考慮しない
• 名詞の前に最上級の形容詞が来ると NP
にとても付加しやすくなる傾向があるが、こ
れは Hindle と Rooth のモデルでは無視
• PP の内部でヘッドとなる名詞の情報も役
に立つ
2015年10月1日
Hindle と Rooth の問題点(2)
• NP の直後に来る PP が直前の名詞か動
詞に付加されるといった単純な場合しか考
えていない
– 目的語の NP から他の PP によって切り離さ
れた PP は、先行する PP の中にある全ての
名詞、目的語の名詞、先行する動詞のいずれ
にもかかることができる
– 複文では上位の動詞にかかることすらできる
2015年10月1日
その他の問題
• 付加の曖昧性は PP だけでなく副詞句・分
詞句・分詞節や複合名詞でも起こる
– 複合名詞の場合もここでの手法が使えるが、
data sparseness の問題があるので単語の
意味クラスを付加の情報とともに用いることも
• かなりの数の PP において実は名詞にか
かるか動詞にかかるかは決定不能
2015年10月1日
8.4 選択制限
Selectional Preference
青山さん乞うご期待!
2015年10月1日