PowerPoint

Foundations of Statistical
Natural Language Processing
5. Collocations
米澤研究室M1 増山隆
[email protected]
概要
Collocationとは
Collocationを統計的に見つけ出す方法



Frequency
Mean and Variance
Hypothesis testing(仮説検定)
 The t test
 Hypothesis testing of difference(using the t
test)
 Pearson’s chi-square test
 Likelihood ratios
Collocationとは
Collocation(連語)
複数の単語が慣習的に結びついてひとつ
の表現になったもの(例 New York)
Compositional(部分から全体の意味が分
かる)とは限らない
例 kick the bucket (死ぬ)
「結びつきやすさ」がある
例 strong tea / powerful tea
Firth vs. Saussure & Chomsky
Saussure & Chomsky


Collocationは無視されていた
文、節の構造を重視
Firth (Contextual Theory of Meaning)

Contextを重視
 社会設定
 会話の流れ
 Collocation
Collocationを統計的に
見つけ出す方法
5.1 Frequency
2語が続いて現れる回数を数える
素朴
そのまま行うと of the, in theのような興味
のない結果が得られる(Table 5.1)
Frequency + POS filter
(Justeson and Katz 1995)
句になりそうなPOSのパターンを与えてお
いて、そのパターンに合うものを抽出
cf. Table 5.2, 5.3
例 Strong tea and powerful tea



New York Timesには現れなかった
Webでの実験では799(strong)と19(powerful)
であった
strong,powerfulどちらにも使える語に対して
はより洗練された分析が必要
5.2 Mean and Variance(1/2)
(Smadja 1993)
2語が同時に出現するときの距離を分析
例 knock on his doorでのknockに対するdoorの距離
は3
距離の平均と分散を算出
分散が小さいほうがよい
Mean and Variance(2/2)
結果はTable 5.2,5.4
Window size 9
 分散が小さいとき平均距離は0に近い
(興味のないcollocation)

Smadjaは急激なピークのみをとりだした

だいたい80%の出来
Collocationよりももっと緩い関係がわかる
例 knock と door
5.3 Hypothesis Testing
(仮説検定)
ある2語が偶然隣り合うのか決まって隣り
合うのかを調べたい

New companiesはnewもcompaniesも出現頻
度が高いならば隣り合う確率も高い
H0 null hypothesis (帰無仮説)


統計的に正しいか調べたい命題
ここでは、「ある2語w1w2が偶然隣り合う」
P(w1w2) = P(w1)P(w2) .. 独立性で仮定
The t test
平均に関する検定によく使う

信頼区間α: 棄却、採択の基準%(ここでは
0.05)
w1w2が偶然隣り合うか?を検定
手順1.) 以下の式でt scoreを計算
The t test
手順2) t分布表を見る
tの値が表の値より大ならばH0を棄却
t test(image)
積分値がαである点
T testの計算例
New companies
C(New) = 15828
 C(companies) = 4675
 N =14307668 (語の総数)
 s2=p(1-p)~pを使用 (cf. 2.1.9)
 t = 0.999932
 α=0.005の時の基準値は2.576(表を見る)
 H0は棄却できない
⇒New companiesは偶然並んだ

The t testの結果と特徴
結果は表5.6


20回出現した2語のcollocation
5.6はstop wordを含む
ほとんどのbigramでH0(独立性の仮説)を棄却できた
⇒言語は予測できないことはほとんどおきない。
word sence disambiguationや確率的パーズの能力
の裏付け
信頼区間 αはそれほど重要ではない
Collocationのランク付けもできる
Hypothesis testing of
differences
微妙に異なるcollocationの発見に使う
例) strongとpowerfulの違いを見るためにそれらの直後
によく出現する語を見る
二標本t検定 以下のWelchの近似を使う
仮説とt score
帰無仮説H0は「両者に違いがない」こと。

μ1-μ0=0
標本数は共通でN (Bernoulli試行をN回)
以上を考慮してtを語数で表す
Hypothesis testing of
differencesの結果と応用
結果はTable 5.7

Church & Hanks(1989) 内的性質と外的性質
 strong: 実際には力を持たないかもしれない。内的
 powerful: 実際に力をもつ。外的

文化的な側面のような微妙なところがある
例) strong tea, powerful drugはtea,drugの差
応用: 辞書作成

単語の微妙なニュアンスをつかむ
Pearson’s chi-square test
ばらつき(分散)の検定
t検定よりも適用範囲が広い

t検定.. サンプルが標準正規分布にしたがっていることを仮定
observed
w2 = companies
w2 ≠ companies
w1 = new w1 ≠ w2
8
4667
15820 14287181
Expected
w2 = companies
w2 ≠ companies
w1 = new w1 ≠ w2
5.171765 4669.831
15822.84 14287186
観測で得た表と
独立性を仮定した
表がマッチするか?
χ2値と検定手順
式と見る表以外はt検定と同様
5.7式の導出は
http://www10.u-page.so-net.ne.jp/dk9/mamewo/5.7.ps 参照
new companiesはH0を棄却できない
χ2検定の性質と応用
t検定よりも適用範囲が広い
応用1: ある単語の翻訳語を見つける
(Church & Gale 1991)
例) vache(フランス語) と cow(英語)
H0を棄却できれば、翻訳語だといえる
応用2: 2コーパスの類似性の尺度
(Kilgarriff & Rose 1998)
Likelihood ratios(最尤比検定)
直感に合う(?)方法
「現実の標本は確率最大のものが実現し
たものだ」と仮定(最尤原理)
仮説 w1w2というbigramについて
H1 P(w2|w1) = p = P(w2|¬w1)
 H2 P(w2|w1)=p1≠p2=P(w2|¬w1)
H1は独立性の仮説

Likelihoodのイメージ
真の確率pに近いほどlikelihood(最尤度)は高い
likelihood
0.09
0.08
0.07
0.05
0.04
0.03
0.02
0.01
0
probability
likelihood
0.06
Likelihoodの計算(1/2)
p,p1,p2を得られたデータから計算
二項分布を仮定(Bernoulli分布)

この値が当てはまりのよさを示す
Likelihoodの計算(2/2)
ただし
-2logλは漸近的にχ2分布に従う(らしい)
likelihood ratiosの結果と特徴
結果はTable 5.12

結果の解釈は直感的に出来る
e0.5*(-2logλ)の値をみて、どれくらいの確からしさで棄却されたかが
分かる
出現回数が少ないbigramにも適用可能
Relative frequency ratios
コーパスを特徴づけるcollocationを他のコ
ーパスたちと比較して見つける

例 1990年、1989年のNew York Times
cf. Table 5.13 1989年に頻出 1990年に2回
1989年の出来事、1990年に終わったコラム
ある特定分野向けのcollocationを見つけ
る

普通の文章と特定分野の文章を比較
参考文献
基礎統計学I 統計学入門
自然科学の統計学(p155に5.7式の導出)

東京大学教養学部統計学教室編
雑なメモ
http://www10.u-page.so-net.ne.jp/dk9/mamewo/natural_language.html