Foundations of Statistical Natural Language Processing 5. Collocations 米澤研究室M1 増山隆 [email protected] 概要 Collocationとは Collocationを統計的に見つけ出す方法 Frequency Mean and Variance Hypothesis testing(仮説検定) The t test Hypothesis testing of difference(using the t test) Pearson’s chi-square test Likelihood ratios Collocationとは Collocation(連語) 複数の単語が慣習的に結びついてひとつ の表現になったもの(例 New York) Compositional(部分から全体の意味が分 かる)とは限らない 例 kick the bucket (死ぬ) 「結びつきやすさ」がある 例 strong tea / powerful tea Firth vs. Saussure & Chomsky Saussure & Chomsky Collocationは無視されていた 文、節の構造を重視 Firth (Contextual Theory of Meaning) Contextを重視 社会設定 会話の流れ Collocation Collocationを統計的に 見つけ出す方法 5.1 Frequency 2語が続いて現れる回数を数える 素朴 そのまま行うと of the, in theのような興味 のない結果が得られる(Table 5.1) Frequency + POS filter (Justeson and Katz 1995) 句になりそうなPOSのパターンを与えてお いて、そのパターンに合うものを抽出 cf. Table 5.2, 5.3 例 Strong tea and powerful tea New York Timesには現れなかった Webでの実験では799(strong)と19(powerful) であった strong,powerfulどちらにも使える語に対して はより洗練された分析が必要 5.2 Mean and Variance(1/2) (Smadja 1993) 2語が同時に出現するときの距離を分析 例 knock on his doorでのknockに対するdoorの距離 は3 距離の平均と分散を算出 分散が小さいほうがよい Mean and Variance(2/2) 結果はTable 5.2,5.4 Window size 9 分散が小さいとき平均距離は0に近い (興味のないcollocation) Smadjaは急激なピークのみをとりだした だいたい80%の出来 Collocationよりももっと緩い関係がわかる 例 knock と door 5.3 Hypothesis Testing (仮説検定) ある2語が偶然隣り合うのか決まって隣り 合うのかを調べたい New companiesはnewもcompaniesも出現頻 度が高いならば隣り合う確率も高い H0 null hypothesis (帰無仮説) 統計的に正しいか調べたい命題 ここでは、「ある2語w1w2が偶然隣り合う」 P(w1w2) = P(w1)P(w2) .. 独立性で仮定 The t test 平均に関する検定によく使う 信頼区間α: 棄却、採択の基準%(ここでは 0.05) w1w2が偶然隣り合うか?を検定 手順1.) 以下の式でt scoreを計算 The t test 手順2) t分布表を見る tの値が表の値より大ならばH0を棄却 t test(image) 積分値がαである点 T testの計算例 New companies C(New) = 15828 C(companies) = 4675 N =14307668 (語の総数) s2=p(1-p)~pを使用 (cf. 2.1.9) t = 0.999932 α=0.005の時の基準値は2.576(表を見る) H0は棄却できない ⇒New companiesは偶然並んだ The t testの結果と特徴 結果は表5.6 20回出現した2語のcollocation 5.6はstop wordを含む ほとんどのbigramでH0(独立性の仮説)を棄却できた ⇒言語は予測できないことはほとんどおきない。 word sence disambiguationや確率的パーズの能力 の裏付け 信頼区間 αはそれほど重要ではない Collocationのランク付けもできる Hypothesis testing of differences 微妙に異なるcollocationの発見に使う 例) strongとpowerfulの違いを見るためにそれらの直後 によく出現する語を見る 二標本t検定 以下のWelchの近似を使う 仮説とt score 帰無仮説H0は「両者に違いがない」こと。 μ1-μ0=0 標本数は共通でN (Bernoulli試行をN回) 以上を考慮してtを語数で表す Hypothesis testing of differencesの結果と応用 結果はTable 5.7 Church & Hanks(1989) 内的性質と外的性質 strong: 実際には力を持たないかもしれない。内的 powerful: 実際に力をもつ。外的 文化的な側面のような微妙なところがある 例) strong tea, powerful drugはtea,drugの差 応用: 辞書作成 単語の微妙なニュアンスをつかむ Pearson’s chi-square test ばらつき(分散)の検定 t検定よりも適用範囲が広い t検定.. サンプルが標準正規分布にしたがっていることを仮定 observed w2 = companies w2 ≠ companies w1 = new w1 ≠ w2 8 4667 15820 14287181 Expected w2 = companies w2 ≠ companies w1 = new w1 ≠ w2 5.171765 4669.831 15822.84 14287186 観測で得た表と 独立性を仮定した 表がマッチするか? χ2値と検定手順 式と見る表以外はt検定と同様 5.7式の導出は http://www10.u-page.so-net.ne.jp/dk9/mamewo/5.7.ps 参照 new companiesはH0を棄却できない χ2検定の性質と応用 t検定よりも適用範囲が広い 応用1: ある単語の翻訳語を見つける (Church & Gale 1991) 例) vache(フランス語) と cow(英語) H0を棄却できれば、翻訳語だといえる 応用2: 2コーパスの類似性の尺度 (Kilgarriff & Rose 1998) Likelihood ratios(最尤比検定) 直感に合う(?)方法 「現実の標本は確率最大のものが実現し たものだ」と仮定(最尤原理) 仮説 w1w2というbigramについて H1 P(w2|w1) = p = P(w2|¬w1) H2 P(w2|w1)=p1≠p2=P(w2|¬w1) H1は独立性の仮説 Likelihoodのイメージ 真の確率pに近いほどlikelihood(最尤度)は高い likelihood 0.09 0.08 0.07 0.05 0.04 0.03 0.02 0.01 0 probability likelihood 0.06 Likelihoodの計算(1/2) p,p1,p2を得られたデータから計算 二項分布を仮定(Bernoulli分布) この値が当てはまりのよさを示す Likelihoodの計算(2/2) ただし -2logλは漸近的にχ2分布に従う(らしい) likelihood ratiosの結果と特徴 結果はTable 5.12 結果の解釈は直感的に出来る e0.5*(-2logλ)の値をみて、どれくらいの確からしさで棄却されたかが 分かる 出現回数が少ないbigramにも適用可能 Relative frequency ratios コーパスを特徴づけるcollocationを他のコ ーパスたちと比較して見つける 例 1990年、1989年のNew York Times cf. Table 5.13 1989年に頻出 1990年に2回 1989年の出来事、1990年に終わったコラム ある特定分野向けのcollocationを見つけ る 普通の文章と特定分野の文章を比較 参考文献 基礎統計学I 統計学入門 自然科学の統計学(p155に5.7式の導出) 東京大学教養学部統計学教室編 雑なメモ http://www10.u-page.so-net.ne.jp/dk9/mamewo/natural_language.html
© Copyright 2024 ExpyDoc