教師なし構文解析の進展 最先端構文解析とその周辺 統計数理研究所 2012.12.19 能地 宏 東京大学大学院 情報理工学系研究科 修士2年 今日の話 ‣ 教師なし構文解析とは何か - 問題の意義 - 何故教師なしで考えるのか? ‣ 教師なし係り受け解析における代表的なモデルの紹介(次ページ) - モデルの考え方 - 現状,どれぐらいうまくいくのか - 今後の展望 モデル化の方針 ‣ PCFGに変換した上で,手を加えていく - Klein & Manning (2002) - Dependency Model with Valence (Klein & Manning, 2004) - 拡張がたくさん - Extended Model - Lexicalized Model - Parameter Tying Shared Logistic, Phylogenetic Model, Multilingual Setting, etc ‣ その他のモデル - Projective Tree を生成する別の生成モデル - Common Cover Link (Seginer 2007) 教師なし解析の目的 ‣ 工学的目的 - 現在,構文解析を行うためには,ツリーバンクなどの,教師データが必要 - しかし,ツリーバンクの存在する,言語/ドメインは限られる - ツリーバンクの存在しない言語の解析 - ツイッターなどの新しいドメインの解析をどうするか? - 半教師あり学習をするにしても,教師なしの性能の良い生成モデルを定義しておく ことは意味がある ‣ 科学的目的 - 人間が言語を獲得する仕組みは何も明らかにされていない - 教師なし解析がうまくいけば,そこで用いたような情報を,赤ちゃんが使って いるかもしれない,という手掛かりになる - 言語をよく説明出来るモデル 言語のある側面の本質を備えている 係り受け解析 ‣ 単語同士の係り関係を導出する ‣ Treebankなどの人手で作った正解データと比較する ‣ headとargument - head : 部分木の中で,最も重要な意味を表す単語 - argument : headに付属する単語 There is no asbestos in our products now この構造を,正解データを用いずに導出 できるか? Projectivity ‣ 係り受け解析でよく用いられる仮定 ‣ 文のなかで,係り関係が交差しない ‣ 多くの言語,多くの文で成り立つ性質 ‣ 考える解空間の大きさを大きく狭めることが出来る - 今日紹介する多くのモデルで仮定されている projective Non-projective 問題設定自体がはらんでいる問題 ‣ 係り関係は人間が定めたもの ‣ headとは何か,というのは言語学的に非常に難しい問題 ‣ Treebank でも,言語によって正解の方針が異なる - 例: 限定詞と名詞 - The country での head は(通常)country - デンマーク語でのアノテーションは逆向き - 英語でも,The が head であるという主張もある (Abney, 1987) とりあえずの策と,最終的な目標 ‣ 色々問題は含んでいるが,言語学者のアノテーションは,ある種の本質を 捉えている ‣ それを再現出来るようになることは,言語理解にとって重要といえる ‣ アプリケーションによる評価 - 既存の教師ありによる解析よりも,ある種のアプリケーションでは,良い性能を 示せるかもしれない(機械翻訳など) - ほとんど見ない 精度が出ないから? ‣ 言語が統計的に処理出来るのであれば,それに従ってheadとは何かを 人間の主観なしに定義することが出来るはず ‣ 教師なし学習の究極的な目標? DMVまでの歴史 1992 Carroll & Charniak 無向での評価 PCFG & EM extremely poor result 2001 Paskin Paskin 39.7 ランダム 41.7 Grammatical bigram すべて隣にかける 53.2 2004 Klein & Manning DMV これ以降研究が盛んに… Klein & Manning 54.4 Grammatical bigram (Paskin, 2002) ‣ Projective Tree に対する生成モデル - 木をランダムに生成(一様分布) - 親ノードの単語から,子ノードの単語が生成される ‣ 大量の生の文書(300万文)から EMでパラメタを学習 is p(G)p(w|G) p(w|G) = p(is|root) p(This|is, L) p(not|is, R) p(case|is, R) p(not|case, L) This not case the DMVはなぜうまくいったか ‣ (Paskin, 2001) の問題点 - 木はランダムに生成されるため,共起しやすい単語同士が結びつく ‣ 単語同士の関係ではなく,品詞同士の関係をモデル化する ‣ valence = 各単語(品詞)の取りうるargumentの数をモデル化する ‣ Smart Initialization (これが結構重要) a new year begin in new york DT JJ NN VB IN NN NN IN NN NN IN NN NN ○ (Carroll & Charniak,2001) Dependency Model with Valence ‣ 品詞の上で,Projectiveな係り受け関係を導出する生成モデル - 見やすくするため,単語で説明 ‣ Valence情報を組み込んでいる $ - 各品詞がargumentをいくつ取るか? is w の下の部分木の確率 単語 p(y w |w) This p(T ) = p(y $ |$) = p(is|$)p(y is |is) not case the p(y is |is) = p(CONT|R, is, v = 0) p(case|R, is)p(y case |case) $ p(CONT|R, is, v = 1) p(not|R, is)p(y not |not) is p(STOP|R, is, v = 1) p(CONT|L, is, v = 0) p(This|L, is)p(y This |This) This not p(STOP|L, is, v = 1) ‣ Valence - STOP or CONTINUE を決める際,各方向の最初の子供かどうかで 異なる分布を用いる(外側から決まることに注意) ‣ Head automaton の一種 (Alshawi, 1996) case the DMVのパラメタ p(w|$) w 文のheadとして を生成 p(STOP|R, w, v = 0) 右に子がいない状態でSTOP p(CONT|R, w, v = 0) 右に子がいない状態でCONTINUE p(STOP|R, w, v = 1) 右に子がいる状態でSTOP p(CONT|R, w, v = 1) 右に子がいる状態でCONTINUE p(w |R, w) w 右に単語 を生成 p(STOP|L, w, v = 0) 左に子がいない状態でSTOP p(CONT|L, w, v = 0) 左に子がいない状態でCONTINUE p(STOP|L, w, v = 1) 左に子がいる状態でSTOP p(CONT|L, w, v = 1) 左に子がいる状態でCONTINUE p(w |L, w) w 左に単語 を生成 注意 ‣ (Klein&Manning, 2004),(Klein, 2005),(Spitkovsky, 2010 etc) などは,各 head に一番近い argument から,順番に決めていく ‣ (Smith, 2006),(Cohen, 2008, 2009),(Headden III, 2009) などは,各 head に最も遠いargumentから順番に決めていく ‣ 両者に違いはないが,Extended Model(後述)では結果が異なる ‣ 最近の論文は後者で実装しているものが多いので,以降 後者で説明 h head inward h head outward DMVにおけるValence ‣ 子を生成するときに,止まる,止まらないの選択を行う - (Collins, 1999) をシンプルしたもの - 子の数は,二項分布に従う - 少ない子の数が好まれる.その違いを,方向と,親の品詞に応じてモデル化 h ‣ 他のモデル化の方針は? Head automaton = 左右それぞれの 状態遷移がFSA - 例えば,子の数が多項分布に従う,としてはダメなのか - 生成モデルとしては考えられるが,Head automaton でなくなる - Head automatonをPCFGに変換することで,CYK / Inside Outside が使える PCFGへの変換 S R0 [is] Rc [is] $ R1 [is] R0 [case] Rc [is] L0 [case] is This not case R1 [is] R0 [not] the case the L0 [is] L0 [not] Lc [is] not R0 [this] L1 [is] L0 [this] is This ルールとパラメタの対応 p(w|$) S R0 [w] p(STOP|R, w, v = 0) R0 [w] L0 [w] p(CONT|R, w, v = 0) R0 [w] Rc [w] p(STOP|R, w, v = 1) R1 [w] L0 [w] p(CONT|R, w, v = 1) R1 [w] Rc [w] p(w |R, w) Rc [w] R1 [w]R0 [w] p(STOP|L, w, v = 0) L0 [w] w p(CONT|L, w, v = 0) L0 [w] Lc [w] p(STOP|L, w, v = 1) L1 [w] w p(CONT|L, w, v = 1) L0 [w] Lc [w] p(w |L, w) Lc [w] R0 [w]L1 [w] パラメタの推定 ‣ PCFGへ変換したので,一般的な推定法(EM)で機械的にパラメタの推定 が可能 s ‣ 各ルールとパラメタは,一対一に対応している - E-step : 各ルールの期待値を計算 - M-step : 正規化して,新しいパラメタとする i p(STOP|R, DT, v = 0) の更新 p (STOP|R, DT, v = 0) h j c(STOP|R, DT, v = 0, s) s c(STOP|R, DT, v = 0, s) = ns i=1 ns j=1 j h=i:wh =DT inside(i, j, L0 , h)outside(i, j, R0 , h)p(STOP|R, DT, v = 0) p(s) DMVの結果 ‣ Penn Treebank WSJ から,10単語以下の文章を全て抜き出す - 推定されたパラメタを用いて,訓練データ自体を Viterbi パース - 精度 = (headを正しく判定出来た単語の数) / (全単語数) ‣ 短い文章のほうが解析が簡単なので,まずはこれを解析出来るモデルを 目指す,という方針 RANDOM 30.1 R-ADJ 33.6 DMV 43.2 エラーの傾向 English using DMV Overproposals Underproposals DT ← NN 3083 DT → NN 3079 NNP ← NNP 2108 NNP → NNP 1899 CC → ROOT 1003 IN ← NN 779 IN ← DT 858 DT → NNS 703 DT ← NNS 707 NN → VBZ 688 MD → VB 654 NN ← IN 669 DT → IN 567 MD ← VB 657 DT → VBD 553 NN → VBD 582 TO → VB 537 VBD ← NN 550 DT → VBZ 497 VBZ ← NN 543 English using CCM+DMV ‣ 矢印の向きを間違えることが多い Overproposals Underproposals head の位置については議論がある ‣ しかし DT NN のDT ← NN 3474 DT → NN 3079 NNP ← NNP 2096 NNP → NNP 1898 人名のhead は first / last name のどちら? ‣ NNP NNP CD → CD 760 IN ← NN 838 IN ← DT 753 NN → VBZ 714 DMVの拡張 ‣ DMVはとてもシンプルなモデル - 最低限の valence 情報を組み込んだモデル ‣ 08,09 年ぐらいから,様々な拡張が盛んに - (Cohen & Smith, 2008) : ベイズモデル,VBで推定 - (Cohen & Smith, 2009) : Shared Logistic Normal - (Headden et al., 2009) : Extended Valence Grammar (EVG), Lexicalized EVG - (Blunsom & Cohn, 2010) : TSG + DMV - (Gillenwater et al., 2010) : Sparsity constrained Model - (Tu & Honavar, 2012) : Unambiguilty resolution Extended Valence Grammar ‣ PCFGを拡張することで,より豊富な情報を捉えよう,という方針 ‣ DMVではargumentの生成に関して,順番を考慮しない the big hungry dog hungryとdogに依存関係があるとき, hungryはdogの隣に出現しやすいだろう. * hungry the dog 品詞でも同じことが言える? (Headden, et al., 2009) Extended Valence Grammar ‣ 各headに最も近いargumentと,そうでないargumentに関する分布を 変化させる S ‣ PCFGの一部を書き換えることで,対応可能 R0 [is] S Rc [is] R0 [is] Rc2 [is] Rc [is] R1 [is] R0 [case] Rc [is] L0 [case] not Rc [is] L0 [case] L0 [not] the case L0 [not] R0 [case] Rc1 [is] R0 [not] This is R1 [is] This is not the case Lexicalized EVG ‣ これまでのモデルは,全て品詞同士の関係しか見ない ‣ 品詞同士でよく表れる関係を捉える ‣ Penn Treebankの場合,品詞数は45 ‣ 自動詞/他動詞 の違いもきちんと捉えられない ‣ headの単語を用いて,argumentの品詞を推定 p(NN|R, is, VBD, v)p(case|NN) This is not the case DT VBZ RB DT NN Head automatonで表現可能 単語の情報は非常にスパース スムージングを行う (Headden, et al., 2009) LEVGまでの結果 ‣ Penn Treebank - Section 2-21を訓練データ(長さ10以下) - Section 23 をテストデータ(長さ10以下) - Kleinの論文では0-24の全てを使うが,最近は訓練とテストに分ける方が多い DMV EVG EVG+smoothed 43.2 53.3 65 LEVG+smoothed shared logistic normal TSG+DMV 68.8 62.4 67.7 Unambiguity Regularization ‣ 一般のEMアルゴリズム log p(X| ) F (q, ) = Y p(X, Y ) q(Y ) log q(Y ) q(Y ) log(p(X)p(Y |X)) F (q, ) = Y = log p(X| ) Y = log p(X| ) q(Y ) log q(Y ) Y q(Y ) q(Y ) log p(Y |X) KL(q(Y )||p(Y |X)) (q, ) を, と q に関して交互に最適化 ‣F E-step: q t+1 = arg max F (q, ) = arg min KL(q(Y )||p(Y |X)) q M-step: t+1 q = arg max F (q t+1 , ) = arg max log p(X, Y ) q t+1 (Tu and Honaver, 2012) Unambiguity Regularization ‣ 代わりに次の量を最大化する F (q, ) = log(X| ) H(yi ) = KL(q(Y )||p(Y |X)) + H(yi ) i q(yi ) log q(yi ) yi ‣ Posterior regularization と呼ばれる (Gillenwater, et al., 2010) ‣ q を求める際,そのエントロピーが小さくなるような制約を入れている 自然言語のUnambiguity −3 −24 x 10 x 10 3 language grammars. 0.25 6 2.5 4 Probability Probability 5 0.15 Probability 0.2 3 Learning with Unambiguity 2 Regularization by the preceding observation, we want to 0.1 incorporate into learning an inductive bias in favor 1 2 of grammars that are unambiguous on natural lan0.05 0.5 1 guage sentences. First of all, we need a precise defi0 nition of the ambiguity of a grammar on a sentence. 0 0 0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100 100 Best Parses Assume a grammar with a fixed set of grammar rules 100 Best Parses 100 Best Parses and let be the rule probabilities. Let x represent a (a) of the 100 best parses of the (b) Figure 1: The probabilities sentence and let z represent the parse of x. One natuexample sentence. ral measurement of the ambiguity is the information e 2: The probabilities of the 100 best parses of the example sentence produced by (a) a random grammar and ( entropy of z conditioned on x and : 自然言語の文章は曖昧か? 多くの文章は,1つの解釈しか持たない ‣ ximum-likelihood grammar learned by the EM algorithm. natural language sentence, the probability mass of ‣ ある文に対して, H(z|x, ) = p (z|x) log p (z|x) the parses is concentrated to a tiny portion of all posz arses of the training sentences, and denote the There are two steps in each coordinate ascent iter (左)Berkeley Parser,(右)PCFGのEMによる推定 sible parses. This is not surprising in light of the fact probabilities ofpurpose the grammar. Welanguage use theisslackthe first we fix q and . Itthe ca で,100 Best parses にそれぞれ,どれだけの確率を割り当てたか that the main of natural commu- tion. TheInlower thestep, entropy is, the lessoptimize ambiguous nication andofinthe the posterior course of language evolution lized version regularization ob- the be grammar shown that is on sentence x. When the entropy selection pressure for more efficient communication reaches 0, the grammar is strictly unambiguous on ve function: 3 1.5 Motivated = arg max F(Tu ( ,and q) Honaver, 2012) Unambiguity Regularization ‣ 通常Posterior regularizationは勾配法などで近似する ‣ 事後分布のエントロピーを小さくするような仮定を置くと,解析的に 解ける ‣ 結果 1 - 従来のEMアルゴリズムで,Eステップの前にパラメタを 1 - 従来研究で,Hard-EMの性能が良いことが示されていた - Hard-EMは,このモデルで = 乗すれば良いだけ! 1 と置いた場合に相当する - 制約の強さを最大にした場合(最も曖昧でないような学習を行う) 結果 nce is: Value of DMV Model UR-Annealing 0 (standard EM) 0.25 UR-Annealing&Prior H(z i ) (Gillenwater et al.,0.5 PR-S 2010) 0.75 i SLN TieV&N (Cohen and Smith, 2009) EM) al., 2008) q(z ) LN Families (Cohen1et(Viterbi i Testing Accuracy Testing Accuracy 10 20 All 10 20 All 46.2 63.6 53.7 66.6 51.9 62.1 51.6 61.3 58.3 59.3 39.7 53.1 44.7 57.7 42.9 53.8 43.1 47.4 45.2 45.1 34.9 47.9 40.3 52.3 38.8 49.1 38.8 41.4 39.4 39.0 pect our approach ficient than the ot proach only inser nentiation step into variational inferen approaches all of descent optimizati Extended Models Table 1: The dependency accuracies of grammars learned UR-Annealing on E-DMV(2,2) 71.4values62.4 57.0 by our approach with different of . 4.3 Results on E t alternately UR-Annealing on E-DMV(3,3) 71.2 61.5 56.0 egularization L-EVG (Headden et al., 2009) 68.8 It has been pointed ation ofLexTSG-DMV q( ) (Blunsom and Cohn, 2010) 67.7 55.7 simplistic and can d mean-field 4.4. On each corpus, we trained the learner on the nomena; therefore gold-standard part-of-speech tags of the sentences Table 2: The dependency accuracies of grammars learned , we have UR-Annealing :σの値を1から0へ徐々に下げていく ‣by been proposed, w of length 10 by with“UR”) punctuation strippedand off. We our approach (denoted with annealing ment over DMV 英語で現在の state-of-the-art を達成 ‣prior, started our algorithm with the informed compared with previous published results. initialization ing (Headden et proposed in (Klein and Manning, 2004), and termi(Tu and Honaver, 2012) H(z ) DMV + unambiguity での解析結果 ‣ 簡単なDMV + σ=0.25 での結果を示す(精度:57.8) ‣ Annealing したところ,良い結果が得られなかった(バグ?) A Lorilled spokewoman said This is an old story DT NNP NN VBD DT VBZ DT JJ NN A Lorilled spokewoman said This is an old story DT NNP NN VBD DT VBZ DT JJ NN Drexel remains confident of its future creditworthiness NNP VBZ JJ IN PRP$ JJ NN Drexel remains confident of its future creditworthiness NNP VBZ JJ IN PRP$ JJ NN DMVとは異なる方針 ‣ これまでのDMVの拡張は,全てInside Outsideを用いることの出来る Head automatonモデル ‣ 最近,いくつかこれ以外の方針が提案されている - (Brody, 2010) : アラインメントのIBMモデルを用いる - (Marecek, 2012) : reducibility + Projectiveな木を作るGibbsサンプリング ‣ Head automatonにとらわれないモデル化が可能 ‣ 問題点 - 推論をどうするか? - Projectivityを満たす木を作れるか IBMモデルを用いた教師なし解析 ‣ IBMモデルとDMVとの類似点 - IBMモデル1:よく出現する単語の組を対応付ける - IBMモデル2:単語の出現場所に応じて対応付ける(valence?) - IBMモデル3:各単語が結びつく,target側の単語数をモデル化(valence) Figure 2: Left: An example of an unlabeled dependency parse of a sentence. Right: The same parse, in the form o an alignment between a head words (top) and their dependents (bottom). (Brody, 2010) IBMモデルを用いた教師なし解析 Corpus WSJ10 Dutch10 Danish10 M1 25.42 25.17 23.12 M2 35.73 32.46 25.96 M3 39.32 35.28 41.94 R-br 32.85 28.42 16.05 * consisten deficienc that the I task and However Table 1: Percent accuracy of IBM Models 1-3 (M1-3) and sider the the right-branching baseline (R-br) on several corpora. ‣ DMVよりは低いが,Right-branchを上回る There is s the head ‣ このモデルは,Projectiveな木を作らないことに注意 PoS attachment PoS attachment 9 (s miner ‣ そのような制約をうまく入れれば,更に性能が上がる可能性? NN DET NNS JJ ferent kin IN NN RB VBZ function, NNP NNP VBD NN dency rel NN TO DET VB Grammar JJ NN CC NNS head (Brody, 2010)of a Projectiveな木を作るGibbs sampling ‣ Inside-Outside を用いずに,Projectiveな木を直接推定する ‣ Gibbs Samplingで,局所的な係り関係を書き換える ‣ 生成モデルとしてはNon Projectiveな木も作るが,推定の範囲を Projectiveなモデルに限定している - deficientなモデルを定義していることと同等? 基本となるモデル Basic Algorithm ide the basic algorithm first since we want to describe properly th ‣ edge model chnique in a simple setting. For simplicity, we use just the edge ‣ 各品詞が取りうるargumentの分布が,Dirichlet分布から生成される n 5.9) and the task here is not to create a dependency tree but o ‣ よく起こりやすい head /dependent を捉える arent for each word. This means that the structures we are samplin cycles and can be discontinuous. ‣ 必ずしもProjectiveな木を作らない treebank probability, which we want to maximize, is then: Ptreebank n Y n Y c i (“ti , t⇡(i) ”) + ↵ = Pedge (ti |t⇡(i) ) = i (“t c ”) + ↵|T | ⇡(i) i=1 i=1 ollow the generic algorithm from Section 3.4: e dependency edges are initialized randomly. Since our task is no DT VBZ RB DT NN DT VBZ RB DT NN ained by the condition of “treeness”, we simply assign a random DMVでは確率を割り当てない rd to each word in each sentence. (Marecek, 2012) CHAPTER 6. INFERENCE OF DEPENDENCY ナイーブなGibbs sampling 木からlunchを削除する gure ‣6.1: Performing a small change operator in basing sampling algori ‣ 親を再推定 ‣ We, sandwiches を選択した場合,projective でなくなる (Marecek, 2012) Projectivityを保つための準備 ‣ 係り関係をbracketで表現する 57 MPLING PROJECTIVE TREES ‣ n個の単語に対して,n個のbracket ‣ 各bracketは,その深さの単語を,1語のみ持つ (Marecek, 2012) Gibbs sampling ‣ bracketを1つ削除する ‣ 新しいbracketを,分布に応じて選択する ‣ 1回の変化で,木を大きく書き換えることが出来る gure 6.5: Edge and bracketing notation of a projective dependency tr igure 6.5: Edge and bracketing notation of a projective dependency t 2012) 6.6: An example of a small change in a projective tree. (Marecek, The bracket OJECTIVE TREES 57 例えば 57 G PROJECTIVE TREES Figure 6.5: Edge and bracketing notation of a projective d Figure 6.7: Small change example from Figure 6.6 in the perspective of dependencies. The two nodes had and sandwiches are the two candidates for the new head. Each : Edge bracketing notation ofofaaprojective tree.totree. dge andand bracketing projective dependency of thenotation three dependent subtreesdependency is then attached one of these candidates. All the possible trees that do not violate the projectivity constraint are depicted in a) to f). ‣ EMのlocal moveより効率が良さそう? 初期化の影響はないらしい (!) Figure 6.6: An example of a small change in a projective tree ‣ DMVでも似たような局所的なGibbsは適応できる? wiches) is removed and there are five possibilities for replacing (Marecek, 2012) 実際のモデル 49 6. PROJECTIVITY ‣ 様々なコンポーネントのProduct of Experts ‣ Projectivityを仮定しない代わりに,豊富な情報を組み込むことが可能に Ptreebank = = n Y i=1 n Y i=1 Petd (i, ⇡(i)) Pf dx (fi , ⇡(i)) Pd (i, ⇡(i)) Pr (i) = c i (“ti , t⇡(i) , dir(i, ⇡(i))”) + ↵etd c i (“t⇡(i) , dir(i, ⇡(i))”) + ↵etd · |T | c i (“ti , fiL , fiR ”) + c i (“t i ”) L R P (f + f i ) F (wi ) 0 i 0 + 0 (5.24) F (wi ) 1 1 ✏d |i ⇡(i)| distance model 1 R(desc(i)) . reducibility model ✏r (Marecek, 2012) he dependency function ⇡(i) returns the position of the parent of the word at the In the distance model, we distance approximate model the probability of the edge as the invers value of the distance between the dependent word and its parent:2 ✓ ◆ 1 1 Pd (d, g) = , (5.19 ✏d |d g| where ✏d is the normalization constant and the hyperparameter determines th impact of this model. ‣ 言語に(恐らく普遍な)性質 ‣ 一番近い単語に係りやすい 5.4 Reducibility Model ‣ DMVでは,この制約を陽に入れることが難しい The notion of reducibility, i.e. the possibility of deleting a word from a sentenc では,head / dependent の距離そのものは,パラメタ化されて ‣ valence without violating its syntactic correctness, belongs to traditionally known manifes tationsいない of syntactic dependency. As mentioned e.g. by K¨ ubler et al. (2009), on of the traditional linguistic criteria for recognizing dependency relations (includin their head-dependent orientation) is that a head H of a construction C determine the syntactic category of C and can often replace C. Or, in words of “Dependenc Analysis by Reduction” of Lopatkov´a et al. (2005), stepwise deletion of dependent e ements within a sentence should preserve its syntactic correctness. A similar idea o dependency analysis by splitting the sentence into all possible acceptable fragment (Marecek, 2012) is used by Gerdes and Kahane (2011). their word-order positions. Distances between two dependent words (edge lengths) are rather short in a typical case. Figure 5.4 shows the distributions of edge lengths in four di↵erent treebanks. We can see that the probability of a dependency edge between two words decreases rapidly with its length. 言語毎の距離の統計 30 Czech English German Catalan 25 % occurences 20 15 10 5 0 -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 1 Edge length 2 3 4 5 6 7 8 9 10 Figure 5.4: Distribution of edge lengths for various languages, as measured on Czech, (Marecek, 2012) reducibility model We assume that the probability of such a subtree is proportional to the reducibi R(desc(i)). 1 Pr (i) = R(desc(i)) , (5. ✏r where ✏d is the normalization constant and the hyperparameter determines impact of this model. ‣ 文の中で,dependentになりやすい部分(例えば前置詞句)は, Note that the reducibility model is di↵erent from the previous three mod 削除しても意味が通る since it utilizes external large monolingual corpus to obtain the reducibility scor ING TREES 品詞nグラムに対するreducibility 削除しやすさ,を計算する ‣inference ThePROJECTIVE itself is done on a much=smaller corpus. 57 wi をルートとする部分木のnグラムのreducibility = 単語 ‣ R(desc(i)) 5.5 Combining the Models The previously described models are combined a single one by multiplying th IN NNinto というバイグラムは, over all nodes in the treebank. The main configuration used in our experiments reducibilityが高い combination of models defined in Equations 5.10, 5.18, 5.19, and 5.23. The form そのような部分木を作る係 probability for computing ofthe whole treebank looks as follows: り関係にバイアスがかかる 2.5 (Marecek, 2012) reducibilityの学習 ‣ 大規模コーパスから学習する ‣ ある品詞nグラム = g が削除可能である(reducibilityが高い)とき, - コーパス中の g の品詞の列を探す - その部分を削除した単語列が,コーパス中に出現するかどうか,を調べる g = IN NN NN Motorola NNP is fighting VBZ VBG back RB against IN junk mail NN NN reducibilityの学習 ‣ 大規模コーパスから学習する ‣ ある品詞nグラム = g が削除可能である(reducibilityが高い)とき, - コーパス中の g の品詞の列を探す - その部分を削除した単語列が,コーパス中に出現するかどうか,を調べる g = IN NN NN Motorola is fighting back この文が他の箇所で出現していれば,高いスコアがつく reducibility score 46 unigrams VB TO IN VBD CC VBZ NN VBN . NNS DT NNP JJ RB , CD CHAPTER 5. DEPENDENCY TREE MODELS reduc. 0.04 0.07 0.11 0.12 0.13 0.16 0.22 0.24 0.32 0.38 0.43 0.78 0.84 2.07 3.77 55.6 bigrams VBN IN IN DT NN IN NNS IN JJ NNS NN . DT NNP DT NN NN , DT JJ JJ NN NNP . NN NN IN NN NNP NNP IN NNP reduc. 0.00 0.02 0.04 0.05 0.07 0.08 0.09 0.09 0.11 0.13 0.14 0.15 0.22 0.67 0.76 1.81 trigrams IN DT JJ JJ NN IN NN IN NNP VBN IN DT JJ NN . DT JJ NN DT NNP NNP NNS IN DT NNP NNP . NN IN DT NNP NNP , IN DT NNP DT NN IN NNP NNP NNP IN DT NN IN NNP NNP reduc. 0.00 0.00 0.00 0.00 0.00 0.04 0.05 0.14 0.15 0.23 0.46 0.55 0.59 0.64 0.80 4.27 Table 5.1: Reducibility scores of the most frequent English PoS n-grams. (V* are verbs, N* are nouns, DET are determiners, IN are prepositions, JJ are adjectives, (Marecek, 2012) 実験結果 ‣ 多くの言語において,既存のモデルを上回る 7.5. COMPARISON WITH OTHER SYSTEMS unambiguity regularization のほうが性能が上 ‣ 英語では CoNLL language code year Arabic ar 06 Arabic ar 07 Basque eu 07 Bulgarian bg 06 Catalan ca 07 Czech cs 06 Czech cs 07 Danish da 06 Dutch nl 06 English en 07 German de 06 Greek el 07 Hungarian hu 07 Italian it 07 Japanese ja 06 Portuguese pt 06 Slovenian sl 06 Spanish es 06 Swedish sv 06 Turkish tr 07 Average: 10 tokens Gillen.2011 our parser – 40.5 – 42.4 – 32.8 58.3 59.0 – 63.5 53.2 58.9 – 67.6 45.9 52.8 33.5 42.4 – 64.1 46.7 60.8 – 35.8 – 63.2 – 50.5 57.7 68.6 54.0 66.0 50.9 51.0 57.9 67.3 45.0 62.9 – 18.6 50.3⇤ 59.0⇤ all sentences Spitkov.2011 our parser 16.6 26.5 49.5 27.7 24.0 27.2 43.9 49.0 59.8 47.0 27.7 49.5 28.4 50.7 38.3 40.4 27.8 41.7 45.2 49.2 30.4 44.8 13.2 25.4 34.7 51.1 52.3 43.3 50.2 52.5 36.7 54.9 32.2 37.8 50.6 51.9 50.0 49.9 35.9 20.9 37.4 42.1 79 (Marecek, 2012) 教師なし係り受け解析まとめ ‣ 2つの方向性 - PCFGに変換した上で,様々な情報を加えていく - Extended Model,TSG + DMV など - (Projectiveな)木を生成する,新しい生成モデルを定義する - Head automatonにとらわれずに柔軟な分布を設定できる - 今後はこちらが流行るかも? ‣ 2012年の状況 - 生のコーパスのみからの推定は,2009年以降あまり進歩していない - DMVからモデルを変えずに7割程度の精度を達成(今年)したことを考えると, 2004年からもあまり進歩していないような気も… - 最近は他の方向性(多言語のデータを同時に学習,英語でのパラメタを他の言語 に投射する)が流行っている (Naseeem, et al., 2012; McDonald, et al., 2011) - しかし言語の本質を考えるという点では,問題から逃げている? - 工学的にはこちらも重要 参考文献 ‣ Abney, S. P. 1987. The English Noun Phrase in its Sentential Aspect. PhD thesis, MIT. ‣ Alshawi, H. 1996 Head automata and bilingual tiling: Translation with minimal representations. In ACL ‣ Blunsom, P., and Cohn, T. 2010. Unsupervised induction of tree substitution grammars for dependency parsing. In EMNLP ‣ Brody, S. 2010. It depends on the translation: Unsupervised dependency parsing via word alignment. In EMNLP ‣ Carroll, G. and Charniak, E. 1992. Two experiments on learning probabilistic dependency grammars from corpora. In Working Notes of the Workshop Statistically-Based NLP Techniques ‣ Cohen, S.B., Gimpel, K., and Smith, N.A. 2008. Logistic normal priors for unsupervised probabilistic grammar induction. In NIPS ‣ Cohen, S.B., and Smith, N.A. 2009. Shared logistic normal distributions for soft parameter tying in unsupervised grammar induction. In NAACL-HLT ‣ Collins, M. 1999. Head-driven Statistical Models for Natural Language Parsing. Ph.D. thesis, The University of Pennsylvania. ‣ Gillenwater, J., Ganchev, K., Graca, J., Pereira, F., and Taskar, B. 2011. Posterior sparsity in unsupervised dependency parsing. In JMLR ‣ Klein, D. and Manning, C.D. 2002. A generative constituent-context model for improved grammar induction. In ACL ‣ ‣ ‣ ‣ Klein, D. and Manning, C.D. 2004. Corpus-based induction of syntactic structure: Models of dependency and constituency. In ACL Klein, D. 2005. The Unsupervised Learning of Natural Language Structure. PhD thesis, Stanford University Marecek, D. 2012. Unsupervised Dependency Parsing. Ph.D. thesis, Unsupervised Dependency Parsing McDonald, R.T., Petrov, S., and Hall, K., Multi-source transfer of delexicalized dependency parsers, In EMNLP ‣ Naseem, T., Barzilay, R., and Globerson, A., Selective Sharing for Multilingual Dependency Parsing, In ACL ‣ Paskin, M.A. 2001. Grammatical bigrams. In NIPS ‣ Seginer, Y. 2007. Learning syntactic structure. Ph.D. thesis, Universiteit van Amsterdam ‣ Smith, N.A. 2006. Novel Estimation Methods for Unsupervised Discovery of Latent Structure in Natural Language Text. Ph.D. thesis, Department of Computer Science, Johns Hopkins University ‣ Spitkovsky, V.I., Alshawi, H., Jurafsky, D., and Manning, C.D. 2010. Viterbi training improves unsupervised dependency parsing. In CoNLL ‣ Tu, K and Honavar, V. 2012. Unambiguity regularization for unsupervised learning of probabilistic grammars. In EMNLP ‣ William P. Headden III, W.P., Johnson,M. and McClosky, D. 2009. Improving unsuper- vised dependency parsing with richer contexts and smoothing. In NAACL-HLT
© Copyright 2025 ExpyDoc