教師なし構文解析の進展 - 統計数理研究所

教師なし構文解析の進展
最先端構文解析とその周辺
統計数理研究所 2012.12.19
能地 宏
東京大学大学院 情報理工学系研究科
修士2年
今日の話
‣ 教師なし構文解析とは何か
- 問題の意義
- 何故教師なしで考えるのか?
‣ 教師なし係り受け解析における代表的なモデルの紹介(次ページ)
- モデルの考え方
- 現状,どれぐらいうまくいくのか
- 今後の展望
モデル化の方針
‣ PCFGに変換した上で,手を加えていく
- Klein & Manning (2002)
- Dependency Model with Valence (Klein & Manning, 2004)
- 拡張がたくさん
- Extended Model
- Lexicalized Model
- Parameter Tying
Shared Logistic, Phylogenetic Model, Multilingual Setting, etc
‣ その他のモデル
- Projective Tree を生成する別の生成モデル
- Common Cover Link (Seginer 2007)
教師なし解析の目的
‣ 工学的目的
- 現在,構文解析を行うためには,ツリーバンクなどの,教師データが必要
- しかし,ツリーバンクの存在する,言語/ドメインは限られる
- ツリーバンクの存在しない言語の解析
- ツイッターなどの新しいドメインの解析をどうするか?
- 半教師あり学習をするにしても,教師なしの性能の良い生成モデルを定義しておく
ことは意味がある
‣ 科学的目的
- 人間が言語を獲得する仕組みは何も明らかにされていない
- 教師なし解析がうまくいけば,そこで用いたような情報を,赤ちゃんが使って
いるかもしれない,という手掛かりになる
- 言語をよく説明出来るモデル
言語のある側面の本質を備えている
係り受け解析
‣ 単語同士の係り関係を導出する
‣ Treebankなどの人手で作った正解データと比較する
‣ headとargument
- head : 部分木の中で,最も重要な意味を表す単語
- argument : headに付属する単語
There is no asbestos in our products now
この構造を,正解データを用いずに導出
できるか?
Projectivity
‣ 係り受け解析でよく用いられる仮定
‣ 文のなかで,係り関係が交差しない
‣ 多くの言語,多くの文で成り立つ性質
‣ 考える解空間の大きさを大きく狭めることが出来る
- 今日紹介する多くのモデルで仮定されている
projective
Non-projective
問題設定自体がはらんでいる問題
‣ 係り関係は人間が定めたもの
‣ headとは何か,というのは言語学的に非常に難しい問題
‣ Treebank でも,言語によって正解の方針が異なる
- 例: 限定詞と名詞
- The country での head は(通常)country
- デンマーク語でのアノテーションは逆向き
- 英語でも,The が head であるという主張もある (Abney, 1987)
とりあえずの策と,最終的な目標
‣ 色々問題は含んでいるが,言語学者のアノテーションは,ある種の本質を
捉えている
‣ それを再現出来るようになることは,言語理解にとって重要といえる
‣ アプリケーションによる評価
- 既存の教師ありによる解析よりも,ある種のアプリケーションでは,良い性能を
示せるかもしれない(機械翻訳など)
- ほとんど見ない
精度が出ないから?
‣ 言語が統計的に処理出来るのであれば,それに従ってheadとは何かを
人間の主観なしに定義することが出来るはず
‣ 教師なし学習の究極的な目標?
DMVまでの歴史
1992 Carroll & Charniak
無向での評価
PCFG & EM
extremely poor result
2001 Paskin
Paskin
39.7
ランダム
41.7
Grammatical bigram
すべて隣にかける
53.2
2004 Klein & Manning
DMV
これ以降研究が盛んに…
Klein & Manning
54.4
Grammatical bigram
(Paskin, 2002)
‣ Projective Tree に対する生成モデル
- 木をランダムに生成(一様分布)
- 親ノードの単語から,子ノードの単語が生成される
‣ 大量の生の文書(300万文)から
EMでパラメタを学習
is
p(G)p(w|G)
p(w|G)
= p(is|root)
p(This|is, L)
p(not|is, R)
p(case|is, R)
p(not|case, L)
This
not
case
the
DMVはなぜうまくいったか
‣ (Paskin, 2001) の問題点
- 木はランダムに生成されるため,共起しやすい単語同士が結びつく
‣ 単語同士の関係ではなく,品詞同士の関係をモデル化する
‣ valence = 各単語(品詞)の取りうるargumentの数をモデル化する
‣ Smart Initialization (これが結構重要)
a new year begin in new york
DT JJ NN
VB IN NN NN
IN NN NN
IN NN NN
○
(Carroll & Charniak,2001)
Dependency Model with Valence
‣ 品詞の上で,Projectiveな係り受け関係を導出する生成モデル
- 見やすくするため,単語で説明
‣ Valence情報を組み込んでいる
$
- 各品詞がargumentをいくつ取るか?
is
w の下の部分木の確率
単語 p(y w |w)
This
p(T ) = p(y $ |$)
= p(is|$)p(y is |is)
not
case
the
p(y is |is) = p(CONT|R, is, v = 0)
p(case|R, is)p(y case |case)
$
p(CONT|R, is, v = 1)
p(not|R, is)p(y not |not)
is
p(STOP|R, is, v = 1)
p(CONT|L, is, v = 0)
p(This|L, is)p(y This |This)
This
not
p(STOP|L, is, v = 1)
‣ Valence
- STOP or CONTINUE を決める際,各方向の最初の子供かどうかで
異なる分布を用いる(外側から決まることに注意)
‣ Head automaton の一種 (Alshawi, 1996)
case
the
DMVのパラメタ
p(w|$)
w
文のheadとして を生成
p(STOP|R, w, v = 0)
右に子がいない状態でSTOP
p(CONT|R, w, v = 0)
右に子がいない状態でCONTINUE
p(STOP|R, w, v = 1)
右に子がいる状態でSTOP
p(CONT|R, w, v = 1)
右に子がいる状態でCONTINUE
p(w |R, w)
w
右に単語 を生成
p(STOP|L, w, v = 0)
左に子がいない状態でSTOP
p(CONT|L, w, v = 0)
左に子がいない状態でCONTINUE
p(STOP|L, w, v = 1)
左に子がいる状態でSTOP
p(CONT|L, w, v = 1)
左に子がいる状態でCONTINUE
p(w |L, w)
w
左に単語 を生成
注意
‣ (Klein&Manning, 2004),(Klein, 2005),(Spitkovsky, 2010 etc)
などは,各 head に一番近い argument から,順番に決めていく
‣ (Smith, 2006),(Cohen, 2008, 2009),(Headden III, 2009) などは,各
head に最も遠いargumentから順番に決めていく
‣ 両者に違いはないが,Extended Model(後述)では結果が異なる
‣ 最近の論文は後者で実装しているものが多いので,以降 後者で説明
h
head inward
h
head outward
DMVにおけるValence
‣ 子を生成するときに,止まる,止まらないの選択を行う
- (Collins, 1999) をシンプルしたもの
- 子の数は,二項分布に従う
- 少ない子の数が好まれる.その違いを,方向と,親の品詞に応じてモデル化
h
‣ 他のモデル化の方針は?
Head automaton
= 左右それぞれの
状態遷移がFSA
- 例えば,子の数が多項分布に従う,としてはダメなのか
- 生成モデルとしては考えられるが,Head automaton でなくなる
- Head automatonをPCFGに変換することで,CYK / Inside Outside が使える
PCFGへの変換
S
R0 [is]
Rc [is]
$
R1 [is]
R0 [case]
Rc [is]
L0 [case]
is
This
not
case
R1 [is]
R0 [not]
the case
the
L0 [is]
L0 [not]
Lc [is]
not
R0 [this]
L1 [is]
L0 [this]
is
This
ルールとパラメタの対応
p(w|$)
S
R0 [w]
p(STOP|R, w, v = 0)
R0 [w]
L0 [w]
p(CONT|R, w, v = 0)
R0 [w]
Rc [w]
p(STOP|R, w, v = 1)
R1 [w]
L0 [w]
p(CONT|R, w, v = 1)
R1 [w]
Rc [w]
p(w |R, w)
Rc [w]
R1 [w]R0 [w]
p(STOP|L, w, v = 0)
L0 [w]
w
p(CONT|L, w, v = 0)
L0 [w]
Lc [w]
p(STOP|L, w, v = 1)
L1 [w]
w
p(CONT|L, w, v = 1)
L0 [w]
Lc [w]
p(w |L, w)
Lc [w]
R0 [w]L1 [w]
パラメタの推定
‣ PCFGへ変換したので,一般的な推定法(EM)で機械的にパラメタの推定
が可能
s
‣ 各ルールとパラメタは,一対一に対応している
- E-step : 各ルールの期待値を計算
- M-step : 正規化して,新しいパラメタとする
i
p(STOP|R, DT, v = 0) の更新
p (STOP|R, DT, v = 0)
h
j
c(STOP|R, DT, v = 0, s)
s
c(STOP|R, DT, v = 0, s)
=
ns
i=1
ns
j=1
j
h=i:wh =DT
inside(i, j, L0 , h)outside(i, j, R0 , h)p(STOP|R, DT, v = 0)
p(s)
DMVの結果
‣ Penn Treebank WSJ から,10単語以下の文章を全て抜き出す
- 推定されたパラメタを用いて,訓練データ自体を Viterbi パース
- 精度 = (headを正しく判定出来た単語の数) / (全単語数)
‣ 短い文章のほうが解析が簡単なので,まずはこれを解析出来るモデルを
目指す,という方針
RANDOM
30.1
R-ADJ
33.6
DMV
43.2
エラーの傾向
English using DMV
Overproposals
Underproposals
DT ← NN
3083
DT → NN
3079
NNP ← NNP 2108 NNP → NNP 1899
CC → ROOT 1003
IN ← NN
779
IN ← DT
858 DT → NNS
703
DT ← NNS
707 NN → VBZ
688
MD → VB
654
NN ← IN
669
DT → IN
567 MD ← VB
657
DT → VBD
553 NN → VBD
582
TO → VB
537 VBD ← NN
550
DT → VBZ
497 VBZ ← NN
543
English using CCM+DMV
‣ 矢印の向きを間違えることが多い
Overproposals
Underproposals
head
の位置については議論がある
‣ しかし DT NN のDT
← NN
3474
DT → NN
3079
NNP ← NNP
2096
NNP
→ NNP
1898
人名のhead
は first
/ last
name
のどちら?
‣ NNP NNP
CD → CD
760
IN ← NN
838
IN ← DT
753 NN → VBZ
714
DMVの拡張
‣ DMVはとてもシンプルなモデル
- 最低限の valence 情報を組み込んだモデル
‣ 08,09 年ぐらいから,様々な拡張が盛んに
- (Cohen & Smith, 2008) : ベイズモデル,VBで推定
- (Cohen & Smith, 2009) : Shared Logistic Normal
- (Headden et al., 2009) : Extended Valence Grammar (EVG), Lexicalized EVG
- (Blunsom & Cohn, 2010) : TSG + DMV
- (Gillenwater et al., 2010) : Sparsity constrained Model
- (Tu & Honavar, 2012) : Unambiguilty resolution
Extended Valence Grammar
‣ PCFGを拡張することで,より豊富な情報を捉えよう,という方針
‣ DMVではargumentの生成に関して,順番を考慮しない
the big hungry dog
hungryとdogに依存関係があるとき,
hungryはdogの隣に出現しやすいだろう.
* hungry the dog
品詞でも同じことが言える?
(Headden, et al., 2009)
Extended Valence Grammar
‣ 各headに最も近いargumentと,そうでないargumentに関する分布を
変化させる
S
‣ PCFGの一部を書き換えることで,対応可能
R0 [is]
S
Rc [is]
R0 [is]
Rc2 [is]
Rc [is]
R1 [is]
R0 [case]
Rc [is]
L0 [case]
not
Rc [is]
L0 [case]
L0 [not]
the case
L0 [not]
R0 [case]
Rc1 [is]
R0 [not]
This is
R1 [is]
This is
not
the case
Lexicalized EVG
‣ これまでのモデルは,全て品詞同士の関係しか見ない
‣ 品詞同士でよく表れる関係を捉える
‣ Penn Treebankの場合,品詞数は45
‣ 自動詞/他動詞 の違いもきちんと捉えられない
‣ headの単語を用いて,argumentの品詞を推定
p(NN|R, is, VBD, v)p(case|NN)
This is not the case
DT VBZ RB
DT NN
Head automatonで表現可能
単語の情報は非常にスパース
スムージングを行う
(Headden, et al., 2009)
LEVGまでの結果
‣ Penn Treebank
- Section 2-21を訓練データ(長さ10以下)
- Section 23 をテストデータ(長さ10以下)
- Kleinの論文では0-24の全てを使うが,最近は訓練とテストに分ける方が多い
DMV
EVG
EVG+smoothed
43.2
53.3
65
LEVG+smoothed
shared logistic
normal
TSG+DMV
68.8
62.4
67.7
Unambiguity Regularization
‣ 一般のEMアルゴリズム
log p(X| )
F (q, ) =
Y
p(X, Y )
q(Y ) log
q(Y )
q(Y ) log(p(X)p(Y |X))
F (q, ) =
Y
= log p(X| )
Y
= log p(X| )
q(Y ) log q(Y )
Y
q(Y )
q(Y ) log
p(Y |X)
KL(q(Y )||p(Y |X))
(q, ) を, と q
に関して交互に最適化
‣F
E-step:
q t+1 = arg max F (q, ) = arg min KL(q(Y )||p(Y |X))
q
M-step:
t+1
q
= arg max F (q t+1 , ) = arg max log p(X, Y )
q t+1
(Tu and Honaver, 2012)
Unambiguity Regularization
‣ 代わりに次の量を最大化する
F (q, ) = log(X| )
H(yi ) =
KL(q(Y )||p(Y |X)) +
H(yi )
i
q(yi ) log q(yi )
yi
‣ Posterior regularization と呼ばれる (Gillenwater, et al., 2010)
‣ q を求める際,そのエントロピーが小さくなるような制約を入れている
自然言語のUnambiguity
−3
−24
x 10
x 10
3
language
grammars.
0.25
6
2.5
4
Probability
Probability
5
0.15
Probability
0.2
3 Learning with Unambiguity
2
Regularization
by the preceding observation, we want to
0.1
incorporate
into learning an inductive bias in favor
1
2
of grammars that are unambiguous on natural lan0.05
0.5
1
guage sentences. First of all, we need a precise defi0
nition
of the ambiguity of a grammar on a sentence.
0
0
0
20
40
60
80
100
0
20
40
60
80
100
0
20
40
60
80
100
100 Best Parses
Assume
a
grammar
with
a
fixed
set
of
grammar
rules
100 Best Parses
100 Best Parses
and let be the rule probabilities. Let x represent a
(a) of the 100 best parses of the
(b)
Figure 1: The probabilities
sentence and let z represent
the parse of x. One natuexample sentence.
ral measurement of the ambiguity is the information
e 2: The probabilities of the 100 best parses of the example sentence produced by (a) a random grammar and (
entropy of z conditioned on x and :
自然言語の文章は曖昧か?
多くの文章は,1つの解釈しか持たない
‣
ximum-likelihood grammar learned by the EM algorithm.
natural
language sentence, the probability mass of
‣ ある文に対して,
H(z|x, ) =
p (z|x) log p (z|x)
the parses is concentrated to a tiny portion of all posz
arses
of
the
training
sentences,
and
denote
the
There
are
two
steps
in
each
coordinate ascent iter
(左)Berkeley
Parser,(右)PCFGのEMによる推定
sible parses. This is not surprising in light of the fact
probabilities
ofpurpose
the grammar.
Welanguage
use theisslackthe first
we fix
q and
. Itthe
ca
で,100
Best
parses
にそれぞれ,どれだけの確率を割り当てたか
that the main
of natural
commu- tion.
TheInlower
thestep,
entropy
is, the
lessoptimize
ambiguous
nication
andofinthe
the posterior
course of language
evolution
lized
version
regularization
ob- the be grammar
shown that
is on sentence x. When the entropy
selection pressure for more efficient communication reaches 0, the grammar is strictly unambiguous on
ve function:
3
1.5
Motivated
= arg max F(Tu
( ,and
q) Honaver, 2012)
Unambiguity Regularization
‣ 通常Posterior regularizationは勾配法などで近似する
‣ 事後分布のエントロピーを小さくするような仮定を置くと,解析的に
解ける
‣ 結果
1
- 従来のEMアルゴリズムで,Eステップの前にパラメタを 1
- 従来研究で,Hard-EMの性能が良いことが示されていた
- Hard-EMは,このモデルで =
乗すれば良いだけ!
1 と置いた場合に相当する
- 制約の強さを最大にした場合(最も曖昧でないような学習を行う)
結果
nce is:
Value of
DMV Model
UR-Annealing 0 (standard EM)
0.25
UR-Annealing&Prior
H(z
i ) (Gillenwater et al.,0.5
PR-S
2010)
0.75
i
SLN TieV&N (Cohen
and Smith, 2009)
EM)
al., 2008)
q(z ) LN Families (Cohen1et(Viterbi
i
Testing Accuracy
Testing
Accuracy
10
20
All
10
20 All
46.2
63.6
53.7
66.6
51.9
62.1
51.6
61.3
58.3
59.3
39.7
53.1
44.7
57.7
42.9
53.8
43.1
47.4
45.2
45.1
34.9
47.9
40.3
52.3
38.8
49.1
38.8
41.4
39.4
39.0
pect our approach
ficient than the ot
proach only inser
nentiation step into
variational inferen
approaches all of
descent optimizati
Extended
Models
Table 1: The
dependency
accuracies of grammars learned
UR-Annealing
on
E-DMV(2,2)
71.4values62.4
57.0
by
our
approach
with
different
of
.
4.3 Results on E
t alternately
UR-Annealing on E-DMV(3,3)
71.2
61.5
56.0
egularization
L-EVG (Headden et al., 2009)
68.8
It has been pointed
ation ofLexTSG-DMV
q( )
(Blunsom and Cohn, 2010)
67.7
55.7
simplistic and can
d mean-field 4.4. On each corpus, we trained the learner on the
nomena; therefore
gold-standard
part-of-speech
tags
of
the
sentences
Table 2: The dependency accuracies of grammars learned
, we have
UR-Annealing
:σの値を1から0へ徐々に下げていく
‣by
been proposed, w
of length
10 by
with“UR”)
punctuation
strippedand
off. We
our approach
(denoted
with annealing
ment over DMV
英語で現在の
state-of-the-art
を達成
‣prior,
started
our algorithm
with the informed
compared
with
previous published
results. initialization
ing (Headden et
proposed in (Klein and Manning, 2004), and termi(Tu and Honaver, 2012)
H(z )
DMV + unambiguity での解析結果
‣ 簡単なDMV + σ=0.25 での結果を示す(精度:57.8)
‣ Annealing したところ,良い結果が得られなかった(バグ?)
A Lorilled spokewoman said This is an old story
DT NNP
NN
VBD DT VBZ DT JJ
NN
A Lorilled spokewoman said This is an old story
DT NNP
NN
VBD DT VBZ DT JJ
NN
Drexel remains confident of its future creditworthiness
NNP
VBZ
JJ
IN PRP$ JJ
NN
Drexel remains confident of its future creditworthiness
NNP
VBZ
JJ
IN PRP$ JJ
NN
DMVとは異なる方針
‣ これまでのDMVの拡張は,全てInside Outsideを用いることの出来る
Head automatonモデル
‣ 最近,いくつかこれ以外の方針が提案されている
- (Brody, 2010) : アラインメントのIBMモデルを用いる
- (Marecek, 2012) : reducibility + Projectiveな木を作るGibbsサンプリング
‣ Head automatonにとらわれないモデル化が可能
‣ 問題点
- 推論をどうするか?
- Projectivityを満たす木を作れるか
IBMモデルを用いた教師なし解析
‣ IBMモデルとDMVとの類似点
- IBMモデル1:よく出現する単語の組を対応付ける
- IBMモデル2:単語の出現場所に応じて対応付ける(valence?)
- IBMモデル3:各単語が結びつく,target側の単語数をモデル化(valence)
Figure 2: Left: An example of an unlabeled dependency parse of a sentence. Right: The same parse, in the form o
an alignment between a head words (top) and their dependents (bottom).
(Brody, 2010)
IBMモデルを用いた教師なし解析
Corpus
WSJ10
Dutch10
Danish10
M1
25.42
25.17
23.12
M2
35.73
32.46
25.96
M3
39.32
35.28
41.94
R-br
32.85
28.42
16.05 *
consisten
deficienc
that the I
task and
However
Table 1: Percent accuracy of IBM Models 1-3 (M1-3) and sider the
the right-branching baseline (R-br) on several corpora.
‣ DMVよりは低いが,Right-branchを上回る
There is s
the head
‣ このモデルは,Projectiveな木を作らないことに注意
PoS attachment
PoS attachment
9 (s
miner
‣ そのような制約をうまく入れれば,更に性能が上がる可能性?
NN
DET
NNS
JJ
ferent kin
IN
NN
RB
VBZ
function,
NNP
NNP
VBD
NN
dency rel
NN
TO
DET
VB
Grammar
JJ
NN
CC
NNS
head
(Brody,
2010)of a
Projectiveな木を作るGibbs sampling
‣ Inside-Outside を用いずに,Projectiveな木を直接推定する
‣ Gibbs Samplingで,局所的な係り関係を書き換える
‣ 生成モデルとしてはNon Projectiveな木も作るが,推定の範囲を
Projectiveなモデルに限定している
- deficientなモデルを定義していることと同等?
基本となるモデル
Basic Algorithm
ide the basic algorithm first since we want to describe properly th
‣ edge model
chnique in a simple setting. For simplicity, we use just the edge
‣ 各品詞が取りうるargumentの分布が,Dirichlet分布から生成される
n 5.9) and the task here is not to create a dependency tree but o
‣ よく起こりやすい head /dependent を捉える
arent for each word. This means that the structures we are samplin
cycles and can be discontinuous.
‣ 必ずしもProjectiveな木を作らない
treebank
probability, which we want to maximize, is then:
Ptreebank
n
Y
n
Y
c i (“ti , t⇡(i) ”) + ↵
=
Pedge (ti |t⇡(i) ) =
i (“t
c
”)
+
↵|T
|
⇡(i)
i=1
i=1
ollow the generic algorithm from Section 3.4:
e dependency edges are initialized randomly.
Since
our
task
is
no
DT VBZ RB DT NN
DT VBZ RB DT NN
ained by the condition of “treeness”, we simply assign a random
DMVでは確率を割り当てない
rd to each word in each sentence.
(Marecek, 2012)
CHAPTER 6. INFERENCE OF DEPENDENCY
ナイーブなGibbs sampling



 














木からlunchを削除する
gure ‣6.1:
Performing a small change operator in basing sampling algori
‣ 親を再推定
‣ We, sandwiches を選択した場合,projective でなくなる
(Marecek, 2012)
Projectivityを保つための準備
‣ 係り関係をbracketで表現する
57
MPLING PROJECTIVE TREES
‣ n個の単語に対して,n個のbracket
‣ 各bracketは,その深さの単語を,1語のみ持つ














(Marecek, 2012)
Gibbs sampling
‣ bracketを1つ削除する
‣ 新しいbracketを,分布に応じて選択する
‣ 1回の変化で,木を大きく書き換えることが出来る
gure 6.5: Edge and bracketing notation of a projective dependency tr


igure 6.5: Edge and
bracketing notation of a projective dependency t





2012)
6.6: An example of a small change in a projective tree. (Marecek,
The bracket
OJECTIVE TREES
57
例えば
57
G PROJECTIVE TREES




Figure 6.5: Edge and bracketing notation of a projective d



























Figure 6.7: Small change example from
Figure 6.6 in the perspective of dependencies.
The two nodes had and sandwiches are the two candidates for the new head. Each
: Edge
bracketing
notation
ofofaaprojective
tree.totree.
dge
andand
bracketing
projective
dependency
of thenotation
three dependent
subtreesdependency
is then
attached
one of these candidates. All the
possible trees that do not violate the projectivity constraint are depicted in a) to f).
‣ EMのlocal moveより効率が良さそう?
初期化の影響はないらしい (!)
Figure 6.6: An example of a small change in a projective tree
‣ DMVでも似たような局所的なGibbsは適応できる?
wiches) is removed and there are five possibilities for replacing
(Marecek, 2012)
実際のモデル
49
6. PROJECTIVITY
‣ 様々なコンポーネントのProduct of Experts
‣ Projectivityを仮定しない代わりに,豊富な情報を組み込むことが可能に
Ptreebank =
=
n
Y
i=1
n
Y
i=1
Petd (i, ⇡(i)) Pf dx (fi , ⇡(i)) Pd (i, ⇡(i)) Pr (i) =
c i (“ti , t⇡(i) , dir(i, ⇡(i))”) + ↵etd
c i (“t⇡(i) , dir(i, ⇡(i))”) + ↵etd · |T |
c i (“ti , fiL , fiR ”) +
c
i (“t
i ”)
L
R
P
(f
+
f
i )
F (wi ) 0 i
0
+
0
(5.24)
F (wi )
1
1
✏d |i ⇡(i)|
distance model
1
R(desc(i)) . reducibility model
✏r
(Marecek, 2012)
he dependency function ⇡(i) returns the position of the parent of the word at the
In the distance model, we distance
approximate model
the probability of the edge as the invers
value of the distance between the dependent word and its parent:2
✓
◆
1
1
Pd (d, g) =
,
(5.19
✏d |d g|
where ✏d is the normalization constant and the hyperparameter determines th
impact
of this model.
‣ 言語に(恐らく普遍な)性質
‣ 一番近い単語に係りやすい
5.4
Reducibility Model
‣ DMVでは,この制約を陽に入れることが難しい
The notion of reducibility, i.e. the possibility of deleting a word from a sentenc
では,head
/ dependent
の距離そのものは,パラメタ化されて
‣ valence
without
violating
its syntactic
correctness,
belongs to traditionally known manifes
tationsいない
of syntactic dependency. As mentioned e.g. by K¨
ubler et al. (2009), on
of the traditional linguistic criteria for recognizing dependency relations (includin
their head-dependent orientation) is that a head H of a construction C determine
the syntactic category of C and can often replace C. Or, in words of “Dependenc
Analysis by Reduction” of Lopatkov´a et al. (2005), stepwise deletion of dependent e
ements within a sentence should preserve its syntactic correctness. A similar idea o
dependency analysis by splitting the sentence into all possible acceptable fragment
(Marecek, 2012)
is used by Gerdes and Kahane (2011).
their word-order positions. Distances between two dependent words (edge lengths)
are rather short in a typical case. Figure 5.4 shows the distributions of edge lengths
in four di↵erent treebanks. We can see that the probability of a dependency edge
between two words decreases rapidly with its length.
言語毎の距離の統計
30
Czech
English
German
Catalan
25
% occurences
20
15
10
5
0
-10 -9
-8
-7
-6
-5
-4
-3
-2
-1 0 1
Edge length
2
3
4
5
6
7
8
9
10
Figure 5.4: Distribution of edge lengths for various languages, as measured on Czech,
(Marecek, 2012)
reducibility
model
We assume that the probability
of such a subtree
is proportional to the reducibi
R(desc(i)).
1
Pr (i) = R(desc(i)) ,
(5.
✏r
where ✏d is the normalization constant and the hyperparameter determines
impact of this model.
‣ 文の中で,dependentになりやすい部分(例えば前置詞句)は,
Note
that the reducibility model is di↵erent from the previous three mod
削除しても意味が通る
since it
utilizes external large monolingual corpus to obtain the reducibility scor
ING
TREES
品詞nグラムに対するreducibility
削除しやすさ,を計算する
‣inference
ThePROJECTIVE
itself is done on a much=smaller
corpus. 57
wi をルートとする部分木のnグラムのreducibility
= 単語 ‣ R(desc(i))
5.5
Combining the Models

The previously
described models are combined
a single one by multiplying th

IN NNinto
というバイグラムは,
over all nodes
in the treebank. The main configuration used in our experiments
reducibilityが高い
combination of models defined in Equations 5.10, 5.18, 5.19, and 5.23. The form

 

そのような部分木を作る係 probability


for computing
ofthe whole
treebank
looks as follows:
り関係にバイアスがかかる
2.5


(Marecek, 2012)
reducibilityの学習
‣ 大規模コーパスから学習する
‣ ある品詞nグラム = g が削除可能である(reducibilityが高い)とき,
- コーパス中の g の品詞の列を探す
- その部分を削除した単語列が,コーパス中に出現するかどうか,を調べる
g = IN NN NN
Motorola
NNP
is
fighting
VBZ VBG
back
RB
against
IN
junk
mail
NN
NN
reducibilityの学習
‣ 大規模コーパスから学習する
‣ ある品詞nグラム = g が削除可能である(reducibilityが高い)とき,
- コーパス中の g の品詞の列を探す
- その部分を削除した単語列が,コーパス中に出現するかどうか,を調べる
g = IN NN NN
Motorola
is
fighting
back
この文が他の箇所で出現していれば,高いスコアがつく
reducibility score
46
unigrams
VB
TO
IN
VBD
CC
VBZ
NN
VBN
.
NNS
DT
NNP
JJ
RB
,
CD
CHAPTER 5. DEPENDENCY TREE MODELS
reduc.
0.04
0.07
0.11
0.12
0.13
0.16
0.22
0.24
0.32
0.38
0.43
0.78
0.84
2.07
3.77
55.6
bigrams
VBN IN
IN DT
NN IN
NNS IN
JJ NNS
NN .
DT NNP
DT NN
NN ,
DT JJ
JJ NN
NNP .
NN NN
IN NN
NNP NNP
IN NNP
reduc.
0.00
0.02
0.04
0.05
0.07
0.08
0.09
0.09
0.11
0.13
0.14
0.15
0.22
0.67
0.76
1.81
trigrams
IN DT JJ
JJ NN IN
NN IN NNP
VBN IN DT
JJ NN .
DT JJ NN
DT NNP NNP
NNS IN DT
NNP NNP .
NN IN DT
NNP NNP ,
IN DT NNP
DT NN IN
NNP NNP NNP
IN DT NN
IN NNP NNP
reduc.
0.00
0.00
0.00
0.00
0.00
0.04
0.05
0.14
0.15
0.23
0.46
0.55
0.59
0.64
0.80
4.27
Table 5.1: Reducibility scores of the most frequent English PoS n-grams. (V* are
verbs, N* are nouns, DET are determiners, IN are prepositions, JJ are adjectives,
(Marecek, 2012)
実験結果
‣ 多くの言語において,既存のモデルを上回る
7.5. COMPARISON WITH OTHER SYSTEMS
unambiguity regularization のほうが性能が上
‣ 英語では
CoNLL
language
code year
Arabic
ar
06
Arabic
ar
07
Basque
eu
07
Bulgarian
bg
06
Catalan
ca
07
Czech
cs
06
Czech
cs
07
Danish
da
06
Dutch
nl
06
English
en
07
German
de
06
Greek
el
07
Hungarian
hu
07
Italian
it
07
Japanese
ja
06
Portuguese
pt
06
Slovenian
sl
06
Spanish
es
06
Swedish
sv
06
Turkish
tr
07
Average:
 10 tokens
Gillen.2011 our parser
–
40.5
–
42.4
–
32.8
58.3
59.0
–
63.5
53.2
58.9
–
67.6
45.9
52.8
33.5
42.4
–
64.1
46.7
60.8
–
35.8
–
63.2
–
50.5
57.7
68.6
54.0
66.0
50.9
51.0
57.9
67.3
45.0
62.9
–
18.6
50.3⇤
59.0⇤
all sentences
Spitkov.2011 our parser
16.6
26.5
49.5
27.7
24.0
27.2
43.9
49.0
59.8
47.0
27.7
49.5
28.4
50.7
38.3
40.4
27.8
41.7
45.2
49.2
30.4
44.8
13.2
25.4
34.7
51.1
52.3
43.3
50.2
52.5
36.7
54.9
32.2
37.8
50.6
51.9
50.0
49.9
35.9
20.9
37.4
42.1
79
(Marecek, 2012)
教師なし係り受け解析まとめ
‣ 2つの方向性
- PCFGに変換した上で,様々な情報を加えていく
- Extended Model,TSG + DMV など
- (Projectiveな)木を生成する,新しい生成モデルを定義する
- Head automatonにとらわれずに柔軟な分布を設定できる
- 今後はこちらが流行るかも?
‣ 2012年の状況
- 生のコーパスのみからの推定は,2009年以降あまり進歩していない
- DMVからモデルを変えずに7割程度の精度を達成(今年)したことを考えると,
2004年からもあまり進歩していないような気も…
- 最近は他の方向性(多言語のデータを同時に学習,英語でのパラメタを他の言語
に投射する)が流行っている (Naseeem, et al., 2012; McDonald, et al., 2011)
- しかし言語の本質を考えるという点では,問題から逃げている?
- 工学的にはこちらも重要
参考文献
‣ Abney, S. P. 1987. The English Noun Phrase in its Sentential Aspect. PhD thesis, MIT.
‣ Alshawi, H. 1996 Head automata and bilingual tiling: Translation with minimal representations. In ACL
‣ Blunsom, P., and Cohn, T. 2010. Unsupervised induction of tree substitution grammars for dependency parsing. In EMNLP
‣ Brody, S. 2010. It depends on the translation: Unsupervised dependency parsing via word alignment. In EMNLP
‣ Carroll, G. and Charniak, E. 1992. Two experiments on learning probabilistic dependency grammars from corpora. In Working Notes of the
Workshop Statistically-Based NLP Techniques
‣ Cohen, S.B., Gimpel, K., and Smith, N.A. 2008. Logistic normal priors for unsupervised probabilistic grammar induction. In NIPS
‣ Cohen, S.B., and Smith, N.A. 2009. Shared logistic normal distributions for soft parameter tying in unsupervised grammar induction. In
NAACL-HLT
‣ Collins, M. 1999. Head-driven Statistical Models for Natural Language Parsing. Ph.D. thesis, The University of Pennsylvania.
‣ Gillenwater, J., Ganchev, K., Graca, J., Pereira, F., and Taskar, B. 2011. Posterior sparsity in unsupervised dependency parsing. In JMLR
‣ Klein, D. and Manning, C.D. 2002. A generative constituent-context model for improved grammar induction. In ACL
‣
‣
‣
‣
Klein, D. and Manning, C.D. 2004. Corpus-based induction of syntactic structure: Models of dependency and constituency. In ACL
Klein, D. 2005. The Unsupervised Learning of Natural Language Structure. PhD thesis, Stanford University
Marecek, D. 2012. Unsupervised Dependency Parsing. Ph.D. thesis, Unsupervised Dependency Parsing
McDonald, R.T., Petrov, S., and Hall, K., Multi-source transfer of delexicalized dependency parsers, In EMNLP
‣ Naseem, T., Barzilay, R., and Globerson, A., Selective Sharing for Multilingual Dependency Parsing, In ACL
‣ Paskin, M.A. 2001. Grammatical bigrams. In NIPS
‣ Seginer, Y. 2007. Learning syntactic structure. Ph.D. thesis, Universiteit van Amsterdam
‣ Smith, N.A. 2006. Novel Estimation Methods for Unsupervised Discovery of Latent Structure in Natural Language Text. Ph.D. thesis,
Department of Computer Science, Johns Hopkins University
‣ Spitkovsky, V.I., Alshawi, H., Jurafsky, D., and Manning, C.D. 2010. Viterbi training improves unsupervised dependency parsing. In CoNLL
‣ Tu, K and Honavar, V. 2012. Unambiguity regularization for unsupervised learning of probabilistic grammars. In EMNLP
‣ William P. Headden III, W.P., Johnson,M. and McClosky, D. 2009. Improving unsuper- vised dependency parsing with richer contexts and
smoothing. In NAACL-HLT