Unsupervised Prediction of Acceptability Judgements

ACL2015読み会@すずかけ台
Unsupervised Prediction of
Acceptability Judgements
Jey Han Lau, Alexander Clark, Shalom Lappin
紹介者: 笹野(東工大)
What is Acceptability Judgement?
• Probability of a sentence
– 文の生成確率
– 長い文や、珍しい語を含む文は低い値
• Acceptability
– Native speakerが正しい文として容認できる度合
– 文の長さや語の希少性にあまり依存しない
Probability: 大
無色を緑色が眠る。 Acceptability: 小
Probability: 小
NLP業界で耳にする珍しい苗字の世帯数を某サイトで調べ
Acceptability: 大
てみたら、真嘉比が4世帯で最小で、他にも井佐原、颯々野、
篠埜、宇津呂、馬緤、萩行、持橋あたりが20世帯以下だった。
2
Methodology
1. 大規模コーパスから確率言語モデルを学習
‐gramをはじめ、Bayesianやニューラルネット
ベース等の 3. Unsupervised Models を使用
– BNC中の書き言葉文約1億語(BNC‐100M)で訓練
–
2. 確率を容認度スコアに変換
– 5つの 2. Acceptability Measures で変換
– 人手により作成した 1. Dataset for Assessment
とのPearson correlation coefficientで評価
3
1. Dataset for Assessment
1. Google翻訳でBritish National Corpus (BNC)、および、
Wikipedia (ENWIKI)をノルウェー語、スペイン語、日本語、
中国語に翻訳し、それを英語に再翻訳(= round trip MT)
2. 手順1で生成された2500文をAmazon Mechanical Turkを
用い下記の3方式でアノテーション
1.
2.
3.
2段階評価(unnatural, natural)
4段階評価([extremely, somewhat]+[unnatural, natural])
Sliding scale (extremely unnatural ~ extremely natural)
– 文ごとに複数の母語話者による評価値を算術平均
– 3方式で得られたデータ間には強い相関
– 以降、『2. 4段階評価』の結果を評価データとして使用
4
2. Acceptability Measures
: モデルが出力する の確率
: unigramによる の確率
対数確率(baseline)
文長で正規化
Unigram確率で正規化(除算)
Unigram確率で
正規化(減算)
を
文長で正規化
(Syntactic Log‐Odds Ratio)
5
3. Unsupervised Models
1.
2.
3.
4.
5.
6.
7.
Lexical ‐gram Model
Bayesian HMM
LDAHMM and LDA
•
Two‐Tier BHMM
•
Bayesian Chunker
RNN Language Model
PCFG Parser (Supervised)
Training 2‐gram, 3‐gram, and 4‐gram with Kneser‐Ney interpolation 6
3. Unsupervised Models
1.
2.
3.
4.
5.
6.
7.
Lexical ‐gram Model
Bayesian HMM
LDAHMM and LDA
Two‐Tier BHMM
Bayesian Chunker
RNN Language Model
PCFG Parser (Supervised)
• 2nd order BHMM [Goldwater & Griffiths ‘07]
7
3. Unsupervised Models
1.
2.
3.
4.
5.
6.
7.
Lexical ‐gram Model
Bayesian HMM
LDAHMM and LDA
Two‐Tier BHMM
Bayesian Chunker
RNN Language Model
PCFG Parser (Supervised)
• Add another layer to BHMM
• Use phrase classes to drive word class 8
3. Unsupervised Models
1.
2.
3.
4.
5.
6.
7.
Lexical ‐gram Model
Bayesian HMM
LDAHMM and LDA
Two‐Tier BHMM
Bayesian Chunker
RNN Language Model
• LDA‐HMM [Griffiths+’04] HMM [Griffiths+’04] PCFG Parser (Supervised)
• Combines syntactic and semantic dependencies
• LDA [Blei+’03]
9
3. Unsupervised Models
1.
2.
3.
4.
5.
6.
7.
Lexical ‐gram Model
Bayesian HMM
LDAHMM and LDA
Two‐Tier BHMM
Bayesian Chunker
RNN Language Model
• Extend [Goldwater+’09] and [Newman+’12], which uses DP, to segment word classes
PCFG Parser (Supervised)
• Idea: A well‐formed sentence contains •
predictable patterns of word class chunks
Input: Word classes induced by 2T‐BHMM
10
3. Unsupervised Models
1.
2.
3.
4.
5.
6.
7.
Lexical ‐gram Model
Bayesian HMM
LDAHMM and LDA
Two‐Tier BHMM
Bayesian Chunker
RNN Language Model
PCFG Parser (Supervised)
• Recurrent neural network [Mikolov’12]
• Keeps previous context
11
3. Unsupervised Models
1.
2.
3.
4.
5.
6.
7.
Lexical ‐gram Model
• Stanford Parser (supervised) Bayesian HMM
[Klein and Manning‘03]
• Trained mainly on WSJ
LDAHMM and LDA • The scores are arbitrary values for ranking parse tree
Two‐Tier BHMM
Bayesian Chunker
RNN Language Model
PCFG Parser (Supervised)
12
Experimental Results
[cf. Human Judge: 0.67]
[cf. Human Judge: 0.74]
13
Comparison with a Supervised System
• 教師あり条件でも実験 on BNC & ENWIKI – unsupervised modelsの出力を素性にSVR(RBF Kernel)を適用
– BNC: 0.64 (⇔0.53), ENWIKI: 0.69 (⇔0.57)
Comparison with [Heilman et al.’14]
• Comparison with [Heilman
et al.’14]
– Deep parserを利用(Link Grammar Parser, HPSG parser (PET))
– 英語学習者のエッセイから成るデータ(GUG)で実験
4‐gram×
SVR with RBF kernelで学習
学習者のエッセイなのでSpellingミスが多い⇒Spelling素性を追加
14
Influence of Sentence Length and
Lexical Frequency
15
Summary
• Task: Unsupervised prediction of acceptability
– 文の生成確率を文長、語の出現頻度を考慮し変換
• 教師なし言語モデル: ~10手法( ‐gram, BHMM, RNNLM, etc.) • ProbabilityからAcceptabilityへの変換: 5手法 (=~50尺度)
– Crowdsourcingを用いて作ったデータとの相関で評価
• Conclusion: (https://github.com/jhlau/acceptability_prediction)
– BNC: 0.53 [⇔ 0.67], ENWIKI: 0.57 [⇔0.74] ([]: human judge)
– 教師なし確率モデル: RNNLM >> Two‐Tier BHMM > …
– 容認度への変換方法: > >> …
16