ACL2015読み会@すずかけ台 Unsupervised Prediction of Acceptability Judgements Jey Han Lau, Alexander Clark, Shalom Lappin 紹介者: 笹野(東工大) What is Acceptability Judgement? • Probability of a sentence – 文の生成確率 – 長い文や、珍しい語を含む文は低い値 • Acceptability – Native speakerが正しい文として容認できる度合 – 文の長さや語の希少性にあまり依存しない Probability: 大 無色を緑色が眠る。 Acceptability: 小 Probability: 小 NLP業界で耳にする珍しい苗字の世帯数を某サイトで調べ Acceptability: 大 てみたら、真嘉比が4世帯で最小で、他にも井佐原、颯々野、 篠埜、宇津呂、馬緤、萩行、持橋あたりが20世帯以下だった。 2 Methodology 1. 大規模コーパスから確率言語モデルを学習 ‐gramをはじめ、Bayesianやニューラルネット ベース等の 3. Unsupervised Models を使用 – BNC中の書き言葉文約1億語(BNC‐100M)で訓練 – 2. 確率を容認度スコアに変換 – 5つの 2. Acceptability Measures で変換 – 人手により作成した 1. Dataset for Assessment とのPearson correlation coefficientで評価 3 1. Dataset for Assessment 1. Google翻訳でBritish National Corpus (BNC)、および、 Wikipedia (ENWIKI)をノルウェー語、スペイン語、日本語、 中国語に翻訳し、それを英語に再翻訳(= round trip MT) 2. 手順1で生成された2500文をAmazon Mechanical Turkを 用い下記の3方式でアノテーション 1. 2. 3. 2段階評価(unnatural, natural) 4段階評価([extremely, somewhat]+[unnatural, natural]) Sliding scale (extremely unnatural ~ extremely natural) – 文ごとに複数の母語話者による評価値を算術平均 – 3方式で得られたデータ間には強い相関 – 以降、『2. 4段階評価』の結果を評価データとして使用 4 2. Acceptability Measures : モデルが出力する の確率 : unigramによる の確率 対数確率(baseline) 文長で正規化 Unigram確率で正規化(除算) Unigram確率で 正規化(減算) を 文長で正規化 (Syntactic Log‐Odds Ratio) 5 3. Unsupervised Models 1. 2. 3. 4. 5. 6. 7. Lexical ‐gram Model Bayesian HMM LDAHMM and LDA • Two‐Tier BHMM • Bayesian Chunker RNN Language Model PCFG Parser (Supervised) Training 2‐gram, 3‐gram, and 4‐gram with Kneser‐Ney interpolation 6 3. Unsupervised Models 1. 2. 3. 4. 5. 6. 7. Lexical ‐gram Model Bayesian HMM LDAHMM and LDA Two‐Tier BHMM Bayesian Chunker RNN Language Model PCFG Parser (Supervised) • 2nd order BHMM [Goldwater & Griffiths ‘07] 7 3. Unsupervised Models 1. 2. 3. 4. 5. 6. 7. Lexical ‐gram Model Bayesian HMM LDAHMM and LDA Two‐Tier BHMM Bayesian Chunker RNN Language Model PCFG Parser (Supervised) • Add another layer to BHMM • Use phrase classes to drive word class 8 3. Unsupervised Models 1. 2. 3. 4. 5. 6. 7. Lexical ‐gram Model Bayesian HMM LDAHMM and LDA Two‐Tier BHMM Bayesian Chunker RNN Language Model • LDA‐HMM [Griffiths+’04] HMM [Griffiths+’04] PCFG Parser (Supervised) • Combines syntactic and semantic dependencies • LDA [Blei+’03] 9 3. Unsupervised Models 1. 2. 3. 4. 5. 6. 7. Lexical ‐gram Model Bayesian HMM LDAHMM and LDA Two‐Tier BHMM Bayesian Chunker RNN Language Model • Extend [Goldwater+’09] and [Newman+’12], which uses DP, to segment word classes PCFG Parser (Supervised) • Idea: A well‐formed sentence contains • predictable patterns of word class chunks Input: Word classes induced by 2T‐BHMM 10 3. Unsupervised Models 1. 2. 3. 4. 5. 6. 7. Lexical ‐gram Model Bayesian HMM LDAHMM and LDA Two‐Tier BHMM Bayesian Chunker RNN Language Model PCFG Parser (Supervised) • Recurrent neural network [Mikolov’12] • Keeps previous context 11 3. Unsupervised Models 1. 2. 3. 4. 5. 6. 7. Lexical ‐gram Model • Stanford Parser (supervised) Bayesian HMM [Klein and Manning‘03] • Trained mainly on WSJ LDAHMM and LDA • The scores are arbitrary values for ranking parse tree Two‐Tier BHMM Bayesian Chunker RNN Language Model PCFG Parser (Supervised) 12 Experimental Results [cf. Human Judge: 0.67] [cf. Human Judge: 0.74] 13 Comparison with a Supervised System • 教師あり条件でも実験 on BNC & ENWIKI – unsupervised modelsの出力を素性にSVR(RBF Kernel)を適用 – BNC: 0.64 (⇔0.53), ENWIKI: 0.69 (⇔0.57) Comparison with [Heilman et al.’14] • Comparison with [Heilman et al.’14] – Deep parserを利用(Link Grammar Parser, HPSG parser (PET)) – 英語学習者のエッセイから成るデータ(GUG)で実験 4‐gram× SVR with RBF kernelで学習 学習者のエッセイなのでSpellingミスが多い⇒Spelling素性を追加 14 Influence of Sentence Length and Lexical Frequency 15 Summary • Task: Unsupervised prediction of acceptability – 文の生成確率を文長、語の出現頻度を考慮し変換 • 教師なし言語モデル: ~10手法( ‐gram, BHMM, RNNLM, etc.) • ProbabilityからAcceptabilityへの変換: 5手法 (=~50尺度) – Crowdsourcingを用いて作ったデータとの相関で評価 • Conclusion: ( – BNC: 0.53 [⇔ 0.67], ENWIKI: 0.57 [⇔0.74] ([]: human judge) – 教師なし確率モデル: RNNLM >> Two‐Tier BHMM > … – 容認度への変換方法: > >> … 16
© Copyright 2025 ExpyDoc