Learning Word Representations from Scarce and Noisy Data with

Learning Word Representations
from Scarce and Noisy Data
with Embedding Subspaces
ACL2015読み会@すずかけ台
名古屋工業大学大学院
M1 佐藤 元紀
[email protected]
1
よくある質問
Q. 何をしている人ですか?
A. 名古屋工業大学M1でしたが、休学している人です。
Q. 名古屋から来たの?
A. 3月までWeb系の会社でお世話になる予定です。
東京に引っ越してきて1ヶ月です。
Q. 4月からは?
A. NAIST松本研に入学する予定です。
2
紹介する論文
• 
Learning Word Representations from Scarce
and Noisy Data with Embedding Subspaces
• 
Ramon F. Astudillo, Silvio Amir, Wang Lin, Mario Silva, Isabel Trancoso
論文の目的
•  教師ありデータは少ない,教師なしデータは多い
•  単語の意味表現をラベルなしデータから学習し, 少ない教師ありデータで訓練すると過学習しやすい
•  各タスクに適した単語意味表現の部分空間への写像を学習
3
近年の単語の意味表現を使った研究
①教師無しで単語の意味表現を学習し、分類器を初期化
(unsupervised word embedding)
②教師データを使って各タスクに合わせて学習させる
→少ない教師データやノイズを含むデータの場合に過学習する
(例)ノイズの多いデータ = ソーシャルデータ
著者らの主張
•  ソーシャルデータはタイポ・スラング・略語が多く未知語が多い
•  教師データに含まれる単語の意味表現しかupdateされない
(教師データに無い単語はupdateされない)
•  タスクに合った単語の意味表現へのprojectionを学習しよう
4
アプローチ
教師なしデータ内の単語の意味表現
教師ありデータ内の単語意味表現(低次元)
教師ありデータ内に存在しないが
教師なしデータ内に存在するの単語の意味表現
の非線形写像を学習することで,(タスクに合った)
意味表現を全ての単語について学習できる.
※教師ありデータ内にのみ存在する単語は,zero vectorとする
or ランダムなベクトルで初期化する
5
提案手法
教師なしで学習済みの意味表現
(unsupervised embeddings)
(入力ベクトルは誤差伝搬で固定のまま)
1層の非線形隠れ層
(部分空間への写像)
(誤差伝搬で学習される)
全ての単語の意味表現の和
Softmaxでクラス分類
正解クラスから誤差伝搬
※赤字の2つが獲得できると主張している
6
評価実験
①Twitter Sentiment Analysis(SemEval)
• 
• 
• 
• 
• 
• 
• 
TwitterデータのPositive/Negative/ Neutralの3クラス分類
5200万tweets(vocab=21万語)で教師なし単語の意味表現を学習.
Structured Skip-Gramを使って学習
Structured Skip-Gram=語順を考慮したSkip-gramモデル
50, 200, 400 and 600 次元(入力ベクトル) => 5, 10, 20, 30次元
評価指標:平均F値
各クラスのデータサイズ
②Twitter POS Tagging
•  TwitterのPOS Taggingタスク
7
①実験結果(他の論文手法との比較)
•  NLSE (提案手法) 13年のデータ以外では最も高いF値
•  UNITN(他手法)
※提案手法が使ったラベル無しコーパスの65%も大きいラベルコーパスを
使っている
8
①実験結果(入力ベクトルを更新する or しない)
•  NLSE (提案手法)
•  NLSE*(提案手法)
•  Log-linear
•  Log-linear*
(ベースライン)
直接単語のベクトルを
特徴として入れる手法
入力ベクトルを訓練中に
更新しない場合 :*なし
更新する場合
:*あり
※600次元→10次元
入力ベクトルを更新せずに写像のみと分類器のパラメータを
更新する場合の方が良い結果となった.
9
①実験結果(写像後ベクトルの次元)
部分空間への写像後のベクトルの次元数を変えても大きな変化はない
x=0の点は,Log-linear分類器で部分空間への写像はなし(ベースライン).
※600次元から各次元へ写像
10
評価実験
②Twitter POS Tagging
•  TwitterのPOS Taggingタスク
•  前後2単語から単語の品詞を推定
Train-all : (baseline)
写像なし
Train-oov :
未知語の扱いを工夫
Fix :
入力ベクトルは固定
(前実験では1番いい結果の
設定)
写像なしのbaselineよりも
結果が悪化する.
Q.なぜAccuracyが悪化す
る?
11
②実験結果
Q. なぜ提案手法のAccuracyが下がった?
写像なし(baseline)よりも提案手法がAccuracyが下がった.
教師なしコーパスの中に存在しない単語は未知語扱いとなり,
未知語はzeroベクトルとして扱われている.
→ Zeroベクトルだと情報がないため、エラーを引き起こしてしまう.
未知語を乱数で初期化されたベクトルとし,未知語ベクトルは誤差伝搬で
ベクトルを更新するように変更(Train-oov)
少しではあるがAccuracyがbaselineよりも上がった.
12
まとめ
•  Unsupervised Embeddingsからタスク特有の部分ベクトル空
間への写像を学習する
•  写像を学習することで教師データに含まれない単語も写像を計算す
ることができる
•  Sentiment Analysisではstate of the artを出せた.
•  computed embeddings should be kept fixed, when
little labeled data is available to re-train them.
•  POS Taggingではイマイチ ←おそらく未知語?
(個人的な感想)
•  写像後の単語ベクトルの可視化などをして欲しかった.
•  POS Taggingの一般的な未知語の扱いが気になった.
13
(補足)Structured Skip-Gram
https://github.com/ramon-astudillo/NLSE
https://github.com/wlin12/wang2vec
14
UNTN
15