A Structured Vector Space Model for Word Meaning in Context

EMNLP 2008 読み会
Katrin Erk and Sebastian Pado.
“A Structured Vector Space Model
for Word Meaning in Context”
2008-11-14(金)
奈良先端大 D2 小町守
どのように単語の意味を
モデル化するか
• 単語の意味のモデル化→意味空間
– 高次元のベクトルで単語の意味を表現
– 各ベクトルは1つの見出し語→多義性の問題
• 単語の意味は文脈によって違う
– Catch a ball (grab; ボールをつかむ)
– Catch a disease (contract; 病気にかかる)
– Attend a ball (a dancing event; ダンスパーティに
出る)
– →既存手法はこの違いをうまく表現できない
08.11.14
2
本論文のポイント
Vector space model
単語をVSMで表現する既存手法の問題点
• 統語関係が無視されている
• フレーズは1つのベクトルで表現しきれない
• 統語関係を考慮に入れたVSMの提案
→structured vector space model (SVS)
• SVS は単語類似度・言い換えタスクでの stateof-the-art と同程度かそれ以上の性能
08.11.14
3
関連研究
08.11.14
4
言語構造を用いず文脈を使う
• Schuetze (CL 1998)
– 1次ベクトル→いわゆる共起ベクトル
– 2次ベクトル
• ウィンドウ幅の中での単語の1次ベクトルの和
• 語義クラスタを形成
• McDonald and Brew (ACL 2004)
– Wiの期待値はw1…wi-1の1次ベクトルの和
– Wiの期待値とwiの1次ベクトルは人間の読み取り
時間と相関がある
08.11.14
5
述語項構造を用いる
(述語と項のペアをモデル化する)
• Kintsch (Cognitive Science 2001)
– ベクトル化されたpとaを用いて(p,a)のペアに似た
ペアを探す
– →クラスタの意味は各(p,a)ベクトルのセントロイド
• Mitchell and Lapata (ACL 2008)
– p + a の組 c = f(p,a,R,K)
• Rはpとaの間の関係・Kは追加知識
– 実際はRもKも使っていない→関係は無視
08.11.14
6
テンソル積に基づく手法
• Smolensky (Artificial Intelligence 1990)
– ベクトルaとbの結合 c  a  b
– 構造をエンコードできるが……→次元の呪い
• Jones and Mewhort (Psychological review 2007)
– Circular convolution を用いて n-gram の共起情報

を固定された次元に落とし込む→上述の問題を
回避
– 統語構造は用いていない
08.11.14
7
カーネル法とVSMの違い
• カーネルとVSMとの共通点
– 文脈が与えられたときの言い換え可能性の尺度に用
いることができる
– 類似性の効率的な計算に implicit な素性空間を用い
ることができる
• カーネルとVSMとの相違→用いる情報の力点
– 木カーネルでは統語構造の類似性のスムージングに
意味情報を用いる (Moschitti and Quarteroni, ACL
2008)
– VSM では単語の意味の相互作用に焦点がある
08.11.14
8
文脈を考慮に入れた語義モデル
08.11.14
9
Catch と ball の「意味」
08.11.14
10
Structured Vector Space Model
• 見出し語wの意味→ベクトルvと(逆)選択選好を
表現する関係ラベルR、R-1の三つ組み
• ある単語aの意味を別の単語bの文脈で計算
←→単語bの意味を単語bの文脈で計算
なんらかの演算(ベクトルの足し算もしくは要素ごとのかけ算)
• Mitchell & Lapata (2008) の枠組みで表現可能
08.11.14
11
Catch と ball の語義の計算
08.11.14
12
実験
08.11.14
13
類似度を予測する
• データ: Mitchell and Lapata (2008) のデータ
セット(M&L)
– 120個の項目(15動詞・4名詞・2landmark)
これを当てる
– →3,600事例
(1-7まで)
– 入力は文
08.11.14
14
共起の取り方
• Bag-of-words
– ウィンドウサイズ10単語
– BNC から計算、頻度上位から2,000次元を素性に
• Dependency-based
– Dependency graph でのパスを共起とカウント
– BNC を Minipar (Lin 1993) で処理したものを使用
• 共起尺度は頻度そのものと pointwise mutual
information を使ったものと比較
08.11.14
15
提案モデル
• 単語bと関係rの選択選好ベクトルの計算
• パラメータθとnはheldoutデータセットで最適
化
08.11.14
16
ベースライン
• Target only
– Landmark と動詞のベクトルを比較
• Selpref only
– 名詞の subj-1 の選択選好と比較
08.11.14
17
評価項目
• Mitchell & Lapata (2008) に準拠
– High: 関係性が高い landmark についての
(cosine)類似度の平均
– Low: 関連性が低い landmark についての
(cosine)類似度の平均
– Spearman の ρ
• 人手の判断との相関(高いほどよい)
• M&L によるとこのデータでの upper bound は 0.4
の3つの尺度で評価
08.11.14
18
SELPREF-POWはBOWのノイズ削減に
役立っている
08.11.14
19
依存構造は人手との相関が高い
08.11.14
20
M&Lや先行研究のように直接共起
ベクトルを用いるのとどう違うのか?
• Subj-1 と提案モデルの(cosine)類似度の平均
を調べてみた
• 相関はほとんどない(にも関わらず)人手との
相関が高い→M&Lとは違った予測をしている
08.11.14
21
言い換えのランキング
• データ: SemEval-1 lexical substitution データ
セット(の一部)
08.11.14
このランキングを当てる
(置換不可能なものは下
位になるようにランク)
22
逆選択選好のモデル化は
言い換えタスクに有効
• データを Subj-1, obj-1, obj に分割して評価
• ただし
08.11.14
i:=インスタンス(|I|はインスタンス数)
M:=モデルの言い換えトップ10
G:=人手でつけた正解の言い換え
f(s,i):=iをsに言い換えた頻度
23
結論と今後の課題
08.11.14
24
選択選好を考慮した一般的なモデル
• 文脈を考慮した語義モデルを提案
• 選択選好を表現するベクトルも保持している
• 類似度・言い換えタスクで Mitchell & Lapata
2008 を上回る性能(統計的には有意でない)
今後の課題
• 複数の関係を同時に考慮するモデル
• 推論にいかに組み込んでいくか
08.11.14
25