EMNLP 2008 読み会 Katrin Erk and Sebastian Pado. “A Structured Vector Space Model for Word Meaning in Context” 2008-11-14(金) 奈良先端大 D2 小町守 どのように単語の意味を モデル化するか • 単語の意味のモデル化→意味空間 – 高次元のベクトルで単語の意味を表現 – 各ベクトルは1つの見出し語→多義性の問題 • 単語の意味は文脈によって違う – Catch a ball (grab; ボールをつかむ) – Catch a disease (contract; 病気にかかる) – Attend a ball (a dancing event; ダンスパーティに 出る) – →既存手法はこの違いをうまく表現できない 08.11.14 2 本論文のポイント Vector space model 単語をVSMで表現する既存手法の問題点 • 統語関係が無視されている • フレーズは1つのベクトルで表現しきれない • 統語関係を考慮に入れたVSMの提案 →structured vector space model (SVS) • SVS は単語類似度・言い換えタスクでの stateof-the-art と同程度かそれ以上の性能 08.11.14 3 関連研究 08.11.14 4 言語構造を用いず文脈を使う • Schuetze (CL 1998) – 1次ベクトル→いわゆる共起ベクトル – 2次ベクトル • ウィンドウ幅の中での単語の1次ベクトルの和 • 語義クラスタを形成 • McDonald and Brew (ACL 2004) – Wiの期待値はw1…wi-1の1次ベクトルの和 – Wiの期待値とwiの1次ベクトルは人間の読み取り 時間と相関がある 08.11.14 5 述語項構造を用いる (述語と項のペアをモデル化する) • Kintsch (Cognitive Science 2001) – ベクトル化されたpとaを用いて(p,a)のペアに似た ペアを探す – →クラスタの意味は各(p,a)ベクトルのセントロイド • Mitchell and Lapata (ACL 2008) – p + a の組 c = f(p,a,R,K) • Rはpとaの間の関係・Kは追加知識 – 実際はRもKも使っていない→関係は無視 08.11.14 6 テンソル積に基づく手法 • Smolensky (Artificial Intelligence 1990) – ベクトルaとbの結合 c a b – 構造をエンコードできるが……→次元の呪い • Jones and Mewhort (Psychological review 2007) – Circular convolution を用いて n-gram の共起情報 を固定された次元に落とし込む→上述の問題を 回避 – 統語構造は用いていない 08.11.14 7 カーネル法とVSMの違い • カーネルとVSMとの共通点 – 文脈が与えられたときの言い換え可能性の尺度に用 いることができる – 類似性の効率的な計算に implicit な素性空間を用い ることができる • カーネルとVSMとの相違→用いる情報の力点 – 木カーネルでは統語構造の類似性のスムージングに 意味情報を用いる (Moschitti and Quarteroni, ACL 2008) – VSM では単語の意味の相互作用に焦点がある 08.11.14 8 文脈を考慮に入れた語義モデル 08.11.14 9 Catch と ball の「意味」 08.11.14 10 Structured Vector Space Model • 見出し語wの意味→ベクトルvと(逆)選択選好を 表現する関係ラベルR、R-1の三つ組み • ある単語aの意味を別の単語bの文脈で計算 ←→単語bの意味を単語bの文脈で計算 なんらかの演算(ベクトルの足し算もしくは要素ごとのかけ算) • Mitchell & Lapata (2008) の枠組みで表現可能 08.11.14 11 Catch と ball の語義の計算 08.11.14 12 実験 08.11.14 13 類似度を予測する • データ: Mitchell and Lapata (2008) のデータ セット(M&L) – 120個の項目(15動詞・4名詞・2landmark) これを当てる – →3,600事例 (1-7まで) – 入力は文 08.11.14 14 共起の取り方 • Bag-of-words – ウィンドウサイズ10単語 – BNC から計算、頻度上位から2,000次元を素性に • Dependency-based – Dependency graph でのパスを共起とカウント – BNC を Minipar (Lin 1993) で処理したものを使用 • 共起尺度は頻度そのものと pointwise mutual information を使ったものと比較 08.11.14 15 提案モデル • 単語bと関係rの選択選好ベクトルの計算 • パラメータθとnはheldoutデータセットで最適 化 08.11.14 16 ベースライン • Target only – Landmark と動詞のベクトルを比較 • Selpref only – 名詞の subj-1 の選択選好と比較 08.11.14 17 評価項目 • Mitchell & Lapata (2008) に準拠 – High: 関係性が高い landmark についての (cosine)類似度の平均 – Low: 関連性が低い landmark についての (cosine)類似度の平均 – Spearman の ρ • 人手の判断との相関(高いほどよい) • M&L によるとこのデータでの upper bound は 0.4 の3つの尺度で評価 08.11.14 18 SELPREF-POWはBOWのノイズ削減に 役立っている 08.11.14 19 依存構造は人手との相関が高い 08.11.14 20 M&Lや先行研究のように直接共起 ベクトルを用いるのとどう違うのか? • Subj-1 と提案モデルの(cosine)類似度の平均 を調べてみた • 相関はほとんどない(にも関わらず)人手との 相関が高い→M&Lとは違った予測をしている 08.11.14 21 言い換えのランキング • データ: SemEval-1 lexical substitution データ セット(の一部) 08.11.14 このランキングを当てる (置換不可能なものは下 位になるようにランク) 22 逆選択選好のモデル化は 言い換えタスクに有効 • データを Subj-1, obj-1, obj に分割して評価 • ただし 08.11.14 i:=インスタンス(|I|はインスタンス数) M:=モデルの言い換えトップ10 G:=人手でつけた正解の言い換え f(s,i):=iをsに言い換えた頻度 23 結論と今後の課題 08.11.14 24 選択選好を考慮した一般的なモデル • 文脈を考慮した語義モデルを提案 • 選択選好を表現するベクトルも保持している • 類似度・言い換えタスクで Mitchell & Lapata 2008 を上回る性能(統計的には有意でない) 今後の課題 • 複数の関係を同時に考慮するモデル • 推論にいかに組み込んでいくか 08.11.14 25
© Copyright 2024 ExpyDoc