pptx

Semantic Representation for Domain Adaptation:
A Case Study on the Tree Kernel-based Method
for Relation Extraction
THIEN HUU NGUYEN , BARBARA PLANK AND RALPH GRISHMAN
ACL 2015 読み会 古宮嘉那子(茨城大学)
概要
タイトル訳:領域適応のための意味表現:関係抽出のためのツリー
カーネルベースの手法
関係抽出(RE)の領域適応のための意味表現を作る Word
Embedding (WE)に関する研究
よりよい意味表現の作り方を調べる
ツリーカーネルベースと素性ベースのRE どちらの方がよいかフェア
に比較
ツリーカーネルベースの方が精度が高く,ドメインの変更にも強いこ
とを示す
前提
関係抽出(RE)とは:
文中の二つのエンティティの意味的な関係を見つけるタスク
領域適応とは:
対象文書とことなったジャンルの文書で学習を行う際,性能をよくす
る技術
◦ Unsupervised(ターゲットデータのラベルが一切ない場合)の領域適応
を行う
◦ 関連があるマルチターゲットドメイン対応にしたい
WEを用いる領域適応
これまでは素性ベースのものだけ
質問1 ツリーカーネルベースの手法にWEを利用できるか?
(もっと重要)どうやったら効率的にできるか?
→ツリーカーネルだと,シンボリックマッチなのでWEの実数値が扱い
づらい
→単語間の類似度をWEで測ってこれを利用する(Plank and
Moschitti 2013)に対して変更
WEを用いる領域適応
質問2 以下のふたつの手法,どっちがWEにあっているか?
1. 素性ベースの手法(Nguyen and Grishman 2014)
2. ツリーカーネルベースの手法 semantic syntactic tree kernel
SSTK(Plank and Moschitti 2013)
→使うデータを同じにして,設定をそろえて,フェアに比較する
(ツリーカーネルベースと素性ベースのREを比較する論文は初)
ツリーカーネルベースの手法
Relation mention(二つのエンティティとそれらを含む文) は 木構
造で表現される
これらの類似度を求めるためにsyntactic tree kernel(STK)を定義
→共通のサブツリーを数える手法
→この手法だと,類似単語に対応できない(マッチング不可能)
(Plank and Moschitti 2013) はsemantic syntactic tree kernel SSTK
により領域適応を行った
SSTK
1. 品詞ノードをターミナル(単語)の単語クラスタに置き換える
→品詞の類似から意味的な類似に
2. LSAで巨大コーパスから得られた類似度で単語間の類似度がバイナ
リだったのを置き換えた
→見た目は違っても潜在的意味が同じ単語のソフトマッチ可能に
これらの二つの手法で,異なったドメインでの単語の意味の一致をみられ
るようにした
(*ここではまだWEは利用していない)
素性ベースの手法(Nguyen and Grishman 2014)
Relation mentionはたくさんの素性を持つベクトルとして表現される
ベクトルを最大エントロピー法などの分類器で分類する
→領域のシフトによって素性の性質が変化すると、性能が落ちる
→密な低次元ベクトルであるWEを素性として追加する
ツリーカーネルベースvs素性ベース
二つの手法を比較するために、リソースと素性をそろえる
素性ベースで利用した素性は、ツリーカーネルベースと等しいが、
それでもstate of the artのシステムと同等の素性
単語クラスタ+WE
語彙的素性:内容語、ヘッドの単語、バイグラム、単語数、レキシ
カルパス、mentionの順番
統語的素性:木構造の中の二つのmentionをつなぐパス、このパ
スに沿ったユニグラム、バイグラム、トライグラム などを含む
仮説
REの領域適応には
1. 同じ素性を利用するなら、木構造という手がかりがある分、ツ
リーカーネルベースの方がいいはず
2. やたらと領域に敏感な素性がないため、ツリーカーネルベース
の方がいいはず
WE+ツリーカーネル (提案手法)
これまでのSSTKは統語的情報に重きを置いていた
→意味が近くても文法が異なれば、同じような関係だということが
とらえられなかった
例)Tom is CEO of the companyとThe company, headed by Tom
ここに汎化された意味表現を持ち込むことで、異なったドメイン上で
も効果が出るようにしたい
WE+ツリーカーネル (提案手法)
𝑅𝑖 = (𝑇𝑖 , 𝑉𝑖 )
(Tはツリーに対応、VはWEのベクトルとする)と、新しい
カーネルは以下のように表せる
𝐾𝑛𝑒𝑤 (𝑅𝑖 , 𝑅𝑗 )=(1-𝛼)SSTK(𝑇𝑖 , 𝑇𝑗 )+ 𝛼𝐾𝑣𝑒𝑐 (𝑉𝑖 , 𝑉𝑗 )
𝐾𝑣𝑒𝑐 は多項式カーネルのような一般的なカーネル
αはトレードオフ・パラメータ
WE+ツリーカーネル (提案手法)
単語レベルのWEだけではなく、全体的なembeddingを提案
HEAD:二つのmentionのヘッドの単語のWEを連結する
ひとつのWEのベクトルの次元がdとすると、2d次元
PHRASE:木構造中の単語のWEの平均
単純な方法だが、句の意味を表すState-of-the-art
TREE:ボトムアップにWEを平均 ルートノードのベクトルを利用
これら三つの手法の組み合わせも見る
SIM:SSTK+WEではなく、SSTKの中にWE
(LSAの代わりにWEで測ったの単語間類似度を使う)
実験データ
ACE2005のニュースやブログなどの6ジャンルの文書
そのうち5ジャンルを実験に使用
◦ 2ジャンル:ソースデータ
◦ 1ジャンル:開発データの1/2
◦ 3ジャンル:ターゲットデータ (開発データは除く)
開発データ(broadcast conversation)の正解率
(ツリーカーネルベース)
手法
ベースライン PET(2013)
PET+SIM
PET+HEAD
PET+PHRASE
PET+TREE
PET+HEAD+PHRASE
PET+HEAD+TREE
PET+PHRASE+TREE
PET+HEAD+PHRASE+TREE
精度
52.2
39.4
60.4
58.4
59.8
63.2
61.0
59.2
60.8
再現率
41.7
37.2
44.9
40.7
42.2
46.2
45.7
42.4
45.2
F1
46.4
38.3
51.5
48.0
49.5
53.4
52.3
49.4
51.9
実験結果
SIM(LSAとWEの類似度の置き換え)はよくない
HEAD、PHRASE、TREEどれも単独で良い
HEADが少しリードしている
HEAD+PHRASEやHEAD+TREEが良さそう
PHRASEとTREEは手法として似ているせいか、組み合わせてもダメ
最も良かったのは、HEAD+PHRASE
このとき、α=0.7 (意味情報の方が重要)
以降、HEAD+PHRASE α=0.7を利用
領域適応の実験のデータ
1. indomain 領域適応ではない 5分割交差検定
nw(ニュース)+bn(ブロードキャストニュース)
2. Outdomain 領域適応 3ジャンルのターゲットデータ
• bc(ブロードキャストの会話)
• cts(電話の会話)
• wl(ブログ)
ターゲットデータの正解率(白はベースライン)
実験結果
2-4行目の比較はあまり違わない→単語クラスタはWEと併用する意味なし
2-6行目の比較は違いがある→LSAはWEと併用する意味がある
4-8行目、6-10行目の比較は違いがある
→PET_WCカーネルやPET_LSAカーネルにPETカーネル(ベースラインカーネ
ル)を追加するのは意味がある
LSAでも単語クラスタでもWEの追加は有効
bcとwlではPET+PET_WC+PET_LSA+WEが最高(12行目)
ctsではPET+PET_WC+WEが最高(8行目)
PET+PET_WC+PET_LSA+WE(12行目)はどのドメインでも有意に向上
開発データ(broadcast conversation)の正解率
(素性ベース)
手法
B(ベースライン)
B+HEAD
B+PHRASE
B+TREE
B+HEAD+PHRASE
B+HEAD+TREE
B+PHRASE+TREE
B+HEAD+PHRASE+TREE
精度
51.2
55.8
50.7
53.6
53.2
54.9
50.7
52.7
再現率
49.4
52.4
46.2
51.1
50.1
51.4
48.4
49.4
F1
50.3
54.0
48.4
52.3
51.6
53.1
49.5
51.0
ツリーカーネルベースvs素性ベース
素性ベースの時は、ツリーカーネルと相性が良い
ツリーカーネルベースの時には、 HEAD+PHRASEがHEAD+TREEより良い
これは多分、素性ベースには木構造がないため
素性ベースだと、1位:HEAD、2位:HEAD+TREE、3位:TREEだった
これら三つと、ツリーカーネルの1位( HEAD+PHRASE )を比較
LSAは素性ベースには入れにくかったので、入れていない
ターゲットデータの正解率(ツリーカーネルvs素性)
提案手法である、ツリーカーネル+WEが最も良い(仮説は正しかった!)
ターゲットデータの正解率(白はベースライン) 再掲
ツリーカーネルベース+WE
11-12行目の比較より、WEの追加で再現率があがった
Sergeant Chuck Hagel was seriously wounded twice in Vietnamがとれるよう
になった
(WEの追加により、「場所」という関係がソースデータからとれたから)
しかし、この「場所」という関係は、意味的な類似では9番目の類似
ツリーカーネルとの併用によって、もっとも似ていることを当てた
Troops have dislodged stubborn Iraqi soldiersは素性ベースでととれなかっ
たが、ツリーカーネルベースではとれた
Troopとsoldiersの語彙的な関係のバイアスが原因で失敗→雇用関係
まとめと展望
関係抽出の領域適応
ツリーカーネルベース+word embedding
word embeddingの追加により7%性能が上昇
素性ベース+word embeddingとツリーカーネルベース+word embedding
を比較して、ツリーカーネルベース+word embeddingが良いことを示した
他の統語的、意味的な構造(係り受け木など)を試したい
もっとリソースが使えるようになったらツリーカーネルベースと素性ベース
をもう一度比較したい