ポスター - 東京大学

半教師有り再帰的オートエンコーダの生体医学分野のテキストへの適用
1
2
1
1
1
橋本和真, 三輪誠, 鶴岡慶雅, 近山隆
2
東京大学 電子情報工学科, マンチェスター大学
2.再帰的オートエンコーダ (RAE)
1.概要
 再帰的オートエンコーダ (Recursive Autoencoder, RAE)の、自
然言語処理の様々なタスクへの適用可能性を調査する
 生体医学分野のテキストを用いた2つのタスクに適用する
 文タイプの分類
 タンパク質間相互作用 (Protein-Protein Interaction,
PPI)の判定
 RAE上の特定のノードに教師情報を与える
 タスク非依存
 拡張可能性
 ニューラル言語モデル
 単語を実数値ベクトルで表現
 ベクトルの各要素が意味や構文の情報などを持つことを期待
 半教師有りRAE
 構文木に従ってオートエンコーダで句のベクトルを計算
 RAE上の各ノードは同次元の実数値ベクトルで表現されている
ため、任意のノードにソフトマックス層を追加することが可能
 オートエンコーダの再構成誤差とソフトマックス層の教師情報誤
差を最小化 (半教師有り学習)
′
𝑐1
′
𝑐2
3.生体医学分野の自然言語処理のタスクへのRAE
の適用
 文タイプの分類
 生体医学分野の文献 (MEDLINE)の要旨の多くには、
その各文に関してOBJECTIVE, METHODS, RESULTS,
CONCLUSIONSのようなラベルが付属
 各文のRAEのトップノードに教師情報を与えて4クラ
ス分類
 PPIの判定
 文中の2つのタンパク質が相互作用するかどうかを
判定するタスク
 2つのタンパク質を含む、RAEの最小の部分木の
トップノードに教師情報を与えて二値分類
オートエンコーダ
x2
𝑐1
𝑝 = tanh(𝑊𝑒 𝑐 + 𝑏𝑒 )
2
𝑟𝑒𝑐𝑜𝑛𝑠𝑡𝑟𝑢𝑐𝑡𝑖𝑜𝑛 𝑒𝑟𝑟𝑜𝑟
2
′
1 𝑐1
𝑐1
=
′ − 𝑐
2
2 𝑐2
the good movie
the interesting movie
単語と句を同次元
のベクトルで表現
film
movies
movie
really dull movie
the boring movie
カバーノード
文タイプ
x1
O
𝑙𝑎𝑏𝑒𝑙 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑊𝑙 𝑝 + 𝑏𝑙
PPI
𝑔𝑜𝑙𝑑 𝑙𝑎𝑏𝑒𝑙
4.評価
 文タイプの分類
 訓練データ150,000文
 開発データ 50,000文
<訂正>
原稿では、他のシステムが推定した
ラベルの付いたデータを誤って使用
↓
ここでは正しいラベルの付いたデータ
を使用 (広畑ら (2008)のexpanded
corpusに相当)
手法
正解率 (%)
25.0
ランダム
Bag-of-Words + SVM
78.8
RAE
78.8
RAE + word vectors
79.8
backprop
ソフトマックス層
𝑊𝑙1
= tanh(𝑊𝑑 𝑝 + 𝑏𝑑 )
𝑐𝑟𝑜𝑠𝑠 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 𝑒𝑟𝑟𝑜𝑟
 PPIの判定
 5つのPPIデータセットを使用
 10分割交差検定
RAE
RAE +
word vectors
データ/スコア (%) F値 AUC値 F値 AUC値
LLL
80.8 85.5 80.9 86.6
IEPA
68.7 77.6 69.5 80.7
HPRD50
64.1 75.1 64.9 75.9
BioInfer
52.8 73.0 58.8 79.2
AIMed
42.9 74.2 55.2 83.9
三輪ら (2009)
F値
80.5
74.4
69.7
67.6
64.2
AUC値
86.0
85.6
82.8
86.1
89.1
backprop
文の表現ベクトル
𝑊𝑙2
単語の表現ベクトルの和
RAEの根ノード
RAEの葉ノード
ソフトマックス層
𝑊𝑙3
𝑊𝑙1
𝑊𝑙2
𝑊𝑙4
・・・ interaction between *PROTEIN* and *PROTEIN* by using ・・・
左の語
カバーノード 間の語
右の語
5.今後の課題
 構文解析器enjuの解析結果には豊富な構文的な情報が含まれているので、単純に構文木の構造だけでなく、それらの情報を学習にうま
く取り入れる
 大量に入手可能なラベル無しテキストデータを学習に活用する (RAEの教師無し事前学習は有効か?)