半教師有り再帰的オートエンコーダの生体医学分野のテキストへの適用 1 2 1 1 1 橋本和真, 三輪誠, 鶴岡慶雅, 近山隆 2 東京大学 電子情報工学科, マンチェスター大学 2.再帰的オートエンコーダ (RAE) 1.概要 再帰的オートエンコーダ (Recursive Autoencoder, RAE)の、自 然言語処理の様々なタスクへの適用可能性を調査する 生体医学分野のテキストを用いた2つのタスクに適用する 文タイプの分類 タンパク質間相互作用 (Protein-Protein Interaction, PPI)の判定 RAE上の特定のノードに教師情報を与える タスク非依存 拡張可能性 ニューラル言語モデル 単語を実数値ベクトルで表現 ベクトルの各要素が意味や構文の情報などを持つことを期待 半教師有りRAE 構文木に従ってオートエンコーダで句のベクトルを計算 RAE上の各ノードは同次元の実数値ベクトルで表現されている ため、任意のノードにソフトマックス層を追加することが可能 オートエンコーダの再構成誤差とソフトマックス層の教師情報誤 差を最小化 (半教師有り学習) ′ 𝑐1 ′ 𝑐2 3.生体医学分野の自然言語処理のタスクへのRAE の適用 文タイプの分類 生体医学分野の文献 (MEDLINE)の要旨の多くには、 その各文に関してOBJECTIVE, METHODS, RESULTS, CONCLUSIONSのようなラベルが付属 各文のRAEのトップノードに教師情報を与えて4クラ ス分類 PPIの判定 文中の2つのタンパク質が相互作用するかどうかを 判定するタスク 2つのタンパク質を含む、RAEの最小の部分木の トップノードに教師情報を与えて二値分類 オートエンコーダ x2 𝑐1 𝑝 = tanh(𝑊𝑒 𝑐 + 𝑏𝑒 ) 2 𝑟𝑒𝑐𝑜𝑛𝑠𝑡𝑟𝑢𝑐𝑡𝑖𝑜𝑛 𝑒𝑟𝑟𝑜𝑟 2 ′ 1 𝑐1 𝑐1 = ′ − 𝑐 2 2 𝑐2 the good movie the interesting movie 単語と句を同次元 のベクトルで表現 film movies movie really dull movie the boring movie カバーノード 文タイプ x1 O 𝑙𝑎𝑏𝑒𝑙 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑊𝑙 𝑝 + 𝑏𝑙 PPI 𝑔𝑜𝑙𝑑 𝑙𝑎𝑏𝑒𝑙 4.評価 文タイプの分類 訓練データ150,000文 開発データ 50,000文 <訂正> 原稿では、他のシステムが推定した ラベルの付いたデータを誤って使用 ↓ ここでは正しいラベルの付いたデータ を使用 (広畑ら (2008)のexpanded corpusに相当) 手法 正解率 (%) 25.0 ランダム Bag-of-Words + SVM 78.8 RAE 78.8 RAE + word vectors 79.8 backprop ソフトマックス層 𝑊𝑙1 = tanh(𝑊𝑑 𝑝 + 𝑏𝑑 ) 𝑐𝑟𝑜𝑠𝑠 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 𝑒𝑟𝑟𝑜𝑟 PPIの判定 5つのPPIデータセットを使用 10分割交差検定 RAE RAE + word vectors データ/スコア (%) F値 AUC値 F値 AUC値 LLL 80.8 85.5 80.9 86.6 IEPA 68.7 77.6 69.5 80.7 HPRD50 64.1 75.1 64.9 75.9 BioInfer 52.8 73.0 58.8 79.2 AIMed 42.9 74.2 55.2 83.9 三輪ら (2009) F値 80.5 74.4 69.7 67.6 64.2 AUC値 86.0 85.6 82.8 86.1 89.1 backprop 文の表現ベクトル 𝑊𝑙2 単語の表現ベクトルの和 RAEの根ノード RAEの葉ノード ソフトマックス層 𝑊𝑙3 𝑊𝑙1 𝑊𝑙2 𝑊𝑙4 ・・・ interaction between *PROTEIN* and *PROTEIN* by using ・・・ 左の語 カバーノード 間の語 右の語 5.今後の課題 構文解析器enjuの解析結果には豊富な構文的な情報が含まれているので、単純に構文木の構造だけでなく、それらの情報を学習にうま く取り入れる 大量に入手可能なラベル無しテキストデータを学習に活用する (RAEの教師無し事前学習は有効か?)
© Copyright 2024 ExpyDoc