Project Next NLP 「語義曖昧性解消・新語義発見」 第2回ミーティング - 私の誤り分析報告 新納浩幸 2014年8月6日(水) JAIST 東京オフィス(品川) 概要 ・ 私が行った誤り分析(?)の報告 ・ 今後の活動について思うこと (提案というより感想に近いものです) 各手法の結果 誤り数 SVM ME NB DL MFS 577 正解率 (マクロ平均) 76.92 % 600 76.00 % 623 75.08 % 643 74.28 % 776 68.96 % B 手法間の差分 SVM SVM A A-B A では×で B では ○ ME NB DL MFS 63 101 117 140 75 87 92 107 109 ME 86 NB 147 98 DL 183 130 127 MFS 339 268 262 115 248 誤りの和と積 SVM, ME, NB, DL, MFS の和 988 SVM, ME, NB, DL, MFS の積 379 65.7% (379/577) の誤りは手法を変えても 正解にできない、素性の問題 分析対象の 50 事例 SVM, ME, NB, DL, MFS の積 379 今回の分析対象の 50 個のうち 36個を含む この36事例は現在の素性では多分無理 残り 14 事例は正解になる可能性有り SVM 545-34 ME NB ○ ○ DL ○ 2843-50 15615-1 17877-24 ○ ○ ○ ○ ○ 17877-49 ○ 21128-3 ○ ○ ○ ○ ○ ○ 31472-50 35478-43 40289-27 MFS ○ ○ ○ ○ ○ ○ ○ 40333-17 ○ 41135-31 ○ 41912-26 ○ ○ 51409-24 52935-41 ○ ○ 分析の方向 この分析には素性の増減が必要 ここの分析が大事 この36事例は現在の素性では多分無理 残り 14 事例は正解になる可能性有り ここは些末な問題なのでパス 全ての手法で×、その原因 基本的にはなんらかの素性が 不足している どういった素性が必要になるのか? それはどうしたら獲得できるのか? 結局、こういう話になってしまうのでは・・・ (少し休憩) 誤りの原因 原因 原因 原因 誤りの原因は多数想定 できる、 正解は多分ない? 原因として適当ではない というのは確認できる 誤り 原因 原因 原因 やれることはこれだけ? 結局、これ 前回の Meeting の時の私のスライド 私が調べたいこと シソーラスの利用方法 (例) 未定義語、粒度、単語別、構築方法、 多義性、領域依存性、、、など WSD の誤りの原因として調べるべき点は ここらだと思っている 休憩、終わり 分類語彙表を未使用との比較 SVM with 分類語彙表 SVM without 分類語彙表 一見差は無いが、 相殺されている なし あり 41 577 誤り 603 誤り 536 67 対象の50用例 3 47 分類語彙表の 利用の効果 問題の3用例 2843 - 26, 5541 – 35, 37713 - 22 2843 - 26: e1=防衛 e2=名詞 e3=普通名詞 e4=の e5=助詞 e6=格助詞 e7=意味 e8=名詞 e9=普通名詞 e10=で e11=助詞 e12=格助詞 e13=も e14=助詞 e15=係助詞 e17=13610 e17=13560 e18=11000 e19=41120 e20=31992 5541 – 35: e1=を e2=助詞 e3=格助詞 e4= e5=空白 e7=教え e8=動詞 e9=一般 e10=て e11=助詞 e12=接続助詞 e13=ください e14=動詞 e15=非自立可能 e16=発音 37713 – 22: e1=料 e2=接尾辞 e3=名詞的 e4=を e5=助詞 e6=格助詞 e7=とら e8=動詞 e9=一般 e10=れる e11=助動詞 e13=と e14=助詞 e15=接続助詞 e16=今日 e17=13740 e17=14100 e19=21110 e20=41120 e20=11950 e20=14540 予想される誤りの原因 (1)単語によって分類語彙表が逆に悪影響を 及ぼす場合がある (訓練データからモデル構築にも・・・) 5541-35 (テスト事例) の素性は分類語彙表を 利用してもしなくても同じ (2)語義番号の曖昧性 単語別の比較 分類語彙表ありが better 分類語彙表なしが better イーブン 18 単語 7 単語 25 単語 2843 (意味), 10703(技術), 26839 (進める), 31472 (出す), 35881 (電話), 41138 (始める), 43494 (一) 語義番号の曖昧性 2843 - 26: e1=防衛 e2=名詞 e3=普通名詞 e4=の e5=助詞 e6=格助詞 e7=意味 e8=名詞 e9=普通名詞 e10=で e11=助詞 e12=格助詞 e13=も e14=助詞 e15=係助詞 e17=13610 e17=13560 e18=11000 e19=41120 e20=31992 2通り どちらも不正解 これがダメ 37713 – 22: e1=料 e2=接尾辞 e3=名詞的 e4=を e5=助詞 e6=格助詞 e7=とら e8=動詞 e9=一般 e10=れる e11=助動詞 e13=と e14=助詞 e15=接続助詞 e16=今日 e17=13740 e17=14100 e19=21110 e20=41120 e20=11950 e20=14540 4つは正解 6通り e17=13740 e20=41120 e17=13740 e20=14540 e17=14100 e20=41120 e17=14100 e20=14540 まとめ *誤り分析は、「何を調べたいか」、が大事 *私はシソーラスの利用について調べるのが 良いと思っている 今回の 50用例の誤り分析によって、 素性の不足(or 過剰)による誤りの割合が多い シソーラスの問題も誤りの原因になっている シソーラスを利用する効果はそれほど大きくない シソーラスを利用しない方がよい単語もある シソーラスの ID 付与には曖昧性の問題がある (参考)単語別の比較 SVM with 分類語彙表 SVM without 分類語彙表 2843 (意味) 28 26 5541 (教える) 24 24 37713 (取る) 36 38 誤り数
© Copyright 2024 ExpyDoc