スライド

Project Next NLP
「語義曖昧性解消・新語義発見」
第2回ミーティング
- 私の誤り分析報告 新納浩幸
2014年8月6日(水)
JAIST 東京オフィス(品川)
概要
・ 私が行った誤り分析(?)の報告
・ 今後の活動について思うこと
(提案というより感想に近いものです)
各手法の結果
誤り数
SVM
ME
NB
DL
MFS
577
正解率
(マクロ平均)
76.92 %
600
76.00 %
623
75.08 %
643
74.28 %
776
68.96 %
B
手法間の差分
SVM
SVM
A
A-B
A では×で
B では ○
ME
NB
DL
MFS
63
101
117
140
75
87
92
107
109
ME
86
NB
147
98
DL
183
130
127
MFS
339
268
262
115
248
誤りの和と積
SVM, ME, NB, DL, MFS の和
988
SVM, ME, NB, DL, MFS の積
379
65.7% (379/577) の誤りは手法を変えても
正解にできない、素性の問題
分析対象の 50 事例
SVM, ME, NB, DL, MFS の積
379
今回の分析対象の 50 個のうち 36個を含む
この36事例は現在の素性では多分無理
残り 14 事例は正解になる可能性有り
SVM
545-34
ME
NB
○
○
DL
○
2843-50
15615-1
17877-24
○
○
○
○
○
17877-49
○
21128-3
○
○
○
○
○
○
31472-50
35478-43
40289-27
MFS
○
○
○
○
○
○
○
40333-17
○
41135-31
○
41912-26
○
○
51409-24
52935-41
○
○
分析の方向
この分析には素性の増減が必要
ここの分析が大事
この36事例は現在の素性では多分無理
残り 14 事例は正解になる可能性有り
ここは些末な問題なのでパス
全ての手法で×、その原因
基本的にはなんらかの素性が
不足している
どういった素性が必要になるのか?
それはどうしたら獲得できるのか?
結局、こういう話になってしまうのでは・・・
(少し休憩) 誤りの原因
原因
原因
原因
誤りの原因は多数想定
できる、
正解は多分ない?
原因として適当ではない
というのは確認できる
誤り
原因
原因
原因
やれることはこれだけ?
結局、これ
前回の Meeting の時の私のスライド
私が調べたいこと
シソーラスの利用方法
(例) 未定義語、粒度、単語別、構築方法、
多義性、領域依存性、、、など
WSD の誤りの原因として調べるべき点は
ここらだと思っている
休憩、終わり
分類語彙表を未使用との比較
SVM with 分類語彙表
SVM without 分類語彙表
一見差は無いが、
相殺されている
なし
あり
41
577 誤り
603 誤り
536
67
対象の50用例
3
47
分類語彙表の
利用の効果
問題の3用例
2843 - 26, 5541 – 35, 37713 - 22
2843 - 26:
e1=防衛 e2=名詞 e3=普通名詞 e4=の e5=助詞 e6=格助詞 e7=意味
e8=名詞 e9=普通名詞 e10=で e11=助詞 e12=格助詞 e13=も e14=助詞 e15=係助詞
e17=13610 e17=13560 e18=11000 e19=41120 e20=31992
5541 – 35:
e1=を e2=助詞 e3=格助詞 e4= e5=空白 e7=教え e8=動詞 e9=一般 e10=て
e11=助詞 e12=接続助詞 e13=ください e14=動詞 e15=非自立可能 e16=発音
37713 – 22:
e1=料 e2=接尾辞 e3=名詞的 e4=を e5=助詞 e6=格助詞 e7=とら e8=動詞 e9=一般
e10=れる e11=助動詞 e13=と e14=助詞 e15=接続助詞 e16=今日
e17=13740 e17=14100 e19=21110 e20=41120 e20=11950 e20=14540
予想される誤りの原因
(1)単語によって分類語彙表が逆に悪影響を
及ぼす場合がある
(訓練データからモデル構築にも・・・)
5541-35 (テスト事例) の素性は分類語彙表を
利用してもしなくても同じ
(2)語義番号の曖昧性
単語別の比較
分類語彙表ありが better
分類語彙表なしが better
イーブン
18 単語
7 単語
25 単語
2843 (意味), 10703(技術), 26839 (進める),
31472 (出す), 35881 (電話), 41138 (始める),
43494 (一)
語義番号の曖昧性
2843 - 26:
e1=防衛 e2=名詞 e3=普通名詞 e4=の e5=助詞 e6=格助詞 e7=意味
e8=名詞 e9=普通名詞 e10=で e11=助詞 e12=格助詞 e13=も e14=助詞 e15=係助詞
e17=13610 e17=13560 e18=11000 e19=41120 e20=31992
2通り
どちらも不正解
これがダメ
37713 – 22:
e1=料 e2=接尾辞 e3=名詞的 e4=を e5=助詞 e6=格助詞 e7=とら e8=動詞 e9=一般
e10=れる e11=助動詞 e13=と e14=助詞 e15=接続助詞 e16=今日
e17=13740 e17=14100 e19=21110 e20=41120 e20=11950 e20=14540
4つは正解
6通り
e17=13740 e20=41120
e17=13740 e20=14540
e17=14100 e20=41120
e17=14100 e20=14540
まとめ
*誤り分析は、「何を調べたいか」、が大事
*私はシソーラスの利用について調べるのが
良いと思っている
今回の 50用例の誤り分析によって、
素性の不足(or 過剰)による誤りの割合が多い
シソーラスの問題も誤りの原因になっている
シソーラスを利用する効果はそれほど大きくない
シソーラスを利用しない方がよい単語もある
シソーラスの ID 付与には曖昧性の問題がある
(参考)単語別の比較
SVM with
分類語彙表
SVM without
分類語彙表
2843 (意味)
28
26
5541 (教える)
24
24
37713 (取る)
36
38
誤り数