語義曖昧性解消のエラー分析

語義曖昧性解消のエラー分析
2014/08/06
古宮嘉那子
エラー分析まとめ
• 最頻出語義はやはり強いので、事前分布の
影響はかなり大きいなと感じた
• 50用例以外の用例も今回見たが、事前分布
の影響で「たまたまあたった」ような用例も見
つかる
エラー分析まとめ
• そのうえで識別できるかどうかは、訓練事例に、
テスト事例を分けるための素性が発火するよう
なデータが入っていたかどうかで決まる
• それは以下の二つに集約されると感じた。
• 1.その語義をもつデータの量
• 2.発火する素性があったかどうか(「この素性
が誤ってきいてしまった」と「この素性値をもつ訓
練事例がなかった」)
エラー分析まとめ
• しかし、どんな問題に対しても十分なデータをそ
ろえることは不可能
• 何件以上が十分な訓練事例数なのか、というと
答えはない。(10用例以上あれば平均的には何
とか?)しかし、少量でも正解が学習できれば十
分だと言えるし、これくらいあれば、と思ってもう
まくいかない例もある(「この素性値をもつ訓練
事例がなかった」例)
• また、「この素性が誤ってきいてしまう」かどうか
は、事前に知ることはできない
エラー分析まとめ
• コーパスのデータは人によって書かれたものなので、
漢字などの用法が誤っている場合もある。それがあっ
ていれば解けた問題もあると思われる
• 本質的には、直近の形態素などの素性ですべてが分
かるわけがない
–
–
–
–
もっと広い範囲が必要
意味的な知識が必要
シソーラスの細かさが必要
表層の曖昧さのせいで、シソーラスのデータを間違って
持ってきてしまう場合
エラー分析まとめ
• 辞書の語義の分け方
– 分け方のレベル
• ある語での中分類は結構細かいのに、別の語の中分類は粗い
• (特に粗いと分類しにくいのではないか
• 細分類の方が分けやすい部分もある。「Aの用法かB
の用法かCの用法なら語義1」のような問題。
• また、辞書の語義の粗さは、ひいてはMFSの決定にも
かかわる問題)
エラー分析まとめ
• 形態素解析の時点で統一性がないため、十
分に用例が手に入らない場合もあった
– 辞書の単語の単位の問題(長単位、短単位)の
ため? コーパスを作る時にも困った問題。コー
パスの短単位と、辞書の語の長さが必ずしも一
致していない。
• 人間にもなぜこの語義なのかわからない例
があった