語義曖昧性解消のエラー分析 2014/08/06 古宮嘉那子 エラー分析まとめ • 最頻出語義はやはり強いので、事前分布の 影響はかなり大きいなと感じた • 50用例以外の用例も今回見たが、事前分布 の影響で「たまたまあたった」ような用例も見 つかる エラー分析まとめ • そのうえで識別できるかどうかは、訓練事例に、 テスト事例を分けるための素性が発火するよう なデータが入っていたかどうかで決まる • それは以下の二つに集約されると感じた。 • 1.その語義をもつデータの量 • 2.発火する素性があったかどうか(「この素性 が誤ってきいてしまった」と「この素性値をもつ訓 練事例がなかった」) エラー分析まとめ • しかし、どんな問題に対しても十分なデータをそ ろえることは不可能 • 何件以上が十分な訓練事例数なのか、というと 答えはない。(10用例以上あれば平均的には何 とか?)しかし、少量でも正解が学習できれば十 分だと言えるし、これくらいあれば、と思ってもう まくいかない例もある(「この素性値をもつ訓練 事例がなかった」例) • また、「この素性が誤ってきいてしまう」かどうか は、事前に知ることはできない エラー分析まとめ • コーパスのデータは人によって書かれたものなので、 漢字などの用法が誤っている場合もある。それがあっ ていれば解けた問題もあると思われる • 本質的には、直近の形態素などの素性ですべてが分 かるわけがない – – – – もっと広い範囲が必要 意味的な知識が必要 シソーラスの細かさが必要 表層の曖昧さのせいで、シソーラスのデータを間違って 持ってきてしまう場合 エラー分析まとめ • 辞書の語義の分け方 – 分け方のレベル • ある語での中分類は結構細かいのに、別の語の中分類は粗い • (特に粗いと分類しにくいのではないか • 細分類の方が分けやすい部分もある。「Aの用法かB の用法かCの用法なら語義1」のような問題。 • また、辞書の語義の粗さは、ひいてはMFSの決定にも かかわる問題) エラー分析まとめ • 形態素解析の時点で統一性がないため、十 分に用例が手に入らない場合もあった – 辞書の単語の単位の問題(長単位、短単位)の ため? コーパスを作る時にも困った問題。コー パスの短単位と、辞書の語の長さが必ずしも一 致していない。 • 人間にもなぜこの語義なのかわからない例 があった
© Copyright 2025 ExpyDoc