最大エントロピーモデルに基づく 形態素解析と辞書による影響 内元 清貴 † 関根 聡 ‡ 井佐原 均 † † 郵政省通信総合研究所 ‡ ニューヨーク大学 発表内容の構成 背景 形態素モデル 実験 考察 まとめ 背景 形態素 単語や接辞など、文法上、最小の単位となる要素 形態素解析 与えられた文を形態素の並びに分解し、それぞれの 形態素に対し文法的属性(品詞や活用など)を決定す る処理 課題 辞書に登録されていない、あるいは学習コーパスに現 れないが形態素となり得る単語(未知語)をどのように 扱うか 未知語の問題への対処 未知語を自動獲得し辞書に登録(森ら、1996;な ど) 未知語でも解析できるようなモデルを作成(柏岡ら、 1997;永田、1999;など) 獲得した単語を辞書に登録し、モデルにその辞書 を利用できるような仕組みを取り入れる N-gramモデルに外部辞書を追加する方法(森ら、1998) • わずかな精度向上に留まっている 我々の方法(最大エントロピーモデルに基づく方法) • 辞書の情報を学習する機構を容易に組み込める • 字種や字種変化などの情報を用いてコーパスから未知語の性 質を学習 形態素モデル(MEモデル) 形態素である 形態素でない 名詞 動詞 or … 文字列 g ( h, f ) i i P ( f | h) i f i gi ( h, f ) i n : 文字列が形態素であり 、 f n番目の文法属性を持つ 0 : 文字列が形態素でない h : テストコーパスから得 1 : if has(h, x) true, x "品詞(-1)(Major) : 動詞" g (h, f ) & f 1 0 : otherwise. られる情報 アルゴリズム 一文全体で確率の積が最大になるよう 形態素に分割し、文法的属性を付与 最適解の探索:ビタビアルゴリズム N-best解の探索:永田1994の方法 実験の条件(1) 京大コーパス(Version2)(黒橋ら、1997) 学習:7,958文(1/1~1/8) 試験:1,246文(1/9) 文法的属性(106種類) 品詞体系:JUMANのものを仮定 • 細分類まで分類すると全部で53種類 形態素の左側が文節区切りであるかないか 素性 着目している文字列、その文字列の左に隣接する一形 態素に関して • 文字列、長さ、文字種、辞書、品詞、活用、文節区切りの情報 実験の条件(2) モデルを適用する対象 5文字以下のすべての文字列および5文字を越えるが 辞書に登録されている文字列 • 5文字を越える複合語 – 辞書になければ5文字以下の文字列に分割可と仮定 • カタカナ語 – 「未定義語(大分類)、カタカナ(細分類)」として辞書にあっ たものと仮定 制約 JUMANで定義されている連接規則を満たす 辞書(JUMANの辞書)に登録されている文字列につい ては、辞書に記述されている品詞の中から選択 実験結果 再現率 適合率 F 95.44% 94.94% 95.19 (29,875/31,302) (29,875/31,467) JUMAN 95.25% 94.90% 95.07 (29,814/31,302) (29,814/31,417) JUMAN 98.49% 98.13% 98.31 +KNP (30,830/31,302) (30,830/31,417) 本手法 精度向上に必要なもの 二つから四つくらい前の形態素の情報 素性の組み合わせ 学習コーパスの量 辞書と未知語(1) 素性の種類 文字列 辞書 辞書 長さ 未知語 文字種 品詞 活用 文節区切り 再現率 適合率 F 93.87% (-1.57%) 94.06% (-1.38%) 95.07% (-0.37%) 94.23% (-1.21%) 95.14% (-0.30%) 95.28% (-0.16%) 95.51% (+0.07%) 94.04% (-0.90%) 92.22% (-2.72%) 94.02% (-0.92%) 93.23% (-1.71%) 95.22% (+0.28%) 94.83% (-0.11%) 95.16% (+0.22%) 93.95 (-1.24) 93.13 (-2.06) 94.54 (-0.65) 93.73 (-1.46) 95.18 (-0.01) 95.05 (-0.14) 95.33 (+0.14) 辞書と未知語(2) ほとんどの素性が精度向上に貢献 辞書情報の貢献度が高い 辞書の悪影響 「/海/に/かけた/ロマンは/、/」、 「/荒波/に/負け/ない心/と/」 • 漢字表記「ロマン派」、「内心」に加え、平仮名を使った表記 「ロマンは」、「ない心」も名詞として辞書に登録されているため 不自然な表記を辞書に登録しないようにする必要あり JUMANとの比較 JUMAN ルールベース 未知語を一文字からなる名詞と既知語に分割 • 「漱(名詞)石(名詞)」、「露(副詞)伴(名詞)」 我々の手法 統計ベース 未知語に対しても前後の形態素のつながりから形態 素と認定でき、適切な品詞を付与 • 「漱石(名詞、人名)」、「露伴(名詞、人名)」 JUMANとの比較(未知語に対する精 度) 形態素区切り 形態素区切り と品詞大分類 と品詞細分類 (再現率) (再現率) 本手法 83.56% (910/1,089) 43.34% (472/1,089) JUMAN +KNP 86.87% (946/1,089) 29.94% (472/1,089) 我々のモデルでは未知語、特に固有名詞や人名、組織名、 地名に関する語に対する学習が比較的にできている JUMANとの比較(精度差の原 因) 学習コーパスの量、素性 コーパスにおける形態素の揺れ 最後が「者」で終わる形態素はテストコーパス中に 153個 • JUMAN+KNPの出力誤りは0。我々のシステムの誤りは3個 (約2%) • 「生産(名詞)者(接尾辞)」と「消費者(名詞)」などの揺れ 他にも、 • 「芸術家(名詞)」と「工芸(名詞)家(接尾辞)」、 「警視庁(名詞)」と「検察(名詞)庁(名詞)」、 「現実的(形容詞)」と「理想(名詞)的(接尾辞)」など コーパスを修正する必要性 まとめ MEモデルに基づく形態素解析 特徴 • 学習コーパスからだけでなく辞書から得られる情 報も用いる • 形態素となる文字列だけでなく形態素とはならない 文字列の性質も学習することによって、未知語も 形態素として推定できる 辞書情報の貢献度が高い 固有名詞など未知語になりやすいものに対し て比較的に精度が良かった 今後の課題 学習に用いる情報について 一つ前の形態素だけでなく、二つから四つくらい前の 形態素の情報を利用 組み合わせの素性を増やす コーパスについて コーパスの量をふやす コーパス修正の研究 異なるコーパスについても実験 辞書について 文法体系が変わったときにその体系に合うように辞書 情報を変換する技術を開発
© Copyright 2025 ExpyDoc