スライド タイトルなし

最大エントロピーモデルに基づく
形態素解析と辞書による影響
内元 清貴 † 関根 聡 ‡ 井佐原 均 †
† 郵政省通信総合研究所
‡ ニューヨーク大学
発表内容の構成
背景
形態素モデル
実験
考察
まとめ
背景
形態素

単語や接辞など、文法上、最小の単位となる要素
形態素解析

与えられた文を形態素の並びに分解し、それぞれの
形態素に対し文法的属性(品詞や活用など)を決定す
る処理
課題

辞書に登録されていない、あるいは学習コーパスに現
れないが形態素となり得る単語(未知語)をどのように
扱うか
未知語の問題への対処
未知語を自動獲得し辞書に登録(森ら、1996;な
ど)
未知語でも解析できるようなモデルを作成(柏岡ら、
1997;永田、1999;など)
獲得した単語を辞書に登録し、モデルにその辞書
を利用できるような仕組みを取り入れる

N-gramモデルに外部辞書を追加する方法(森ら、1998)
• わずかな精度向上に留まっている

我々の方法(最大エントロピーモデルに基づく方法)
• 辞書の情報を学習する機構を容易に組み込める
• 字種や字種変化などの情報を用いてコーパスから未知語の性
質を学習
形態素モデル(MEモデル)
形態素である
形態素でない
名詞 動詞 or
…
文字列
g ( h, f )

 i
i
P ( f | h) 
i

f
i
gi ( h, f )
i
n : 文字列が形態素であり 、

f   n番目の文法属性を持つ
0 : 文字列が形態素でない

h : テストコーパスから得
 1 : if has(h, x)  true,

x "品詞(-1)(Major) : 動詞"

g (h, f )  
 & f 1

 0 : otherwise.
られる情報
アルゴリズム
一文全体で確率の積が最大になるよう
形態素に分割し、文法的属性を付与


最適解の探索:ビタビアルゴリズム
N-best解の探索:永田1994の方法
実験の条件(1)
京大コーパス(Version2)(黒橋ら、1997)


学習:7,958文(1/1~1/8)
試験:1,246文(1/9)
文法的属性(106種類)

品詞体系:JUMANのものを仮定
• 細分類まで分類すると全部で53種類

形態素の左側が文節区切りであるかないか
素性

着目している文字列、その文字列の左に隣接する一形
態素に関して
• 文字列、長さ、文字種、辞書、品詞、活用、文節区切りの情報
実験の条件(2)
モデルを適用する対象

5文字以下のすべての文字列および5文字を越えるが
辞書に登録されている文字列
• 5文字を越える複合語
– 辞書になければ5文字以下の文字列に分割可と仮定
• カタカナ語
– 「未定義語(大分類)、カタカナ(細分類)」として辞書にあっ
たものと仮定
制約


JUMANで定義されている連接規則を満たす
辞書(JUMANの辞書)に登録されている文字列につい
ては、辞書に記述されている品詞の中から選択
実験結果
再現率
適合率
F
95.44%
94.94%
95.19
(29,875/31,302) (29,875/31,467)
JUMAN
95.25%
94.90%
95.07
(29,814/31,302) (29,814/31,417)
JUMAN
98.49%
98.13%
98.31
+KNP
(30,830/31,302) (30,830/31,417)
本手法
 精度向上に必要なもの



二つから四つくらい前の形態素の情報
素性の組み合わせ
学習コーパスの量
辞書と未知語(1)
素性の種類
文字列
辞書
辞書
長さ
未知語
文字種
品詞
活用
文節区切り
再現率
適合率
F
93.87%
(-1.57%)
94.06%
(-1.38%)
95.07%
(-0.37%)
94.23%
(-1.21%)
95.14%
(-0.30%)
95.28%
(-0.16%)
95.51%
(+0.07%)
94.04%
(-0.90%)
92.22%
(-2.72%)
94.02%
(-0.92%)
93.23%
(-1.71%)
95.22%
(+0.28%)
94.83%
(-0.11%)
95.16%
(+0.22%)
93.95
(-1.24)
93.13
(-2.06)
94.54
(-0.65)
93.73
(-1.46)
95.18
(-0.01)
95.05
(-0.14)
95.33
(+0.14)
辞書と未知語(2)
ほとんどの素性が精度向上に貢献

辞書情報の貢献度が高い
辞書の悪影響

「/海/に/かけた/ロマンは/、/」、
「/荒波/に/負け/ない心/と/」
• 漢字表記「ロマン派」、「内心」に加え、平仮名を使った表記
「ロマンは」、「ない心」も名詞として辞書に登録されているため

不自然な表記を辞書に登録しないようにする必要あり
JUMANとの比較
JUMAN


ルールベース
未知語を一文字からなる名詞と既知語に分割
• 「漱(名詞)石(名詞)」、「露(副詞)伴(名詞)」
我々の手法


統計ベース
未知語に対しても前後の形態素のつながりから形態
素と認定でき、適切な品詞を付与
• 「漱石(名詞、人名)」、「露伴(名詞、人名)」
JUMANとの比較(未知語に対する精
度)
形態素区切り 形態素区切り
と品詞大分類 と品詞細分類
(再現率)
(再現率)
本手法
83.56%
(910/1,089)
43.34%
(472/1,089)
JUMAN
+KNP
86.87%
(946/1,089)
29.94%
(472/1,089)
 我々のモデルでは未知語、特に固有名詞や人名、組織名、
地名に関する語に対する学習が比較的にできている
JUMANとの比較(精度差の原
因)
学習コーパスの量、素性
コーパスにおける形態素の揺れ

最後が「者」で終わる形態素はテストコーパス中に
153個
• JUMAN+KNPの出力誤りは0。我々のシステムの誤りは3個
(約2%)
• 「生産(名詞)者(接尾辞)」と「消費者(名詞)」などの揺れ

他にも、
• 「芸術家(名詞)」と「工芸(名詞)家(接尾辞)」、
「警視庁(名詞)」と「検察(名詞)庁(名詞)」、
「現実的(形容詞)」と「理想(名詞)的(接尾辞)」など

コーパスを修正する必要性
まとめ
MEモデルに基づく形態素解析

特徴
• 学習コーパスからだけでなく辞書から得られる情
報も用いる
• 形態素となる文字列だけでなく形態素とはならない
文字列の性質も学習することによって、未知語も
形態素として推定できる


辞書情報の貢献度が高い
固有名詞など未知語になりやすいものに対し
て比較的に精度が良かった
今後の課題
学習に用いる情報について


一つ前の形態素だけでなく、二つから四つくらい前の
形態素の情報を利用
組み合わせの素性を増やす
コーパスについて



コーパスの量をふやす
コーパス修正の研究
異なるコーパスについても実験
辞書について

文法体系が変わったときにその体系に合うように辞書
情報を変換する技術を開発