中国語形態素解析システム 関する研究開発

中国語形態素解析システム
関する研究開発
知能情報専攻 A1Group
M2-25
陳 キ
背景(1/2)
検索法や、知識を抽出や、機械翻訳
など自然言語処理技術が最近注目
形態素解析システム
構文解析と意味解析などの基礎
背景(2/2)

形態素解析システム
 日本では一般的に公開している
 茶筅とか南瓜など。
 中国では有効的な形態素解析システムまだほとん
どない。たくさん問題がある。
 CUIシステムが多い、GUIシステムが少ない
GUI中国語形態素解析システム開発をする
中国語とは

中国,台湾や海外華僑の間で話されている言語。
 漢民族が漢語と呼ばれるが、中国少数民族の間でも話される。

おもな方言(七大方言)





広東語(粤方言)
福建語(闽方言)
上海語(呉方言)
客家語・・・
標準語
 北京方言(北京語)をもとにつくられた標準語,公用語である普
通話(プートンホワ)が中国語と呼ばれる。

アジア、世界各地まで話す人々がおり、人口で言えば英
語に匹敵する。
形態素解析

形態素とは

意味がある(文を構成する)最小単位のこと

形態素解析の目的

文を構成する形態素(morpheme)を認定すること

中国語形態素解析における問題
中国語形態素解析における問題





単語の分かち書きの問題
品詞を見分ける問題
複合語の曖昧性問題
 交集型曖昧性
 組合型曖昧性
 混合型曖昧性
未知語の問題
 文中に現れた形態素は辞書にない
ルーズな文法の問題
解析システムの技術



規則を用いたシステム
確率的言語モデルを用いる方法
規則と確率的言語モデルによる方法
規則を用いたシステム



人間が様々な言語現象をおおまかに捉えて,規
則などの形に抽象化した優先規則
例外的な規則を追加してゆくと膨大な情報量
従来手法
 前向き最長一致法(Maximum Matching Method)
 後ろ向き最長一致法(Reverse Maximum Matching
Method)
正確率は
 両方向き最長一致法(Forward and Reverse
Maximum
70%ぐらい
Matching Method )
 予想再帰法(Association-Backtracking Word
Segmentation))
 文節数最小法(Minimum Matching Method)
確率的言語モデルを用いる方法

字と字の間、単語と単語の間の確率に
よって、文を形態素に分かる。

膨大なコーパスから学習しなければなら
ない。コーパスが存在すれば高精度の解
析が可能であるが,現在そのようなコー
正確率
パスの入手は困難である.
85%ぐらい
規則と確率的言語モデルによる方法

この二つ手法を一緒に使って正確率が
モット高く行く。
90%ぐらい
正確率

確率的言語モデルを用いる方法と規則
と確率的言語モデルによる方法は自然
言語研究の分野に流行って使用されて
いる
本システムの流れ
出力
入力
文列
学習モデル
未知語品詞
予測モデル
前処理
結果
リスト
最長
一致法
辞書
分割
結果
木の構造
前処理
中国語の中で自然と切り分けて表すことが多く存在
中国語と英語が一緒に現れている場合がある
句読点など、語はこれらの標記を越えることができない。
預処理は標識を設立して、語に表すことを探し出して、
文を切っていくつかのより短い字の段に分ける
我想去上海,旅游和探亲
前処理
我想去上海
旅游和探亲
従来の方法

最長一致法(THE




MAXIMUM MATCHING METHOD)
MM方法(5-4-3-2-1検索法)
Step1:自動文節区切りの辞書の中に最も長い語の漢字の
個数を仮定するのは5で、今文字列の序数が5個の
字を処理するにマッチングの字段とされて、辞書
を探す。
Step2:もし辞書の中にこのような5の字の単語があるな
らば、マッチングすることに成功して、マッチン
グの字の段は1つの語として切り分けられて出て
除き;もし辞書の中でこのような1つの5字の語が
探し出せないならば、マッチングすることに失敗。
Step3:マッチングの字の段は5字単語から1字単語まで
探し続き、全部失敗したら未知語を認められる。
次の字から新しいマッチングを行って、このよ
うにやり続けて、至って最後の字まで切り分ける。
本手法

毎語ずつに検索



Step1: 文 の 語 の 位 置 に よ っ て 長 い か ら 短 い ま で 順 々 に 分
割して、毎詞ずつ5詞になる。
Step2:データベースを調べて調べられる単語をできる。
Step3:調べた単語で木を構造

Step4:木のノードを探索して、形態素列をできる。
他
例:他将来上海读书学习
将
将来
(彼は勉強に上海へ行く)
来
上
上海
海
读
读书
书
读书学习
学
学习
木の構造
习
他
将
将来
来
上
上海
海
读
读书
书
读书学习
学
学习
习
木の探索他N/将来N/上海N/读书学习V
学習モデル(1/3)


中国語辞書の品詞は名詞や動詞や感動詞など13種に
分けている。
連続2語の連接確率性が下の連接確率表で判断する
詞性
名詞
動詞
形容詞
介詞
・・・
名詞
0.03
0.04
0.02
0.03
・・・
動詞
0.06
0.04
0.02
0.01
・・・
形容詞
0.04
0.01
0.05
0.01
・・・
介詞
0.06
0.01
0.04
0.01
・・・
・・・
・・・
・・・
・・・
連接可能性行列表
・・・
・・・
学習モデル(2/3)

文の文字列Lから、それに対応する品詞列
WLを獲得することである。ベイズ則により
(1)
P(T | W ) 

P(T ) P(W | T )
P(W )
本式は下式のように変形される。
P(W | T ) P(T )
WT  arg max
w
P(W )

(2)
本式において、P(W)は右式の最大値を与えるため
には無関係な量である。
WT  arg max P(T | W ) P (T )
w
(3)
学習モデル(3/3)
WT  arg max P(W | T )  arg max P(T )
(4)
与えられた文字列と一致するすべての形態素
列の中から、生成確率が最も高くなる品詞列
を探索することによって実現する
形態素列WをW1,W2,・・・,Wiとする
と、その生成品詞確率P(T)は次のように表
される。
(5)
P (T )i  P(Ti | Ti  1)
直後の品詞まで確率的に予測できると近似す
る。(Bi-gram)
w



w
ゼロ頻度問題

単語wが学習データ中に出現しなけれ
ば、W(Ti)の出現確率は0と推定されて
しまう。
 別の学習データ中に出現するのは可能

リッドスートン法(Lid Stone‘s Law)を導入
  N /( N   )
C (WT )
1
P(WT )   
 (1   ) 
N
V


Vは出現確率の合計を1とするために導入された定数
回数の補正値

確率高い点と予測点合う場合
i-2
i-1
i
n
n
n
v
v
v
p
p
p
n
予 測 (T)i と 最 大 確 率
(T)i合う場合
確率最大点予測
道
v
p
実際最大確率点
確率高い点と予測点T(i-1)合わない場合
i-2
i-1
n
n
i
n
n
確率最大点予測
道
v
v
v
p
p
p
予測点から予測
道
予測点
確率P(n,n,n)とP(n,v,n)の高いほうは
道を決める。
v
p
未知語の認識



辞書に登録ない形態素
未知語の認識も難しい問題
本手法も統計手法で予測られる


T(i)点とT(i-2)点から予測T(i-1)合う場合
T(i)点とT(i-2) 点から予測未知語T(i-1)合わ
ない場合
T(i)点とT(i-2)点から予測T(i-1)合わない場合
i -2
i-1
n
n
i
n
v
v
v
p
p
p
n
(T)iとT(i-2)点から予測
T(i-1)点合わない場合
確率最大点予測
道
予測道
確率P(n,n,n)とP(n,v,n)の高いほうは
道を決める。
v
p
まとめ


本システムは最長一致法と統計手法を一緒に
使う方法を提案した。
精度が高くなる。
その精度はコーパスの大きさによって変わる

本システムがGUIのインタフェースで作った
ので他のより操作することが簡単になった。
今後の課題

詳細辞書を充実



中国本土で使用される簡体字だけ、繁体
字をまたサポートしていない
辞書には5万語の語彙を収録している.
毎単語の頻度をつける予定。
提案手法で有効性について検証を行う