大規模データを用いた未知語を考慮した仮名漢字変換

大規模データによる未知語処理を統
合したスケーラブルな仮名漢字変換
奈良先端大 松本研( D1 )小町守
(協力:京大学術情報メディアセンター 森信介)
Special Thanks to 浅原さん
2007.10.10
※ときどき一部の方には不快な語句が含まれる場合が
ありますのであらかじめご了承ください
1
研究の動機
• Webの拡大→ユーザ入力文書(CGM)増大
 新語や新表現の変換はストレスフル
新しくなって本当に使いづらい・・・前
に戻してもらいたいです。慣れれなの
かな〜
どぅゃら、風邪をひぃてしまぃました。 頭
重ぃし、鼻水がズールズル… でも仕事休
めなぃしー カラダだるぃしー もぅ嫌ャーッ!!!
ねぇよ こどもやばす wwwwwwwww
w 天丼ww おいおい かあいいww
ちょww...
2007.10.10
2
研究背景
• Web データを処理したいがタグつきデータ・
辞書がない
 日本語書き言葉コーパス マダー?? (・ω・` )
 ipadic クラスの辞書( ゚Д゚)ホスィ・・・
• 辞書やコーパスに正しく情報(品詞・単語境
界)振るのは(一般の人には)難しい
 (できるだけ)品詞情報を用いないで処理したい
 気分的には SKK で行きたい、ipadic 作るのはツライ
3
2007.10.10
研究目的
• 大規模データを用いた未知語処理を組み込
んだ仮名漢字変換
 できるだけ人手をかけないでメンテナンス
 Web 5億文(河原ら 2007)・Wikipedia・はてな・
ココログ・etc…
 Terascale Knowledge Acquisition 勉強会ヨロシク
• 品詞情報を用いない頑健な仮名漢字変換
 大規模データだから表記の情報だけでもけっこう
行けるはず
4
2007.10.10
確率的モデルによる仮名漢字変換
• 森ら(1998)の提案
• P(x|y) の降順に変換可能文字列 (x1, x2, …)
を提示する
 x: 文, y: 入力
• =P(y|x)P(x)の降順に提示する
 P(y|x): 確率的仮名漢字モデル
 P(x): 確率的言語モデル(単語n-gram)
 解析済みコーパスから推定
5
2007.10.10
先行研究
• 自動未知語獲得による仮名漢字変換システ
ムの精度向上(森ら 2007)
 確率的単語分割コーパス(森ら 2007)を用いた
言語モデル
 テキストコーパスの全ての部分文字列を語彙とし
た仮名漢字モデル=サブワードモデル(森
2006)
 コーパスに一定頻度以上表れる未登録語を準登
録語として記憶→サブワードモデル更新および
言語モデル再推定
6
2007.10.10
確率的言語モデル+未知語
• 文を単語列(w1w2…wh)と見なして文頭から
予測(wi(i<1)は文頭、wh+1は文末記号)
h 1
i1
M w,n (w)   P(wi | win
1 )
i1
• 未知語は特殊記号UWで表され、単語n
gramがUWを予測し、そしてその表記(文字
列)xを文字n-gramにより予測
h 1
i1
M x,n (x1h )   P(x i | x in
1 )
i1
7
2007.10.10
サブワードモデル+未知語
• ある表記w=x1x2…xmに対応する入力記号列
を各文字xiの入力記号列yiの連接、各文字に
対応する入力記号列が一様として計算
P(y | w)  P(y | x1 x 2
m
xm )  
i1
1
| y xi |
• 未知語処理は準登録語を用いたコーパスか
らの最尤推定との線形補完

m
1
f s (y,w)
P(y | w)  1
 2
| y xi |
f s (w)
i1
2007.10.10
8
森ら(2007)の問題点
• 低頻度の未知語を扱うことができない(部分
的にはサブワードモデルで解決)
 →CRF による周辺確率を用いた未知語検出
 →単語分割のみ行ったあと、未知語に対して
string similarity による代替候補の提示
• 未知語が全て同一クラスに属する
 →登録語・準登録語に対して pLSI を使ったクラ
ス付与(素性は周辺の bag of words)
9
2007.10.10
Shift-reduceによる仮名漢字変換
• 岡野原ら(2007)による形態素解析の応用
 文節ごとに変換する人も文全体を変換する人も
自然に使える
 未知語に遭遇したときも計算量が爆発しない
この
解析済みテキスト
はしわたるべからず
Shift? Reduce?
橋/端
10
2007.10.10
Future work
• 辞書・コーパス登録サイト・コミュニティ創生
 気分としては SKK の辞書登録 CGI。品詞とか気
にしないで登録するのみ(リビューする人がいる)
 人手で単語分割したコーパス用の例文を登録し
てもらう→確信度の高いところだけ固定して処理
するモデル(坪井さん話)
11
2007.10.10