大規模データを用いた未知語を考慮した仮名漢字変換

大規模コーパスを用いた
統計的仮名漢字変換
奈良先端大 松本研( D1 )小町守
(協力:京都大学 森さん)
Special Thanks to 浅原さん
開発の動機
• Webの拡大→ユーザ入力文書増大
 新語や新表現の変換はストレスフル
新しくなって本当に使いづらい・・・前
に戻してもらいたいです。慣れれなの
かな〜
どぅゃら、風邪をひぃてしまぃました。 頭
重ぃし、鼻水がズールズル… でも仕事休
めなぃしー カラダだるぃしー もぅ嫌ャーッ!!!
ねぇよ こどもやばす wwwwwwwww
w 天丼ww おいおい かあいいww
ちょww...
2007.12.30
2
開発の背景
• Web データを処理したいがタグつきデータ・
辞書がない(特にフリーで使えるもの)
 日本語書き言葉コーパス マダー?? (・ω・` )
 ipadic クラスの辞書( ゚Д゚)ホスィ・・・
• 辞書やコーパスに正しく情報(品詞・単語境
界)振るのは(一般の人には)難しい
 (できるだけ)品詞情報を用いないで処理したい
 気分的には SKK で行きたい、ipadic/naist-jdic 作るの
はツライ
3
2007.12.30
開発の目的
• 大規模コーパスを用いた未知語処理を組み
込んだ仮名漢字変換
 できるだけ人手をかけないでメンテナンス
 Webコーパス5億文・Wikipedia・はてな・ココロ
グ・etc…
• 品詞情報を用いない頑健な仮名漢字変換
 大規模コーパスだから表記の情報だけでもけっこ
う行けるはず
4
2007.12.30
確率的モデルによる仮名漢字変換
• 森ら(1998)の提案
• P(x|y) の降順に変換可能文字列 (x1, x2, …)
を提示する
 x: 文, y: 入力
•
=P(y|x)P(x)の降順に提示する
仮名漢字モデル × 言語モデル
 P(y|x): 確率的仮名漢字モデル
 P(x): 確率的言語モデル(単語n-gram)
 解析済みコーパスから推定
2007.12.30
5
出発点
• 自動未知語獲得による仮名漢字変換システ
ムの精度向上(森ら 2007)
 確率的単語分割コーパス(森ら 2007)を用いた
言語モデル
 単語境界を自動推定したコーパス
 コーパスに出現する全ての部分文字列を語彙と
した仮名漢字モデル=サブワードモデル(森
2006)
 コーパスに一定頻度以上表れる未登録語を準登
録語として記憶→サブワードモデル更新および
言語モデル再推定
2007.12.30
6
確率的言語モデル+未知語
• 文を単語列(w1w2…wh)と見なして文頭から予測(wi
(i<1)は文頭、wh+1は文末記号)
h 1
i1
M w,n (w)   P(wi | win
1 )
i1
今年
の
流行
wi
語
CKY
……
•
未知語は特殊記号UWで表され、単語n-gramが

UWを予測し、文字列xを文字n-gramにより予測x
i
h 1
i1
M x,n (x1h )   P(x i | x in
1 )
C
UW
K Y
i1
2007.12.30
今年
の
流行
語
CKY
……
7
サブワードモデル+未知語
• ある単語w=x1x2…xmに対応する入力記号列を各文
字xiの入力記号列yiの連接、各文字に対応する入
力記号列が一様として計算
P(y | w)  P(y | x1 x 2
m
1
xm )  
| y xi |
i1
• 未知語処理は準登録語を用いたコーパスからの最
尤推定との線形補完

2007.12.30
m
1
f s (y,w)
P(y | w)  1
 2
| y xi |
f s (w)
i1
サブワード 準登録語
8
森ら(2007)からの改良点
• 未知語が全て同一クラスに属する
 →登録語・準登録語に対して自動クラスタリング
を使ったクラス付与(素性は周辺単語) 食べ物→
梅田で
スイーツ
を食べた
カタカナ多い
• 打ち間違いに対する処理(部分的にはサブ
ワードモデルで解決)
 →未知語に対して文字列の類似性による代替候
補の提示(表記揺れなどもカバー)
9
2007.12.30
今後の予定
1. 単語2グラムで仮名漢字変換を動かす
2. 単語2グラムで単語クラスタリングをする (ク
ラスタ2グラム)
3. クラスタ2グラムで単語分割を動かす
4. クラスタ2グラムで仮名漢字変換を動かす
5. n-best の探索を書く
10
2007.12.30
今後の課題
• 辞書・コーパス登録サイト・コミュニティ創出
 気分としては SKK の辞書登録 CGI。品詞とか気
にしないで登録するのみ(リビューする人がいる)
 人手で単語分割したコーパス用の例文を登録し
てもらう
 うまく単語分割できるところとよく分からないところと混
ざっていても大丈夫にする(みんな簡単に単語分割で
きるとはかぎらない)
11
2007.12.30