大規模コーパスを用いた 統計的仮名漢字変換 奈良先端大 松本研( D1 )小町守 (協力:京都大学 森さん) Special Thanks to 浅原さん 開発の動機 • Webの拡大→ユーザ入力文書増大 新語や新表現の変換はストレスフル 新しくなって本当に使いづらい・・・前 に戻してもらいたいです。慣れれなの かな〜 どぅゃら、風邪をひぃてしまぃました。 頭 重ぃし、鼻水がズールズル… でも仕事休 めなぃしー カラダだるぃしー もぅ嫌ャーッ!!! ねぇよ こどもやばす wwwwwwwww w 天丼ww おいおい かあいいww ちょww... 2007.12.30 2 開発の背景 • Web データを処理したいがタグつきデータ・ 辞書がない(特にフリーで使えるもの) 日本語書き言葉コーパス マダー?? (・ω・` ) ipadic クラスの辞書( ゚Д゚)ホスィ・・・ • 辞書やコーパスに正しく情報(品詞・単語境 界)振るのは(一般の人には)難しい (できるだけ)品詞情報を用いないで処理したい 気分的には SKK で行きたい、ipadic/naist-jdic 作るの はツライ 3 2007.12.30 開発の目的 • 大規模コーパスを用いた未知語処理を組み 込んだ仮名漢字変換 できるだけ人手をかけないでメンテナンス Webコーパス5億文・Wikipedia・はてな・ココロ グ・etc… • 品詞情報を用いない頑健な仮名漢字変換 大規模コーパスだから表記の情報だけでもけっこ う行けるはず 4 2007.12.30 確率的モデルによる仮名漢字変換 • 森ら(1998)の提案 • P(x|y) の降順に変換可能文字列 (x1, x2, …) を提示する x: 文, y: 入力 • =P(y|x)P(x)の降順に提示する 仮名漢字モデル × 言語モデル P(y|x): 確率的仮名漢字モデル P(x): 確率的言語モデル(単語n-gram) 解析済みコーパスから推定 2007.12.30 5 出発点 • 自動未知語獲得による仮名漢字変換システ ムの精度向上(森ら 2007) 確率的単語分割コーパス(森ら 2007)を用いた 言語モデル 単語境界を自動推定したコーパス コーパスに出現する全ての部分文字列を語彙と した仮名漢字モデル=サブワードモデル(森 2006) コーパスに一定頻度以上表れる未登録語を準登 録語として記憶→サブワードモデル更新および 言語モデル再推定 2007.12.30 6 確率的言語モデル+未知語 • 文を単語列(w1w2…wh)と見なして文頭から予測(wi (i<1)は文頭、wh+1は文末記号) h 1 i1 M w,n (w) P(wi | win 1 ) i1 今年 の 流行 wi 語 CKY …… • 未知語は特殊記号UWで表され、単語n-gramが UWを予測し、文字列xを文字n-gramにより予測x i h 1 i1 M x,n (x1h ) P(x i | x in 1 ) C UW K Y i1 2007.12.30 今年 の 流行 語 CKY …… 7 サブワードモデル+未知語 • ある単語w=x1x2…xmに対応する入力記号列を各文 字xiの入力記号列yiの連接、各文字に対応する入 力記号列が一様として計算 P(y | w) P(y | x1 x 2 m 1 xm ) | y xi | i1 • 未知語処理は準登録語を用いたコーパスからの最 尤推定との線形補完 2007.12.30 m 1 f s (y,w) P(y | w) 1 2 | y xi | f s (w) i1 サブワード 準登録語 8 森ら(2007)からの改良点 • 未知語が全て同一クラスに属する →登録語・準登録語に対して自動クラスタリング を使ったクラス付与(素性は周辺単語) 食べ物→ 梅田で スイーツ を食べた カタカナ多い • 打ち間違いに対する処理(部分的にはサブ ワードモデルで解決) →未知語に対して文字列の類似性による代替候 補の提示(表記揺れなどもカバー) 9 2007.12.30 今後の予定 1. 単語2グラムで仮名漢字変換を動かす 2. 単語2グラムで単語クラスタリングをする (ク ラスタ2グラム) 3. クラスタ2グラムで単語分割を動かす 4. クラスタ2グラムで仮名漢字変換を動かす 5. n-best の探索を書く 10 2007.12.30 今後の課題 • 辞書・コーパス登録サイト・コミュニティ創出 気分としては SKK の辞書登録 CGI。品詞とか気 にしないで登録するのみ(リビューする人がいる) 人手で単語分割したコーパス用の例文を登録し てもらう うまく単語分割できるところとよく分からないところと混 ざっていても大丈夫にする(みんな簡単に単語分割で きるとはかぎらない) 11 2007.12.30
© Copyright 2024 ExpyDoc