大規模データによる未知語処理を統 合したスケーラブルな仮名漢字変換 奈良先端大 松本研( D1 )小町守 (協力:京大学術情報メディアセンター 森信介) Special Thanks to 浅原さん 2007.10.10 ※ときどき一部の方には不快な語句が含まれる場合が ありますのであらかじめご了承ください 1 研究の動機 • Webの拡大→ユーザ入力文書(CGM)増大 新語や新表現の変換はストレスフル 新しくなって本当に使いづらい・・・前 に戻してもらいたいです。慣れれなの かな〜 どぅゃら、風邪をひぃてしまぃました。 頭 重ぃし、鼻水がズールズル… でも仕事休 めなぃしー カラダだるぃしー もぅ嫌ャーッ!!! ねぇよ こどもやばす wwwwwwwww w 天丼ww おいおい かあいいww ちょww... 2007.10.10 2 研究背景 • Web データを処理したいがタグつきデータ・ 辞書がない 日本語書き言葉コーパス マダー?? (・ω・` ) ipadic クラスの辞書( ゚Д゚)ホスィ・・・ • 辞書やコーパスに正しく情報(品詞・単語境 界)振るのは(一般の人には)難しい (できるだけ)品詞情報を用いないで処理したい 気分的には SKK で行きたい、ipadic 作るのはツライ 3 2007.10.10 研究目的 • 大規模データを用いた未知語処理を組み込 んだ仮名漢字変換 できるだけ人手をかけないでメンテナンス Web 5億文(河原ら 2007)・Wikipedia・はてな・ ココログ・etc… Terascale Knowledge Acquisition 勉強会ヨロシク • 品詞情報を用いない頑健な仮名漢字変換 大規模データだから表記の情報だけでもけっこう 行けるはず 4 2007.10.10 確率的モデルによる仮名漢字変換 • 森ら(1998)の提案 • P(x|y) の降順に変換可能文字列 (x1, x2, …) を提示する x: 文, y: 入力 • =P(y|x)P(x)の降順に提示する P(y|x): 確率的仮名漢字モデル P(x): 確率的言語モデル(単語n-gram) 解析済みコーパスから推定 5 2007.10.10 先行研究 • 自動未知語獲得による仮名漢字変換システ ムの精度向上(森ら 2007) 確率的単語分割コーパス(森ら 2007)を用いた 言語モデル テキストコーパスの全ての部分文字列を語彙とし た仮名漢字モデル=サブワードモデル(森 2006) コーパスに一定頻度以上表れる未登録語を準登 録語として記憶→サブワードモデル更新および 言語モデル再推定 6 2007.10.10 確率的言語モデル+未知語 • 文を単語列(w1w2…wh)と見なして文頭から 予測(wi(i<1)は文頭、wh+1は文末記号) h 1 i1 M w,n (w) P(wi | win 1 ) i1 • 未知語は特殊記号UWで表され、単語n gramがUWを予測し、そしてその表記(文字 列)xを文字n-gramにより予測 h 1 i1 M x,n (x1h ) P(x i | x in 1 ) i1 7 2007.10.10 サブワードモデル+未知語 • ある表記w=x1x2…xmに対応する入力記号列 を各文字xiの入力記号列yiの連接、各文字に 対応する入力記号列が一様として計算 P(y | w) P(y | x1 x 2 m xm ) i1 1 | y xi | • 未知語処理は準登録語を用いたコーパスか らの最尤推定との線形補完 m 1 f s (y,w) P(y | w) 1 2 | y xi | f s (w) i1 2007.10.10 8 森ら(2007)の問題点 • 低頻度の未知語を扱うことができない(部分 的にはサブワードモデルで解決) →CRF による周辺確率を用いた未知語検出 →単語分割のみ行ったあと、未知語に対して string similarity による代替候補の提示 • 未知語が全て同一クラスに属する →登録語・準登録語に対して pLSI を使ったクラ ス付与(素性は周辺の bag of words) 9 2007.10.10 Shift-reduceによる仮名漢字変換 • 岡野原ら(2007)による形態素解析の応用 文節ごとに変換する人も文全体を変換する人も 自然に使える 未知語に遭遇したときも計算量が爆発しない この 解析済みテキスト はしわたるべからず Shift? Reduce? 橋/端 10 2007.10.10 Future work • 辞書・コーパス登録サイト・コミュニティ創生 気分としては SKK の辞書登録 CGI。品詞とか気 にしないで登録するのみ(リビューする人がいる) 人手で単語分割したコーパス用の例文を登録し てもらう→確信度の高いところだけ固定して処理 するモデル(坪井さん話) 11 2007.10.10
© Copyright 2024 ExpyDoc