自然言語処理によるテキスト分類 情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生 2005/12/20 1 今日の流れ ﻪ ﻪ ﻪ ﻪ ﻪ ﻪ 今回の演習の目的 自然言語処理とは? テキスト分類のよさ ベイズの定理 ナイーブベイズ サービスとして公開(デモ) 2005/12/20 2 今回の演習の目的 ﻪ自然言語に関する取り組み方を学ぶ ﻩ自然言語処理ってなに? ﻩなにから手をつければいい? ﻪサービスとして公開 ﻩ発表だけしてもね… 2005/12/20 3 自然言語処理とは? ﻪ自然言語 = 自然発生的に生まれた言語 ﻩ人工言語 = 人為的に作られた言語 ﻪ基礎技術 ﻩ形態素解析 ﻩ構文解析 ﻪ応用技術 ﻩかな漢字変換 ﻩ検索エンジン 2005/12/20 4 テキスト分類 ﻪ最近の流行 ﻩWeb 2.0 ﻯ人が頑張ってタグ付けしたのを共有 ﻯデータを簡単に取り出せるように(Web API) ﻳXML を API に置き換えるだけで今風 ﻩWeb 1.0 ﻯこれまでのウェブ ﻪ文章を分野に分ける ﻩニュースなど 2005/12/20 5 分類することのよさ ﻪ追い風?首相も「真央が見たい」(デイリー スポーツ 2005年12月20日) ﻩエンターテイメント(entertainment) ﻩスポーツ(sports) ﻪトリノ五輪聖火リレー、鉄道トンネル反対派 が妨害 (読売新聞 2005年12月19日) ﻩ社会(national) ﻩ国際(world) 2005/12/20 6 テキスト分類 ﻪ代表的なアルゴリズム ﻩ ﻩ ﻩ ﻩ ﻩ ﻩ 決定木 ナイーブベイズ k-最近隣法 最大エントロピー法 ブースティング サーポートベクタマシン 2005/12/20 7 ベイズの定理 ﻪP(A) ﻩ事象Aが発生する確率 ﻪP(A|B) ﻩ事象Bが既に発生している場合に、事象Aが発生する 確率(条件付確率) ﻪP(B|A) ﻩ事象Aが発生した場合に、事象Bが発生していた確率 ﻪベイズの定理 ﻩP(B|A) = P(A|B)P(B) / P(A) 2005/12/20 8 ナイーブベイズ(1/4) ﻪベイズの定理より P(x|c)P(c) c arg max P(c|x) arg max arg max P(c)P(x|c) c c c P(x) ^ c クラス(カテゴリ) x (x1,x2 , ,xn ) 文書ベクトル(文書の 概念) ﻪベイズの定理 + 仮定 ﻩトークン(単語)が互いに独立である ﻯ例: アメリカはテロと戦います 2005/12/20 9 ナイーブベイズ(2/4) ﻪ仮定を付加する n P(x|c) P(x1,x2 , ,xn|c) P(xi|c) i 1 n ^ c arg max P(c) P(xi|c) c i 1 ﻪ実装する上での留意点 ﻩあるクラスで出現しなかったトークン ﻯ出現を推測 2005/12/20 10 ナイーブベイズ(2/4) 文書x P(x2|c) P(x1|c) P(x|c) クラスc P(x3|c) 今日 x1 情報 x2 特別 x3 ○○ xn P(xn|c) 2005/12/20 11 ナイーブベイズ(4/4) ﻪ今日は、情報特別演習の発表会です。 今日 情報 特別 演習 発表会 2005/12/20 クラスA クラスB クラスC クラスD 10% 50% 20% 20% 15% 60% 20% 5% 40% 40% 10% 10% 25% 40% 25% 10% 5% 20% 15% 60% 12 確率処理以外 ﻪ文書ベクトルの生成 ﻩトークン(単語)の切り出し ﻯ形態素解析 ﻯ2-gram(n-gram) ﻯ同種文字列の切り出し ﻩ例文 ﻯ今日は、情報特別演習の発表会です。 ﻯiPod nano は、クリエイティブである。 2005/12/20 13 実装 ﻪ環境 ﻩPerl ﻯ素晴らしいプログラミング言語 ﻩMySQL ﻯトークンの管理 ﻩCEEK.JP NEWS ﻯテストデータ ﻯhttp://news.ceek.jp/ 2005/12/20 14 テスト結果 ﻪ学習:各2000記事 / 判定:各500記事 2005/12/20 15 テスト結果 0.5 90 0.45 88 0.4 86 0.35 84 0.3 82 0.25 80 0.2 78 0.15 76 0.1 74 0.05 72 0 70 形態素解析 2-gram 速さ(秒/doc) 2005/12/20 同種文字列 精度(パーセント) 16 サービスとして公開 ﻪText Classification with CEEK.JP NEWS ﻩhttp://labs.ceek.jp/classify/ ﻪHatena Bookmark News ﻩはてなブックマークをニュースのように分類 ﻩhttp://labs.ceek.jp/hbnews/ 2005/12/20 17
© Copyright 2025 ExpyDoc