自然言語処理によるテキスト分類

自然言語処理によるテキスト分類
情報学類 吉田光男
アドバイザー教官: 山本幹雄 先生
2005/12/20
1
今日の流れ
‫ﻪ‬
‫ﻪ‬
‫ﻪ‬
‫ﻪ‬
‫ﻪ‬
‫ﻪ‬
今回の演習の目的
自然言語処理とは?
テキスト分類のよさ
ベイズの定理
ナイーブベイズ
サービスとして公開(デモ)
2005/12/20
2
今回の演習の目的
‫ ﻪ‬自然言語に関する取り組み方を学ぶ
‫ ﻩ‬自然言語処理ってなに?
‫ ﻩ‬なにから手をつければいい?
‫ ﻪ‬サービスとして公開
‫ ﻩ‬発表だけしてもね…
2005/12/20
3
自然言語処理とは?
‫ ﻪ‬自然言語 = 自然発生的に生まれた言語
‫ ﻩ‬人工言語 = 人為的に作られた言語
‫ ﻪ‬基礎技術
‫ ﻩ‬形態素解析
‫ ﻩ‬構文解析
‫ ﻪ‬応用技術
‫ ﻩ‬かな漢字変換
‫ ﻩ‬検索エンジン
2005/12/20
4
テキスト分類
‫ ﻪ‬最近の流行
‫ ﻩ‬Web 2.0
‫ ﻯ‬人が頑張ってタグ付けしたのを共有
‫ ﻯ‬データを簡単に取り出せるように(Web API)
‫ ﻳ‬XML を API に置き換えるだけで今風
‫ ﻩ‬Web 1.0
‫ ﻯ‬これまでのウェブ
‫ ﻪ‬文章を分野に分ける
‫ ﻩ‬ニュースなど
2005/12/20
5
分類することのよさ
‫ ﻪ‬追い風?首相も「真央が見たい」(デイリー
スポーツ 2005年12月20日)
‫ ﻩ‬エンターテイメント(entertainment)
‫ ﻩ‬スポーツ(sports)
‫ ﻪ‬トリノ五輪聖火リレー、鉄道トンネル反対派
が妨害 (読売新聞 2005年12月19日)
‫ ﻩ‬社会(national)
‫ ﻩ‬国際(world)
2005/12/20
6
テキスト分類
‫ ﻪ‬代表的なアルゴリズム
‫ﻩ‬
‫ﻩ‬
‫ﻩ‬
‫ﻩ‬
‫ﻩ‬
‫ﻩ‬
決定木
ナイーブベイズ
k-最近隣法
最大エントロピー法
ブースティング
サーポートベクタマシン
2005/12/20
7
ベイズの定理
‫ ﻪ‬P(A)
‫ ﻩ‬事象Aが発生する確率
‫ ﻪ‬P(A|B)
‫ ﻩ‬事象Bが既に発生している場合に、事象Aが発生する
確率(条件付確率)
‫ ﻪ‬P(B|A)
‫ ﻩ‬事象Aが発生した場合に、事象Bが発生していた確率
‫ ﻪ‬ベイズの定理
‫ ﻩ‬P(B|A) = P(A|B)P(B) / P(A)
2005/12/20
8
ナイーブベイズ(1/4)
‫ ﻪ‬ベイズの定理より
P(x|c)P(c)
c  arg max P(c|x) arg max
 arg max P(c)P(x|c)
c
c
c
P(x)
^
c  クラス(カテゴリ)
x  (x1,x2 , ,xn )  文書ベクトル(文書の
概念)
‫ ﻪ‬ベイズの定理 + 仮定
‫ ﻩ‬トークン(単語)が互いに独立である
‫ ﻯ‬例: アメリカはテロと戦います
2005/12/20
9
ナイーブベイズ(2/4)
‫ ﻪ‬仮定を付加する
n
P(x|c) P(x1,x2 , ,xn|c)   P(xi|c)
i 1
n
^
c  arg max P(c) P(xi|c)
c
i 1
‫ ﻪ‬実装する上での留意点
‫ ﻩ‬あるクラスで出現しなかったトークン
‫ ﻯ‬出現を推測
2005/12/20
10
ナイーブベイズ(2/4)
文書x
P(x2|c)
P(x1|c)
P(x|c)
クラスc
P(x3|c)
今日
x1
情報
x2
特別
x3
○○
xn
P(xn|c)
2005/12/20
11
ナイーブベイズ(4/4)
‫ ﻪ‬今日は、情報特別演習の発表会です。
今日
情報
特別
演習
発表会
2005/12/20
クラスA クラスB クラスC クラスD
10%
50%
20%
20%
15%
60%
20%
5%
40%
40%
10%
10%
25%
40%
25%
10%
5%
20%
15%
60%
12
確率処理以外
‫ ﻪ‬文書ベクトルの生成
‫ ﻩ‬トークン(単語)の切り出し
‫ ﻯ‬形態素解析
‫ ﻯ‬2-gram(n-gram)
‫ ﻯ‬同種文字列の切り出し
‫ ﻩ‬例文
‫ ﻯ‬今日は、情報特別演習の発表会です。
‫ ﻯ‬iPod nano は、クリエイティブである。
2005/12/20
13
実装
‫ ﻪ‬環境
‫ ﻩ‬Perl
‫ ﻯ‬素晴らしいプログラミング言語
‫ ﻩ‬MySQL
‫ ﻯ‬トークンの管理
‫ ﻩ‬CEEK.JP NEWS
‫ ﻯ‬テストデータ
‫ ﻯ‬http://news.ceek.jp/
2005/12/20
14
テスト結果
‫ ﻪ‬学習:各2000記事 / 判定:各500記事
2005/12/20
15
テスト結果
0.5
90
0.45
88
0.4
86
0.35
84
0.3
82
0.25
80
0.2
78
0.15
76
0.1
74
0.05
72
0
70
形態素解析
2-gram
速さ(秒/doc)
2005/12/20
同種文字列
精度(パーセント)
16
サービスとして公開
‫ ﻪ‬Text Classification with CEEK.JP NEWS
‫ ﻩ‬http://labs.ceek.jp/classify/
‫ ﻪ‬Hatena Bookmark News
‫ ﻩ‬はてなブックマークをニュースのように分類
‫ ﻩ‬http://labs.ceek.jp/hbnews/
2005/12/20
17