スライド - 徳島大学・任研究室

テキストマイニングと文書自動
分類に関する研究
徳島大学大学院 博士前期課程 知能情報工学専攻
A1グールプ任研究室
金 珍玉
1. 研 究 目 的

抽出されたパターンの客観的な有効性の評価

中国語文書の自動分類に関する研究
2. マイニング

データマイニング

テキストマイニング
マイニング技術の要件

Scalability
GB からTB に及ぶ大量のデータを現実的な計算時間と計算機
メモリ容量の制約のもとで処理できなければならない.

Effectiveness
発見された知識が,現実のデータの要約,あるいは未知のデー
タに対する予測といった面において現実に有効でなければな
らない.

Readability
発見された知識が理解しやすいものでなければならない.
3. テキストマイニング

定義:
– 文章データをさまざまな観点から分析し、役に立つ知識・情報を
取り出そうという技術である。

テキストマイニングの段階
– テキストマイニングには様々な手法が提案されているが、主な流
れとして、 3つの段階に分かれている .
1)概念の抽出
2)情報の分析
3)分析結果の視覚化
4. 言語情報を用いたテキストマイニング

単語間の係り受け関係を考慮しない
映像は良いが
音声は悪い
映像 良い
音声 悪い
テキストを単語の
集合として表現
(Bag of Words)
?
映像は悪いが
音声は良い
テキストが持つ意味のある構造
が捉えられない

単語間の係り受け関係を考慮する
用言とそれに係る体言のタプル(tuple,組)の集合
で表現する.
映像は悪いが
音声は良い
(悪い, {映像})
(良い, {音声})
言語情報を用いたテキストマイニング図の構造
テキスト
形態素解析
単語同定
単語の集合
マイニング
アルゴリズム
知識
(頻出する単語の共起)
形態素解析
単語同定
チャンキング
係り受け解析
構造化されたテキスト
マイニング
アルゴリズム
詳細化された知識
(頻出する部分構造)
4.1 形態素解析

形態素解析とは,文章を意味のなす単語の
単位に分解することである.
4.2 チャンク(chunk)
チャンクとは、擬似的な関係あるのアイテムの集合.



チャンク名を擬似的なアイテムとして追加する
アイテムのタイプ
– NT→チャンク名のアイテム(A,P,X)
– T→通常のアイテム(a,b,c,p,q,r,x,y,z)
異なるチャンク間のT→Tの射影は許可しない
4.3
シーケンシャルパターンマイニング
系列データベースSで  (最小サポート値) 回以上
の系列に出現する部分系列を完全に列挙する.
sid 系列
1
a c d
2
a b c
3
c b a
4
a a b
最小サポート値 = 2
アイテム
系列データベースS
a:4
b:3
c:3
a b:2
a c:2
マイニング結果
自然言語処理: アイテムを単語,系列を文,テキスト中
の  回以上の文に出現する単語の列を列挙する.
PrefixSpanアルゴリズム
系列
1
2
3
4
a
a
c
a
c
b
b
a
d
c
a
b
射影
a:4
b:3
c:3
d:1
最小サポート値=2
a:4
a b:2
a c:2
b:2
c:3
結果
1
2
4
c d
b c
a b
a:1
b:2
c:2
2
3
c
a
a:1
c:1
1
3
d
ba
a:1
b:1
d:1
2
c c:1
1
d d:1
集合を単位とするPrefixSpan
アイテムの集合を考慮
単語 (単語,品詞,活用) 等
同じ集合のアイテムに _ を付与して射影
系列
1
2
3
4
(ad)c(bc)(ae)
a(abc)(ac)d(cf)
(ef)(ab)(df)b
e(af)c
系列
射影
a:4
b:3
c:3
d:1
1
2
3
4
(abc)(ac)d(cf)
(_d)c(bc)(ae)
a a:2
aa
(_b)(df)b
a _b c:2 (a b)c
(_f)c
….
5. 今後の課題

今後の研究予定としては,シーケンシャ
ルパターンマイニング抽出された情報
の客観的有効性及び中国語文書の自動
分類に関する研究を行う.