テキストマイニングと文書自動 分類に関する研究 徳島大学大学院 博士前期課程 知能情報工学専攻 A1グールプ任研究室 金 珍玉 1. 研 究 目 的 抽出されたパターンの客観的な有効性の評価 中国語文書の自動分類に関する研究 2. マイニング データマイニング テキストマイニング マイニング技術の要件 Scalability GB からTB に及ぶ大量のデータを現実的な計算時間と計算機 メモリ容量の制約のもとで処理できなければならない. Effectiveness 発見された知識が,現実のデータの要約,あるいは未知のデー タに対する予測といった面において現実に有効でなければな らない. Readability 発見された知識が理解しやすいものでなければならない. 3. テキストマイニング 定義: – 文章データをさまざまな観点から分析し、役に立つ知識・情報を 取り出そうという技術である。 テキストマイニングの段階 – テキストマイニングには様々な手法が提案されているが、主な流 れとして、 3つの段階に分かれている . 1)概念の抽出 2)情報の分析 3)分析結果の視覚化 4. 言語情報を用いたテキストマイニング 単語間の係り受け関係を考慮しない 映像は良いが 音声は悪い 映像 良い 音声 悪い テキストを単語の 集合として表現 (Bag of Words) ? 映像は悪いが 音声は良い テキストが持つ意味のある構造 が捉えられない 単語間の係り受け関係を考慮する 用言とそれに係る体言のタプル(tuple,組)の集合 で表現する. 映像は悪いが 音声は良い (悪い, {映像}) (良い, {音声}) 言語情報を用いたテキストマイニング図の構造 テキスト 形態素解析 単語同定 単語の集合 マイニング アルゴリズム 知識 (頻出する単語の共起) 形態素解析 単語同定 チャンキング 係り受け解析 構造化されたテキスト マイニング アルゴリズム 詳細化された知識 (頻出する部分構造) 4.1 形態素解析 形態素解析とは,文章を意味のなす単語の 単位に分解することである. 4.2 チャンク(chunk) チャンクとは、擬似的な関係あるのアイテムの集合. チャンク名を擬似的なアイテムとして追加する アイテムのタイプ – NT→チャンク名のアイテム(A,P,X) – T→通常のアイテム(a,b,c,p,q,r,x,y,z) 異なるチャンク間のT→Tの射影は許可しない 4.3 シーケンシャルパターンマイニング 系列データベースSで (最小サポート値) 回以上 の系列に出現する部分系列を完全に列挙する. sid 系列 1 a c d 2 a b c 3 c b a 4 a a b 最小サポート値 = 2 アイテム 系列データベースS a:4 b:3 c:3 a b:2 a c:2 マイニング結果 自然言語処理: アイテムを単語,系列を文,テキスト中 の 回以上の文に出現する単語の列を列挙する. PrefixSpanアルゴリズム 系列 1 2 3 4 a a c a c b b a d c a b 射影 a:4 b:3 c:3 d:1 最小サポート値=2 a:4 a b:2 a c:2 b:2 c:3 結果 1 2 4 c d b c a b a:1 b:2 c:2 2 3 c a a:1 c:1 1 3 d ba a:1 b:1 d:1 2 c c:1 1 d d:1 集合を単位とするPrefixSpan アイテムの集合を考慮 単語 (単語,品詞,活用) 等 同じ集合のアイテムに _ を付与して射影 系列 1 2 3 4 (ad)c(bc)(ae) a(abc)(ac)d(cf) (ef)(ab)(df)b e(af)c 系列 射影 a:4 b:3 c:3 d:1 1 2 3 4 (abc)(ac)d(cf) (_d)c(bc)(ae) a a:2 aa (_b)(df)b a _b c:2 (a b)c (_f)c …. 5. 今後の課題 今後の研究予定としては,シーケンシャ ルパターンマイニング抽出された情報 の客観的有効性及び中国語文書の自動 分類に関する研究を行う.
© Copyright 2025 ExpyDoc