スライド

テキストマイニングにおける
キーワード自動抽出について
徳島大学工学部 知能情報工学科
A1グループ 4年
上田 圭祐
はじめに

データ量の増加
コンピュータの普及,インターネットの普及.

テキストデータの増加
コンピュータ上で文章を作成する割合の増加.
計算機に知識・情報が蓄積
テキストマイニング
大量のテキストデータから新たな知識・情報を発
見する技術

1.
概念の抽出
キーワード抽出などテキストの概念を取得
出現頻度,文の構造,単語の意味属性などが利用される.
2.
情報分析
文章間の相関関係などを分析
階層的クラスタリング手法、非階層的クラスタリング手法など.
3.
視覚化
ネットワーク図や分布図など人間が
関係を理解しやすい形でで表現する.
テキストマイニング処理
テキストデータ
対象選択
テキスト
概念
概念抽出
マイニング
結果表示
形態素解析(1)

入力された文の形態素・語の品詞を決定


形態素とは意味を持つ最小の単位.
自然言語処理の第一段階

形態素解析された結果は
構文・意味・文脈解析,キーワード抽出などで
利用される.
テキストマイニングにおいても
重要な処理
形態素解析(2)

形態素解析で使用される辞書

単語辞書 ・・・ 語の品詞,読み,活用型
EDR日本語単語辞書を利用.

連接可能性辞書 ・・・ 語の連接情報
EDR日本語単語辞書の連接属性を利用.
形態素
左連接属性
右連接属性
登録形態素情報
形態素解析(3)
優先規則

ラティス構造の解を絞り込むために利用

最長一致法
2文節最長一致法
形態素最小法
文節数最小法

コスト最小法



現在作成中の形態素解析プログラムでは最長
一致法を使用している.
形態素解析(4)

形態素解析の例
>入力文
このひとことで元気になった。
この
ひとこと
連体詞
名詞
ひと
文頭
名詞
こ
ひ
接尾辞
名詞
になった
で
動詞
で
助詞
動詞
元気
名詞
に
助詞
文末
キーワード抽出(1)
キーワード抽出の手法

1.
2.
3.
出現語の統計解析を用いた抽出法
文構造解析を用いた抽出法
語の特徴を用いた抽出法
キーワード抽出(2)

概念体系辞書
単語の持つ概念の上位-下位概念を
体系化した辞書

概念記述辞書
概念関係を記述した辞書
キーワード抽出(3)

概要
概念辞書を用いて強い関係にある語を抽出.
高さが低いほど強い関係にある.
while( !judge( 概念識別子1,関係子,up(概念識別子2) ) )
height ++;
・judge( 概念識別子1,関係子,概念識別子2 ):
概念識別子1が概念識別子2と関係が成立するか判定
・up(概念識別子):
概念識別子の上位概念を返す
現在の状況

形態素解析プログラムを作成中
形態素解析の状況

形態素解析プログラムの問題点
 最長一致法を採用しているため精度が悪い.
 複数の品詞を持つ可能性のある語の
品詞特定が困難.
 活用形の特定を実装していない.
今後の予定

形態素解析プログラムに関して




形態素解析の手法にコストを採用
連接辞書編集用ツールの作成
単語登録ツールの作成
キーワード自動抽出に関して

概念辞書を用いたキーワード抽出方法の検証
概念体系辞書
概念
3aa966
3aa911
3d017c
30f7e4
30f751
30f776
主体
もの
事象
位置
時
・・
・
・・
・
・・
・
・・
・
・・
・
上位概念
・・・・・
役割で捉え
た人間
人間
下位概念
・・
・
職業で捉えた
人間
教師である人間
“先生”
人間関係
・・
・
対人関係で捉え
た人間
師事している人
“先生”
・・・・・
概念記述辞書


形式
<概念識別子1><関係子><概念識別子2>
関係子
概念同士の関係を示している
object , agent , goal , implement
a-object , place , scene , cause
以上の8個
例)
<読む> → agent → <人間>