テキストマイニングにおける キーワード自動抽出について 徳島大学工学部 知能情報工学科 A1グループ 4年 上田 圭祐 はじめに データ量の増加 コンピュータの普及,インターネットの普及. テキストデータの増加 コンピュータ上で文章を作成する割合の増加. 計算機に知識・情報が蓄積 テキストマイニング 大量のテキストデータから新たな知識・情報を発 見する技術 1. 概念の抽出 キーワード抽出などテキストの概念を取得 出現頻度,文の構造,単語の意味属性などが利用される. 2. 情報分析 文章間の相関関係などを分析 階層的クラスタリング手法、非階層的クラスタリング手法など. 3. 視覚化 ネットワーク図や分布図など人間が 関係を理解しやすい形でで表現する. テキストマイニング処理 テキストデータ 対象選択 テキスト 概念 概念抽出 マイニング 結果表示 形態素解析(1) 入力された文の形態素・語の品詞を決定 形態素とは意味を持つ最小の単位. 自然言語処理の第一段階 形態素解析された結果は 構文・意味・文脈解析,キーワード抽出などで 利用される. テキストマイニングにおいても 重要な処理 形態素解析(2) 形態素解析で使用される辞書 単語辞書 ・・・ 語の品詞,読み,活用型 EDR日本語単語辞書を利用. 連接可能性辞書 ・・・ 語の連接情報 EDR日本語単語辞書の連接属性を利用. 形態素 左連接属性 右連接属性 登録形態素情報 形態素解析(3) 優先規則 ラティス構造の解を絞り込むために利用 最長一致法 2文節最長一致法 形態素最小法 文節数最小法 コスト最小法 現在作成中の形態素解析プログラムでは最長 一致法を使用している. 形態素解析(4) 形態素解析の例 >入力文 このひとことで元気になった。 この ひとこと 連体詞 名詞 ひと 文頭 名詞 こ ひ 接尾辞 名詞 になった で 動詞 で 助詞 動詞 元気 名詞 に 助詞 文末 キーワード抽出(1) キーワード抽出の手法 1. 2. 3. 出現語の統計解析を用いた抽出法 文構造解析を用いた抽出法 語の特徴を用いた抽出法 キーワード抽出(2) 概念体系辞書 単語の持つ概念の上位-下位概念を 体系化した辞書 概念記述辞書 概念関係を記述した辞書 キーワード抽出(3) 概要 概念辞書を用いて強い関係にある語を抽出. 高さが低いほど強い関係にある. while( !judge( 概念識別子1,関係子,up(概念識別子2) ) ) height ++; ・judge( 概念識別子1,関係子,概念識別子2 ): 概念識別子1が概念識別子2と関係が成立するか判定 ・up(概念識別子): 概念識別子の上位概念を返す 現在の状況 形態素解析プログラムを作成中 形態素解析の状況 形態素解析プログラムの問題点 最長一致法を採用しているため精度が悪い. 複数の品詞を持つ可能性のある語の 品詞特定が困難. 活用形の特定を実装していない. 今後の予定 形態素解析プログラムに関して 形態素解析の手法にコストを採用 連接辞書編集用ツールの作成 単語登録ツールの作成 キーワード自動抽出に関して 概念辞書を用いたキーワード抽出方法の検証 概念体系辞書 概念 3aa966 3aa911 3d017c 30f7e4 30f751 30f776 主体 もの 事象 位置 時 ・・ ・ ・・ ・ ・・ ・ ・・ ・ ・・ ・ 上位概念 ・・・・・ 役割で捉え た人間 人間 下位概念 ・・ ・ 職業で捉えた 人間 教師である人間 “先生” 人間関係 ・・ ・ 対人関係で捉え た人間 師事している人 “先生” ・・・・・ 概念記述辞書 形式 <概念識別子1><関係子><概念識別子2> 関係子 概念同士の関係を示している object , agent , goal , implement a-object , place , scene , cause 以上の8個 例) <読む> → agent → <人間>
© Copyright 2024 ExpyDoc