テキストマイニング, データマイニングと 社会活動のトレース 2008.03.06 京都高度技術研究所 山田 篤 第1回 安全な暮らしのための情報技術研究会 Studio ARC 内容 テキストマイニングとは テキストマイニングの技術 社会活動のトレース 第1回 安全な暮らしのための情報技術研究会 Studio ARC テキストマイニングとは テキストデータを対象としたデータマイニング 電子化されたテキスト 非定型的な自然言語表現 統計的手法による解析 例) ウェブ文書からのマイニング 新聞記事からのマイニング アンケートへの回答からのマイニング コールセンターにおけるマイニング 第1回 安全な暮らしのための情報技術研究会 Studio ARC テキストマイニングの技術 電子化テキストの最小構成単位:文字 文字を対象とした統計処理 単一文字の出現頻度 文字連鎖の出現頻度 ある文字の次に生起する文字の確率 文字を単位とすると,意味のある情報の抽出 が困難 意味を担う最小の単位:単語 第1回 安全な暮らしのための情報技術研究会 Studio ARC テキストを単語列に分割する技術 形態素解析 単語分割(タギング) 英語:ホワイトスペースによる分かち書き 単語内の分割:gun/fight/er 日本語:単語境界? 品詞 (POS) 情報の付与 形態素解析用に特化した辞書 電子化辞書の利用 規則ベース 統計処理 形態素解析の例 第1回 安全な暮らしのための情報技術研究会 Studio ARC 単語列に対する統計的処理 単語の出現頻度 単語連鎖 (n-gram) の出現頻度 例:Web日本語nグラム どのような語,語列がよく出現するか 単語間の相関 近傍 (n語内) での共起確率 http://www.gsk.or.jp/catalog/GSK2007-C/catalog.html 語の間の関連性の抽出 どう関連しているかまではわからない 生成された仮説の検証・評価は人が行う必要が ある 第1回 安全な暮らしのための情報技術研究会 Studio ARC その他の自然言語処理 格フレーム抽出 Webから自動構築した大規模格フレーム http://nlp.kuee.kyoto-u.ac.jp/nlresource/caseframe.html 助詞:格マーカ 指示詞が何を指しているか 何が省略されているか 何と同じか 照応 省略 言い換え 第1回 安全な暮らしのための情報技術研究会 Studio ARC 社会活動のトレース テキストマイニング テキスト群に書かれている内容が対象 対象テキスト群(母集団)の設定が重要 例)動向分析 新聞記事 それがいつ書かれたものであるかというメタデータ 時間変化の分析 母集団に対する大域的なトレース 社会のトレンド等 母集団の絞り込むことができれば,特定の個人,集団を 対象とすることも可能 ブログを対象としたテキストマイニング等 第1回 安全な暮らしのための情報技術研究会 Studio ARC トレースと匿名性 大域的なトレースにおいては,個人を匿名化 して取り扱うことが多い マイニング対象のテキスト 公開情報 ウェブ,公刊物等 非公開情報(個人情報) Mail (私信) 個別化:契約により,利便性と引き替えに個人を特定す る情報を提供 取り扱いには注意が必要 第1回 安全な暮らしのための情報技術研究会 Studio ARC おわりに 電子化されたテキストであれば何でもマイニ ングの対象になりうる 手元に複製が必要(複製権の問題) ウェブ検索エンジンのキャッシュ(用語として問題あ り)等 自然言語処理技術+統計処理技術 そこから何を読み取るか/読み取ることがで きるか 記述対象のトレース 第1回 安全な暮らしのための情報技術研究会 Studio ARC
© Copyright 2024 ExpyDoc