Document

テキストマイニング，
データマイニングと
社会活動のトレース
2008.03.06
京都高度技術研究所
山田篤
第1回
安全な暮らしのための情報技術研究会
Studio ARC
内容



テキストマイニングとは
テキストマイニングの技術
社会活動のトレース
第1回
安全な暮らしのための情報技術研究会
Studio ARC
テキストマイニングとは

テキストデータを対象としたデータマイニング




電子化されたテキスト
非定型的な自然言語表現
統計的手法による解析
例）




ウェブ文書からのマイニング
新聞記事からのマイニング
アンケートへの回答からのマイニング
コールセンターにおけるマイニング
第1回
安全な暮らしのための情報技術研究会
Studio ARC
テキストマイニングの技術


電子化テキストの最小構成単位：文字
文字を対象とした統計処理





単一文字の出現頻度
文字連鎖の出現頻度
ある文字の次に生起する文字の確率
文字を単位とすると，意味のある情報の抽出
が困難
意味を担う最小の単位：単語
第1回
安全な暮らしのための情報技術研究会
Studio ARC
テキストを単語列に分割する技術

形態素解析

単語分割（タギング）

英語：ホワイトスペースによる分かち書き



単語内の分割：gun/fight/er
日本語：単語境界？

品詞 (POS) 情報の付与

形態素解析用に特化した辞書
電子化辞書の利用



規則ベース
統計処理
形態素解析の例
第1回
安全な暮らしのための情報技術研究会
Studio ARC
単語列に対する統計的処理


単語の出現頻度
単語連鎖 (n-gram) の出現頻度

例：Web日本語ｎグラム




どのような語，語列がよく出現するか
単語間の相関
近傍 (n語内) での共起確率



http://www.gsk.or.jp/catalog/GSK2007-C/catalog.html
語の間の関連性の抽出
どう関連しているかまではわからない
生成された仮説の検証・評価は人が行う必要が
ある
第1回
安全な暮らしのための情報技術研究会
Studio ARC
その他の自然言語処理

格フレーム抽出

Webから自動構築した大規模格フレーム




http://nlp.kuee.kyoto-u.ac.jp/nlresource/caseframe.html

助詞：格マーカ

指示詞が何を指しているか

何が省略されているか

何と同じか
照応
省略
言い換え
第1回
安全な暮らしのための情報技術研究会
Studio ARC
社会活動のトレース

テキストマイニング



テキスト群に書かれている内容が対象
対象テキスト群（母集団）の設定が重要
例）動向分析

新聞記事



それがいつ書かれたものであるかというメタデータ
時間変化の分析
母集団に対する大域的なトレース


社会のトレンド等
母集団の絞り込むことができれば，特定の個人，集団を
対象とすることも可能

ブログを対象としたテキストマイニング等
第1回
安全な暮らしのための情報技術研究会
Studio ARC
トレースと匿名性


大域的なトレースにおいては，個人を匿名化
して取り扱うことが多い
マイニング対象のテキスト

公開情報


ウェブ，公刊物等
非公開情報（個人情報）



Mail (私信)
個別化：契約により，利便性と引き替えに個人を特定す
る情報を提供
取り扱いには注意が必要
第1回
安全な暮らしのための情報技術研究会
Studio ARC
おわりに

電子化されたテキストであれば何でもマイニ
ングの対象になりうる

手元に複製が必要（複製権の問題）



ウェブ検索エンジンのキャッシュ（用語として問題あ
り）等
自然言語処理技術＋統計処理技術
そこから何を読み取るか／読み取ることがで
きるか

記述対象のトレース
第1回
安全な暮らしのための情報技術研究会
Studio ARC

Download Report