Document

テキストマイニング,
データマイニングと
社会活動のトレース
2008.03.06
京都高度技術研究所
山田 篤
第1回
安全な暮らしのための情報技術研究会
Studio ARC
内容



テキストマイニングとは
テキストマイニングの技術
社会活動のトレース
第1回
安全な暮らしのための情報技術研究会
Studio ARC
テキストマイニングとは

テキストデータを対象としたデータマイニング




電子化されたテキスト
非定型的な自然言語表現
統計的手法による解析
例)




ウェブ文書からのマイニング
新聞記事からのマイニング
アンケートへの回答からのマイニング
コールセンターにおけるマイニング
第1回
安全な暮らしのための情報技術研究会
Studio ARC
テキストマイニングの技術


電子化テキストの最小構成単位:文字
文字を対象とした統計処理





単一文字の出現頻度
文字連鎖の出現頻度
ある文字の次に生起する文字の確率
文字を単位とすると,意味のある情報の抽出
が困難
意味を担う最小の単位:単語
第1回
安全な暮らしのための情報技術研究会
Studio ARC
テキストを単語列に分割する技術

形態素解析

単語分割(タギング)

英語:ホワイトスペースによる分かち書き



単語内の分割:gun/fight/er
日本語:単語境界?

品詞 (POS) 情報の付与

形態素解析用に特化した辞書
電子化辞書の利用



規則ベース
統計処理
形態素解析の例
第1回
安全な暮らしのための情報技術研究会
Studio ARC
単語列に対する統計的処理


単語の出現頻度
単語連鎖 (n-gram) の出現頻度

例:Web日本語nグラム




どのような語,語列がよく出現するか
単語間の相関
近傍 (n語内) での共起確率



http://www.gsk.or.jp/catalog/GSK2007-C/catalog.html
語の間の関連性の抽出
どう関連しているかまではわからない
生成された仮説の検証・評価は人が行う必要が
ある
第1回
安全な暮らしのための情報技術研究会
Studio ARC
その他の自然言語処理

格フレーム抽出

Webから自動構築した大規模格フレーム




http://nlp.kuee.kyoto-u.ac.jp/nlresource/caseframe.html

助詞:格マーカ

指示詞が何を指しているか

何が省略されているか

何と同じか
照応
省略
言い換え
第1回
安全な暮らしのための情報技術研究会
Studio ARC
社会活動のトレース

テキストマイニング



テキスト群に書かれている内容が対象
対象テキスト群(母集団)の設定が重要
例)動向分析

新聞記事



それがいつ書かれたものであるかというメタデータ
時間変化の分析
母集団に対する大域的なトレース


社会のトレンド等
母集団の絞り込むことができれば,特定の個人,集団を
対象とすることも可能

ブログを対象としたテキストマイニング等
第1回
安全な暮らしのための情報技術研究会
Studio ARC
トレースと匿名性


大域的なトレースにおいては,個人を匿名化
して取り扱うことが多い
マイニング対象のテキスト

公開情報


ウェブ,公刊物等
非公開情報(個人情報)



Mail (私信)
個別化:契約により,利便性と引き替えに個人を特定す
る情報を提供
取り扱いには注意が必要
第1回
安全な暮らしのための情報技術研究会
Studio ARC
おわりに

電子化されたテキストであれば何でもマイニ
ングの対象になりうる

手元に複製が必要(複製権の問題)



ウェブ検索エンジンのキャッシュ(用語として問題あ
り)等
自然言語処理技術+統計処理技術
そこから何を読み取るか/読み取ることがで
きるか

記述対象のトレース
第1回
安全な暮らしのための情報技術研究会
Studio ARC