ビッグデータとオープンデータ

ビッグデータとオープンデータ
メディアコミュニケーション論Ⅲ
第14回
人が作り出している
ビッグデータとは(1)
(ソーシャルデータ)


大量のデータのことであるが,
 売上データ(日付と金額の組み)のような,“型
が決まった”ものだけでない
機械が作り出している
 動画
(M2M-Machine To Machine)
 Twitterなど
 センサー(位置情報,温度,…)
多様なデータでもある
ビッグデータとは(2)


大量・多様なデータで
発生速度が早い
 次から次へと発生する
ビッグデータとは(3)

特徴
 大量のデータ(Volumue)
 多様なデータ(Variety)
 従来のデータベースでは管理が困難
 発生速度が速い(Velocity)
ビッグデータの処理(従来)

大量のデータをすべて処理する能力(コンピュー
タのパワー)がなかった
 一部だけを取り出して処理
 サンプリング
 処理に時間がかかる
 月末にバッチ処理
ビッグデータの処理(今では)

クラウドの利用
 大量のデータを全件処理可能
 迅速に処理可能
 発生した情報を直ぐに処理し,その結果を
活用できる
データが“新鮮”な
うちに,活用できる
ビッグデータは処理可能


ビッグデータだから,“見えてくること”
 少ないデータからでは,分からないこと
 従来は処理できないデータ
 あっても,“存在しない”データ
新たなビジネス
具体例
具 体 例(1-1)

販売データ
 顧客の様々な情報(年齢,性別,住所など)と
購入した商品
ポイントカードの活用
 次に何が売れるか?
 品揃えの充実・売上げ増加
 コンビニで生鮮食料品
 顧客の詳細情報から,“売れる”と判断
具 体 例(1-2)

販売データ
 自動販売機
 JR 東日本ウォータービジネス社
http://itpro.nikkeibp.co.jp/article/COLUMN/2
0120123/379107/
 スイカや顔認識で顧客の属性を把握、自販機
の品ぞろえや商品開発に生かす
具 体 例(2)


ソーシャルデータ
 自社製品を含むデータ(“つぶやき”)
 消費者の(個人)情報と結びつける
分析することで,新製品の開発・既存製品の改
良
具 体 例(3-1)

検索キーワード
 特定のカテゴリーに属するものが増加
 “せき”,“熱”など
 何を意味するのか?
 風邪の流行
具 体 例(3-2)

Twitterでも同様
 ツイートに含まれる,“せき”,熱“など
 風邪の流行をTwitterで知る「カゼミル」がパ
ワーアップ ツイート抽出精度向上
http://www.itmedia.co.jp/news/articles/1111
/16/news127.html
 http://kazemiru.jp/
具 体 例(4-1)

リアルタイム人口
 いつ,どこに何人いるか
 時間帯(昼と夜)
 場所(住宅街とオフイス街)
 災害が発生した際,帰宅困難者を見積もるこ
とが可能
具 体 例(4-2)

モバイル空間統計に関する情報(NTTドコモ)
http://www.nttdocomo.co.jp/corporate/disclosu
re/mobile_spatial_statistics/
 基地局の管理エリア内の携帯電話の数が分
かる
 人の数が分かる
 時間とともに,どのように変化するか分かる
 人の移動が分かる
具 体 例(5)

犯罪対策
 1日1億件,年間18テラバイトのカード利用
データから不正使用を検知(IBM)
http://www06.ibm.com/innovation/jp/technologies/bigda
ta2/card.shtml
具 体 例(6)

カーナビからの走行データ
 “通れた道マップ”
 震災後,どの道路が通行可能かどうか
 危険箇所の発見
 急ブレーキが多発
 そこに何か原因がある
 http://www.pref.saitama.lg.jp/site/roomseisaku/seisaku-025.html
具 体 例(7)

天気予報
 ウェザーニューズ
 会員が,自分のいる場所の天気を報告
 現在の状況から,予報を迅速に
具 体 例(8)

医療情報
 カルテだけでない
 患者の諸々の情報
 次の発病を防ぐ
具 体 例(9)

遺伝子情報(DNA)
 究極の個人情報
 1人の情報を完全に解析
 多数の人の情報を収集
 遺伝子情報から,将来発症する可能性が高い
疾病が判明
ビッグデータの入手方法
自分で


持っているものを使う
 従来は,使わなかった(使えなかった)
新たに集める
 センサー
 Web2.0的な方法は?
買う(売る)(1)

NTTデータが国内全ツイート情報を再販、
TwitterとのFirehose契約で
http://internet.watch.impress.co.jp/docs/
news/20121119_574028.html
買う(売る)(2)

交通系ICカードのビッグデータ利活用による 駅
エリアマーケティング情報提供サービスを開始
http://www.hitachi.co.jp/New/cnews/month/20
13/06/0627a.html

JR東日本と日立、Suica利用データを販売、懸
念の声も(WIRED.jp)
オープンデータ(1)


自由に使うことができるデータ
注目されているのが,“行政機関がもつ大量の
データ”
 一般に公開(コンピュータで処理可能な形式)
 新たなビジネス
オープンデータ(2)

電子行政オープンデータ戦略
http://www.kantei.go.jp/jp/singi/it2/pdf/120704_
gaiyou.pdf
問 題 点
ビッグデータの問題(1)


ビッグデータを活用するビジネス
 データに欠損がある
 データの使い方が分からない
人材不足

データサイエンティスト
ビッグデータの問題(2)

ビッグデータに含まれる個人情報の取扱い
 DNAなどは,もっとも典型的な例
ビッグデータの問題(3)




先のNTTドコモの場合
匿名化
http://www.nttdocomo.co.jp/corporate/technology/rd/t
ech/main/mobile_spatial_statistics/how_to_produce/
モバイル空間統計では、運用データのうち電話番号の様
な個人を識別できる情報を使用しません。また、生年月
日を年齢層に変換するなど情報の要約を行います。この
処理を「非識別化処理」と呼びます。
少人数エリアの数値を除去します。この処理を「秘匿処
理」と呼びます。秘匿処理は、統計的に少数であることで
個人を推測されやすくなる場合があり、これを防ぐために
行います。
ビッグデータの問題(4)


単独のデータなら問題ない,としても
しかし,複数の(ビッグ)データを併せると,浮か
び上がる情報もある
 ビッグデータ活用の本質の一つ
 匿名化したはずなのに,個人が見えてくる可
能性