最近の話題から

最近の話題から
オペレーティングシステム
第14回
ビッグデータ


OSの話題ではないが,ブームになりつつある
なった
“大きな”データとは何か
今 の 状 況(1)



1テラのHDD10億台分
http://www.emc.com/leadership/programs/digit
al-universe.htm
9,250円×10億
世界中で,2011年に1.8
“zetta”bytesの情報が
=92,500億円
産み出された
ゼタ(zetta) 10の21乗
今 の 状 況(2)




アップロードされた動画をすべて視聴できるか?
Holy
Nyans! 60 hours per minute and 4 billion
views a day on YouTube(1/23/12)
アップロードされる動画数が増えつつある
http://youtubeglobal.blogspot.jp/2012/01/holy-nyans-60hours-per-minute-and-4.html
1分間に60時間分の動画がアップロード
2007年では,1分間に6時間分
過去8カ月で25%以上増えた
今 の 状 況(3)

情報が“爆発”的に発生している

情報爆発時代

つまり,大量のデータが発生している
ビッグデータ
ビッグデータとは(1)

大量のデータのことであるが,
 売上データのような,“型にはまった”ものだけ
でない
人が作り出している
 動画
 Twitter
 センサー(位置情報,温度,…)
 …
機械が作り出している
ビッグデータとは(2)

特徴
 大量のデータ
 多様なデータ
 従来のデータベースでは管理が困難
 発生頻度が高い
今までは

大量のデータをすべて処理する能力(コンピュー
タのパワー)がなかった
 一部だけを取り出して処理
 サンプリング
 処理に時間がかかる
 月末にバッチ処理
今 で は(1)

クラウドの利用
 大量のデータを全件処理可能
 迅速に処理可能
 発生した情報を直ぐに処理し,その結果を
活用できる
今 で は(2)

新しい技術
 分散処理
 Hadoop(ハドゥーブ)
 多様なデータを処理できるデータベース
 従来のSQL ⇒ NoSQL
 新しい(安価な)デバイス
 スマートフォン ← 位置情報を発信
 …
というわけで,今では

ビッグデータ
 大量のデータ
 多様なデータ
 発生頻度が高い
↓
処理可能
ビッグデータは処理可能


ビッグデータだから,“見えてくること”
 少ないデータからでは,分からないこと
大量のデータを集め,処理し,活用することが可
能になる
 新たなビジネス
具 体 例(1)



風邪の流行をTwitterで知る「カゼミル」がパワー
アップ ツイート抽出精度向上
http://www.itmedia.co.jp/news/articles/1111/16
/news127.html
http://kazemiru.jp/
ツイートに含まれる,“熱”,“せき”など
具 体 例(2)

モバイル空間統計に関する情報(NTTドコモ)
http://www.nttdocomo.co.jp/corporate/disclosu
re/mobile_spatial_statistics/



基地局の管理エリア内の携帯電話の数が分かる
 人の数が分かる
時間とともに,どのように変化するか分かる
 人の移動が分かる
応用例 災害が発生した時,帰宅困難者がどこにどれ
位いるか分かる
具 体 例(3)

1日1億件,年間18テラバイトのカード利用デー
タから不正使用を検知(IBM)
http://www06.ibm.com/innovation/jp/technologies/bigdata2
/card.shtml
ビッグデータを獲得する

NTTデータが国内全ツイート情報を再販、Twitter
とのFirehose契約で
http://internet.watch.impress.co.jp/docs/news/
20121119_574028.html
ビッグデータの問題(1)

ビッグデータの活用というビジネス

ビッグデータに含まれる個人情報の取扱い
位置情報を含む各種情報
ビッグデータの問題(2)




先のNTTドコモの場合
匿名化
http://www.nttdocomo.co.jp/corporate/technology/rd/t
ech/main/mobile_spatial_statistics/how_to_produce/
モバイル空間統計では、運用データのうち電話番号の様
な個人を識別できる情報を使用しません。また、生年月
日を年齢層に変換するなど情報の要約を行います。この
処理を「非識別化処理」と呼びます。
少人数エリアの数値を除去します。この処理を「秘匿処
理」と呼びます。秘匿処理は、統計的に少数であることで
個人を推測されやすくなる場合があり、これを防ぐために
行います。
ま と め(1)

ビッグデータの特徴
 大量
 多様
 高発生頻度
ま と め(2)

ビッグデータの迅速な全件処理
 分散処理
 新しいデータベース
ま と め(3)

ビッグデータを活用したビジネス
 これから必然
 ビッグデータに含まれる個人情報の取扱い
 いつも匿名化できる場合だけか?