最近の話題から オペレーティングシステム 第14回 ビッグデータ OSの話題ではないが,ブームになりつつある なった “大きな”データとは何か 今 の 状 況(1) 1テラのHDD10億台分 http://www.emc.com/leadership/programs/digit al-universe.htm 9,250円×10億 世界中で,2011年に1.8 “zetta”bytesの情報が =92,500億円 産み出された ゼタ(zetta) 10の21乗 今 の 状 況(2) アップロードされた動画をすべて視聴できるか? Holy Nyans! 60 hours per minute and 4 billion views a day on YouTube(1/23/12) アップロードされる動画数が増えつつある http://youtubeglobal.blogspot.jp/2012/01/holy-nyans-60hours-per-minute-and-4.html 1分間に60時間分の動画がアップロード 2007年では,1分間に6時間分 過去8カ月で25%以上増えた 今 の 状 況(3) 情報が“爆発”的に発生している 情報爆発時代 つまり,大量のデータが発生している ビッグデータ ビッグデータとは(1) 大量のデータのことであるが, 売上データのような,“型にはまった”ものだけ でない 人が作り出している 動画 Twitter センサー(位置情報,温度,…) … 機械が作り出している ビッグデータとは(2) 特徴 大量のデータ 多様なデータ 従来のデータベースでは管理が困難 発生頻度が高い 今までは 大量のデータをすべて処理する能力(コンピュー タのパワー)がなかった 一部だけを取り出して処理 サンプリング 処理に時間がかかる 月末にバッチ処理 今 で は(1) クラウドの利用 大量のデータを全件処理可能 迅速に処理可能 発生した情報を直ぐに処理し,その結果を 活用できる 今 で は(2) 新しい技術 分散処理 Hadoop(ハドゥーブ) 多様なデータを処理できるデータベース 従来のSQL ⇒ NoSQL 新しい(安価な)デバイス スマートフォン ← 位置情報を発信 … というわけで,今では ビッグデータ 大量のデータ 多様なデータ 発生頻度が高い ↓ 処理可能 ビッグデータは処理可能 ビッグデータだから,“見えてくること” 少ないデータからでは,分からないこと 大量のデータを集め,処理し,活用することが可 能になる 新たなビジネス 具 体 例(1) 風邪の流行をTwitterで知る「カゼミル」がパワー アップ ツイート抽出精度向上 http://www.itmedia.co.jp/news/articles/1111/16 /news127.html http://kazemiru.jp/ ツイートに含まれる,“熱”,“せき”など 具 体 例(2) モバイル空間統計に関する情報(NTTドコモ) http://www.nttdocomo.co.jp/corporate/disclosu re/mobile_spatial_statistics/ 基地局の管理エリア内の携帯電話の数が分かる 人の数が分かる 時間とともに,どのように変化するか分かる 人の移動が分かる 応用例 災害が発生した時,帰宅困難者がどこにどれ 位いるか分かる 具 体 例(3) 1日1億件,年間18テラバイトのカード利用デー タから不正使用を検知(IBM) http://www06.ibm.com/innovation/jp/technologies/bigdata2 /card.shtml ビッグデータを獲得する NTTデータが国内全ツイート情報を再販、Twitter とのFirehose契約で http://internet.watch.impress.co.jp/docs/news/ 20121119_574028.html ビッグデータの問題(1) ビッグデータの活用というビジネス ビッグデータに含まれる個人情報の取扱い 位置情報を含む各種情報 ビッグデータの問題(2) 先のNTTドコモの場合 匿名化 http://www.nttdocomo.co.jp/corporate/technology/rd/t ech/main/mobile_spatial_statistics/how_to_produce/ モバイル空間統計では、運用データのうち電話番号の様 な個人を識別できる情報を使用しません。また、生年月 日を年齢層に変換するなど情報の要約を行います。この 処理を「非識別化処理」と呼びます。 少人数エリアの数値を除去します。この処理を「秘匿処 理」と呼びます。秘匿処理は、統計的に少数であることで 個人を推測されやすくなる場合があり、これを防ぐために 行います。 ま と め(1) ビッグデータの特徴 大量 多様 高発生頻度 ま と め(2) ビッグデータの迅速な全件処理 分散処理 新しいデータベース ま と め(3) ビッグデータを活用したビジネス これから必然 ビッグデータに含まれる個人情報の取扱い いつも匿名化できる場合だけか?
© Copyright 2024 ExpyDoc