ビッグデータとオープンデータ メディアコミュニケーション論Ⅲ 第14回 人が作り出している ビッグデータとは(1) (ソーシャルデータ) 大量のデータのことであるが, 売上データ(日付と金額の組み)のような,“型 が決まった”ものだけでない 機械が作り出している 動画 (M2M-Machine To Machine) Twitterなど センサー(位置情報,温度,…) 多様なデータでもある ビッグデータとは(2) 大量・多様なデータで 発生速度が早い 次から次へと発生する ビッグデータとは(3) 特徴 大量のデータ(Volumue) 多様なデータ(Variety) 従来のデータベースでは管理が困難 発生速度が速い(Velocity) ビッグデータの処理(従来) 大量のデータをすべて処理する能力(コンピュー タのパワー)がなかった 一部だけを取り出して処理 サンプリング 処理に時間がかかる 月末にバッチ処理 ビッグデータの処理(今では) クラウドの利用 大量のデータを全件処理可能 迅速に処理可能 発生した情報を直ぐに処理し,その結果を 活用できる データが“新鮮”な うちに,活用できる ビッグデータは処理可能 ビッグデータだから,“見えてくること” 少ないデータからでは,分からないこと 従来は処理できないデータ あっても,“存在しない”データ 新たなビジネス 具体例 具 体 例(1-1) 販売データ 顧客の様々な情報(年齢,性別,住所など)と 購入した商品 ポイントカードの活用 次に何が売れるか? 品揃えの充実・売上げ増加 コンビニで生鮮食料品 顧客の詳細情報から,“売れる”と判断 具 体 例(1-2) 販売データ 自動販売機 JR 東日本ウォータービジネス社 http://itpro.nikkeibp.co.jp/article/COLUMN/2 0120123/379107/ スイカや顔認識で顧客の属性を把握、自販機 の品ぞろえや商品開発に生かす 具 体 例(2) ソーシャルデータ 自社製品を含むデータ(“つぶやき”) 消費者の(個人)情報と結びつける 分析することで,新製品の開発・既存製品の改 良 具 体 例(3-1) 検索キーワード 特定のカテゴリーに属するものが増加 “せき”,“熱”など 何を意味するのか? 風邪の流行 具 体 例(3-2) Twitterでも同様 ツイートに含まれる,“せき”,熱“など 風邪の流行をTwitterで知る「カゼミル」がパ ワーアップ ツイート抽出精度向上 http://www.itmedia.co.jp/news/articles/1111 /16/news127.html http://kazemiru.jp/ 具 体 例(4-1) リアルタイム人口 いつ,どこに何人いるか 時間帯(昼と夜) 場所(住宅街とオフイス街) 災害が発生した際,帰宅困難者を見積もるこ とが可能 具 体 例(4-2) モバイル空間統計に関する情報(NTTドコモ) http://www.nttdocomo.co.jp/corporate/disclosu re/mobile_spatial_statistics/ 基地局の管理エリア内の携帯電話の数が分 かる 人の数が分かる 時間とともに,どのように変化するか分かる 人の移動が分かる 具 体 例(5) 犯罪対策 1日1億件,年間18テラバイトのカード利用 データから不正使用を検知(IBM) http://www06.ibm.com/innovation/jp/technologies/bigda ta2/card.shtml 具 体 例(6) カーナビからの走行データ “通れた道マップ” 震災後,どの道路が通行可能かどうか 危険箇所の発見 急ブレーキが多発 そこに何か原因がある http://www.pref.saitama.lg.jp/site/roomseisaku/seisaku-025.html 具 体 例(7) 天気予報 ウェザーニューズ 会員が,自分のいる場所の天気を報告 現在の状況から,予報を迅速に 具 体 例(8) 医療情報 カルテだけでない 患者の諸々の情報 次の発病を防ぐ 具 体 例(9) 遺伝子情報(DNA) 究極の個人情報 1人の情報を完全に解析 多数の人の情報を収集 遺伝子情報から,将来発症する可能性が高い 疾病が判明 ビッグデータの入手方法 自分で 持っているものを使う 従来は,使わなかった(使えなかった) 新たに集める センサー Web2.0的な方法は? 買う(売る)(1) NTTデータが国内全ツイート情報を再販、 TwitterとのFirehose契約で http://internet.watch.impress.co.jp/docs/ news/20121119_574028.html 買う(売る)(2) 交通系ICカードのビッグデータ利活用による 駅 エリアマーケティング情報提供サービスを開始 http://www.hitachi.co.jp/New/cnews/month/20 13/06/0627a.html JR東日本と日立、Suica利用データを販売、懸 念の声も(WIRED.jp) オープンデータ(1) 自由に使うことができるデータ 注目されているのが,“行政機関がもつ大量の データ” 一般に公開(コンピュータで処理可能な形式) 新たなビジネス オープンデータ(2) 電子行政オープンデータ戦略 http://www.kantei.go.jp/jp/singi/it2/pdf/120704_ gaiyou.pdf 問 題 点 ビッグデータの問題(1) ビッグデータを活用するビジネス データに欠損がある データの使い方が分からない 人材不足 データサイエンティスト ビッグデータの問題(2) ビッグデータに含まれる個人情報の取扱い DNAなどは,もっとも典型的な例 ビッグデータの問題(3) 先のNTTドコモの場合 匿名化 http://www.nttdocomo.co.jp/corporate/technology/rd/t ech/main/mobile_spatial_statistics/how_to_produce/ モバイル空間統計では、運用データのうち電話番号の様 な個人を識別できる情報を使用しません。また、生年月 日を年齢層に変換するなど情報の要約を行います。この 処理を「非識別化処理」と呼びます。 少人数エリアの数値を除去します。この処理を「秘匿処 理」と呼びます。秘匿処理は、統計的に少数であることで 個人を推測されやすくなる場合があり、これを防ぐために 行います。 ビッグデータの問題(4) 単独のデータなら問題ない,としても しかし,複数の(ビッグ)データを併せると,浮か び上がる情報もある ビッグデータ活用の本質の一つ 匿名化したはずなのに,個人が見えてくる可 能性
© Copyright 2024 ExpyDoc