「Big Data Taxonomy」 (ビッグデータの分類) レポートの

「Big Data Taxonomy」
(ビッグデータの分類)
レポートの解説
勉強会資料
2015年1月28日
Cloud Security Alliance Big Data Working Group
笹原 英司
www.cloudsecurityalliance.org
Chair:
Co-Chairs:
Sreeranga Rajan, Fujitsu
Neel Sundaresan, eBay
Wilco van Ginkel, Verizon
活動領域:
Lead to crystallization of best practices for security and
privacy in big data.
Help industry and government on adoption of best practices.
Establish liaisons with other organizations in order to
coordinate the development of big data security and privacy
standards.
Accelerate the adoption of novel research aimed to address
security and privacy issues.
Put together research proposals for joint funding by
government and industry initiatives.
Copyright © 2014 Cloud Security Alliance
www.cloudsecurityalliance.org
過去の主な活動実績(1)
2012年11月:ビッグデータのセキュリティ/プライバシーにお
ける技術的/組織的問題10項目をまとめた「Top 10 Big Data
Security and Privacy Challenges」を公表 (日本語化済)
2013年6月:サイバー攻撃、データ漏えいのシナリオなどを包
含する脅威モデルを形式化する「モデリング」、脅威モデルに
基づいて扱いやすいソリューションを見つける「分析」、既存
のインフラにソリューションを埋め込む「導入」の視点から拡
張/整理した 「Expanded Top Ten Big Data Security &
Privacy Challenges」を公表
(日本語化済)
2013年9月:大量の構造化/非構造化データを活用した新しい
ツール/機会の導入/利用拡大によって変化するセキュリティ
分析の動向を整理した「Big Data Analytics For Security
Intelligence」を公表
Copyright © 2014 Cloud Security Alliance
www.cloudsecurityalliance.org
過去の主な活動実績(2)
2014年3月:ビッグデータの暗号化における技術的問題10項目
をまとめた「Top Ten Challenges in Cryptography for Big
Data」を公表
2014年4月:米国ホワイトハウスの調査報告書(BIG DATA:
SEIZING OPPORTUNITIES, PRESERVING VALUES)取りまと
め時の情報提供依頼書(RFI)に対する提言書「Comment on
Big Data and the Future of Privacy」を公表 (日本語化済)
2014年5月:前述の米国ビッグデータ調査報告書に対するリーガ
ルの観点からの提言書「Big Data, Big Concerns, and What
the White House Wants to Do about It 」を公表
2014年9月:図表、動画など、多岐にわたるビッグデータを、前
述の十大脅威の視点毎にマッピングすることを目的として「Big
Data Taxonomy」を公表
(日本語化済)
Copyright © 2014 Cloud Security Alliance
www.cloudsecurityalliance.org
ISOのビッグデータ参照モデル(例)
(参考)"Big Data Analytics for Security“
IEEE Computer and Reliability Societies(November/December 2013)
http://www.utdallas.edu/~alvaro.cardenas/papers/IEEESnP.pdf
Copyright © 2014 Cloud Security Alliance
www.cloudsecurityalliance.org
ビッグデータのセキュリティ/プライバシーにおける十大脅威の分類
Copyright © 2014 Cloud Security Alliance
www.cloudsecurityalliance.org
インフラストラクチャセキュリティ
項目
内容
分散プログラミングフ
レームワークにおけ
るセキュアな計算処
理
分散プログラミングフレームワークでは、大容量データを計算して保存するために並
列処理を利用する。典型的な例はMapReduceフレームワークであり、入力ファイルを
複数のチャンク(かたまり)に分割する。MapReduceの最初のフェーズでは、個々の
チャンクのMapperがデータを読み込み、一定の計算処理を行って、キーと値のペア
のリストを出力する。次のフェーズでは、Reducerが個々の鍵に附属する値を結びつ
けて、結果を出力する。主な攻撃防止手段としては、Mapperのセキュア化と、信頼で
きないMapperに存在するデータのセキュア化の2種類がある。
ノンリレーショナルデ
ータストアのセキュリ
ティのベストプラクテ
ィス
NoSQLによって普及したノンリレーショナルデータストアは、セキュリティインフラスト
ラクチャに関しては、まだ進化の途上にある。例えば、NoSQLインジェクション向け
の堅牢なソリューションは、未成熟である。個々のNoSQL DBは、分析の世界から提
示された異なる課題に取り組むよう構築されており、それゆえ設計段階のいかなる
時点においても、モデルの一部となることはなかった。NoSQLデータベースを利用す
る開発者は、通常、ミドルウェアにセキュリティを組み込んできた。NoSQLデータベー
スは、データベースの中で明確にそれを強制するためのサポートを提供していない
。しかしながら、NoSQLデータベースにおけるクラスタの観点は、このようなセキュリ
ティプラクティスの堅牢性に追加的な課題を示している。
Copyright © 2014 Cloud Security Alliance
www.cloudsecurityalliance.org
データプライバシー
項目
内容
プライバ
シー保護
データマ
イニング
/分析
ビッグデータは、潜在的にプライバシーの侵害、侵略的なマーケティング、市民の自由の制限、
国家や企業によるコントロールの増大を可能にする独裁者のトラブルの兆候と見なされる可能
性がある。最近、企業のマーケティングを目的としたデータ分析の活用方法に関する分析により
、どのようにして、当人の父親が知る前に十代の若者が妊娠したことを小売事業者が確認する
ことができるかが事例として示された。同様に、ユーザーのプライバシーを保持するために、分
析用データの匿名化だけでは十分でない。例えばAOLは、学術目的で匿名化された検索ログを
公表したが、その検索者によって簡単にユーザーが特定された。Netflixは、同社の映像スコア
をIMDBのスコアで修正することによって匿名化されたデータセットのユーザーが特定された時、
同様の問題に直面した。このようなことから、意図しないプライバシーの公開を防止するための
ガイドラインや推奨を策定することが重要である。
暗号化に
より強制
されたア
クセス制
御
最も機微なプライバシーデータがエンドツーエンドでセキュアであり、権限を有する主体だけがア
クセスできることを保証するためには、データがアクセス制御ポリシーに基づいて暗号化されて
いる必要がある。属性ベース暗号(ABE)など、この分野に特化した研究を一層充実した、効率
的で拡張性のあるものにする必要がある。、分散した主体間で認証や同意、忠実性を保証する
ためには、暗号化によるセキュアな通信フレームワークが導入される必要がある。
粒度の高 アクセス制御の観点から問題となるセキュリティの特性は機密性であり、アクセスすべきでない
いアクセ 人によるデータへのアクセスを抑制することである。過程の細かいアクセスメカニズムの問題は
ス制御
、そうでなければ共有されたであろうデータが、雑音のセキュリティを保証するために、より厳格
な分類へと排除されることがよくある点である。詳細なアクセス制御によって、機密性に妥協する
ことなく可能な限りデータを共有する剣の代わりとなるメスがデータ管理者に付与される。
Copyright © 2014 Cloud Security Alliance
www.cloudsecurityalliance.org
データ管理
項目
内容
セキュア
なデータ
保存とトラ
ンザクショ
ンのログ
データとトランザクションのログは、重層的なストレージメディアに保存される。手動で各層間を
データ移動させることによって、ITマネージャーは、どのデータがいつ移動されたかを介して、正
確に直接コントロールすることができる。しかしながら、データセットの容量は指数関数的に成長
しており、今後も継続すると、拡張性と可用性のためにビッグデータストレージ管理の自動階層
化が求められる。自動階層化ソリューションは、どこにデータが保存されるか、どれがセキュア
なデータ保存の新たな脅威となるかを追跡することはない。新たな機能として、権限のないアク
セスを遮断し、常時、可用性を維持することが必須となる。
粒度の高
い監査
リアルタイムのセキュリティモニタリングを利用して、我々は攻撃が起きた瞬間に通知されるよう
試みる。実際には、これがいつも当てはまるとは限らない(例.最新の攻撃、本当は正しいのに
見落とされた場合)。見落とされた攻撃の真相を究明するためには、我々は監査情報が必要で
ある。これは、何が起きて、何を誤ったのかを理解するためだけでなく、コンプライアンスや法規
制、フォレンジックの理由からも重要である。そのような観点から監査は目新しいものではない
が、適用範囲や粒度が異なることがある。例えば、我々はより多くのデータオブジェクトを処理し
なければならないが、(必ずしも必要ではないが)分散している可能性がある。
データ来
歴
来歴を可能にするビッグデータアプリケーションのプログラミング環境から生成される大規模な
来歴グラフにより、来歴のメタデータは複雑化していく。メタデータのセキュリティ/秘密性アプリ
ケーションへの依存度を検知するために行うこのような大規模の来歴グラフ分析はコンピュータ
処理上集中的なものになる。
Copyright © 2014 Cloud Security Alliance
www.cloudsecurityalliance.org
完全性と事後対策的なセキュリティ
項目
内容
エンドポイ
ントの入
力の検証
/フィルタ
リング
企業環境におけるビッグデータのユースケースの多くで、エンドポイントデバイスなど様々なソー
スからのデータ収集が要求される。例えば、セキュリティ情報/イベント管理システム(SIEM)は
、企業ネットワーク上にある数百万のハードウェアデバイスやソフトウェアアプリケーションからイ
ベントログを収集する可能性がある。データ収集プロセスにおける重要な課題として、入力の検
証がある。どのようにしてデータを信頼することができるのか? どのようにして入力データのソ
ースが悪意のないことを検証でき、どのようにして収集物から悪意のある入力をフィルタリング
することができるのか? 検証とフィルタリングは、特に私物デバイスの業務利用(BYOD)時な
ど、信頼できない入力ソースにより引き起こされる手強い課題である。
リアルタイ
ムのセキ
ュリティモ
ニタリング
(セキュリティ)デバイスによって数多くの警告が生成されるとすると、リアルタイムのセキュリティ
モニタリングが常に問題となってきた。これらの警告は(相関関係の有無に関わらず)大量の誤
検知につながり、取り出した量を人間が処理できなくなると、大抵無視されるか単にクリックされ
るだけになる。この問題は、データの流れの容量や速度によっては、ビッグデータと共に増大す
る可能性がある。しかしながら、ビッグデータ技術は、これらの技術が、異なるタイプのデータの
高速な処理・分析を可能にするという意味で、機会をもたらす可能性もある。その出番になった
時、例えば拡張性のあるセキュリティ分析に基づいてリアルタイムの異常検知を提供するため
に利用することが可能である。
Copyright © 2014 Cloud Security Alliance
www.cloudsecurityalliance.org
ビッグデータの分類と、セキュリティ/プライバシーにおける
十大脅威の分類の関係
*2015年1月、これら脅威10項目について、様々なベストプラクテ
ィスを集めた100 Best Practices Handbookのプロジェクトがスタ
ートしました!
Top 10 Big Data Security and Privacy Challenges
大分類
十大脅威
Big Data Taxonomy
序論、データ
インフラストラクチャ 分散プログラミングフレームワークにおけるセキュア 計算処理基盤、セキュリティとプライ
セキュリティ
バシー
な計算処理
ノンリレーショナルデータストアのセキュリティのベス
トプラクティス
プライバシー保護データマイニング/分析
分析法、可視化、セキュリティとプライ
データプライバシー 暗号化により強制されたデータ中心のセキュリティ バシー
粒度の高いアクセス制御
セキュアなデータ保存とトランザクションのログ
ストレージインフラストラクチャ、セ
データ管理
粒度の高い監査
キュリティとプライバシー
データ来歴
完全性と事後対策 エンドポイントの検証/フィルタリング
分析法、可視化、セキュリティとプライ
的なセキュリティ
リアルタイムのセキュリティモニタリング
バシー
Copyright © 2014 Cloud Security Alliance
www.cloudsecurityalliance.org
ドキュメントの構成
序論
データ
計算処理基盤
ストレージインフラストラクチャ
分析法
可視化
セキュリティとプライバシー
結論
参考文献
(7p)
(8-12p)
(13-20p)
(20-26p)
(26-33p)
(33-35p)
(35-38p)
(38p)
(38-39p)
・ビッグデータのための
セキュリティ
・ビッグデータを利用した
セキュリティ
Copyright © 2014 Cloud Security Alliance
www.cloudsecurityalliance.org
図4. ビッグデータ業務マップ
Copyright © 2014 Cloud Security Alliance
www.cloudsecurityalliance.org
図10. ストレージインフラストラクチャ
Oracle
リレーショナ
ル
(SQL)
Sql-lite
MySql
PostgresSQL
ドキュメント
指向
MongoDB
CouchDB
CouchBase
キー・バ
リューストア
ビッグ
データ
Redis
In-memory
Memcached
Aerospike
ストレージ基盤
NoSQL
Dynamo
inspired
Riak
Cassandra
Voldemort
Big Table
Inspired
HBase
Cassandra
Giraph
グラフ指向
Neo4j
OrientDB
NewSQL
インメモリ
HStore
VoltDB
Copyright © 2014 Cloud Security Alliance
www.cloudsecurityalliance.org
図13. 機械学習アルゴリズム
Polynomial
MARS
回帰
Decision
trees
教師あり
分類
Naïve Bayes
クラスタリング
Support
vector
machines
次元削減
K-means
教師無し
ビッグ
データ
Gaussian
mixtures
機械学習アルゴ
リズム
Principle
component
analysis
Active
半教師あり
Co-training
強化
Markov
decision
process
Q-learning
Copyright © 2014 Cloud Security Alliance
www.cloudsecurityalliance.org
図15. 可視化技術のための分類
Line & Bar
Char t s
Char t s &
Plot s
Spat ial
Layout
Scat t er Plot s
Tr ee M aps
Tr ees &
Gr aphs
Ar c Diagr ams
For ced-gr aph
dr awing
Dat a Cubes
Binning
Big
Dat a
Visualizat ion
algor it hms
Hist ogr am
Binning
Abst r act or
Summar y
Clust er ing
Hier ar chical
Aggr egat ion
M icr osof t
Pivot Viewer
Int er act ive or
Real-t ime
Tableau
Copyright © 2014 Cloud Security Alliance
www.cloudsecurityalliance.org
「BigData Taxonomy
翻訳裏話」
勉強会資料
2015年1月28日
一般社団法人日本クラウドセキュリティアライアンス 理事
諸角 昌宏
www.cloudsecurityalliance.org
技術的範囲が広い
今まで翻訳したCSA関連のドキュメントは、基本的にセキュリ
ティおよびクラウドの範囲。
BigData Taxonomyでは、記述されている内容の技術的範囲が大
きい (例)
データのレイテンシー要件
分散処理技術: Hadoop, Spark, …
noSQP型データベース:多数あり
リレーショナルDBの知識はあったが、noSQL型の種類/特
徴は新たなエリア。
CAP定理(理論)なるものの存在:分断耐性を維持するた
めに一貫性か可用性のどちらかを犠牲にする… これって
データベース???
機械学習
教師あり、教師なし、半教師あり…
などなど。。。
翻訳時にGoogle検索の嵐になったが、勉強になった部分が多か
った。
www.cloudsecurityalliance.org
Copyright © 2014 Cloud Security Alliance
CSAジャパンの翻訳作業
翻訳を進めなければならないドキュメントが多数存在
情報発信活動でカバーしている部分もあるが、絶対数は足り
ない
ボリュームがあり、できるだけたくさんの翻訳者が必要
ガイダンスなど
利点
翻訳活動を通して、知識を取得/深めることができる
翻訳ビジネスではないので、勉強しながら翻訳を進めることが
できる
専門家の支援が得られる
CSAジャパンの翻訳活動へのご意見がございましたら、
[email protected] までご連絡ください。今後の
活動の参考にさせていただきます。
Copyright © 2014 Cloud Security Alliance
www.cloudsecurityalliance.org
Copyright © 2014 Cloud Security Alliance
www.cloudsecurityalliance.org