Apache™Hadoop®で構築する モダンデータアーキテクチャ Data Lake への道のり

Ap ac he ™ Ha do op ® で構築 する モダン データア ーキテク チャ Data Lake への道のり
Hortonworks ホ ワ イト ペー パー
2 01 4 年 3 月 v 1.1
Apache Hadoop で構築するモダンデータアーキテクチャ
©2014 Hortonworks
www.jp.hortonworks.com
P1
エグゼクティブサマリー
データ自体が現在のデータセンターの問題であり、Apache Hadoopはその答えです。企業の IT 機能がデー
タ管理を目的に大規模なシステムを採用して間もなく、企業データウェアハウス(EDW)にあらゆる企業デー
タが格納されるようになりました。今日ではどの企業もデータウェアハウスを持ち、企業システムからビジネ
スの本質をモデル化しキャプチャするのに役立てています。
ウェブや接続デバイスなどからのインプットから大量の記録データまで、近年、新しいタイプのデータの爆発
的な増加により、EDWには非常に大きな圧力がかかっています。
データセンターの統一性を維持しつつ、この急激なデータ増加に対処するために、Apache Hadoopを導入す
る企業の数が日々増しています。
ここでは、Apache Hadoopとは何か、データプラットフォームとしてのその能力、そして中心となるHadoopとそ
れを取り巻くエコシステムを提供するベンダーが、Data Lake実現の一環として、いかにして既存のデータシ
ステムとモダンデータアーキテクチャの統合という企業の要件を満たしていくかについて説明します。
エンタープライズData Lakeには次の利点があります:
かつてない効率性:ストレージコストの大幅な引き下げと、データ変換やデータ統合などデータ処理の
ワークロードの最適化による、データアーキテクチャにかつてない効率性を提供します。
新たなビジネスチャンス:すべての企業データへの柔軟な「スキーマオンリード」アクセスと、バッチか
らリアルタイムまで、同一のデータセットでマルチユース、マルチワークロードのデータ処理が可能なた
め、新たなビジネス機会が生まれます。
Apache Hadoopは以下のテクノロジーコアで利益を提供します:
Hortonworks Data Platform
の独立分析を見るには
F orre ste r
Wav e TM :
B ig Data
H adoop Solutions,
Q 1
20 14 をダウンロードしてく
ださい。
Hadoop分散ファイルシステム:Hadoop分散ファイルシステム(HDFS)は、スケーラブルで信頼性の
高いデータストレージを提供するJavaベースのファイルシステムで、コモディティサーバーの大規模な
クラスターにわたって設計されています。
Apache Hadoop YARN:YARNはプラグ可能なアーキテクチャとリソース管理を提供し、データ処理
エンジンがHDFSに格納されたデータと対話できるようにします。
Apache Hadoop で構築するモダンデータアーキテクチャ
©2014 Hortonworks
www,jp.hortonworks.com
P2
データの混乱
企業におけるITの各機能は、長年にわたって大規模データの課題に取り組んできました。企業内で生
成されるデータの大半は、大規模なエンタープライズリソースプランニング(ERP)システム、顧客関係
管理(CRM)システム、また企業の特定の機能をサポートするその他のシステムに由来するものです。
このような「基幹系システム(SoR)」が普通となった直後、これらのシステムから抽出されたデータの保
管場所としてデータウェアハウスが登場し、「ビジネスインテリジェンス」アプリケーションという需要を生
み出し、ひとつの業界が誕生しました。今日、あらゆる組織がデータウェアハウスを使用して、企業シス
テムからビジネスの本質をモデル化しキャプチャしています。
新しいタイプのデータへの挑戦
新しいタイプのデータの出現とその爆発的な成長は、近年、企業データシステムに非常に大きな圧力
新しいタイプのデータについて
をかけています。こうした新しいタイプのデータは、ウェブサイトや接続デバイスなどの成長に伴う「人と
の詳細は、
関わりあうシステム(SoE)」から起こったものです。
jp.hortonworks.com を
このようなデータは、その多様な特徴ゆえにデータウェアハウスに課題をもたらしています:
ご覧ください。
• クリッ クストリ ーム
指数関数的な増加
• ソーシ ャル メディ ア
2012 年に 2.8ZB だったデータが、2020 年までに 40ZB に増加すると推定されています。この成長
• サ ーバーロ グ
データの 85%は新しいデータタイプだと予測され、その内マシンで生成されたデータは 2020 年まで
• ジ オロケーシ ョ ン
に 15 倍増加すると考えられています。(出典:IDC)
• マシ ンお よびセ ンサ ー
本質的に多様なデータ:増加していくデータには、殆ど構造のないもの、全く構造を持たないもの、
また取り込む際に信頼性のあるスキーマを作成するために頻繁に構造を変化させるものがあります。
大規模なデータから得られる価値:着信データは、個別の記録または小規模な記録の集まりとして
見る場合にはほとんど価値がありません。しかし、大規模あるいは長期的な観点から見たデータは、
パターンを調査したり、高度な分析アプリケーションに使用したりできます。
Apache Hadoop の成長
キャプチャと保存に由来する課題もさることながら、いかに既存の企業データと、新しいタイプのデータ
Hadoop とは?
Apache Hado o p は、誰より
も先にデジタルデータを大規模
が持つ価値を融合させるかという課題は、小売から医療、広告からエネルギー産業といったあらゆる業
に格納、処理する必要に迫ら
界での共通認識です。
れたヤフーや Facebook など、
いわゆるビッグデータのこれらの課題に取り組み、その価値を引き出す方法として生まれた技術が Apache
ウェブスケールの消費者企業
Hadoop です。その勢いは、Forrester Research の Forrester Wave TM Big Data Hadoop
の経験から生まれたオープン
Solutions,
Q 1 2014 で「とどまるところを知らない」と記載されました。
ソース技術です。
近年の Apache Hadoop の成長に伴い、大規模データセットのシンプルなデータ処理から、企業に必要
なサービスを備えた本格的なデータプラットフォームまで、またセキュリティから運用管理まで、Apache H
adoop はその機能を拡大しました。
Apache Hadoop で構築するモダンデータアーキテクチャ
©2014 Hortonworks
www,jp.hortonworks.com
P3
Hadoop と既存データシステム:
モダンデータアーキテクチャ
アーキテクチャの観点から見て、コモディティサーバー上で動作するように設計されたオープンソース技術である Hadoop を既存のデータ
システムを補完するものとして使用することには非常に説得力があります。Hadoop は、低コスト、スケールアウトアプローチのデータスト
APPLICATIONS*
レージ及び処理を提供します。その能力は、多数の世界でも最大規模のウェブプロパティ企業によって実証されています。
Sta8s8cal)
Analysis)
BI)/)Repor8ng,)
Ad)Hoc)Analysis)
Interac8ve)Web)
&)Mobile)Applica8ons)
Enterprise)
Applica8ons)
DEV*&*DATA*TOOLS*
SOURCES*
**********************)
MPP*
Repositories)
OLTP,)ERP,)
CRM)Systems)
Documents)
&)Emails))
Web)Logs,)
Click)Streams)
Social)
Networks)
Data*Access)
Data*Management)
Machine)
Generated)
Sensor)
Data)
Opera>ons)
EDW EDW* MPP
Security)
OPERATIONS*TOOLS*
RDBMS*
ROOMS
Governance**
&*Integra>on)
DATA*SYSTEMS*
Build)&)Test)
Provision,)
Manage)&)
Monitor)
GeoLloca8on)
Data)
図1
既存のデータシステムに統合した Apache Hadoop のモダンデータアーキテクチャ
Hortonworks は、Hadoop をデータセンターの重要なコンポーネントとし、いくつもの大規模データウェアハウスベンダーと
深く提携することに重点を置いています。Hadoop は、これまでにも重要なビジネスチャンスとかつてない効率性を企業に
もたらしてきました。
Apache Hadoop で構築するモダンデータアーキテクチャ
©2014 Hortonworks
www,jp.hortonworks.com
P4
分析の新しいチャンス
Hadoop のアーキテクチャは、データ分析に新たな機会を提供します:
スキーマオンリード:データがウェアハウスにロードされる際、指定したスキーマに変換され、「スキーマオンライト」を必要とする EDW と
は異なり、Hadoop の使用により、ユーザーは生データのままデータを保存することができ、その後アナリストがデータを分析したいとき
に「スキーマオンリード」でアプリケーションのニーズに合わせてスキーマを作成することができます。これにより、蓄積されるデータの初
期値が疑わしい場合の構造の不足とデータ処理への対処の問題が解決されます。
たとえば、あるアプリケーションが CRM データとクリックストリームデータを組み合わせて顧客とのやりとりに関する単一ビューを得る場合、
使用可能な新しいタイプのデータ(サーバーログや感情データ)を追加して、顧客ビューを改善することができます。データ格納の時点でその
構造や特定のアプリケーションとの関連を設定する必要がありません。
Hadoop:'A"New"Approach"to"Insight"
Current'Approach'
'
Apply"schema"on"write"
"
Heavily"dependent"on"IT"
✚"
SQL'
Collect"
Ask"
structured" ques5ons"
data"
from"list"
Apply"schema"on"read"
"
Support"range"of"access"paJerns"to"data"
stored"in"HDFS:"polymorphic"access"
Hadoop'
Single"Query"Engine"
Repeatable"Linear"Process"
Determine" Design"
list"of"
solu5ons"
ques5ons"
Augment'with'Hadoop'
'
Mul5ple"Query"Engines"
Itera5ve"Process:"Explore,"Transform,"Analyze"
Detect"
addi5onal"
ques5ons"
Batch"
Interac5ve"
RealO5me"
InOmemory"
図2
マルチユース、マルチワークロードのデータ処理。Hadoop は共通のデータセットに対して複数のアクセス方法(バッチ、リアルタイム、ス
トリーミング、インメモリなど)をサポートしているため、アナリストはタイムツーインサイトをこれまで以上にリアルタイムに近づけてデータ
の変換や表示を複数の方法で(さまざまなスキーマ間で)行うことで、クローズドループ型のアナリティクスを実現できます。
製造工場がリアルタイムデータ処理でセンサーデータに反応したとすると、データ分析担当者が対話型処理で日中にログを確認し、夜
間に一連のバッチ処理を実行することができます。共有リソースの単一クラスターと単一のデータバージョンに起こりうるこのようなシナ
リオも、Hadoop なら処理できます。
Apache Hadoop で構築するモダンデータアーキテクチャ
©2014 Hortonworks
www,jp.hortonworks.com
P5
データアーキテクチャのためのかつてない効率性
ビッグデータ分析の機会に加え、Hadoop はデータアーキテクチャの効率性を提供します:
ストレージコストの削減。Hadoop は、低コストのコモディティサーバーとダイレクトアタッチトストレージで動作するように設計されていま
す。これにより、ストレージのコスト全体を劇的に下げることができます。特に EMC のようなハイエンドのストレージエリアネットワーク
(SAN)と比較した場合、Hadoop を使用したスケールアウトコモディティの演算、格納が、データの成長に合わせてハードウェアをスケー
ルアウトするという選択肢が可能となります。このコストダイナミックが、かつてないほどのデータの格納、処理、分析、アクセスを可能に
します。
従来のビジネスインテリジェンス・アプリケーションでは、オリジナルフォーマットから変換した上で 1 年分しか格納できなかったデータが、
Hadoop では同じ 1 年分のデータをデータウェアハウスに格納できるだけでなく、さらに 10 年分のデータをオリジナルフォーマットも含め
て格納できます。結果として、長期のデータコンテキストを基にデータの使用範囲が大幅に広がります。
Hadoop:'Lower&Cost&of&Storage&
Cloud'Storage'
Fully'Loaded'Cost'Per'Raw'TB'of'Data'
(Min–Max'Cost)'
HADOOP&
NAS'
Engineered'System'
MPP'
SAN'
$0&
$20,000&
$40,000&
$60,000&
$80,000&
$180,000&
図3
出典: ユルゲン・アーバンスキー(BITKOM社ビッグデータおよびアナリティクス担当取締役)
Apache Hadoop で構築するモダンデータアーキテクチャ
©2014 Hortonworks
www,jp.hortonworks.com
P6
EDW で実行されるタスクの範囲は、ETL、解析、オペレーションにおいて大幅に増大しました。ETL 機能は、低コストで対応可能な比較的重
要度の低い演算作業負荷です。多くのユーザーがこの処理、すなわちデータの抽出、変換、そしてデータウェアハウスへのロードを Hadoop
で行うようになりました。
結果:その分データウェアハウスから、CPU サイクルとストレージスペースが開放され、解析やオペレーションなどの正に重要度の高い処理
にデータウェアハウスの本来の能力を割り当て、処理能力を向上させることが可能になります。
Hadoop:'Data$Warehouse$Workload$Op1miza1on$
Current'Reality'
'
EDW$at$capacity:$some$usage$from$$
low=value$workloads$
$
Older$transformed$data$archived,$$
unavailable$for$ongoing$explora1on$
$
Source$data$oCen$discarded$
✚$
Augment'with'Hadoop'
'
Free$up$EDW$resources$from$low=value$tasks$
$
Keep$100%$of$source$data$and$historical$data$for$$
ongoing$explora1on$
$
Mine$data$for$value$aCer$loading$it$because$of$$
schema=on=read$
ANALYTICS
20%
OPERATIONS
50%
OPERATIONS
50%
ANALYTICS
50%
ETL PROCESS
30%
図4
Apache Hadoop で構築するモダンデータアーキテクチャ
©2014 Hortonworks
www,jp.hortonworks.com
P7
エンタープライズ Hadoop のブループリント
Apache Hadoop は、エンタープライズ・データアーキテクチャにおいて、その役割を果たす意味において成功を収め、導入した企業の要求に
答える形でその機能を圧倒的に高めてきました。例えば初期の時代にはデータストレージを構成する基本コンポーネント(HDFS)と演算
(MapReduce)が Hadoop プラットフォームの主な要素でした。現在でも重要なそれらの要素に加え、参画するベンダー、ユーザーが協力し
Apache Software Foundation(ASF)において様々なプロジェクトの実現に貢献し、今日の Hadoop の機能はより広範囲のニーズに対応するエ
ンタープライズ・データプラットフォームへと進化しました。
Enterprise)Hadoop:)Capabili'es*
Enterprise)Hadoop)Capabili;es)
Presenta;on)&)Applica;ons)
Enterprise)Management)&)Security)
Enable*both*exis'ng*and*new*applica'ons*to*
provide*value*to*the*organiza'on**
Empower*exis'ng*opera'ons*and**
security*tools*to*manage*Hadoop*
*
*
GOVERNANCE)&)
INTEGRATION)
DATA)ACCESS)
SECURITY)
OPERATIONS)
Load*data*and*
manage*according**
to*policy*
*
Access*your*data*simultaneously*in*mul'ple*ways*
(batch,*interac've,*realD'me)*
Provide*layered*
approach*to*
security*through*
Authen'ca'on,*
Authoriza'on,*
Accoun'ng,*and*
Data*Protec'on*
Deploy*and*
effec'vely**
manage*the*
plaBorm*
*
Store*and*process*all*of*your*Corporate*Data*Assets*
DATA)MANAGEMENT)
Deployment)Choice)
Provide*deployment*choice*across*physical,*virtual,*cloud*
*
図5
このような企業向け Hadoop の機能は、プラットフォーム技術の基本要件である以下の機能と一致します:
データ管理:スケールアウトしたストレージ層に大規模データを格納、処理。
データアクセス:バッチ、インタラクティブ、ストリーミング、リアルタイムなど、さまざまな方法でのデータアクセスが可能。
データガバナンス&データ統合: データを迅速かつ簡単に読み込み、ポリシーにそって管理。
セキュリティ: 認証、認可、アカウンティング、データ保護の要件に対処。
オペレーション: Hadoop クラスタの設定、管理、監視、運用を要求される規模で実行。
Apache Hadoop で構築するモダンデータアーキテクチャ
©2014 Hortonworks
www,jp.hortonworks.com
P8
以下の図は、求められる機能を実行する各 Apache プロジェクトをわかりやすく説明しています。ここに示したプロジェクトや技術は、エンター
プライズ Hadoop の核となるものです。マイクロソフト、SAP、テラデータ、ヤフー、Facebook、Twitter、LinkedIn などの主要技術パワーハウス
は、それぞれ独自の機能や使用事例を有し、オープンソースプラットフォームの機能を強化するために継続的に貢献しています。その結果、
この革新的なエンタープライズ Hadoop は最も速い成長を遂げています。
Enterprise)Hadoop:)Components)
Presenta:on)&)Applica:ons)
Enterprise)Management)&)Security)
Enable)both)exis1ng)and)new)applica1on)to)
provide)value)to)the)organiza1on))
Empower)exis1ng)opera1ons)and))
security)tools)to)manage)Hadoop)
)
GOVERNANCE)&)
INTEGRATION)
Data)Workflow,)
Lifecycle)&)
Governance)
)
Falcon)
Sqoop)
Flume)
NFS)
WebHDFS)
)
DATA)ACCESS)
Batch)
Script)
Map)
Reduce)
)
)
Pig)
)
)
)
SQL)
)
)
NoSQL)
)
Hive/Tez) HBase)
HCatalog) Accumulo)
)
)
)
)
Stream)
Search)
Others)
Storm)
)
)
)
Solr)
)
)
)
InEMemory)
Analy1cs)
ISV)Engines)
)
)
)
YARN):)Data)Opera:ng)System)
1)
°)
°)
°)
°)
°)
°)
°)
°)
°)
°)
°)HDFS))
°)
°)
°)
°)
°)
°)
°)
°)
°)
°)
°)
°)
°)
°)
°)
°)
°)
n)
(Hadoop)Distributed)File)System))
°)
°)
°)
°)
°)
°)
SECURITY)
OPERATIONS)
Authen:ca:on)
Authoriza:on)
Accoun:ng)
Data)Protec:on)
)
Provision,)
Manage)&))
Monitor)
Storage:)HDFS)
Resources:)YARN)
Access:)Hive,)…))
Pipeline:)Falcon)
Cluster:)Knox)
)
Ambari)
Zookeeper)
Scheduling)
)
Oozie)
DATA)MANAGEMENT)
Linux))
Windows))
Deployment)Choice)
OnEpremises))
Cloud)
図6
データ管理:Hadoop の分散ファイルシステム(HDFS)は、効率的なスケールアウトストレージレイヤーのためのコア技術で、低コストコモ
ディティハードウェアで動作するように設計され、期待通りのパフォーマンスと予測可能なサービスレベルを提供しつつ、Hadoop 上の様々
なデータへのアクセス方法を可能にするリソースマネージメントとプラグ可能なアーキテクチャを提供するのが Apache Hadoop YARN で
す。もはやエンタープライズ Hadoop においてなくてはならない存在です。
データアクセス:多くの専門的エンジンがある中で、Apache Hive は最も広く採用されているデータアクセステクノロジーです。例えば、
Apache Pig はスクリプト機能を、Apache Storm はリアルタイム処理を、Apache HBase はカラム型 NoSQL を、Apache Accumulo はセル
レベルのアクセス制御を提供しています。これらのエンジンはすべて、YARN を採用することによってデータセットやリソース全体で機能
します。また、YARN は検索やカスケーディングといったプログラミングフレームワークなど、新しく開発されるデータアクセス方法にも柔
軟に対応できます。
Apache Hadoop で構築するモダンデータアーキテクチャ
©2014 Hortonworks
www,jp.hortonworks.com
P9
データガバナンス&データ統合: Apache Falcon はルールに基づくワークフローを提供することで
ガバナンスを実現します。NFS のように、また WebHDFS と HDFS が接続するように、Apache Flume や
Sqoop はデータの取り込みを容易にします。
セキュリティ:セキュリティは、HDFS から YARN、Hive、その他のデータアクセスコンポーネント、Apache
Knox を介するあらゆるクラスターに至るまで Hadoop スタック上のすべてのレイヤーに設けられています。
オペレーション: Apache Ambari は、Hadoop クラスタを設定、管理、監視し、他の管理コンソールソフト
ウェアと統合するために必要なインターフェースと API を提供します。
エコシステムによる拡張性
上記の核となるコンポーネントに加え、YARN などのイノベーションの結果として、Apache Hadoop は、
追加周辺技術や統合ポイントを提供する活発なベンダーエコシステムを持っています。これらのパー
トナーは、特定の機能性によって Hadoop に貢献し、Hadoop を拡大しています。このコア技術とエコ
システムサポートにより、ニーズの異なる企業に魅力的なソリューションを提供しています。以下は
パートナー統合の例です:
ビジネスインテリジェンスおよび分析:すべての大手 BI ベンダーは、Hadoop 導入を提案し、分析
専門ベンダーは、特定のデータタイプ、使用事例に対するニッチなソリューションを提案できるよ
うになりました。
データ管理とツール:多くのパートナーが、Hadoop を活用して垂直的、水平的データ管理のソリュー
ションを提供。また、SDK から IDE の経験まで、Hadoop ソリューション開発のためのツールセットが
Hortonworks は、深く幅広いパ
ートナーエコシステムと、主要
データセンターベンダーとの戦
略的な関係を持っています。
・HP
• Mi cros of t
• Ra ck spa ce
• Re d Hat
• SAP
・Terad ata
豊富にあります。
インフラストラクチャ: Hadoop は、コモディティハードウェア用に設計されていますが、アプライアンス
として実行することもでき、オンプレミスとクラウドの両方で簡単に他のストレージ、データ、および
管理ソリューションに統合することが可能です。
システムインテグレータ: 当然ながら、企業データアーキテクチャのコンポーネントとしてシステム
統合をサポートするパートナーは、統合やソリューション開発を支援するためのスキルを日々構築
しています。
このようなベンダーの多くはすでに企業内で EDW に同様の機能を提供しているため、チームが EDW の
ワークロードから既存のツールやスキルを活用することができ、実装のリスクが軽減されます。
エンタープライズ Hadoop のプラットフォームに新たなベンダーによる活発なエコシステムも現れています。
こうした新しい企業は、オープン API と新しいプラットフォーム機能を利用し、全く新しい世代のアプリケー
ションを作り上げています。これらの企業が構築しているアプリケーションは、既存のデータと新しいタイプ
のデータを利用し、Hadoop 以前には技術的あるいは経済的に実現することができなかった新しいタイプの
処理や解析を実行しています。その結果、これらの新しいビジネスは圧倒的なデータの増加を利用してさま
ざまな機会を生み出します。例えば、より深い洞察や優れた医学研究と医療提供、より効率的なエネルギー
探査と生産、予測的警察活動など、非常に多くの例があります。
Apache Hadoop で構築するモダンデータアーキテクチャ
©2014 Hortonworks
www,jp.hortonworks.com
P10
Data Lake を目指して
企業データアーキテクチャの一部として Hadoop を実装することは、どんな企業にとっても大きな決断です。
「とどまるところを知らない」(Forrester による)Hadoop の勢いですが、その採用は、一度限りのアプリケー
ションから、本格的な Data Lake への「旅」を意味します。非常に多くの顧客がこの「旅」に出ています。
新しい分析アプリケーション
Hadoop の使用は、これまでキャプチャされていなかったデータから新しい分析アプリケーションを作成したい
という要望から始まるのが典型です。そのようなアプリケーションは各業界や組織に特化しているのが普通
ですが、データの種類には多くの類似点があります。
以下はさまざまな業種における分析アプリケーションの例です:
Financial)Services!
Telecom)
Retail)
Manufacturing)
Healthcare)
PharmaceuGcals)
Oil)&)Gas)
Government)
New!Account!Risk!Screens!
Trading!Risk!
Insurance!Underwri7ng!
Call!Detail!Records!(CDR)!
Infrastructure!Investment!
Real@7me!Bandwidth!Alloca7on!
360°!View!of!the!Customer!
Localized,!Personalized!Promo7ons!
Website!Op7miza7on!
Supply!Chain!and!Logis7cs!
Assembly!Line!Quality!Assurance!
Crowd@sourced!Quality!Assurance!
Use!Genomic!Data!in!Medial!Trials!
Monitor!Pa7ent!Vitals!in!Real!Time!
Recruit!and!Retain!Pa7ents!for!Drug!
Trials!
Improve!Prescrip7on!Adherence!
Unify!Explora7on!&!Produc7on!Data!
Monitor!Rig!Safety!in!Real!Time!
ETL!Offloaded!Response!to!Federal!
Budgetary!Pressures!
Sen7ment!Analysis!for!Government!
Programs!
Unstructured)
Structured)
Clickstream)
✔!
他の業界の活用事例の詳
Machine)
✔!
Geographic)
Text)
)
Social)
!
!
!
!
!
企業向け Hadoop
DATA)TYPE)
Server)Logs)
USE)CASE)
Sensor)
INDUSTRY)
✔!
✔!
✔!
・通信業界
・小売 業 界
・金 融業 界
✔!
✔!
✔!
・医療 業界
• 製 造業 界
✔!
✔!
細は以下をご覧ください。
✔!
• 石 油お よびガ ス業界
✔!
• 広 告業 界
・行 政
✔!
✔!
✔!
✔!
✔!
✔!
✔!
✔!
✔!
✔!
✔!
✔!
✔!
✔!
✔!
✔!
✔!
✔!
✔!
✔!
✔!
✔!
図7
Apache Hadoop で構築するモダンデータアーキテクチャ
©2014 Hortonworks
www,jp.hortonworks.com
P11
範囲と規模の拡大
1 つまたは複数のアプリケーション事例において Hadoop の価値が証明されると、スケールや範囲の大きなデータやオペレーションが適用さ
れます。その結果として得られたデータアーキテクチャは、次第に多くのアプリケーションを通して組織を支援するようになります。
本書で後述のケーススタディでは、小売業界と通信業界のある顧客の Data Lake への道のりを記述します。
Moving'Toward'A'Data'Lake!
Scale'
A'Modern'Data'Architecture'
'
Data'Management!
Opera;ons!
EDW'
Data'Access!
Security!
MPP'
''''''''''''''''''''''!
Governance''
&'Integra;on'!
RDBMS'
New'Analy;cs'Apps'
New!types!of!data!
LOB0driven!
Scope'
図8
Apache Hadoop で構築するモダンデータアーキテクチャ
©2014 Hortonworks
www,jp.hortonworks.com
P12
Data Lakeのビジョン
Hadoop および他のデータソースを使用した分析アプリケーションの範囲と規模が拡大し続ければ、企業 Data Lake のビジョンは実現します。
Data Lake には実質的に 3 つの主な特徴があります:
すべて収集:Data Lake には、特定期間の生データや処理されたデータを含む、あらゆるデータが含まれています。
どこからでも扱える:Data Lake では、複数の事業ユニットのユーザーが各自の条件に沿ってデータを精緻化、調査、濃縮できます。
柔軟なアクセス: Data Lake は共有インフラ(バッチ、インタラクティブ、オンライン、検索、インメモリその他の処理エンジン)において、
多様なデータアクセスパターンを可能にします。
結果:Data Lake は、導入の容易さと低コストで最大のスケーリングと洞察力を提供します。
APPLICATIONS*
データの指数関数的な増大にともなうエンタープライズ Hadoop と EDW に対する投資は、モダンアーキテクチャにおける効率と、エンタープ
ライズ Data Lake によるビジネスチャンスを意味します。
Sta8s8cal)
Analysis)
BI)/)Repor8ng,)
Ad)Hoc)Analysis)
Interac8ve)Web)
&)Mobile)Applica8ons)
Enterprise)
Applica8ons)
DEV*&*DATA*TOOLS*
SOURCES*
**********************)
MPP*
Repositories)
OLTP,)ERP,)
CRM)Systems)
Documents)
&)Emails))
Web)Logs,)
Click)Streams)
Social)
Networks)
Data*Access)
Data*Management)
Machine)
Generated)
Sensor)
Data)
Opera>ons)
EDW EDW* MPP
Security)
OPERATIONS*TOOLS*
RDBMS*
ROOMS
Governance**
&*Integra>on)
DATA*SYSTEMS*
Build)&)Test)
Provision,)
Manage)&)
Monitor)
GeoLloca8on)
Data)
図9
既存のデータシステムに統合した Apache Hadoop のモダンデータアーキテクチャ
Apache Hadoop で構築するモダンデータアーキテクチャ
©2014 Hortonworks
www,jp.hortonworks.com
P13
1
2
ケーススタディ 1:
通信会社が見いだした、あらゆる角度から見た顧客の姿
通信業界では多くの場合、単一世帯はそれぞれの製品種類ごと
結果として顧客に影響を与えている問題や懸念の全体像を掴むこと
に特定のサービスプロバイダーと契約し、同じプロバイダー内の異
ができませんでした。価値のある顧客データは、複数の EDW にある
なる組織、サービスが提供しているいくつもの個体で構成されてい
様々なデータ及びアプリケーション上に断片的に存在していました。
ます。
Apache Hadoop 2.0 により、この通信会社は単一世帯に対する取
これらの顧客は、オンラインおよびオフラインのさまざまな経路を
引、やり取り、観察に関連する全てのデータチャネルから総合的な、
通じてプロバイダーと通信し、販売やサービスに関する質問をしま
かつてない全方向からの顧客像を得ることが可能になりました。更
す。顧客はその際、異なるタッチポイントで起こっていることをサー
に Hadoop 2.0 により、カスタマーサービスの質を著しく向上させるた
ビスプロバイダーが把握しているものと考えています。
めに必要な実態を理解する能力を提供し、この通信会社全体が恩
恵を受ける Data Lake の構築を、効果的に実現したのです。
アメリカのある大規模通信会社の場合、顧客データの量やタイプ
の急速な増加についていくことが非情に困難であることは明白で、
Hadoop&for&Telecommunica1ons&
!
Opera'onal!dashboards!
Customer!scorecards!
CDR!analysis!
Proac've!maintenance!
!
!
Infrastructure!investment!
Bandwidth!alloca'on!
Product!development!
&
Governance&
&&Integra1on&
EDW&
MPP&
Batch& Script&
&
&
&
&
&
NoSQL& Stream& Search& Others&
&
!
!
&
&
&
&
&
YARN&:&Data&Opera1ng&System!
1!
°!
°!
°!
°!
°!
°!
°!
°!
TRADITIONAL&SOURCES&
SQL&
&
&
CRM&
ERP&
BILLING&DATA&
SUBSCRIBER&DATA&
PRODUCT&CATALOG&
NETWORK&DATA&
°!
°!
°!
°!
°!
°!
°!
°!
°!
°!
(Hadoop!Distributed!File!System)!
°!
°!
°!
°!
°!
°!
N!
HDFS&&
°!
EMERGING&&&NONDTRADITIONAL&SOURCES&
&
Opera1ons&
&&&&&&&&&&&&&&&&&&&&&&!
DATA&&
REPOSITORIES&
&
Security&
ANALYSIS&
CLICKSTREAM&
ONLINE&CHAT&
SENSOR&DATA&
SOCIAL&MEDIA&
SERVER&LOGS&
CALL&DETAIL&
RECORDS&
MERCHANT&
LISTINGS&
DMP&
図 10
Apache Hadoop で構築するモダンデータアーキテクチャ
©2014 Hortonworks
www,jp.hortonworks.com
P14
1
2
ケーススタディ 2:
あるホームセンターのマーケティングパフォーマンス向上
黄金の記録データ"とも言える顧客データでした。それにより、特
定の顧客セグメントに的を絞った効果的マーケティングキャンペー
ンを実現できる、洗練された分析が可能になるからです。
年間のマーケティング費用が 10 億ドル以上という米国の某大型
ホームセンターの場合、マーケティング投資の有効性と個々の顧
客へのマーケティングメッセージの関連性を向上させることは容
易ではありませんでした。なぜなら既存のソリューションはこのニ
Hortonworks Data Platform は正にその"黄金の記録データ"を提
ーズを満たすのに不十分だったからです。
供し、ホームセンターのマーケティングチームは、的確に顧客のニ
年間顧客数1億、顧客年間購入額が740億ドルにもおよぶこのホ
ームセンターは、トランザクションに関するデータを孤立したサイ
ロに格納していたため、さまざまなマーケティングキャンペーンや
オンライン顧客のブラウジング行動など、取引データの相互関係
を明確にできずにいました。サイロに格納され、断片化したデー
タを、RDB構造内に統合するためには時間がかかり、コストも非
常に高く、技術的にもむずかしいことが予想されました。
ーズに合わせたカスタム・クーポン、プロモーション、DM といった
的を絞ったマーケティングキャンペーンを実行することが出来まし
た。Hadoop 2.0 によりデータウェアハウスの最適化を図り、この企
業は年間数百万ドルのコストを節約することが出来ました。そして
顧客の購買行動の全体像を理解できるようになったことで、今ま
ででは発想すらできなかった、ユニークなマーケティング手法を新
たに発見する日々が続いているそうです。
このホームセンターに必要だったのは、POS情報、宅配記録、ウ
ェブアクセス等を含む全てのチャネル、全ての時間軸を統合した"
Hadoop&for&Retail&
!
!
Product!mix!
Web!path!op*miza*on!
A/B!tes*ng!
&
DATA&&
REPOSITORIES&
&
&&&&&&&&&&&&&&&&&&&&&&!
Governance&
&&IntegraGon&
EDW&
ERP&
CRM&
Batch& Script&
&
&
&
&
SQL&
&
&
NoSQL& Stream& Search& Others&
&
!
!
&
&
&
&
&
YARN&:&Data&OperaGng&System!
1!
°!
°!
°!
°!
°!
°!
°!
°!
°!
°!
°!
°!
°!
°!
°!
°!
°!
°!
(Hadoop!Distributed!File!System)!
°!
°!
°!
°!
°!
°!
N!
HDFS&&
°!
OperaGons&
!
Recommenda*on!engine!
Brand!health!
Price!sensi*vity
!!
Top8down!clustering!
Security&
ANALYSIS&
RDBMS&
TRADITIONAL&SOURCES&
CRM&
WEB&TRANSACTIONS&
ERP&
POS&TRANSACTIONS&
&
PRODUCT&CATALOG&
STAFFING&
INVENTORY&
STORES&
EMERGING&&&NON@TRADITIONAL&SOURCES&
&
IN@STORE&&
CLICKSTREAM&
SERVER&LOGS&
WIFI&LOGS&
SOCIAL&MEDIA&
SENSOR&RFID&
LOCATIONS&DATA&
図 11
Apache Hadoop で構築するモダンデータアーキテクチャ
©2014 Hortonworks
www,jp.hortonworks.com
P15
エンタープライズ Hadoop で
モダンデータアーキテクチャを構築
ビッグデータに対する投資の価値を実現するには、エンタープライズ Hadoop のブループリントを使用して EDW と関連したデータシステムを
統合します。モダンデータアーキテクチャの構築によって、ビジネスに最も重要なデータを大規模なスケールで格納、分析することが可能に
なる上に、あらゆるソース、あらゆるタイプのデータから重要なビジネスの洞察力を抽出します。そして最終的には市場での競争力が向上し、
顧客ロイヤルティと収益の最大化が実現するのです。 詳しくはこちらをご覧ください。http;//jp.hortonworks.com/hdp
Hortonworks Data Platform は、エンタープライズ Hadoop を提供します
Hortonworks Data PLatform(HDP)は、100% オープンソースの Apache Hadoop により構成されています。HDP はモダンデータアーキテク
チャの一部として、EDW と Hadoop の統合に必要な Apache Hadoop の関連プロジェクトをすべて提供しています。
Hortonworks Data Platform
GOVERNANCE)&)
INTEGRATION)
Data)Workflow,)
Lifecycle)&)
Governance)
)
Falcon!
Sqoop!
Flume!
NFS!
WebHDFS!
DATA)ACCESS)
Batch)
Script)
Map!
Reduce!
)
)
Pig!
)
)
!
SQL)
)
)
NoSQL)
)
Hive/Tez! HBase!
HCatalog! Accumulo!
)
)
)
)
Stream)
Search)
Others)
Storm!
!
)
)
Solr!
!
)
)
In>Memory!
Analy@cs!
ISV!Engines!
)
)
)
YARN):)Data)Opera9ng)System!
1!
°!
°!
°!
°!
°!
°!
°!
°!
°!
°!
°!HDFS))
°!
°!
°!
°!
°!
°!
°!
°!
°!
°!
°!
°!
°!
°!
°!
°!
n!
(Hadoop!Distributed!File!System)!
°!
°!
°!
°!
°!
°!
°!
SECURITY)
OPERATIONS)
Authen9ca9on)
Authoriza9on)
Accoun9ng)
Data)Protec9on)
!
Provision,)
Manage)&))
Monitor)
Storage:!HDFS!
Resources:!YARN!
Access:!Hive,!…!
Pipeline:!Falcon!
Cluster:!Knox!
!
Ambari!
Zookeeper!
Scheduling)
!
Oozie!
DATA)MANAGEMENT)
図 12
Apache Hadoop で構築するモダンデータアーキテクチャ
©2014 Hortonworks
www,jp.hortonworks.com
P16
3 つの重要な価値 :
HDP は、企業に 3 つの重要な価値を提供します。
100%
オ ープ ンソ ース
企業向け Hadoop の
コンポーネント
HDP は、完全にオープンで開発され、非常に深い技術専門知識で
企業向け Hadoop の各コン
サポートされたエンタープライズ Apache Hadoop を提供します。
ポーネントについては、こち
らをご覧ください。
HDP は、最新コミュニティイノベーションを組み込み、最も成熟した Hadoop 用テストスイートを使
データ管理
用して数千のノードでテストされています。
HDFS
HDP は、Apache Hadoop の最も深く広い知識を持った技術者により開発され、サポートされていま
YAR N
す。
データアクセス
MapReduce
変 化し 続 けるビッ グ デ ー
タ の ニー ズ に 対 応
HDP は、ガバナンス、セキュリティと運用全体に包括的なプラッ
Pig
トフォームを提供し、単一プラットフォーム内でのビッグデータ処
Hive
理のニーズを変化に応じて満たすように設計されています。
Tez
バッチからインタラクティブ、リアルタイム、ストリーミングまで、HDP はビッグデータのあらゆるシナリオ
をサポートしています。
HBase
Accum ulo
S torm
HDP は、企業向け Hadoop の中核の YARN を通して多目的なデータアクセスレイヤーを提供し、準備
HCatalog
が整った段階で新しい処理エンジンを組み込むことを可能にしています。
HDP は、セキュリティ、ガバナンス、オペレーションといった、Hadoop の企業実装に必要な企業向け機
能を総合的に提供します。
データガバナンス&データ
統合
Falco n
Flume
HDP はあらゆるデータセンターでも実行できるように設計されてお
HD Pは 補完 す る技 術
り、既存のいかなるシステムとも統合できます。
セキュリティ
Knox
セキュ リティ
Linux から Windows、オンプレミスまたはクラウドまで、HDP はどんなシナリオでも展開することができ
ます。
オペレーション
HDP は、Red Hat、Microsoft、SAP、Teradata などの主要技術ベンダーのプラットフォームと密接に
Ambari
統合しています。
Hadoop のデプロイメントオプション
HDP は複数のデプロイメントオプションを提供しています:
オンプレミス:HDP は、Linux および Windows で機能する唯一の Hadoop プラットフォームです。
クラウド: HDP は IaaS の一部として実行でき、Rackspace のビッグデータクラウド、Microsoft の
HDInsight サービス、CSC、その他の機能を提供します。
アプライアンス:HDP は、デフォルトではコモディティハードウェア上で動作します。Teradata の
アプライアンスとしても購入できます。
Apache Hadoop で構築するモダンデータアーキテクチャ
©2014 Hortonworks
www.jp.hortonworks.com
P17
なぜ Hadoop には Hortonworks なのか?
Hortonworks は、Yahoo!の Hadoop 初代開発オペレーションチームに在籍していた 24 名のエンジニアによって 2011 年に設立され、他のど
の組織よりも多くの経験をひとつ屋根の下に集積しています。チームメンバーは Hadoop 開発の積極的な参加者であり、リーダーでもあり、
Hadoop プラットフォームのコアの設計、作成、テストに精通しています。Hadoop のオペレーションについて長年にわたる経験を持っており、
Hadoop プロジェクトをサポートするのに最適な組織です。http://jp.hortonworks.com/why
オ ープ ン
リー ダ ー シ ップ
エ コシ ステム の
推奨
厳 格な基 準 に 対 応
Hortonworksの唯一の焦点とコミ
Hortonworksは、既存のデータ
Hortonworksは、大規模な
ットは、Apache Software
センター技術および既存の組織
Hadoop 導入の豊富な経験を持
Foundationプロセスのみでイノ
機能とHadoopの緊密な統合に
つ、世界レベルの企業サポート
ベーションをオープンに推進す
焦点を当てています。
とサービスを誇っています。
ることです。
Hortonworksは、Microsoft 、
Hortonworksが「企業」を念頭に
Hortonworks はコアコードベー
SAP 、Teradata 、Rackspace他、
置いて設計、認証する Apache
スにおける進歩の大部分に関
多数の信頼できるデータセンタ
Hadoopは、世界最大の Hadoop
わっており、エンタープライズデ
ーのパートナーと戦略的な関係
クラスターにおいて実世界で通
ータプラットフォームとして
を持っています。
用する厳格なテスト経ています。
Hadoopを提供しています。
Hortonworks Data Platform の独立分析は Forrester Wave™ Big Data Hadoop Solutions, Q1 2014 をダウンロードしてく
ださい:
Hortonworks とは
Hortonworks は、唯一の 100%オープンソース Apache Hadoop のデータプラットフォームを開発、普及、サポートしています。私たちのチー
ムは、Hadoop エコシステムで最大のビルダー、アーキテクト集団から成り、企業が Hadoop に何を求めているかを熟知したしコミュニティ
のリーダーです。Hortonworks Data Platform は既存の IT 資産と深く統合し、その上に企業が Hadoop をベースとしたアプリケーションを
構築、配備できるオープンプラットフォームを提供しています。Hortonworks は、重要な戦略的データセンターのパートナーとの深い関係
を持っているため、Hadoop は最も広範なビジネスチャンスをお客様に提供することが可能です。詳細についてはこちらをご覧ください。
http://www.jp.hortonworks.com
Apache Hadoop で構築するモダンデータアーキテクチャ
©2014 Hortonworks
www,jp.hortonworks.com
P18