Hadoop×スマートETLエンジン「DMX

Hadoop×スマートETLエンジン「DMX-h」
= データウェアハウス最適化
株式会社アシスト
情報基盤事業部 製品統括部
宮本 玲
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
1
講師紹介
宮本 玲 (みやもと あきら)
・現職
株式会社アシスト
情報基盤事業部 製品統括部 技術3部 課長
・職歴
1997年 アシスト新卒入社後、IBMメインフレーム環境の
CICS、DB2、MQ等のアプリケーション性能管理ツール
の製品技術を担当。
2006年 ETLツール DMExpress の技術担当から製品
マネージャとなり、現在、DI製品事業全般に従事。
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
2
皆さまへご質問
Hadoopを利用した本番システムが
すでに運用に乗っているという方は
挙手をいただけますでしょうか
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
3
本セッションでのご提案
貴社システムにおけるETL基盤として、
Hadoopの活用をご検討いただきたい
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
4
アジェンダ
1 はじめに / アシストについて
2 Hadoop ETL
3 DMX-h
4 さいごに
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
5
Hadoopエコシステムの拡がり
Hadoop基盤
技術革新のスピードとボリューム感がめざましい
データの蓄積、処理、分析基盤として、より身近な選択肢に
いつやるの?
どこで活用するの?
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
6
どこで活用するの?
課題とゴールを明確にできる活用場所がよい、それはどこか?
DWHへのETL基盤としての活用パターン
データソース
ETL
データウェアハウス
ビジネス・インテリジェンス
クエリ
レポート
分析
米国では一般的な活用パターン
日本でも、開発と運用の敷居が下がれば、活用が広がる
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
7
ETLをHadoop活用のオープナーに
Hadoop ETL
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
8
アシスト会社概要
オフィス所在地
設立
1972年3月
代表取締役会長
ビル・トッテン
代表取締役社長
大塚 辰男
資本金
6,000万円
売上高
211億円 (2013年度)
社員数
850名 (2014年4月現在)
事業内容
本社所在地
オフィス所在地
取引会社数
札幌
※グループ会社:㈱アシスト北海道 併設
コンピュータ用パッケージ・ソフトウェア
の販売、技術サポート、教育および
コンサルティング
東京都千代田区九段北4-2-1
市ヶ谷東急ビル
札幌、仙台、名古屋、金沢、
大阪、広島、宇部、福岡、沖縄
仙台
金沢
※グループ会社:
㈱のれん 併設
※サポートセンターのみ
名古屋
福岡
5,600社 (2013年度)
広島
市ヶ谷オフィスおよび大阪オフィスのサー
ビス事業部におけるコンピュータソフトウェ
ア・パッケージの販売、テクニカルサポー
ト、教育およびコンサルティングサービスの
提供に対してISO27001の認証を取得し
ています。
東京本社
宇部
沖縄
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
大阪
サポートセンター
9
アシストの主要取り扱い製品/サービス一覧
データ・ マネジメント
情報活用支援
データベース
Oracle, Postgres Plus, PostgreSQL, MySQL/MariaDB, DODAI
Oracle運用管理/パフォーマンス管理
Oracle Enterprise Manager, Performance Insight, iDoctor 監視サービス, パフォーマンス・セラピー
データ連携/アプリケーション連携
DataSpider Servista, Syncsort DMExpress, Talend, CA Fast Unload for Distributed Databases, 他
情報分析/レポーティング
QlikView, WebFOCUS, Cognos PowerPlay, 帳票ソリューション, 他
eラーニング
Dojo, Internet Navigware
Webコンテンツ管理(CMS)
NOREN5 Content Server, NOREN5 Deploy Server
タブレット端末
NOREN e.Form Server
オフィス・ソフト/Webブラウザ/メール OpenOffice.org, LibreOffice, Mozilla Firefox, Thunderbird
品質管理
リスク・ マネジメント
運用インフラ
コンサルティング
品質管理
HP LoadRunner, Functional Testing, Quality Center
セキュリティ対策
CA Access Control, PISO, RSA Access Manager, 秘文
ログ管理
Logstrage, SenSage Enterprise Security Analytics
ID管理
LDAP Manager
内部統制対応
監査れポータル
システム運用管理
JP1, HP Business Availability Center, JENNIFER, 他
デスクトップ/アプリケーション仮想化
Ericom, Citrix XenApp, Citrix XenDesktop
レスポンス改善
Quix
OS/アプリケーション・サーバ
Ubuntu, Oracle WebLogic Server
コンサルティング
ビジネス・モデリング, データ・モデリング, システム・モデリング, オペレーション・モデリング, 他
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
10
アジェンダ
1 はじめに / アシストについて
2 Hadoop ETL
3 DMX-h
4 さいごに
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
11
Hadoop ETLによるDWH最適化
 従来のデータウェアハウス・アーキテクチャ
データソース
ETL
データウェアハウス
ETL
ELT
 長い処理時間
ビジネス・インテリジェンス
クエリ
レポート
分析
 大量のステージング用テーブル
 ワークロードの40~70%はELT処理
 データ容量当たりのコスト高
 Hadoopを利用したデータウェアハウスの最適化(オフロード)
データソース
Hadoop ETL
データウェアハウス
ビジネス・インテリジェンス
クエリ
レポート
分析
 コストの低い
データの蓄積基盤
 情報活用に必要なデータのみ格納
 ワークロードをBIに活用
 データ容量当たりのコスト低
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
12
Hadoop ETLによるDWH最適化
 従来のデータウェアハウス・アーキテクチャ
データソース
ETL
データウェアハウス
ETL
ELT
 長い処理時間
ビジネス・インテリジェンス
クエリ
レポート
分析
 大量のステージング用テーブル
 ワークロードの40~70%はELT処理
 データ容量当たりのコスト高
従来のETLステージング層にHadoopを
配置し、データ蓄積とELT処理を低コスト
 Hadoopを利用したデータウェアハウスの最適化(オフロード)
構造の処理基盤に移行
データソース
Hadoop ETL
データウェアハウス
ビジネス・インテリジェンス
クエリ
レポート
分析
 コストの低い
データの蓄積基盤
 情報活用に必要なデータのみ格納
 ワークロードをBIに活用
 データ容量当たりのコスト低
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
13
Hadoop ETLによるDWH最適化
 従来のデータウェアハウス・アーキテクチャ
データソース
ETL
Hadoop ETLの効果

データウェアハウス
ETL
ビジネス・インテリジェンス
ELT
(SQL)
クエリ
レポート
DWH環境を本来の適切なサイジングにより過剰な設備投資を抑制
分析
 スケーラブルで低コスト構造のデータ蓄積および処理基盤の実現
 長い処理時間
 大量のステージング用テーブル
 ワークロードの40~70%はELT処理
 データ容量当たりのコスト高
 Hadoopを利用したデータウェアハウスの最適化(オフロード)
データソース
Hadoop ETL
データウェアハウス
ビジネス・インテリジェンス
クエリ
レポート
分析
 コストの低い
データの蓄積基盤
 情報活用に必要なデータのみ格納
 ワークロードをBIに活用
 データ容量当たりのコスト低
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
14
Hadoop ETLソリューション
かんたんに開発・運用できるETLツール「DMX-h」を
Hadoop基盤とあわせ、スケーラブルなETL基盤として
企業のDWH最適化ソリューションとして活用いただきたい
Hadoop ETL
ETL:
DMX-h
Hadoop:
CDH
OS:
RHEL
H/W:
HA8000-bd10
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
※構成例
15
アジェンダ
1 はじめに / アシストについて
2 Hadoop ETL
3 DMX-h
4 さいごに
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
16
DMX-h 3つの特徴
DMX-h 構成マップ
GUI
エッジノード
Hadoop クラスタ
Hadoop
Client
YARN
①開発生産性
DMX-h
WS
DWH
③DWH連携
DMX-h
ETL Server
DMX-h DNE
DMX-h DNE
Files
HDFS
DMX-h DNE
DMX-h DNE
Teradata
Oracle
Netezza
Greenplum
Vertica
SQLServer
Redshift
DMX-h DNE
DB/DWH
他システム
②スマートエンジン
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
17
特徴① 開発生産性
DMX-h 構成マップ
GUI
エッジノード
Hadoop クラスタ
Hadoop
Client
DWH
YARN
①開発生産性
DMX-h
WS
DMX-h
ETL Server
DMX-h DNE
DMX-h DNE
Files
HDFS
DMX-h DNE
DMX-h DNE
Teradata
Oracle
Netezza
Greenplum
Vertica
SQLServer
Redshift
DMX-h DNE
DB/DWH
他システム
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
18
特徴① 開発生産性
GUIから複数のタスクを組み合わせジョブを作成するだけ
ジョブエディタ
単体処理をつなげてフロー化するだけで、
実行処理を作成できる。
5種類のひな形に沿っ
て、入力、出力、関数処
理、マッピングを記述し
ていくだけで単体処理
を作成できる。
タスクエディタ
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
19
特徴① 開発生産性
HDFS出し入れ、MapReduce、DWHロード処理までGUI開発できる
ジョブエディタ
タスクをフロー化し、MapとReduceの
境目を定義するだけ。
タスクエディタ
Map処理
Reduce処理
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
MapReduceの考え方
にそって、GUIで単体
処理を組み立てていく
だけ。
20
特徴① 開発生産性
ローカルでの単体テスト
HDFSファイルとローカルのファイルを
環境変数で切り替えられるため、
Hadoop投入前でも対象データで
ETL処理ロジックのテストができる。
HDFSデータサンプリング
各タスクのHDFS入力および出力の
データをサンプリングしながら
MapReduce処理の開発および修正
を実施できる。
デバッグがしやすく、手戻りが少ない。
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
21
特徴② スマートエンジン
DMX-h 構成マップ
GUI
エッジノード
Hadoop クラスタ
Hadoop
Client
DMX-h
WS
DWH
YARN
DMX-h
ETL Server
DMX-h DNE
DMX-h DNE
Files
HDFS
DMX-h DNE
DMX-h DNE
Teradata
Oracle
Netezza
Greenplum
Vertica
SQLServer
Redshift
DMX-h DNE
DB/DWH
他システム
②スマートエンジン
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
22
特徴② スマートエンジン@エッジノード
DMX-h 構成マップ
GUI
エッジノード
Hadoop クラスタ
Hadoop
Client
DMX-h
WS
DWH
YARN
DMX-h
ETL Server
DMX-h DNE
DMX-h DNE
Files
HDFS
DMX-h DNE
DMX-h DNE
Teradata
Oracle
Netezza
Greenplum
Vertica
SQLServer
Redshift
DMX-h DNE
DB/DWH
他システム
②スマートエンジン
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
23
特徴② スマートエンジン@エッジノード
外部ソース接続&事前加工
エッジノードのDMX-h ETLサーバで
は、主要DB/DWH接続やファイルを
入力として、事前データ加工してから
Hadoopへ投入が可能。
HDFSへの高速ロード
HDFSへの並列ロード処理や、データ
圧縮後のファイルサイズをHDFSの
ブロックサイズに収める設定が可能。
Hadoopにデータをキレイに貯める。
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
24
特徴② スマートエンジン
Hadoopフレームワークに融合する、秀逸なETL処理エンジン
2つのコア技術
アルゴリズム
動的最適化
・ ソートだけでも30以上のアルゴリズム
・ 結合、ルックアップ、集計、DB入出力、
圧縮、I/O、関数、常に処理効率を追求
・ スレッド、プロセスのハイブリッド並列処理
① CPU、メモリ、I/Oを分析
② 処理データの量、属性を分析
③ 最適なアルゴリズム、処理方式を選択
④ 最適化プランに基づいて処理実行
技術エキスパート45年の経験が
詰まったライブラリをフル活用
処理性能のみならず、システムの
安定稼働に大きく貢献
製品のルーツと歴史
1971年: Syncsort社、IBM汎用機向け高速ソートユーティリティ SyncSort を販売開始
1980年~: Syncsort社、オープン環境(UNIX/Windows/Linux)版SyncSortを販売開始
1994年: アシスト、UNIX版SyncSort を販売開始
2006年: アシスト、 ETLツール DMExpress を販売開始
2014年: アシスト、Hadoop版ETLツール DMX-h を販売開始
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
25
特徴② スマートエンジン@Hadoopクラスタ
DMX-h 構成マップ
GUI
エッジノード
Hadoop クラスタ
Hadoop
Client
DMX-h
WS
DWH
YARN
DMX-h
ETL Server
DMX-h DNE
DMX-h DNE
Files
HDFS
DMX-h DNE
DMX-h DNE
Teradata
Oracle
Netezza
Greenplum
Vertica
SQLServer
Redshift
DMX-h DNE
DB/DWH
他システム
②スマートエンジン
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
26
特徴② スマートエンジン@Hadoopクラスタ
MapReduceフレームワークへの融合アーキテクチャ
エッジノードからClient経由で配布されるGUI定義と、MapSortおよびReduceMergeの
プラグインに統合されたDMX-h DataNode Engineが連携して処理を実施
Hadoop クラスタ
データノード
Map
MapSort
Shuffle
RedMerge
DMX-h
DMX-h
MapSort
RedMerge
DMX-h
DMX-h
MapSort
RedMerge
DMX-h
DMX-h
Reduce
データノード
Map
Reduce
データノード
Map
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
Reduce
27
特徴② スマートエンジン@Hadoopクラスタ
MapReduceフレームワークへの融合アーキテクチャ
MapSortおよびReduceMergeのプラグインインターフェースは、Syncsort社がApache
プロジェクトにソース提供した結果としてHadoopに実装されたもの
JIRA
詳細
2454
MapReduceへの外部ソートプラグイン実装
4808
ReduceのMergeをプラグイン可能に修正
4809
2454公開に必要なクラスを提供
4812
Reduce処理の入力Mergerプラグイン実装
4842
ShuffleによるReducerのハング
スマートETLエンジンをHadoopフレームワークに完全融合
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
28
特徴② スマートエンジン@Hadoopクラスタ
ベンチマーク結果
性能差
2~5倍
性能差
2~3倍
MapReduceジョブをDMX-h ETLで
開発することで、2倍から5倍の性能を実現。
もちろん コーディング不要! チューニング不要!
Hadoopのネイティブソートを
DME-h Sortに置き換えるだけで、
既存処理に変更を加えることなく、
2倍から3倍の性能を実現
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
29
特徴③ DWH連携
DMX-h 構成マップ
GUI
エッジノード
Hadoop クラスタ
Hadoop
Client
DWH
YARN
③DWH連携
DMX-h
WS
DMX-h
ETL Server
DMX-h DNE
DMX-h DNE
Files
HDFS
DMX-h DNE
DMX-h DNE
Teradata
Oracle
Netezza
Greenplum
Vertica
SQLServer
Redshift
DMX-h DNE
DB/DWH
他システム
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
30
特徴③ DWH連携
主要DWHの高速ロード手法に対応
高性能ETL製品として、主要DWHへのロ
ード性能改善を継続的に追求
TeradataのTTU、OracleのOCI経由で最
適な高速ロード手法に対応
NetezzaやSQLServerへのODBC経由で
のロード性能改善も実装
年内に国内提供開始するV7.15では、
Greenplum、Verticaへの高速ロード
手法が実装され、2015年Q1には
Redshiftへの対応が実装予定
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
DWH
Teradata
Oracle
Netezza
Greenplum
Vertica
SQLServer
Redshift
31
特徴④ サポート
Syncsort+アシストでご提供する顧客サポート
20年の信頼と実績を土台とした高品質な顧客サポート
Syncsort
アシスト
製品の品質レベルが非常に
高いうえ、Garntner Magic
Quadrantにおいて、大きな
顧客満足を得るサポート品質
を高く評価されている
1. にげない
2. めげない
3. あまり儲けない
を掲げる顧客対応のDNA
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
32
事例:米国金融企業(1次フェーズ)
 従来のデータウェアハウス・アーキテクチャ
データソース
ETL
データウェアハウス
ETL
ELT
ビジネス・インテリジェンス
クエリ
レポート
分析
 ロード後に加工
 増強費用が耐え難いレベルに
 HiveQL を利用したHadoop ETLでは期待した性能を得られず・・・
データソース
Java
Hadoop ETL
データウェアハウス
ビジネス・インテリジェンス
HiveQL
クエリ
レポート
分析
 開発工数は3人月
 データ生成まで6時間
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
33
事例:米国金融企業(2次フェーズ)
 HiveQL を利用したHadoop ETLでは期待した性能を得られず・・・
データソース
Java
Hadoop ETL
HiveQL
データウェアハウス
ビジネス・インテリジェンス
クエリ
レポート
分析
 開発工数は3人月
 データ生成まで6時間
 DMX-h を利用したHadoop ETLで期待した性能を得られた
データソース
Hadoop ETL
データウェアハウス
ビジネス・インテリジェンス
DMX-h
クエリ
レポート
分析
 開発工数は1人月
 データ生成まで15分
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
34
事例:米国金融企業(適用効果)
ローン業務改善プロジェクトの成功
(
適用効果
開発コスト(人月)
4
16
3
12
28
14
生産性
HiveQL 12人/週 3倍
3人月
DMX-h
 DMX-hとCDHにより、DWHからELT処理の
オフロードに成功
 柔軟なアーキテクチャで、ステージングや差
分抽出等のETL処理全般をカバーできる
 コーディング不要で保守しやすい
400
処理時間 (分)
 開発工数を1/3まで削減
 140のHiveQLスクリプトを12のDMX-h
ジョブに統合
 Javaのユーザ定義機能を排除
 処理が24倍高速に
300
200
100
1人月
00
)
+
HiveQL
6時間
性能差
24倍
DMX-h
15分
0
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
35
アジェンダ
1 はじめに / アシストについて
2 Hadoop ETL
3 DMX-h
4 さいごに
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
36
オールインワン
データウェアハウス最適化ソリューション
「御まとめHadoopパック」
 ハードウェア
 OS
 Hadoop
 DMX-h
すぐに始められる、
プリセットアップされたHadoop基盤を
お届けいたします!
初期支援サービス
日立エントリーブレードサーバ
HA8000-bdシリーズ
Cloudera認定機種
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
37
導入検討はリスクフリー
1
体験セミナーへの参加 (無料)
3時間でDMExpressを徹底体験いただけます!
DMX-hについても個別対応させていただきます!
2
処理アセスメント (無料)
適用検討領域の現行処理や処理要件を確認させていただき、
DMExpressやDMX-hの適用効果についてアセスメントいたします!
3
総合検証プログラム(無料)
検証に必要な正規ライセンスを1ヶ月間無償でご提供いたします!
検証期間は、弊社よりSEをアサインし、サンプル処理の作成や検証作業、
検証結果のご報告を支援させていただきます!
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
38
展示ブースにて DMX-hのデモを
実施しておりますので、
是非お立ち寄りくださいませ。
ご清聴 まことに
ありがとうございました。
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
39
Copyright © 2014 K.K.Ashisuto All Rights Reserved.
40