Hadoop×スマートETLエンジン「DMX-h」 = データウェアハウス最適化 株式会社アシスト 情報基盤事業部 製品統括部 宮本 玲 Copyright © 2014 K.K.Ashisuto All Rights Reserved. 1 講師紹介 宮本 玲 (みやもと あきら) ・現職 株式会社アシスト 情報基盤事業部 製品統括部 技術3部 課長 ・職歴 1997年 アシスト新卒入社後、IBMメインフレーム環境の CICS、DB2、MQ等のアプリケーション性能管理ツール の製品技術を担当。 2006年 ETLツール DMExpress の技術担当から製品 マネージャとなり、現在、DI製品事業全般に従事。 Copyright © 2014 K.K.Ashisuto All Rights Reserved. 2 皆さまへご質問 Hadoopを利用した本番システムが すでに運用に乗っているという方は 挙手をいただけますでしょうか Copyright © 2014 K.K.Ashisuto All Rights Reserved. 3 本セッションでのご提案 貴社システムにおけるETL基盤として、 Hadoopの活用をご検討いただきたい Copyright © 2014 K.K.Ashisuto All Rights Reserved. 4 アジェンダ 1 はじめに / アシストについて 2 Hadoop ETL 3 DMX-h 4 さいごに Copyright © 2014 K.K.Ashisuto All Rights Reserved. 5 Hadoopエコシステムの拡がり Hadoop基盤 技術革新のスピードとボリューム感がめざましい データの蓄積、処理、分析基盤として、より身近な選択肢に いつやるの? どこで活用するの? Copyright © 2014 K.K.Ashisuto All Rights Reserved. 6 どこで活用するの? 課題とゴールを明確にできる活用場所がよい、それはどこか? DWHへのETL基盤としての活用パターン データソース ETL データウェアハウス ビジネス・インテリジェンス クエリ レポート 分析 米国では一般的な活用パターン 日本でも、開発と運用の敷居が下がれば、活用が広がる Copyright © 2014 K.K.Ashisuto All Rights Reserved. 7 ETLをHadoop活用のオープナーに Hadoop ETL Copyright © 2014 K.K.Ashisuto All Rights Reserved. 8 アシスト会社概要 オフィス所在地 設立 1972年3月 代表取締役会長 ビル・トッテン 代表取締役社長 大塚 辰男 資本金 6,000万円 売上高 211億円 (2013年度) 社員数 850名 (2014年4月現在) 事業内容 本社所在地 オフィス所在地 取引会社数 札幌 ※グループ会社:㈱アシスト北海道 併設 コンピュータ用パッケージ・ソフトウェア の販売、技術サポート、教育および コンサルティング 東京都千代田区九段北4-2-1 市ヶ谷東急ビル 札幌、仙台、名古屋、金沢、 大阪、広島、宇部、福岡、沖縄 仙台 金沢 ※グループ会社: ㈱のれん 併設 ※サポートセンターのみ 名古屋 福岡 5,600社 (2013年度) 広島 市ヶ谷オフィスおよび大阪オフィスのサー ビス事業部におけるコンピュータソフトウェ ア・パッケージの販売、テクニカルサポー ト、教育およびコンサルティングサービスの 提供に対してISO27001の認証を取得し ています。 東京本社 宇部 沖縄 Copyright © 2014 K.K.Ashisuto All Rights Reserved. 大阪 サポートセンター 9 アシストの主要取り扱い製品/サービス一覧 データ・ マネジメント 情報活用支援 データベース Oracle, Postgres Plus, PostgreSQL, MySQL/MariaDB, DODAI Oracle運用管理/パフォーマンス管理 Oracle Enterprise Manager, Performance Insight, iDoctor 監視サービス, パフォーマンス・セラピー データ連携/アプリケーション連携 DataSpider Servista, Syncsort DMExpress, Talend, CA Fast Unload for Distributed Databases, 他 情報分析/レポーティング QlikView, WebFOCUS, Cognos PowerPlay, 帳票ソリューション, 他 eラーニング Dojo, Internet Navigware Webコンテンツ管理(CMS) NOREN5 Content Server, NOREN5 Deploy Server タブレット端末 NOREN e.Form Server オフィス・ソフト/Webブラウザ/メール OpenOffice.org, LibreOffice, Mozilla Firefox, Thunderbird 品質管理 リスク・ マネジメント 運用インフラ コンサルティング 品質管理 HP LoadRunner, Functional Testing, Quality Center セキュリティ対策 CA Access Control, PISO, RSA Access Manager, 秘文 ログ管理 Logstrage, SenSage Enterprise Security Analytics ID管理 LDAP Manager 内部統制対応 監査れポータル システム運用管理 JP1, HP Business Availability Center, JENNIFER, 他 デスクトップ/アプリケーション仮想化 Ericom, Citrix XenApp, Citrix XenDesktop レスポンス改善 Quix OS/アプリケーション・サーバ Ubuntu, Oracle WebLogic Server コンサルティング ビジネス・モデリング, データ・モデリング, システム・モデリング, オペレーション・モデリング, 他 Copyright © 2014 K.K.Ashisuto All Rights Reserved. 10 アジェンダ 1 はじめに / アシストについて 2 Hadoop ETL 3 DMX-h 4 さいごに Copyright © 2014 K.K.Ashisuto All Rights Reserved. 11 Hadoop ETLによるDWH最適化 従来のデータウェアハウス・アーキテクチャ データソース ETL データウェアハウス ETL ELT 長い処理時間 ビジネス・インテリジェンス クエリ レポート 分析 大量のステージング用テーブル ワークロードの40~70%はELT処理 データ容量当たりのコスト高 Hadoopを利用したデータウェアハウスの最適化(オフロード) データソース Hadoop ETL データウェアハウス ビジネス・インテリジェンス クエリ レポート 分析 コストの低い データの蓄積基盤 情報活用に必要なデータのみ格納 ワークロードをBIに活用 データ容量当たりのコスト低 Copyright © 2014 K.K.Ashisuto All Rights Reserved. 12 Hadoop ETLによるDWH最適化 従来のデータウェアハウス・アーキテクチャ データソース ETL データウェアハウス ETL ELT 長い処理時間 ビジネス・インテリジェンス クエリ レポート 分析 大量のステージング用テーブル ワークロードの40~70%はELT処理 データ容量当たりのコスト高 従来のETLステージング層にHadoopを 配置し、データ蓄積とELT処理を低コスト Hadoopを利用したデータウェアハウスの最適化(オフロード) 構造の処理基盤に移行 データソース Hadoop ETL データウェアハウス ビジネス・インテリジェンス クエリ レポート 分析 コストの低い データの蓄積基盤 情報活用に必要なデータのみ格納 ワークロードをBIに活用 データ容量当たりのコスト低 Copyright © 2014 K.K.Ashisuto All Rights Reserved. 13 Hadoop ETLによるDWH最適化 従来のデータウェアハウス・アーキテクチャ データソース ETL Hadoop ETLの効果 データウェアハウス ETL ビジネス・インテリジェンス ELT (SQL) クエリ レポート DWH環境を本来の適切なサイジングにより過剰な設備投資を抑制 分析 スケーラブルで低コスト構造のデータ蓄積および処理基盤の実現 長い処理時間 大量のステージング用テーブル ワークロードの40~70%はELT処理 データ容量当たりのコスト高 Hadoopを利用したデータウェアハウスの最適化(オフロード) データソース Hadoop ETL データウェアハウス ビジネス・インテリジェンス クエリ レポート 分析 コストの低い データの蓄積基盤 情報活用に必要なデータのみ格納 ワークロードをBIに活用 データ容量当たりのコスト低 Copyright © 2014 K.K.Ashisuto All Rights Reserved. 14 Hadoop ETLソリューション かんたんに開発・運用できるETLツール「DMX-h」を Hadoop基盤とあわせ、スケーラブルなETL基盤として 企業のDWH最適化ソリューションとして活用いただきたい Hadoop ETL ETL: DMX-h Hadoop: CDH OS: RHEL H/W: HA8000-bd10 Copyright © 2014 K.K.Ashisuto All Rights Reserved. ※構成例 15 アジェンダ 1 はじめに / アシストについて 2 Hadoop ETL 3 DMX-h 4 さいごに Copyright © 2014 K.K.Ashisuto All Rights Reserved. 16 DMX-h 3つの特徴 DMX-h 構成マップ GUI エッジノード Hadoop クラスタ Hadoop Client YARN ①開発生産性 DMX-h WS DWH ③DWH連携 DMX-h ETL Server DMX-h DNE DMX-h DNE Files HDFS DMX-h DNE DMX-h DNE Teradata Oracle Netezza Greenplum Vertica SQLServer Redshift DMX-h DNE DB/DWH 他システム ②スマートエンジン Copyright © 2014 K.K.Ashisuto All Rights Reserved. 17 特徴① 開発生産性 DMX-h 構成マップ GUI エッジノード Hadoop クラスタ Hadoop Client DWH YARN ①開発生産性 DMX-h WS DMX-h ETL Server DMX-h DNE DMX-h DNE Files HDFS DMX-h DNE DMX-h DNE Teradata Oracle Netezza Greenplum Vertica SQLServer Redshift DMX-h DNE DB/DWH 他システム Copyright © 2014 K.K.Ashisuto All Rights Reserved. 18 特徴① 開発生産性 GUIから複数のタスクを組み合わせジョブを作成するだけ ジョブエディタ 単体処理をつなげてフロー化するだけで、 実行処理を作成できる。 5種類のひな形に沿っ て、入力、出力、関数処 理、マッピングを記述し ていくだけで単体処理 を作成できる。 タスクエディタ Copyright © 2014 K.K.Ashisuto All Rights Reserved. 19 特徴① 開発生産性 HDFS出し入れ、MapReduce、DWHロード処理までGUI開発できる ジョブエディタ タスクをフロー化し、MapとReduceの 境目を定義するだけ。 タスクエディタ Map処理 Reduce処理 Copyright © 2014 K.K.Ashisuto All Rights Reserved. MapReduceの考え方 にそって、GUIで単体 処理を組み立てていく だけ。 20 特徴① 開発生産性 ローカルでの単体テスト HDFSファイルとローカルのファイルを 環境変数で切り替えられるため、 Hadoop投入前でも対象データで ETL処理ロジックのテストができる。 HDFSデータサンプリング 各タスクのHDFS入力および出力の データをサンプリングしながら MapReduce処理の開発および修正 を実施できる。 デバッグがしやすく、手戻りが少ない。 Copyright © 2014 K.K.Ashisuto All Rights Reserved. 21 特徴② スマートエンジン DMX-h 構成マップ GUI エッジノード Hadoop クラスタ Hadoop Client DMX-h WS DWH YARN DMX-h ETL Server DMX-h DNE DMX-h DNE Files HDFS DMX-h DNE DMX-h DNE Teradata Oracle Netezza Greenplum Vertica SQLServer Redshift DMX-h DNE DB/DWH 他システム ②スマートエンジン Copyright © 2014 K.K.Ashisuto All Rights Reserved. 22 特徴② スマートエンジン@エッジノード DMX-h 構成マップ GUI エッジノード Hadoop クラスタ Hadoop Client DMX-h WS DWH YARN DMX-h ETL Server DMX-h DNE DMX-h DNE Files HDFS DMX-h DNE DMX-h DNE Teradata Oracle Netezza Greenplum Vertica SQLServer Redshift DMX-h DNE DB/DWH 他システム ②スマートエンジン Copyright © 2014 K.K.Ashisuto All Rights Reserved. 23 特徴② スマートエンジン@エッジノード 外部ソース接続&事前加工 エッジノードのDMX-h ETLサーバで は、主要DB/DWH接続やファイルを 入力として、事前データ加工してから Hadoopへ投入が可能。 HDFSへの高速ロード HDFSへの並列ロード処理や、データ 圧縮後のファイルサイズをHDFSの ブロックサイズに収める設定が可能。 Hadoopにデータをキレイに貯める。 Copyright © 2014 K.K.Ashisuto All Rights Reserved. 24 特徴② スマートエンジン Hadoopフレームワークに融合する、秀逸なETL処理エンジン 2つのコア技術 アルゴリズム 動的最適化 ・ ソートだけでも30以上のアルゴリズム ・ 結合、ルックアップ、集計、DB入出力、 圧縮、I/O、関数、常に処理効率を追求 ・ スレッド、プロセスのハイブリッド並列処理 ① CPU、メモリ、I/Oを分析 ② 処理データの量、属性を分析 ③ 最適なアルゴリズム、処理方式を選択 ④ 最適化プランに基づいて処理実行 技術エキスパート45年の経験が 詰まったライブラリをフル活用 処理性能のみならず、システムの 安定稼働に大きく貢献 製品のルーツと歴史 1971年: Syncsort社、IBM汎用機向け高速ソートユーティリティ SyncSort を販売開始 1980年~: Syncsort社、オープン環境(UNIX/Windows/Linux)版SyncSortを販売開始 1994年: アシスト、UNIX版SyncSort を販売開始 2006年: アシスト、 ETLツール DMExpress を販売開始 2014年: アシスト、Hadoop版ETLツール DMX-h を販売開始 Copyright © 2014 K.K.Ashisuto All Rights Reserved. 25 特徴② スマートエンジン@Hadoopクラスタ DMX-h 構成マップ GUI エッジノード Hadoop クラスタ Hadoop Client DMX-h WS DWH YARN DMX-h ETL Server DMX-h DNE DMX-h DNE Files HDFS DMX-h DNE DMX-h DNE Teradata Oracle Netezza Greenplum Vertica SQLServer Redshift DMX-h DNE DB/DWH 他システム ②スマートエンジン Copyright © 2014 K.K.Ashisuto All Rights Reserved. 26 特徴② スマートエンジン@Hadoopクラスタ MapReduceフレームワークへの融合アーキテクチャ エッジノードからClient経由で配布されるGUI定義と、MapSortおよびReduceMergeの プラグインに統合されたDMX-h DataNode Engineが連携して処理を実施 Hadoop クラスタ データノード Map MapSort Shuffle RedMerge DMX-h DMX-h MapSort RedMerge DMX-h DMX-h MapSort RedMerge DMX-h DMX-h Reduce データノード Map Reduce データノード Map Copyright © 2014 K.K.Ashisuto All Rights Reserved. Reduce 27 特徴② スマートエンジン@Hadoopクラスタ MapReduceフレームワークへの融合アーキテクチャ MapSortおよびReduceMergeのプラグインインターフェースは、Syncsort社がApache プロジェクトにソース提供した結果としてHadoopに実装されたもの JIRA 詳細 2454 MapReduceへの外部ソートプラグイン実装 4808 ReduceのMergeをプラグイン可能に修正 4809 2454公開に必要なクラスを提供 4812 Reduce処理の入力Mergerプラグイン実装 4842 ShuffleによるReducerのハング スマートETLエンジンをHadoopフレームワークに完全融合 Copyright © 2014 K.K.Ashisuto All Rights Reserved. 28 特徴② スマートエンジン@Hadoopクラスタ ベンチマーク結果 性能差 2~5倍 性能差 2~3倍 MapReduceジョブをDMX-h ETLで 開発することで、2倍から5倍の性能を実現。 もちろん コーディング不要! チューニング不要! Hadoopのネイティブソートを DME-h Sortに置き換えるだけで、 既存処理に変更を加えることなく、 2倍から3倍の性能を実現 Copyright © 2014 K.K.Ashisuto All Rights Reserved. 29 特徴③ DWH連携 DMX-h 構成マップ GUI エッジノード Hadoop クラスタ Hadoop Client DWH YARN ③DWH連携 DMX-h WS DMX-h ETL Server DMX-h DNE DMX-h DNE Files HDFS DMX-h DNE DMX-h DNE Teradata Oracle Netezza Greenplum Vertica SQLServer Redshift DMX-h DNE DB/DWH 他システム Copyright © 2014 K.K.Ashisuto All Rights Reserved. 30 特徴③ DWH連携 主要DWHの高速ロード手法に対応 高性能ETL製品として、主要DWHへのロ ード性能改善を継続的に追求 TeradataのTTU、OracleのOCI経由で最 適な高速ロード手法に対応 NetezzaやSQLServerへのODBC経由で のロード性能改善も実装 年内に国内提供開始するV7.15では、 Greenplum、Verticaへの高速ロード 手法が実装され、2015年Q1には Redshiftへの対応が実装予定 Copyright © 2014 K.K.Ashisuto All Rights Reserved. DWH Teradata Oracle Netezza Greenplum Vertica SQLServer Redshift 31 特徴④ サポート Syncsort+アシストでご提供する顧客サポート 20年の信頼と実績を土台とした高品質な顧客サポート Syncsort アシスト 製品の品質レベルが非常に 高いうえ、Garntner Magic Quadrantにおいて、大きな 顧客満足を得るサポート品質 を高く評価されている 1. にげない 2. めげない 3. あまり儲けない を掲げる顧客対応のDNA Copyright © 2014 K.K.Ashisuto All Rights Reserved. 32 事例:米国金融企業(1次フェーズ) 従来のデータウェアハウス・アーキテクチャ データソース ETL データウェアハウス ETL ELT ビジネス・インテリジェンス クエリ レポート 分析 ロード後に加工 増強費用が耐え難いレベルに HiveQL を利用したHadoop ETLでは期待した性能を得られず・・・ データソース Java Hadoop ETL データウェアハウス ビジネス・インテリジェンス HiveQL クエリ レポート 分析 開発工数は3人月 データ生成まで6時間 Copyright © 2014 K.K.Ashisuto All Rights Reserved. 33 事例:米国金融企業(2次フェーズ) HiveQL を利用したHadoop ETLでは期待した性能を得られず・・・ データソース Java Hadoop ETL HiveQL データウェアハウス ビジネス・インテリジェンス クエリ レポート 分析 開発工数は3人月 データ生成まで6時間 DMX-h を利用したHadoop ETLで期待した性能を得られた データソース Hadoop ETL データウェアハウス ビジネス・インテリジェンス DMX-h クエリ レポート 分析 開発工数は1人月 データ生成まで15分 Copyright © 2014 K.K.Ashisuto All Rights Reserved. 34 事例:米国金融企業(適用効果) ローン業務改善プロジェクトの成功 ( 適用効果 開発コスト(人月) 4 16 3 12 28 14 生産性 HiveQL 12人/週 3倍 3人月 DMX-h DMX-hとCDHにより、DWHからELT処理の オフロードに成功 柔軟なアーキテクチャで、ステージングや差 分抽出等のETL処理全般をカバーできる コーディング不要で保守しやすい 400 処理時間 (分) 開発工数を1/3まで削減 140のHiveQLスクリプトを12のDMX-h ジョブに統合 Javaのユーザ定義機能を排除 処理が24倍高速に 300 200 100 1人月 00 ) + HiveQL 6時間 性能差 24倍 DMX-h 15分 0 Copyright © 2014 K.K.Ashisuto All Rights Reserved. 35 アジェンダ 1 はじめに / アシストについて 2 Hadoop ETL 3 DMX-h 4 さいごに Copyright © 2014 K.K.Ashisuto All Rights Reserved. 36 オールインワン データウェアハウス最適化ソリューション 「御まとめHadoopパック」 ハードウェア OS Hadoop DMX-h すぐに始められる、 プリセットアップされたHadoop基盤を お届けいたします! 初期支援サービス 日立エントリーブレードサーバ HA8000-bdシリーズ Cloudera認定機種 Copyright © 2014 K.K.Ashisuto All Rights Reserved. 37 導入検討はリスクフリー 1 体験セミナーへの参加 (無料) 3時間でDMExpressを徹底体験いただけます! DMX-hについても個別対応させていただきます! 2 処理アセスメント (無料) 適用検討領域の現行処理や処理要件を確認させていただき、 DMExpressやDMX-hの適用効果についてアセスメントいたします! 3 総合検証プログラム(無料) 検証に必要な正規ライセンスを1ヶ月間無償でご提供いたします! 検証期間は、弊社よりSEをアサインし、サンプル処理の作成や検証作業、 検証結果のご報告を支援させていただきます! Copyright © 2014 K.K.Ashisuto All Rights Reserved. 38 展示ブースにて DMX-hのデモを 実施しておりますので、 是非お立ち寄りくださいませ。 ご清聴 まことに ありがとうございました。 Copyright © 2014 K.K.Ashisuto All Rights Reserved. 39 Copyright © 2014 K.K.Ashisuto All Rights Reserved. 40
© Copyright 2024 ExpyDoc