Syncsort DMX テクニカルホワイトペーパー 「そのテクノロジーの秘密に

DM379A
目次:
➢ はじめに
➢ エグゼクティブサマリー
➢ ETL の進化
➢ アーキテクチャ:
1. 開発者の生産性
2. パフォーマンスとスケーラビリティ
3. 特許を取得しているアルゴリズム
4. 高速なデータ転送の為のダイレクト I/O
5. 高性能圧縮
6. 動的な自動チューニングエンジン
7. ハイブリット マルチスレッド+マルチプロセス エンジン
➢ 結論
➢ 事例紹介:
1. comScore:
BIG データ統合で事業拡張
2. NEA(National Education Association/国家教育協会):
ORACLE の負荷を軽減し、パフォーマンスの最適化及びコスト削減を計る
➢ はじめに
〜 このホワイトペーパーに寄せて〜
私は、企業向けデータ統合製品である DMExpress(以下 DMX)が他製品と何が違うのか、またデー
タウェアハウスへのロード性能についてなぜ大差をつけて ETL 世界最速記録(2008 年に DMX は ETL
World Record を記録)を得ることができたのか、調べています。
そこにはいくつか重要なポイントがあります。先ず DMX の技術は 1970 年代にメインフレーム上で
稼働する様に開発された事です。 その当時は利用するリソースを節約する必要があり、限られたメモ
リ上で処理する必要がありました。 その節約方法は、主要なプラットフォーム上で実行される今日の
製品にも使われています。例えば、DMX では実行されているプラットフォーム上で利用可能なメモリ
の 15%を使用するのがデフォルトの設定となっています。しかし、他のツールは通常利用可能な全て
のメモリを使います。同様に、DMX は OS のファイルシステムを介さずに直接入出力先のディスクド
ライブにアクセスします。そうすることで、ファイルシステムを経由していた場合に発生していた
オーバヘッドを省いています(ダイレクト I/O)。
次に、Syncsort 社がデータ統合分野で優れている最大の理由は、データベースと同じ様に DMX をオ
プティマイザ中心に作り上げた事です。これは、同じ結果を得るために、様々な方法がある場合に意
味があります。大抵の ETL とデータ統合プラットフォームは、結合やソート処理用の異なるアルゴリ
ズムをほとんど持っていません。つまり、選択の余地が限られるので 例えそれら製品がオプティマイ
ザを搭載していても、より良いパフォーマンスを得られません。一方 Syncsort 社は、30種類のソー
トアルゴリズムを始め、結合処理やその他データ処理のための多数のアルゴリズムを持っています。
Syncsort 社のオプティマイザは、データベースのオプティマイザがクエリの実行計画を作成するのと
同じように、変換計画を作成します。さらに、このオプティマイザは動的で、データ転送を監視し、
もし現在のアルゴリズムが最適でない場合、動的に変換計画を変更する事が出来ます。
話す内容はまだたくさんありますが、ここでは少なくとも DMX がバルクロードの為に非常に効率的
であるという事、そしてこの市場で入手可能な、おそらく最速の製品であるという事がお伝え出来た
と思います。
フィリップ・ハワード/BLOOR RESEARCH
➢ エグゼクティブサマリー
今日、”ビックデータ”という単語は業界媒体の見出しを多く占めており、三つの「V」 (量
[Volume]、速度[Velocity]、種類[Variety])が至る所で語られています。 その一方で、多くの企業はギガ
バイトもしくはテラバイトのデータ統合、変換に苦労しています。 事実、少ないデータ量であっても
複雑なデータ変換の導入はかなり敷居が高くなります。これは重要な問題に焦点を当てている事を意
味します。従来のデータ統合ソリューションは著しくコスト増加させ、統合を複雑にし、多様なデー
タソースに影響を与えています。 これに対して、企業はよりスマートなアプローチが必要です。
このホワイトペーパーでは、高速で、安全な企業向け ETL ソフトウェアで、85 カ国以上で多くの企
業に使用されている、Syncsort DMExpress の技術的な概要を説明しています。
長年にも渡り、DMX はコストを削減しながら、パフォーマンス、効率性、生産性の最適水準を求め
る企業の為、標準的な ETL ソリューションを提供してきました。
また、DMX はグローバル企業をリードする為にも使用されています。
• 高額なデータウェアハウスとメインフレームからデータと作業負荷をオフロード
• ETL とデータウエアハウス処理の最適化
• ソート及びバッチデータ処理を加速
• メインフレームアプリケーションのダウンサイジングでデータを移行
• クラウドデータ統合の最適化
このホワイトペーパーで説明されている DMX の全てのアーキテクチャコンセプトは、4 つの重要な
ポイントに基づいています。
• スケールにおいて最大のパフォーマンスを提供
DMX はリニアな拡張性とチューニングが不要な特徴により、従来の DI(DataIntegration)
ツールに対して処理時間で 10 倍、手動コーディングに対しては 25 倍の速さとなる処理性能を
提供することができます。
• 資源効率の最適化
このホワイトペーパーを通じて考察されている幾つかの最適化は、CPU とメモリ使用率を
75%まで下げ、ストレージの使用量を 90%まで下げます。
• 本質的な作業にかける時間を加速し、ユーザの生産性を上げる
シングルエンジン、最小限の占有領域 、簡単に使えるグラフィカルなインタフェース、ユー
スケースアクセラレータ、そして動的な ETL オプティマイザの組み合わせは、時間をかけず数
分でのインストール、および素早い結果提供を可能にします。
• データ統合のコスト構造を削減
独自の研究で、DMX は一般的に、データ統合の TCO を 65%まで下げ、9 ヶ月以内の投資回収
と最大で投資収益率 200%の回収を提供することができると示しています。
目標は明確です。企業がより多くのデータを短時間、低コストで収集、処理、配信する事です。今
日、大抵の企業の成長性は、ビックデータ、または競争力のある本質的なデータを素早く効率的に加
工できるかに掛かっています。それこそがまさしくデータの価値となります。
➢ ETL の進化
ETL とデータ統合ツールは 1990 年後半に手動コーディングの代替として初めて提供されました。初
期段階の利点の 1 つは、ユーザが構築にあまりスキルをかけず高い拡張性を持つデータ統合フローを
実行できる事でした。 これは、再利用を奨励する高性能エンジンとメタデータ主導型の設計によって
可能になるはずでしたが、ETL プラットフォーム性能は向上しませんでした。多くの時間とリソース
が長年にわたって異なる技術統合の獲得の為に費やされてきましたが、ETL の性能/拡張面は無視され
てきました。
結果として、それらのツールは約束された開発者の生産性を全く満たさず提供され、当然にビック
データへの適用は不十分でした。 これらの ETL 製品のほとんどが高価にも関わらず、企業は追加の
スクラッチ開発と一般的に「ELT」と呼ばれるデータベース上でのデータ処理実装をせざるを得ませ
んでした。下記に解説するアーキテクチャの結果は、非常に複雑でお客様が望んでいるようなパ
フォーマンスやコスト構造はもたらされていません。
1990 年台におけるデータウェアハウス環境 現在のデータウェアハウス環境
これに対し、高性能なデータ統合における Syncsort 社の長年の叡智を集約した DMX は高いデータ
処理性能、資源効率、開発の生産性、低コストという 4 つの基本理念に基づいて、構築されました。
結果として、それはデータウエアハウスの容量とリソースを解放するための ETLの作業負荷のオフ
ロードだけでなく、データ統合の複雑さとコストを劇的に軽減します。
➢アーキテクチャ:
DMX のクライアントサーバーアーキテクチャは、データ量、複雑さ、速度に関係なく、エンタープ
ライズクラスのデータ統合問題のコストを抑え解決する事が可能です。多種多様なデータ統合要件を
実現するための鍵は、創業以来常に進化し続けている単一の処理エンジンによって成り立っています。
重要なのは、DMX が設計や実行時の為にリレーショナル・データベース、コンパイラ、アプリケー
ション・サーバーといったサードパーティ製のアプリケーションに依存せず、とても小さなフットプ
リントアーキテクチャで実行される事です。これは DMX にかかるインストールが数分で済むという事
を指しています。 DMX は、Linux、Unix そして Windows もしくは Hadoop クラスタ内またはクラウ
ドなど仮想環境上でも、どこでも展開する事ができます。同時に他のアプリケーションと共存する事
ができます。
DMX のクライアント・サーバー・プラットフォームには、二つの主要コンポーネントがあります。
• クライアント: ユーザがデータ統合ジョブを設計、実行、制御を可能にする GUI を提供
• サーバー:
リポジトリとエンジンとの組み合わせ
•
ファイルベースのメタデータ・リポジトリ
標準のファイルシステムを使用することでソースコード管理システムとの間で設計と実行時の
バージョン管理の統合をシームレスにする事ができます。これは、ノード間の基本的な
ファイルシステムの特性を継承する事で高可用性を提供します。
•
エンジン
高性能、リニアスケーラブル、拡張可能な小さなフットプリントエンジン、そしていつでも最
小限のリソースを使用して最大のスループットを実現する独自のスマート ETL オプティマイザ
を含んでいます。
1. 開発者の生産性
結果を素早く提供
開発者は、Web ログの収集や、差分を抽出する CDC(Change Data Capture)、ルックアップなど、
一般的な ETL アプリケーションの為のユースケースアクセレータ・ライブラリのおかげで迅速に生産
性を上げる事ができます。DMX のグラフィカルなテンプレートベースの設計画面は、洗練されたデー
タフローの迅速な開発と展開を可能にします。 一度展開されると、ジョブの維持及び管理が簡単です。
設計者は、DMX のスマート ETL オプティマイザがジョブを自動的に調整している側らで、業務および
機能要件に集中する事ができます。
再利用可能なタスクは、DMX ジョブを構築する一つの単位です。各タスクは、完全に自己完結型で
ユニットテストが出来ます。タスクは、処理の流れを含むジョブを作成する為に用いられています。
デフォルトでは、各タスクは中間結果のファイルを使用する様に設計されています。これにより、デ
バッグ、テスト及び再起動が簡単になります。実行時及び配備時にマウスを一回クリックするだけで、
設計者はメモリを利用した高速転送にこれらのファイルを置き換える事ができます。
オンショアとオフショア開発チームの混在を可能にする
このアプローチは、オンショアとオフショアチームを効率よく分散する事でハイブリッドの開発環
境を容易にします。最初に、メタデータは設計と実行時両方で全ての環境に簡単に伝達する事ができ
ます。加えて、DMX はそれぞれに完結した環境を構築し、個別のテストを行い、その後に組み合わせ
本番環境で最適に実行する事ができます。
パフォーマンスよりビジネス要件に着目
従来の ETL ツールでは、作業の大部分は手動でのパフォーマンス/拡張性チューニングに充てられ
ます。これは全体のスループットに劇的に影響を与える設計上の決定を行うことをユーザに強制しま
す 。さらに、そのパフォーマンスは個々の開発者のツールの知識に大きく依存していることを意味し
ます。これは本質的に、開発者は機能要件を満たすコードだけでなく、パフォーマンスの為の設計も
行わなければなりません。この知識を持っている開発者達は非常に少なく、その知識は長年の経験か
ら得られます。大抵の企業にはその様な専門家はいません。
DMX であれば、スマート ETL オプティマイザが任意のジョブやタスクの性能面で効果が発揮される
点と異なります。設計者は、5 つ(コピー、ソート、マージ、結合、集計)の基本機能だけを学ぶだ
けです。上記の単純な機能を組み合わせることにより、全ての機能要件を満たす事ができます。これ
が DMX のとても優れている点です。設計者は、パフォーマンスを心配する必要はありません。なぜな
ら、スマート ETL オプティマイザが環境を問わず自動的に全てのジョブとタスクに対して最適な方法
を提供するからです。結果として、ジョブの構成要素は少なく済み、維持と管理はより簡単になりま
す。DMX を使用すると、ユーザは機能の為に設計し、単純に性能を受け取ります。
2. パフォーマンスとスケーラビリティ
任意のソフトウェアシステムのパフォーマンス(特に ETL)は、”パフォーマンスのトライアングル”
に基づいています。効率性と速度は、CPU、メモリ、I/O のバランスが求められます。
リソース間での密接な依存関係のためにこのトライアングルが重要です。三つのうちどれか一つで
も過剰使用をすれば他に直接的な影響を与えます。(例えば、物理メモリを超える結合処理を実行し
た場合、余計なディスク I/O と CPU 時間がかかります。)ほとんどの従来の ETL ツールは、CPU バ
ウンド、メモリバウンドではありますが最終的に全ての ETL はディスク I/O に依存します。結果とし
て、パフォーマンスを向上させる為に、トライアングルの全ての面において影響を最小限に抑える必
要があります。
DMX は、5つの主要技術の組み合わせによりパフォーマンスのトライアングルに対処します。
•
•
•
•
•
全ての主要データ変換の為の特許を取得しているアルゴリズムのライブラリ
高速データ転送の為のダイレクト I/ O アクセス
I/ O を最小にする高性能圧縮
動的 ETL オプティマイザは、最小限のリソース使用率で最高のパフォーマンスを確保
ハイブリッドマルチスレッド+マルチプロセスエンジン
3. 特許を取得しているアルゴリズム
全ての ETL 処理の 80%は、レコードのソートに費やされています。結合、集計、ランキング、デー
タベースへのロード等、これらの処理は、ソートに依存しています。 例えばファイルと DB のテーブ
ルなど、2 つの異なるデータソース同士の結合、小計を作成するためのレコードのグループ化、また
ランキングの作成は、レコードの並べ替えが必要な一般的な例です。もしデータが最初にソートされ
ている場合、データベースへのロード処理の最終段階でも、より効率的に、実行時間と CPU の占有時
間を減らすことができます。 利点としては、ロード処理の先にあるインデックス作成処理で、テーブ
ルを参照する場合にソート済みのデータが含まれていた方が早いことです。しかしながら、従来の
ツールでレコードをソートする事は、ETL プロセスの中で最も非効率的な工程です。
その点 DMX は違います。長年かけて有効性が実証されている数百の最適化アルゴリズムが、リソー
ス使用率を最小限に抑えながら最高レベルのスループットを提供します。このユニークな機能は、リ
ソースの使用率を最小化にしたり、常に特定の環境変数に適用したり、増大するデータ量の要求を満
たすための拡張を行うという手法で、メインフレームのソートを効率化する事を目的として、1971 年
に最初に特許を取得した一連のアルゴリズムに基づいています 。Syncsort 社が特許を取得してから
40 年の間に追加のアルゴリズムと、結合、マージ、集計、変換、コピー、メモリ管理や圧縮に渡り、
独自の技術が追加されました。
4. 高速なデータ転送の為のダイレクト I/O
全ての ETL 処理で、特にソースからデータを抽出し、ターゲットへロードするといったジョブの最
終的な部分ではディスク I/O がボトルネック(ディスクバウンド)となります。加工変換の段階でも物理
メモリを超えた処理の実行で、直ぐにディスクバウンドとなります。ディスクは最も遅いリソースで
あることから、パフォーマンスに劇的に影響を与える可能性があります。
DMX は、多くのファイル・システムとストレージ・システム(例えば、ストレージアレイ・ネット
ワーク)の為のダイレクト I/ O 機能を搭載しています。ダイレクト I/ O は、大きなデータブロックの
転送をより効率的に可能にする OS バッファキャッシュをバイパスします。その結果、DMX はより少
ない CPU を利用し、余分なメモリコピーを避けます。この最適化は、DMX によって自動的に実行時
に適用されます。DMX は多くのファイル・システムでダイレクト I/O 機能を適用できます。
I/O サイズが正しく調整され、十分な大きさであればダイレクト I/O は自動的に実行されます。幾つ
かのファイルシステムは検出されたダイレクト I/O を経由してこれを行います。DMX は、事実上ダイ
レクト I/O をサポートする全てのシステムで作動します。12 ギガ以上のソースの場合には、ストレー
ジアレイネットワークの様なストライプ·ファイル·システムの自動ソートの最適化もあります。より
大きなブロックサイズは、自動的に最大で 30%のパフォーマンスを向上させます。
DMX には、直接読み取りの最適化も組み込まれています。例えば、OracleOCI クライアントコール
を処理する為に使用される Oracle リソースを解放し、Oracle データファイルを直接読み取る事ができ
ます。Oracle のテーブルを直接読み取る事によって、通常 30%の処理機能が向上します。また、DMX
は可能な限りダイレクト・パスロードを使用して負荷を最適化します。
5. 高性能圧縮
大量のデータは、ディスク I/O のアクセスを増加させるだけでなく、ネットワーク I/O も増加させる
のでパフォーマンスに悪い影響を及ぼします。これはクラウドや Hadoop における HDFS といった
データソースの多様化に伴って特に重要になってきます。また、ビックデータは簡単に持続不可能な
水準までストレージコストを押し上げます。
圧縮技術は、これら両方の問題を解決するので、大手のデータベースベンダーやアプライアンスベ
ンダーにこれらの技術へかなりの投資を費やすよう促します。 データ統合にとって、圧縮はストレー
ジ要件を最小化するだけでなく、I/O の量を減少させることで全体の処理時間を加速する為に使用する
事が出来ます。DMX は、拡張された圧縮アルゴリズムを組み込む為の唯一のツールで、実行時に基づ
いて選択します。
•
•
•
I/O 読み/書きスピード
データ量
データタイプ
データファイルの読み書きをする為の圧縮を提供することに加えて、DMX には一時的に作業スペー
スを圧縮できる独自の技術が組み込まれています。それによって大量のデータのための重要となるス
トレージの節約を可能にします。データ圧縮率とシステム仕様(すなわち、CPU の数や速さ、I/O
レート等)に応じて、DMX の高性能圧縮機能は、経過時間として 2 倍の速さ、ストレージ使用量とし
て最大 90%を節約する事ができます。最終結果はスクラッチもしくは一時的なディスクの使用に劇的
な影響を与え、単純なタスクでさえもテラバイトのストレージを節約します。
6. 動的な自動チューニングエンジン
アルゴリズム及び最適化のライブラリは、高速、効率、単純なデータ統合を提供するのに十分では
ありません。 これにはメモリ、CPU、ディスク間の”リソーストライアングル”の一定のバランスが
必要です。 これらの要件は、様々なアプリケーション(ETL、RDBMS 等)として優先順位を競う様
にミリ秒毎に変更します。また、その技術は複雑さとアプリケーションのチューニングを含む手作業
からユーザを効果的に解放する必要があります。
DMX は、拡張性と、単一エンジンの使いやすさ、動的オプティマイザの多能性を兼ね備えています。
スマート ETL オプティマイザは、DMX の実行時にデータ構造やシステムの属性に基づいた最も効率的
なアルゴリズムの動的な選択を可能にします。それは自動的に適用され、特定のジョブやシステムの
正確な特性に沿って自己最適化されます。この拡張性と使い勝手のよい組み合わせは、動的な選択と
アルゴリズムの切り替えを行う事で、最も効率的なリソースの使用を確保しながら最大規模のパ
フォーマンスを提供しています。
7. ハイブリット マルチスレッド + マルチプロセス エンジン
従来の ETL メーカーの古典的な論点の1つは、プロセス対スレッド・アーキテクチャの議論です。
つまり、スレッドとプロセスはアプリケーションの並列化方法です。プロセスは、プロセス間通信を
用いて相互作用する自己完結型の実行単位です。その統制機構は、マスタープロセスがサブプロセス
を生成する仕組みを使用します。
スレッドは、プロセス内に含まれており、複数のスレッドがそれぞれに存在し、同じ状態とメモリス
ペースを共有する事で直接通信します。スレッドはシーケンシャルである必要性がない処理を行う為
に動的に生成したり消去したりできます。
従来の ETL ツールや手動コーデイングは通常、最終的に出力されるハードコートされたロジックを
デプロイもしくはコンパイルする事が必要となります。この結果として、刻々と変化するシステム状
況に適用するには、実行時の柔軟性に欠ける ETL 処理となってしまっています。また、多くの ETL ア
プローチはスレッドとプロセス管理が非常に下手で、多くの場合、オペレーションシステムへの圧倒
的なスレッドとプロセスのスワンピング要求によって制約されてしまいます。DMX は、動的なマルチ
プロセス、そしてマルチスレッドのアーキテクチャへと進化してきました。それは、スレッドと主統
制プロセスの、要求と処理に基づいた動的な生成/消去という完全なる利点を提供します。
この信じられないほど効率的な処理方法 、動的 ETL 最適化による自動制御、必要となる分だけの
割り当てによるリソースの節約の上で、データは統合ジョブを流れます。また、DMX は分析エンジン
を備えています。ユーザインターフェースでは単純に、実行時に裏側でエンジンへ渡され動的に処理
されるスクリプトを作成します。これは特に動的変数やパラメータを渡す場合に、柔軟性をもたらし
ながら、高速な起動と実行時のパフォーマンスを実現します。多くの場合、DMX エンジンは従来の
ツールでコンパイルを完了する前にデータ処理を完了するので、マイクロバッチまたリアルタイムに
近い環境に最適です。
➢結論
データ統合ツール(ETL ツール)は、歴史的に 2 つの重要な成功要因を無視して、機能拡張に焦点
を当ててきました。それは開発者が簡単に利用できる事と拡張性におけるコアエンジン性能です。IT
企業は全ての意味を理解する為に、分析を行うにつれて、データの量、質、種類の加速に直面し、一
定のチューニング、ハードウェアの増強、データ変換をデータベースで代替するといった、費用が掛
かり非効率的な回避策を余儀なくされます。
この様なやり方では、持続不可能な費用となりビックデータの価値を損なうことになります。それゆ
え、正しいデータ統合アーキテクチャを選択しようとする場合、企業は次の重要な要件を慎重に評価
するする必要があります。
 妥協のない処理性能
スケーラブルなアーキテクチャは、エンジンパフォーマンスそして生産性、両方の基盤上で構築さ
れなければなりません。それは、パフォーマンスと生産性の両方で妥協無くバランスを取ることが重
要です。 理想的なソリューションはビジネスロジックに集中して、常に最適なスループットを確保す
る為に、実行時に動的に適用される自動 ETL オプティマイザで実行の複雑さを取り除いて設計を容易
にします。
 分析エンジンを通じたシームレスな拡張性
今日の急速な変化、データ集約要件に対応する為、DI エンジンは分析エンジンを用いた迅速で動的
な変更が可能な最新のハードウェアのアーキテクチャに基づいたスレッド、プロセスアーキテクチャ
どちらも活用する必要があります。
 オンプレミスとクラウドの導入に最適な資源効率
そのアーキテクチャは、とても小さいフットプリントをもち、高速で簡単な展開を可能にし、リ
ソースの競合を避ける必要があります。 企業は複雑さを追加したり、より効率的なデータ処理を利用
するためにリソースを消費するようなサードパーティのアプリケーションサーバ、データベース、コ
ンパイラに依存しているツールを避けるべきです。
 高性能圧縮とダイレクト I/O
データエンジンは、ディスク、メモリ、そして CPU 使用率といったトライアングルパフォーマンス
バランスの最適化が必要です。また、ディスク I/O は、データに関連する処理上で最終的な制約であ
る事から、シームレスなネイティブ圧縮及び I/O バッファーキャッシュのバイパスは、ストレージ要
件を最小にしながら更に高いパフォーマンスと効率向上をもたらすことができます。
 生産性と再利用性の向上
理想的なデータ統合アーキテクチャは、再利用可能なブロックの基本セットとビジネス主導型の設
計理論を直観的に提供する必要があります。これにより、ユーザは複雑な構造を、より簡単で再利用
可能な構造に基づいて設計することができます。さらに、クライアントサーバーのアーキテクチャは、
現代の IT 技術の特徴である分散型の開発を可能にする必要があります。
 データウェアハウスやメインフレームからデータと作業負荷をオフロードする機能
ELT 作業負荷が増大するにつれて、データベースリソース使用率の 80%まで使用するようになって
います。データ統合ソリューションはコストを削減しながら、適切なデータ処理作業負荷を識別でき、
オフロードし、データベースの容量を解放できなければなりません。
40 年以上に渡る、特許取得済のアルゴリズムと数百もの実績ある最適化の結果、これらの要件が
DMX のアーキテクチャ基盤となります。こういった理由から、フォーチュン 100 社中 87 社は
Syncsort 社の顧客であり、またその製品は 85 カ国以上で使用され、高額で非効率的なレガシーデータ
の作業負荷、高速データウエアハウス、メインフレーム処理のオフロード、クラウドデータ統合の最
適化の為に役立っています。
このホワイトペーパーで説明している強力な技術の組み合わせを利用する事で、単純なパフォーマ
ンスという点を超えて、お客様にコストとリソースをかけず短時間で継続的な結果を提供する事が出
来ます。
 最大のパフォーマンスを提供する
DMX はリニアな拡張性とチューニングが不要なため、従来の ETL ツールに対して処理時間で 10 倍、
手動コーディングに対しては 25 倍の速さとなる、処理性能を提供することができます。
 資源効率を最適化
このホワイトペーパーを通じて考察されている幾つかの最適化は、CPU とメモリ使用率を 75%まで
下げ、ストレージの使用量を 90%まで下げます。
 本質的な作業にかける時間を加速し、ユーザの生産性を上げる
シングルエンジン、最小限の占有領域 、簡単に使えるグラフィカルなインタフェース、ユースケー
スアクセラレータ、そして動的な ETL オプティマイザの組み合わせは、時間をかけず数分でのイン
ストール、 素早い結果表示を提供します。
データ統合の価格削減として、独自の研究で、DMX は一般的に、データ統合の TCO を 65%まで下
げ、9 ヶ月以内の投資回収と投資収益率で 200%の回収を最大で提供することができると示していま
す。
事例紹介
BIG データ統合による企業成長の推進
“DMX のパフォーマンスと使いやすさは、私達のビジネスに前向きな影響を与えています。
DMX の技術を用いると、即座に生のクリック・ストリームデータ(Web のアクセスログ)を緻密な情報
へ変換することができます。”
comScore:
マイク・ブラウン/CTO
会社概要:
comScore は、デジタル世界を測定しデジタルマーケティングインテリジェンスの好ましい供給源と
なるグローバルリーダーです。 行動と調査考察の強力な組み合わせを介して 、comScore はクライア
ントが急速に進化するウェブやモバイル界をより良く理解したり、活用、利益を得ることを可能にし
ます。35 カ国以上、1,200 社以上に提供されている comScore の重要な洞察力によって、世界中の大
手企業の効果的なデジタルビジネス戦略に役立っています。
ビジネスの課題:
データ統合は、comScore にとって重要なビジネスの過程です。彼らにとってビジネスの成功は、世
界中にいる2億人のインターネットユーザがデータをどの様に閲覧したかを、収集して、変換して分
析できるかにかかっています。
comScore は、ネットサーフィンをしている所から実際にその読んでいる出版物、購読しているサー
ビス、購入している物品等、全てのユーザのインターネットの閲覧状況と行動を監視しています。監
視している情報は、年中無休でプラットファイル形式で収集、ソートと集計がなされます。
もともと comScore は自社製のグリッド処理スタック上で行なっていましたが、2000 年に Syncsort
社に切り替えた後には一日あたり 100 億レコードのデータ処理が行われました。
”それまでは、何週間も作業に時間をかけて大変だったんだ。それが、Syncsort 社の製品を使い出
したら、文字通り自社のソフトウェアの実行は 5 倍から 10 倍速くなったんだ。”
マイク・ブラウン CTO, comScore
2009 年は、不況のまっただ中でしたが、comScore は第3世代製品、ユニファイドデジタル計測
(UDM またはハイブリッド)を構築、リリースする事を決めました。パネルデータに加えて人口デー
タを混ぜたこの先駆的なプラットフォームは効果的に複雑なデータ変換の量を向上させた。
また、comScore は下記の様な目標を掲げていました。
•
•
•
•
•
データ収集を増加させる
データ処理及び分析の為の新しい方法論を展開する
急増する成長をサポートする為、リニアに拡張する
データ待ち時間を 24 時間以内にカットする
4ヶ月以内にシステム全体を展開する
comScore は、当初カスタムソリューションを開発しましたが、幾つかの深刻な課題に直面し始めま
した。
•
•
•
SLA への対応が実現可能でない
急増するサーバとストレージのコスト
一定の手動チューニングと継続的な開発や維持に時間がかかってしまう
解決策:DMX による高性能ソートと ETL ソリューション
comScore は、効率的なデータ処理の為に 200 台以上のサーバーで DMX を使用しています。
マイク・ブラウン氏によれば、comScore には現在、Dell R710 2U サーバー上で 20 分で 375 万行あ
る 50GB 以上のデータを処理できる集計システムがあります。
さらに最近、comScore はデータの急増を経験している事から、Hadoop の活用を決めました。
マイク・ブラウン氏によれば、Syncsort 社のソフトウェアで、非常に簡単に Hadoop への移行を行
えたそうです。
ブラウン氏曰く、「プッシュコード以外、全てのコードを変更する必要はありません。」「DMX は
30 種類(以上)のアプリに使っています。データの調整が必要な場合の為のツールです。」
今日、comScore は DMX を Hadoop にロードする前に自社のデータをソート、分割、圧縮する為に
使います。
また、DMX は Hadoop 環境を以下によって最適化します。
•
•
•
Hadoop クラスタ上のストレージ量を減らす
ロード処理を 2 倍に加速する
Hadoop セグメントに完全に適合する小さなファイルへ大きなファイルを分割する事で、全体
的な Hadoop のパフォーマンスを改善する
メリット
スピード:
• 1サーバー内で 20 分以内に 50GB のデータをソート
• Hadoop へのデータロードを最大 2 倍早くする
効率性:
• ストレージの節約: 毎月 75TB のデータ
• Hadoop の処理を最適化し、Hadoop クラスタへロードする前にデータを分割、圧縮
シンプル:
• comScore は 9 ヶ月間で 一日あたりの処理が、チューニングまた再設計なしで 18 億から
32 億レコードに上がった。 DMX エンジンはスケールして、増加するデータ量をサポート
• Hadoop への移行を促進
ビジネス価値
費用対効果:
• サーバーコストを最低でも年間$350 抑える
• ストレージを最高 75TB 節約する
DMX は、comScore に下記を提供します。
• 事業成長のサポート
• 顧客の SLA を満たし、さらには越える
• 新しい収益源となる製品の提供
• 高まる要求をサポートする為にコスト効率よく拡大縮小しながら競争上の優位性を維持
お客様事例
“Oracle のオフロードで、コスト削減、パフォーマンスを最適化
DMX のおかげで我社は何千ドルものお金をセーブしました!”
NEA(NATIONAL EDUCATION ASSOCIATION)
ジャネット・デイド/IT サービスディレクター
会社概要:
米国で最大の専門職員団体である、米国教育協会(NEA)は、公共の教育の発展に尽力しています。
NEA の 300 万におよぶメンバーは、幼稚園から大学院のプログラムとあらゆる教育機関のレベルで働
いています。NEA は全米に支部を置き、14,000 人以上のコミュニティがあります。
ビジネスの課題:
NEA は毎日 320 万のメンバーからデータを収集し、BI 分析の為にそのデータを複数のデータウエア
に移行します。目標は各支部でより良い意思決定を行い、その目的を達成できるように、即座に詳細
な分析を提供する事です。NEA の全データ統合処理は、最初は非常に複雑な PL/SQL スクリプトを用
いて行っていました。
いくつかのスクリプトの中には、15 ページ以上もあり何千行にも渡る PL/SQL と、非常に非効率な
ジョインで Oracle の能力を消費しているものもありました。結果として、それらのバッチ処理でバッ
クアップ、データ変換、データ移行の全てを完了するのに 15 時間以上かかっていました。また、全て
手作業の為、ミスしやすく、ユーザの不満を高め、IT スタッフの生産性を下げていました。同時に、
スクリプトは維持、チューニング、拡張するのが非常に難しく、全体的なリスクを増やし、参画する
新しいスタッフへのナレッジ共有を阻害していました。
解決策:
PL/SQL オフロードの為の高性能な ETL
NEA は DMX で PL/SQL の ETL 処理を置き換えました。 その高性能な ETL ソリューションは、
NEA に下記の様な効果をもたらしました。
•
•
•
Oracle のステージング排除
柔軟でスケーラブルな DI 環境を実装
手動コーディングおよびチューニングの必要性を排除
メリット
スピード:
•
•
全てのバッチ処理を 15 時間から 4 時間に削減
主要データ統合を 25 倍まで加速
効率性:
• Oracle の高価なステージングの必要性を排除
• 複数クエリ分析の為のデータベース能力を解放
シンプルさ:
•
•
•
DXM を用いて主要データ統合ジョブを 48 人時(約 6 人日)で展開
以前は、同様のジョブを展開するのに PL/SQL で 1 年かかっていた
チューニングの必要性を排除
ナレッジの共有化促進
これまで:
PL/SQL スクリプト(ELT)
• 工数:1 年
• 開発コスト見積もり:8 万ドル(60 ドル/時間)
• 総実行時間: 6 時間
• ステージングを用いた複雑な PL/ SQL スクリプト
• 手動コーディング、手動チューニング、再利用性なし
• 全バッチ処理時間: 15 時間
現在:DMX(ETL)
•
•
•
•
•
•
工数:48 人/時
開発コストの見積:2 万 8800 ドル(60 ドル/時間)
実行時間: 30 分
ステージングなし
コーディングなし、チューニングなし、再利用可能なオブジェクト
全バッチ処理時間: 4 時間
ビジネス価値
• 300 万以上のメンバーと何千もの関連会社の為の”洞察を得られるまでにかかる時間”を加速
• スタッフの退職による企業的リスクの最小化
• 単一プロジェクトだけで推定 8 万ドルの生産性を向上する高速な投資対効果
参考資料:
eBook: A Practical Guide to Big Data Readiness >
eBook: 5 Tips to Break Through ELT Roadblocks >
eBook: The Ultimate Checklist for High Performance ETL >
Syncsort 社について:
Syncsort 社は、Hadoop のビッグデータソリューションからメインフレームに及ぶ、高速で安全な
企業レベルのソフトウエアを提供します。より少ないリソースと低価格で、短時間のうちに多くの
データを、収集、処理、配信できるよう、世界中のお客様を支援します。 フォーチュン 100 社のうち、
87 社は Syncsort 社のお客様です。また、Syncsort 社の製品は、85 カ国以上で、高額で非効率的なレ
ガシーデータオフロードの作業負荷、データウエアハウスの速度向上、メインフレーム処理、クラウ
ドデータ統合の最適化の為に使用されています。
著作:Syncsort 社