Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics

Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋
CDH with
HP Vertica Analytics Platform
Wataru Morohashi / November 6,2014
1
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
-1-
Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋
HP Vertica Analytics Platformを
Platformを分析に利⽤
Hadoopと連携して分析に活⽤
Facebook
•
•
•
数百ノードで構成
数⼗ペタバイトのデータベース
サイズ
1時間あたり35テラバイトの
データを投⼊
Twitter
•
•
すべてのツイートからの分析
Twitter interactive visualizations
https://interactive.twitter.com/
3
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
4
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
-2-
Hewlett-Packard
• hp.com のクリックストリーム
15ヶ⽉分
• HP ProLiantシリーズすべての
メンテナンス履歴
Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋
CDH + HP Vertica Analytics Platform
5
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
データベースのひとつの進化の⽅向性 ー そしてCDHと Verticaの歴史
197x
リレーショナル・
データ・モデル
および管理システム
誕⽣
198x
リレーショナル・
データベース
実⽤化
199x
データウエア
ハウスの概念
モデル浸透
200x
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
-3-
ビッグデータからの
SQLによる分析ニーズ
の⾼まり
⼤量データ処理
やデータウエア
ハウス専⽤機
利⽤のはじまり
• リレーショナルデータベースは35年以上の歴史があり様々な⽅向性で
の進化を遂げ発展し続けている
• HP Vertica Analytics Platform は2005年に⼤容量データベースが抱える
様々な問題に対して新しいアプローチによる問題解決を図るために
研究開発された成果を源として誕⽣したリレーショナルデータベース
管理システム
• Hadoopは2005年にGoogleによる論⽂を元に “データの移動よりも計算
の移動のほうが効率的”という考え⽅に基づいて誕⽣しプログラミング
や設計におけるパラダイムシフトを促した分散処理フレームワーク
6
201x
2008
2005
Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋
2009年、まだビッグデータという⾔葉を⽿にしない頃から
Managing Bid Data with Hadoop & Vertica White Paper
7
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
適⽤例1: Data Warehouse Chess Pieces by Ralph Kimball
データウエアハウスを構成する要素のひとつであるデータマートの集合体のプレゼンテーションエリアに
データソース
ステージング
プレゼンテーション
アクセスツール
⾼度分析・予測
統計解析
データマイニング
Internet of Things
ビジネス
インテリジェンス
⾮定形分析
ダッシュボード
ETL
Files
Databases
8
可視化
定型分析
レポーティング
Hadoopおよび
エコシステム
収集
投⼊
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
-4-
検索
Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋
適⽤例2: Lambda Architecture by Nathan Marz
バッチ処理結果のビューを⽣成および提供する要素に
Hadoopおよびエコシステム
Batch
View
All Data
Query
Batch
View
Batch Layer
Serving Layer
ストリーム処理 + インメモリ・データベース
New Data
Real Time
View
Query
Real Time
View
Speed Layer
Source: Figure 1.11 Lambda Architecture diagram - A new paradigm for big data / Big Data - Principles and best practices of scalable realtime data systems/ Nathan Marz and James Warren / MEAP Began: January 2012
9
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
適⽤例3: DATA ARCHITECTURE FOR FAST + BIG DATA by VoltDB & HP
テラバイトからペタバイトのサイズのヒストリカル・データセットからの分析などに
FAST DATA
Fast Operational
Database
Ingest /
Interactive
BIG DATA
Fast Serve
Analytics
BI
Reporting
Streaming
Analytics
Decisioning
CRM
Columnar
Analytics
OLAP
Export
ERP
Data Lake (HDFS)
ETL
etc.
Enterprise Apps
10
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
-5-
Non
Relational
Processing
Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋
HP Vertica Analytics Platform
11
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
リレーショナル・データベースの特徴
⾏と列から構成される表
主な関係演算
ユーザーのメリット
• データは列と⾏から構成される表
• 射影 ー Projection
列の取り出し
探す⼿順を⽰さなくても⽬的の
データを得る事ができる
• 結合 ー Join
共通の属性で結んだ表と表の結合
実装上の差別化ポイント
• 表の⾏は論理的には順序に関係
ない
• 表から関係演算を⾏って⽬的と
する表を作り出す
12
• 和 ー Union
いずれかの表に含まれる もの
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
-6-
データ⾔語である SQLが抽象的で
無⼿続きであるという特質により
平⾏および並列処理などを⾊々と
⼯夫して処理速度を上げる
Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋
列配置・圧縮・クラスタリング・持続的パフォーマンス
HP Vertica Analytics Platformの4つの特徴的なアプローチ
列配置
読み取り出すのに最適な配置
クラスタリング
ノードを追加することで拡張
圧縮
⾃動的に より多くのデータを格納かつ読み取り量を少なく
13
持続的パフォーマンス
⾃動的かつ継続的にデータベースを最適化
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
リレーショナル・データベースの特徴
⾏と列から構成される表
主な関係演算
ユーザーのメリット
• データは列と⾏から構成される表
• 射影 ー Projection
列の取り出し
探す⼿順を⽰さなくても⽬的の
データを得る事ができる
• 結合 ー Join
共通の属性で結んだ表と表の結合
実装上の差別化ポイント
• 表の⾏は論理的には順序に関係
ない
• 表から関係演算を⾏って⽬的と
する表を作り出す
14
• 和 ー Union
いずれかの表に含まれる もの
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
-7-
データ⾔語である SQLが抽象的で
無⼿続きであるという特質により
平⾏および並列処理などを⾊々と
⼯夫して処理速度を上げる
Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋
あらかじめProjection
HP Vertica Analytics Platformの特徴であり設計思想の根幹
⽬的
読み取りに
最適な配置
15
実装
⼿段
マテリアライ
ズドビュー
のみ
索引でなく
並び替え
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Projection
最適な列配置とソートと圧縮が事前に実施されたデータセット
表A
Super Projection
Comprehensive Projection
圧
縮
圧
縮
圧
縮
圧
縮
圧
縮
圧
縮
圧
縮
表B
圧
縮
圧
縮
圧
縮
表の実態
列配置とソートと圧縮済み
Query Specific Projection
特定のクエリーに最適化
SELECT A.1c,A.2c from TableA where A.3 = 100
圧
縮
Pre-JOIN-Projection
あらかじめJOIN
SELECT A.5c,B.2c from TableA,TableB where A.3c = B.3c
16
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
-8-
圧
縮
圧
縮
圧
縮
Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋
Query Specific Projectionへの格納時と検索時の処理のイメージ
•格納するデータ
•データ格納時の処理
– ① クエリーに最適化された列配置に並び替え
– ② データの並び替え
– ③ データの圧縮
•データ検索時の処理
17
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
読み取りに最適な配置 = 読む操作が最⼩
18
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
-9-
Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋
Database Designer
物理スキーマの⾃動設計機能
Management Console
Administration Tools
最適なデータ圧縮とソート
および列の並び替えを⾏う
プロジェクションを作成し
検索を⾼速に
対話形式で表に存在するデータ
や発⾏するSELECT⽂から
データベース・チューニング
Database Designer functions
( DESIGNER_*() )を⽤いて
プログラマティカルに実⾏も可能
19
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
索引の選択や再作成と無縁の世界
20
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 10 -
Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋
HP Vertica Analytics Platform
あらかじめ圧縮とソートを⾏い列配置されたデータを超並列で読み取ることによる⾼速な検索を実現する
リレーショナル・データベース管理システム
列指向データベース
データ圧縮
超並列アーキテクチャー
⾼可⽤性
⾃動データベースデザイン
拡張分析
データロード
• メモリ経由とディスク直接
の2⽅式のロード
• ローディング中にクエリー
のパフォーマンスは低下し
ない
標準的なSQLインタェース
• ANSI SQL-99準拠
• JDBC・ODBC・ADO.net
ドライバ
• ディスクI/Oを劇的に削減
• 列指向に最適化された
DBエンジン
• 50〜1000倍の検索⾼速化
• 対話形式で検索に最適な
データ配置を作成
• 複雑なチューニング不要
21
• 最⼤90%の圧縮率
• 圧縮したまま内部
演算処理
• 空間解析などの独⾃
関数をあらかじめ
⽤意
• R・Java・C++で
ユーザー定義関数
が作成可能
• コモディティサーバーを
利⽤したShared Nothing
クラスタリングによる
リニアな性能向上
• 特別なノードのない
ホモジニアス構成
• 最⼤2つのレプリカを
保持可能
• ⾃動リプリケーション
による障害発⽣時
サービス継続
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
HP Vertica Flex Zone
蓄積後に有効活⽤されにくいダークデータに光をあてる半構造化データ⽤の表 Flex Table
特徴
使⽤例
SQLで容易にJSONなどの
半構造化データを扱う
SQL⽂を発⾏する
ご利⽤中のツールで
•
複雑な設定が不要
•
スキーマの管理と構造の
変化の扱いが容易に
•
データの準備を簡素化し
抽出にかかる時間を短縮
使⽤例
表の定義
CREATE FLEX TABLE tweets();
データの投⼊
COPY tweets FROM STDIN PARSER
fjsonparser();
検索
SELECT COUNT(*) FROM tweets
WHERE “created_at”::TIMESTAMP >
“Nov 6 2014"
•
半構造化データの扱いが構造化
データと過度に変わらない
AND "user". "followers_count"::int >
100;
•
同⼀データベース内に表として
存在するのみ
22 © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 11 -
Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋
Live Aggregate Projection
利⽤頻度の⾼い検索結果を専⽤プロジェクションに保持 = 読み取りを最⼩にして⾼速に結果を得る
Live Aggregate Projection
–
COUNT()、MAX()、MIN()、SUM()の
集計SQL関数実⾏結果を事前に
保持
Live Aggregate Projection例
同じお客様の利⽤時間計
コールログ表
Top-K Projection
–
指定件数の最新を保持
Ancher Projection
–
23
Top-K Projectionsを含むLive Aggregate
Projectionのための指定した列データ
を保持
Top-K Projection 例
同じお客様の直近の利⽤
時間
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
HP Vertica Integration for Hadoop
Using the HP Vertica Connector for Hadoop MapReduce
• Pig スクリプトやMapReduce ジョブからデータを⼊出⼒
JDBC
Using the HP Vertica HCatalog Connector
• Hive表の検索や結合およびデータ挿⼊
WebHCAT
Using the HP Vertica Connector for HDFS
Pig
Hive
MapReduce
• HDFS上のファイルを外部表として扱う
• COPYコマンドでHDFS上のファイルから
データをロード
HDFS
24
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 12 -
WebHDFS
Storage Location for HDFS
• データベースを構成する
ファイルを HDFSへ配置
WebHDFS
Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋
HP Vertica for SQL on Hadoop
⾼速化のために読み取り最適化されたファイルから読む操作を最⼩にする特性を活かした構成
SQL Query Engine on Vertica Install Nodes
Non SQL Processing and Files on Hadoop Clusters
アドホックなインタラクティブSQL
バッチ処理とファイル
Vertica Cluster または Hadoop Cluster内のノードで Vertica Analytic Databaseを起動
• HP Vertica Storage Location を HDFSのみへ
• SQLを実⾏する処理では配置ファイルの読み
書きに特化
• ANSI SQL99準拠なSQLを実⾏
• SQLを実⾏する処理のワークロードに特化
- 字句や構⽂の解析と実⾏計画の最適化
および計画に基づいた実⾏
• YARN NodeManagerとは独⽴したデータベース
25
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
CDH + HP Vertica Analytic Platform
CDH
HP Vertica Analytics Platform
あらゆるデータを蓄積しバッチ処理で加⼯する
⼤規模分散処理フレームワークを中⼼とした
統合データプラットフォーム
あらかじめ圧縮とソートを⾏い列配置されたデータ
を超並列で読み取ることによる⾼速な検索を実現
するリレーショナル・データベース管理システム
それぞれの持つ機能を連携したデータの活⽤から新しい価値を創出
26
© Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 13 -