Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋 CDH with HP Vertica Analytics Platform Wataru Morohashi / November 6,2014 1 © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. -1- Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋 HP Vertica Analytics Platformを Platformを分析に利⽤ Hadoopと連携して分析に活⽤ Facebook • • • 数百ノードで構成 数⼗ペタバイトのデータベース サイズ 1時間あたり35テラバイトの データを投⼊ Twitter • • すべてのツイートからの分析 Twitter interactive visualizations https://interactive.twitter.com/ 3 © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 4 © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. -2- Hewlett-Packard • hp.com のクリックストリーム 15ヶ⽉分 • HP ProLiantシリーズすべての メンテナンス履歴 Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋 CDH + HP Vertica Analytics Platform 5 © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. データベースのひとつの進化の⽅向性 ー そしてCDHと Verticaの歴史 197x リレーショナル・ データ・モデル および管理システム 誕⽣ 198x リレーショナル・ データベース 実⽤化 199x データウエア ハウスの概念 モデル浸透 200x © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. -3- ビッグデータからの SQLによる分析ニーズ の⾼まり ⼤量データ処理 やデータウエア ハウス専⽤機 利⽤のはじまり • リレーショナルデータベースは35年以上の歴史があり様々な⽅向性で の進化を遂げ発展し続けている • HP Vertica Analytics Platform は2005年に⼤容量データベースが抱える 様々な問題に対して新しいアプローチによる問題解決を図るために 研究開発された成果を源として誕⽣したリレーショナルデータベース 管理システム • Hadoopは2005年にGoogleによる論⽂を元に “データの移動よりも計算 の移動のほうが効率的”という考え⽅に基づいて誕⽣しプログラミング や設計におけるパラダイムシフトを促した分散処理フレームワーク 6 201x 2008 2005 Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋 2009年、まだビッグデータという⾔葉を⽿にしない頃から Managing Bid Data with Hadoop & Vertica White Paper 7 © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 適⽤例1: Data Warehouse Chess Pieces by Ralph Kimball データウエアハウスを構成する要素のひとつであるデータマートの集合体のプレゼンテーションエリアに データソース ステージング プレゼンテーション アクセスツール ⾼度分析・予測 統計解析 データマイニング Internet of Things ビジネス インテリジェンス ⾮定形分析 ダッシュボード ETL Files Databases 8 可視化 定型分析 レポーティング Hadoopおよび エコシステム 収集 投⼊ © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. -4- 検索 Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋 適⽤例2: Lambda Architecture by Nathan Marz バッチ処理結果のビューを⽣成および提供する要素に Hadoopおよびエコシステム Batch View All Data Query Batch View Batch Layer Serving Layer ストリーム処理 + インメモリ・データベース New Data Real Time View Query Real Time View Speed Layer Source: Figure 1.11 Lambda Architecture diagram - A new paradigm for big data / Big Data - Principles and best practices of scalable realtime data systems/ Nathan Marz and James Warren / MEAP Began: January 2012 9 © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 適⽤例3: DATA ARCHITECTURE FOR FAST + BIG DATA by VoltDB & HP テラバイトからペタバイトのサイズのヒストリカル・データセットからの分析などに FAST DATA Fast Operational Database Ingest / Interactive BIG DATA Fast Serve Analytics BI Reporting Streaming Analytics Decisioning CRM Columnar Analytics OLAP Export ERP Data Lake (HDFS) ETL etc. Enterprise Apps 10 © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. -5- Non Relational Processing Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋 HP Vertica Analytics Platform 11 © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. リレーショナル・データベースの特徴 ⾏と列から構成される表 主な関係演算 ユーザーのメリット • データは列と⾏から構成される表 • 射影 ー Projection 列の取り出し 探す⼿順を⽰さなくても⽬的の データを得る事ができる • 結合 ー Join 共通の属性で結んだ表と表の結合 実装上の差別化ポイント • 表の⾏は論理的には順序に関係 ない • 表から関係演算を⾏って⽬的と する表を作り出す 12 • 和 ー Union いずれかの表に含まれる もの © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. -6- データ⾔語である SQLが抽象的で 無⼿続きであるという特質により 平⾏および並列処理などを⾊々と ⼯夫して処理速度を上げる Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋 列配置・圧縮・クラスタリング・持続的パフォーマンス HP Vertica Analytics Platformの4つの特徴的なアプローチ 列配置 読み取り出すのに最適な配置 クラスタリング ノードを追加することで拡張 圧縮 ⾃動的に より多くのデータを格納かつ読み取り量を少なく 13 持続的パフォーマンス ⾃動的かつ継続的にデータベースを最適化 © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. リレーショナル・データベースの特徴 ⾏と列から構成される表 主な関係演算 ユーザーのメリット • データは列と⾏から構成される表 • 射影 ー Projection 列の取り出し 探す⼿順を⽰さなくても⽬的の データを得る事ができる • 結合 ー Join 共通の属性で結んだ表と表の結合 実装上の差別化ポイント • 表の⾏は論理的には順序に関係 ない • 表から関係演算を⾏って⽬的と する表を作り出す 14 • 和 ー Union いずれかの表に含まれる もの © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. -7- データ⾔語である SQLが抽象的で 無⼿続きであるという特質により 平⾏および並列処理などを⾊々と ⼯夫して処理速度を上げる Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋 あらかじめProjection HP Vertica Analytics Platformの特徴であり設計思想の根幹 ⽬的 読み取りに 最適な配置 15 実装 ⼿段 マテリアライ ズドビュー のみ 索引でなく 並び替え © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Projection 最適な列配置とソートと圧縮が事前に実施されたデータセット 表A Super Projection Comprehensive Projection 圧 縮 圧 縮 圧 縮 圧 縮 圧 縮 圧 縮 圧 縮 表B 圧 縮 圧 縮 圧 縮 表の実態 列配置とソートと圧縮済み Query Specific Projection 特定のクエリーに最適化 SELECT A.1c,A.2c from TableA where A.3 = 100 圧 縮 Pre-JOIN-Projection あらかじめJOIN SELECT A.5c,B.2c from TableA,TableB where A.3c = B.3c 16 © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. -8- 圧 縮 圧 縮 圧 縮 Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋 Query Specific Projectionへの格納時と検索時の処理のイメージ •格納するデータ •データ格納時の処理 – ① クエリーに最適化された列配置に並び替え – ② データの並び替え – ③ データの圧縮 •データ検索時の処理 17 © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 読み取りに最適な配置 = 読む操作が最⼩ 18 © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. -9- Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋 Database Designer 物理スキーマの⾃動設計機能 Management Console Administration Tools 最適なデータ圧縮とソート および列の並び替えを⾏う プロジェクションを作成し 検索を⾼速に 対話形式で表に存在するデータ や発⾏するSELECT⽂から データベース・チューニング Database Designer functions ( DESIGNER_*() )を⽤いて プログラマティカルに実⾏も可能 19 © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 索引の選択や再作成と無縁の世界 20 © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. - 10 - Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋 HP Vertica Analytics Platform あらかじめ圧縮とソートを⾏い列配置されたデータを超並列で読み取ることによる⾼速な検索を実現する リレーショナル・データベース管理システム 列指向データベース データ圧縮 超並列アーキテクチャー ⾼可⽤性 ⾃動データベースデザイン 拡張分析 データロード • メモリ経由とディスク直接 の2⽅式のロード • ローディング中にクエリー のパフォーマンスは低下し ない 標準的なSQLインタェース • ANSI SQL-99準拠 • JDBC・ODBC・ADO.net ドライバ • ディスクI/Oを劇的に削減 • 列指向に最適化された DBエンジン • 50〜1000倍の検索⾼速化 • 対話形式で検索に最適な データ配置を作成 • 複雑なチューニング不要 21 • 最⼤90%の圧縮率 • 圧縮したまま内部 演算処理 • 空間解析などの独⾃ 関数をあらかじめ ⽤意 • R・Java・C++で ユーザー定義関数 が作成可能 • コモディティサーバーを 利⽤したShared Nothing クラスタリングによる リニアな性能向上 • 特別なノードのない ホモジニアス構成 • 最⼤2つのレプリカを 保持可能 • ⾃動リプリケーション による障害発⽣時 サービス継続 © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. HP Vertica Flex Zone 蓄積後に有効活⽤されにくいダークデータに光をあてる半構造化データ⽤の表 Flex Table 特徴 使⽤例 SQLで容易にJSONなどの 半構造化データを扱う SQL⽂を発⾏する ご利⽤中のツールで • 複雑な設定が不要 • スキーマの管理と構造の 変化の扱いが容易に • データの準備を簡素化し 抽出にかかる時間を短縮 使⽤例 表の定義 CREATE FLEX TABLE tweets(); データの投⼊ COPY tweets FROM STDIN PARSER fjsonparser(); 検索 SELECT COUNT(*) FROM tweets WHERE “created_at”::TIMESTAMP > “Nov 6 2014" • 半構造化データの扱いが構造化 データと過度に変わらない AND "user". "followers_count"::int > 100; • 同⼀データベース内に表として 存在するのみ 22 © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. - 11 - Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋 Live Aggregate Projection 利⽤頻度の⾼い検索結果を専⽤プロジェクションに保持 = 読み取りを最⼩にして⾼速に結果を得る Live Aggregate Projection – COUNT()、MAX()、MIN()、SUM()の 集計SQL関数実⾏結果を事前に 保持 Live Aggregate Projection例 同じお客様の利⽤時間計 コールログ表 Top-K Projection – 指定件数の最新を保持 Ancher Projection – 23 Top-K Projectionsを含むLive Aggregate Projectionのための指定した列データ を保持 Top-K Projection 例 同じお客様の直近の利⽤ 時間 © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. HP Vertica Integration for Hadoop Using the HP Vertica Connector for Hadoop MapReduce • Pig スクリプトやMapReduce ジョブからデータを⼊出⼒ JDBC Using the HP Vertica HCatalog Connector • Hive表の検索や結合およびデータ挿⼊ WebHCAT Using the HP Vertica Connector for HDFS Pig Hive MapReduce • HDFS上のファイルを外部表として扱う • COPYコマンドでHDFS上のファイルから データをロード HDFS 24 © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. - 12 - WebHDFS Storage Location for HDFS • データベースを構成する ファイルを HDFSへ配置 WebHDFS Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋 HP Vertica for SQL on Hadoop ⾼速化のために読み取り最適化されたファイルから読む操作を最⼩にする特性を活かした構成 SQL Query Engine on Vertica Install Nodes Non SQL Processing and Files on Hadoop Clusters アドホックなインタラクティブSQL バッチ処理とファイル Vertica Cluster または Hadoop Cluster内のノードで Vertica Analytic Databaseを起動 • HP Vertica Storage Location を HDFSのみへ • SQLを実⾏する処理では配置ファイルの読み 書きに特化 • ANSI SQL99準拠なSQLを実⾏ • SQLを実⾏する処理のワークロードに特化 - 字句や構⽂の解析と実⾏計画の最適化 および計画に基づいた実⾏ • YARN NodeManagerとは独⽴したデータベース 25 © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. CDH + HP Vertica Analytic Platform CDH HP Vertica Analytics Platform あらゆるデータを蓄積しバッチ処理で加⼯する ⼤規模分散処理フレームワークを中⼼とした 統合データプラットフォーム あらかじめ圧縮とソートを⾏い列配置されたデータ を超並列で読み取ることによる⾼速な検索を実現 するリレーショナル・データベース管理システム それぞれの持つ機能を連携したデータの活⽤から新しい価値を創出 26 © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. - 13 -
© Copyright 2025 ExpyDoc