エヌビディアのディープラーニング戦略 TESLA P100 & NVIDIA DGX-1 エヌビディア合同会社 マーケティング本部 部長 林 憲一 人工知能にとって驚くべき一年 マイクロソフト スーパーディープネットワーク マイクロソフトとグーグルが 画像認識で人間を超える バークレーのブレット 全てのロボットを 一つのネットワークで AlphaGo 世界チャンピオンを倒す Deep Speech 2 二つの言語を 一つのネットワークで 新コンピューティングモデル がポップカルチャーにも 拡がり続けるモダンAIの地平 1000以上のAIベンチャー 5000億円調達 ディープラーニングは新しいコンピューティングモデル ImageNet 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Traditional CV Deep Learning 2009 2010 2011 2012 2013 2014 2015 2016 従来からのコンピュータービジョン 専門家 + 時間 ディープラーニングによる物体認識 DNN + データ + HPC ディープラーニングが 人間を超える成果を達成 エヌビディア ディープラーニング プラットフォーム アプリケーション Image Classification Object Detection Voice Recognition ディープラーニングSDK Recommendation Engines Sentiment Analysis 振る舞い 会話と音 コンピュータ ビジョン フレームワーク Translation Mocha.jl cuDNN GIE cuBLAS cuSPARSE cuFFT NCCL ディープラーニング 数学ライブラリ Tesla P100 GPU プラットフォーム クラウド Tesla Jetson TX1 K80/M40/M4 GPU マルチ GPU 間通信 DRIVEPX2 DGX-1 サーバー GPU コンピューティング 10年の歩み GPU AIシステムが碁の 世界チャンピオンを破る 世界初のHIVカプシドの 原子モデルシミュレーション オークリッジ国立研究所の世界最速 GPUスーパーコンピュータ Fermi: 世界初の HPC 用 GPU 世界初の GPU Top500 システム H1N1 の異変の 仕組みを解明 CUDA 発表 2006 2008 GPU を利用した AlexNetが圧勝 2010 2012 スタンフォード大学がGPUを 利用したAIマシンを構築 Google がImageNetで 人間を超える 世界初のヒトゲノムの 3次元マッピング 2014 2016 TESLA P100 ハイパースケールデータセンターのための 世界で最も先進的な GPU 倍精度 5.3TF | 単精度 10.6TF | 半精度 21.2TF TESLA P100 の先進テクノロジー Pascal アーキテクチャ 16nm FinFET HBM2 積層メモリ NVLink システム インターコネクト 15 P100 (FP32) 10 5 M40 3x P100 2x 1x K40 M40 K40 3倍の演算性能 Bandwidth (GB/Sec) P100 (FP16) 20 Bandwidth Teraflops (FP32/FP16) あらゆる面で大きな飛躍 P100 160 120 80 40 K40 3倍のメモリバンド幅 M40 5倍のGPU間通信速度 TESLA P100 for PCIe-based Servers 世界最先端のデータセンターアクセラレータ TESLA P100 アクセラレータ Tesla P100 for NVLink-enabled Servers Tesla P100 for PCIe-Based Servers 倍精度 5.3 TF 単精度 10.6 TF 半精度 21.2 TF メモリ容量 16 GB メモリバンド幅 720 GB/S 倍精度 4.7 TF 単精度 9.3 TF 半精度 18.7 TF Config 1: メモリ容量 16 GB メモリバンド幅 720 GB/S Config 2: メモリ容量 12 GB メモリバンド幅 540 GB/S NVIDIA DGX-1 世界初のディープラーニング用スーパーコンピュータ ディープラーニングに最適化 8基の Tesla P100 NVLink システムインターコネクト 半精度 170 テラフロップス 主要AIフレームワークを加速 ディープラーニング トレーニング パフォーマンス Caffe AlexNet ディープラーニングの イノベーションを 急速に加速 Speed-up of Images/Sec vs K40 in 2013 70x P100 + cuDNN5 60x 50x 40x 30x 20x M40 + cuDNN4 10x K40 K80 + cuDNN1 2013 2014 0x 2015 2016 AlexNet training throughput based on 20 iterations, CPU: 1x E5-2680v3 12 Core 2.5GHz. 128GB System Memory, Ubuntu 14.04 M40 bar: 8x M40 GPUs in a node P100: 8x P100 NVLink-enabled 日本での販売 NVIDIA DGX-1: 世界初のディープラーニング用スーパーコンピュータ http://www.nvidia.co.jp/DGX1 エヌビディア合同会社 マーケティング本部 エンタープライズ マーケティング マネージャー 佐々木邦暢 NVIDIA DGX-1 ソフトウェアスタック ディープラーニング性能に最適化 ディープラーニング トレーニングの加速 コンテナを利用した アプリケーション DIGITS cuDNN cuSPARSE ディープラーニング フレームワーク NVIDIA クラウド マネジメント GPU アプリ NCCL cuBLAS 研究・開発 cuFFT パッケージング・ テスト 適用・管理 16 NVIDIA DGX-1 ソフトウェアスタック ディープラーニング性能に最適化 クラウド マネジメント • • • • • • コンテナの作成と展開 複数ノード DGX-1 クラスターの管理 ジョブスケジューラー アプリケーションのリポジトリ システムのパフォーマンス監視 ソフトウェアの更新機構 NVIDIA DIGITS GPU 最適化 ディープラーニング フレームワーク NVIDIA cuDNN と NCCL NVDocker NVIDIA GPU ドライバ GPU に最適化された Linux NVIDIA DGX-1 17 統合されたプラットフォームとしての DGX-1 柔軟性、パフォーマンス、スケーラビリティ DGX-1 アプリケーション リポジトリ NVIDIA が最適化したアプリケーション群 常に最新のアプリケーションを追加 パブリック及びプライベート、2種類のリポジトリ クラウドを 活用 ノードには最小限のソフトウェア すべてのジョブをコンテナで実行 変更に強い柔軟なシステム DGX-1 計算ノード DGX-1 クラウド サービス ジョブスケジューリング パフォーマンス監視 ノードの管理 ワークロードの分析 サービスとしての API DGX-1 のソフトウェアは常に進化を続けます 18 コンテナのスケジューリング アプリケーションコンテナを DGX-1 で起動 compute.nvidia.com プライベート リポジトリ 自前のアプリ 1 自前のアプリ 2 … NVIDIA リポジトリ DIGITS DL SDK Theano Torch NVCaffe TensorFlow CNTK Kaldi Chainer MXNet … コンテナ コンテナ コンテナ NVCaffe NVCaffe NVCaffe Mesos DGX-1 NFS ボリューム 19 DGX-1 でのコンテナ起動の流れ 管理はクラウドベース ・ データはオンプレミスに オンプレミス compute.nvidia.com 1. ユーザーがジョブを投入 Web ブラウザ ノードの管理 ユーザー認証 3. ユーザーが アプリケーションを 利用 Docker イメージのプッシュ・プル アプリケーションの全データ NFS ストレージ 対話的にアプリケーションを利用 ジョブスケジューラーの Web 画面 ハードウェア・ソフトウェアのメトリクス DGX-1 20
© Copyright 2024 ExpyDoc