エヌビディアのディープラーニング戦略

エヌビディアのディープラーニング戦略
TESLA P100 & NVIDIA DGX-1
エヌビディア合同会社 マーケティング本部 部長 林 憲一
人工知能にとって驚くべき一年
マイクロソフト
スーパーディープネットワーク
マイクロソフトとグーグルが
画像認識で人間を超える
バークレーのブレット
全てのロボットを
一つのネットワークで
AlphaGo
世界チャンピオンを倒す
Deep Speech 2
二つの言語を
一つのネットワークで
新コンピューティングモデル
がポップカルチャーにも
拡がり続けるモダンAIの地平
1000以上のAIベンチャー
5000億円調達
ディープラーニングは新しいコンピューティングモデル
ImageNet
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
Traditional CV
Deep Learning
2009 2010 2011 2012 2013 2014 2015 2016
従来からのコンピュータービジョン
専門家 + 時間
ディープラーニングによる物体認識
DNN + データ + HPC
ディープラーニングが
人間を超える成果を達成
エヌビディア ディープラーニング プラットフォーム
アプリケーション
Image Classification Object Detection
Voice Recognition
ディープラーニングSDK
Recommendation
Engines
Sentiment Analysis
振る舞い
会話と音
コンピュータ ビジョン
フレームワーク
Translation
Mocha.jl
cuDNN
GIE
cuBLAS
cuSPARSE
cuFFT
NCCL
ディープラーニング
数学ライブラリ
Tesla
P100
GPU プラットフォーム
クラウド
Tesla
Jetson TX1
K80/M40/M4
GPU
マルチ GPU 間通信
DRIVEPX2
DGX-1
サーバー
GPU コンピューティング 10年の歩み
GPU AIシステムが碁の
世界チャンピオンを破る
世界初のHIVカプシドの
原子モデルシミュレーション
オークリッジ国立研究所の世界最速
GPUスーパーコンピュータ
Fermi: 世界初の
HPC 用 GPU
世界初の GPU
Top500 システム
H1N1 の異変の
仕組みを解明
CUDA 発表
2006
2008
GPU を利用した
AlexNetが圧勝
2010
2012
スタンフォード大学がGPUを
利用したAIマシンを構築
Google がImageNetで
人間を超える
世界初のヒトゲノムの
3次元マッピング
2014
2016
TESLA P100
ハイパースケールデータセンターのための
世界で最も先進的な GPU
倍精度 5.3TF | 単精度 10.6TF | 半精度 21.2TF
TESLA P100 の先進テクノロジー
Pascal アーキテクチャ
16nm FinFET
HBM2 積層メモリ
NVLink システム
インターコネクト
15
P100
(FP32)
10
5
M40
3x
P100
2x
1x
K40
M40
K40
3倍の演算性能
Bandwidth (GB/Sec)
P100
(FP16)
20
Bandwidth
Teraflops (FP32/FP16)
あらゆる面で大きな飛躍
P100
160
120
80
40
K40
3倍のメモリバンド幅
M40
5倍のGPU間通信速度
TESLA P100 for PCIe-based Servers
世界最先端のデータセンターアクセラレータ
TESLA P100 アクセラレータ
Tesla P100
for NVLink-enabled Servers
Tesla P100
for PCIe-Based Servers
倍精度 5.3 TF
単精度 10.6 TF
半精度 21.2 TF
メモリ容量 16 GB
メモリバンド幅 720 GB/S
倍精度 4.7 TF
単精度 9.3 TF
半精度 18.7 TF
Config 1: メモリ容量 16 GB
メモリバンド幅 720 GB/S
Config 2: メモリ容量 12 GB
メモリバンド幅 540 GB/S
NVIDIA DGX-1
世界初のディープラーニング用スーパーコンピュータ
ディープラーニングに最適化
8基の Tesla P100
NVLink システムインターコネクト
半精度 170 テラフロップス
主要AIフレームワークを加速
ディープラーニング トレーニング パフォーマンス
Caffe AlexNet
ディープラーニングの
イノベーションを
急速に加速
Speed-up of Images/Sec vs K40 in 2013
70x
P100 + cuDNN5
60x
50x
40x
30x
20x
M40 + cuDNN4
10x
K40
K80 + cuDNN1
2013
2014
0x
2015
2016
AlexNet training throughput based on 20 iterations,
CPU: 1x E5-2680v3 12 Core 2.5GHz. 128GB System Memory, Ubuntu 14.04
M40 bar: 8x M40 GPUs in a node
P100: 8x P100 NVLink-enabled
日本での販売
NVIDIA DGX-1: 世界初のディープラーニング用スーパーコンピュータ
http://www.nvidia.co.jp/DGX1
エヌビディア合同会社 マーケティング本部
エンタープライズ マーケティング マネージャー 佐々木邦暢
NVIDIA DGX-1 ソフトウェアスタック
ディープラーニング性能に最適化
ディープラーニング
トレーニングの加速
コンテナを利用した
アプリケーション
DIGITS
cuDNN
cuSPARSE
ディープラーニング
フレームワーク
NVIDIA クラウド
マネジメント
GPU
アプリ
NCCL
cuBLAS
研究・開発
cuFFT
パッケージング・
テスト
適用・管理
16
NVIDIA DGX-1 ソフトウェアスタック
ディープラーニング性能に最適化
クラウド マネジメント
•
•
•
•
•
•
コンテナの作成と展開
複数ノード DGX-1 クラスターの管理
ジョブスケジューラー
アプリケーションのリポジトリ
システムのパフォーマンス監視
ソフトウェアの更新機構
NVIDIA
DIGITS
GPU 最適化
ディープラーニング
フレームワーク
NVIDIA cuDNN と NCCL
NVDocker
NVIDIA GPU ドライバ
GPU に最適化された Linux
NVIDIA DGX-1
17
統合されたプラットフォームとしての DGX-1
柔軟性、パフォーマンス、スケーラビリティ
DGX-1
アプリケーション
リポジトリ
NVIDIA が最適化したアプリケーション群
常に最新のアプリケーションを追加
パブリック及びプライベート、2種類のリポジトリ
クラウドを
活用
ノードには最小限のソフトウェア
すべてのジョブをコンテナで実行
変更に強い柔軟なシステム
DGX-1
計算ノード
DGX-1
クラウド
サービス
ジョブスケジューリング
パフォーマンス監視
ノードの管理
ワークロードの分析
サービスとしての API
DGX-1 のソフトウェアは常に進化を続けます
18
コンテナのスケジューリング
アプリケーションコンテナを DGX-1 で起動
compute.nvidia.com
プライベート
リポジトリ
自前のアプリ 1
自前のアプリ 2
…
NVIDIA リポジトリ
DIGITS
DL SDK
Theano
Torch
NVCaffe
TensorFlow
CNTK
Kaldi
Chainer
MXNet
…
コンテナ
コンテナ
コンテナ
NVCaffe
NVCaffe
NVCaffe
Mesos
DGX-1
NFS
ボリューム
19
DGX-1 でのコンテナ起動の流れ
管理はクラウドベース ・ データはオンプレミスに
オンプレミス
compute.nvidia.com
1. ユーザーがジョブを投入 Web ブラウザ
ノードの管理
ユーザー認証
3. ユーザーが
アプリケーションを
利用
Docker イメージのプッシュ・プル
アプリケーションの全データ
NFS ストレージ
対話的にアプリケーションを利用
ジョブスケジューラーの Web 画面
ハードウェア・ソフトウェアのメトリクス
DGX-1
20