NVIDIA GPU が加速するディープラーニング CHARLIE SUGIMOTO エンタープライズビジネス事業部長エヌビディア合同会社米国フラグシップスーパーコンピュータ SUMMIT ピーク性能 150-300 ペタフロップス SIERRA ピーク性能 100 ペタフロップス以上 IBM POWER9 CPU + NVIDIA Volta GPU NVLink 超高速インターコネクトノード当り 40 テラフロップス以上 3,400ノード以上 2017年稼動予定エクサスケールへの大きなステップ 4 GPU コンピューティング GPU CPU 倍精度演算性能 GFLOPS 3500 Tesla K40 K80 3000 + 2500 2000 2880 コア 1.43 TFlops 1500 1000 500 K40 K20 M2090 M1060 Westmere Haswell Sandy Bridge Ivy Bridge 0 2008 2009 2010 NVIDIA GPU 2011 2012 x86 CPU 2013 2014 コンパニオンプロセッサ GPUをCPUに追加することで、アプリケーションが高速化。ハイパフォ－マンス・コンピューティングを実現。 GPU が加速するディープラーニング 8 ディープラーニングが画像認識の変革対象毎に異なるアルゴリズム１つのDeep Neural Net がさまざま画像を認識 - 人認識: HOG etc - さまざま属性も認識 (車: パトカー、バン、セダン、トラック、等…) - 道路標識: ハフ変換＋文字認識 etc 簡単な認識のみ - 人がいるかどうかイエス・ノーのみ(他の情報なし) - 速度表示のみ - 人、車、交通標識、レーン DEEP NEURAL NETWORK 従来の手法 (…) 9 NVIDIA DRIVE PX ディープニューラルネットワークコンピュータービジョン 10 より良く見える、そして学習する自動車へ ! 分類された対象物! ソルバーネットワークデータサイエンティストエヌビディア GPU スーパーコンピューター TX1 トレーニングされたディープニューラルネットモデル TX1 カメラ入力 NVIDIA DRIVE PX 12 DEMOラーニングシステム - 68,000のタグ付けされた画像 (自動車、人、交通標識など) - AlexNetをモディファイ (128x128 白黒イメージ) - 1台のGPU GTX TITAN X (3027コア) で16時間のラーニング 13 March 17-20, 2015 | Silicon Valley www.gputechconf.com #GTC15 14 GTC: DL/ML セッション 2014 2015 25 85 100 20 80 15 60 10 40 40 5 20 0 0 GPU が加速するディープラーニング START-UPS ディープラーニング画像・音声・センサなどのビッグデータから認識・分析・予測画像クラス分け・オブジェクト検出自動運転顔認識・セキュリティメディカルイメージング・バイオ音声認識・自然言語処理ロボット・ドローンなぜ GPU がディープラーニングに向いているか 18 データサイエンティスト R&D サイクル Idea Test Code クリティカルパス: Ideaが沸いてから Testが完了するまでサイクルを速く回すことが重要 Train データサイエンティスト R&D サイクル Idea Test Code Train 時間がかかる GPUの利用 DL トレーニングシステム DL アプリケーション DL フレームワーク Caffe Theano Torch … Today Yesterday cuBLAS CUDA code cuBLASand and cuDNN GPUs コンボリューショナルニューラルネットワーク LeNet5 [LeCun et al.,1998] フルコネクション cuBLAS コンボリューション cuDNN パフォーマンス 1日当りにトレーンングできる画像の数 (Caffe) Millions of Images 50 AlexNet [A. Krizhevsky et al.,2012] 43M 40 30 18M 20 10 GPUはCPUの 10数倍の性能 23M 2.5M 0 16 Core CPU E5-2698 v3 @ 2.3GHz / 3.6GHz Turbo GTX Titan Titan Black cuDNN v1 Titan X cuDNN v2 cuDNN コンボリューション cudnnConvolutionForward() cudnnConvolutionBackward[Bias|Filter|Data]() 活性化関数 cudnnActivationForward() cudnnActivationBackward() プーリング cudnnPoolingForward() cudnnPoolingBackward() ソフトマックス cudnnSoftmaxForward() cudnnSoftmaxBackward() … すべてのプロセスを GPU が高速化 LeNet5 [LeCun et al.,1998] cuBLAS なぜ GPU はディープラーニングに向いているか？並列処理行列演算計算量ニューラルネット GPU       GPU の利用利点より早い結果より良い予測精度より少ない設置スペースより少ない消費電力なぜ GPU はディープラーニングに向いているかディープラーニングは Linpack に近い行列演算トップ10:3システムトップ10:8システム USER INTERFACE Theano Process Data Configure DNN Monitor Progress Visualize Layers DIGITS ディープ･ラーニングを簡単に始めるツール Torch Caffe cuDNN, cuBLAS  DNNのデザイン CUDA  ラーニングや結果の可視化  複数トレーニングの管理 GPU HW GPU Multi-GPU GPU Cluster Cloud DIGITS 1. データ入力: データをどうやってDLアプリが読めるようにするか Idea Test ode Code Train DIGITS 2. DNNの構築: ニューラルネットをどうやって記述するか Idea Test Code Train DIGITS 3. ラーニングのモニタリング・複数学習をマネージ 1学習・１GPU（現状）複数学習を複数GPUへ振り分け Idea Test Code Train DIGITS 4. レイヤーの可視化 Idea Test Code Train データサイエンティスト R&D サイクル Idea Test Code Train GPUを利用することでディープラーニングのサイクルを速く回すことが可能ディープラーニングを加速する GPU 34 GEFORCE GTX TITAN X 世界最高速の GPU 80億トランジスタ 3,072 CUDA コア 7 テラフロップス単精度 0.2 テラフロップス倍精度 12GB メモリディープラーニングでの TITAN X 性能 AlexNetでのトレーニング 43 … ~ Days 7 6 5 4 3 2 1 0 16-core Xeon CPU TITAN TITAN Black cuDNN TITAN X cuDNN Tesla: エンタープライズ向けGPU ワークステーション     サーバー NVIDIAがエンタープライズ向けに設計・製造サーバー向け機能サポートサーバーベンダーからTeslaサーバー、サポートの提供クラウドベンダーのサポート GPU ロードマップ 72 Volta 60 SGEMM / W 48 Pascal 36 24 Maxwell 12 Kepler Fermi Tesla 0 2008 2010 2012 2014 2016 2018 38 次世代GPU: Pascal ハイパフォーマンス >3 テラフロップスミックスドプレシジョン 3D スタックドメモリ 4倍のバンド幅 (~1 TB/s) ラージメモリ (16 GB) NVLINK 80 GB/sec POWER CPU GPU-GPU インターコネクト NVIDIA ディープラーニングプラットフォームアプリケーション NVIDIAの目標 DIGITS ディープラーニングにベストなプラットフォームを開発すべての研究者や開発者に対して魅力的なプラットフォーム DLフレームワーク (Caffe, Torch, Theano) GPU最適化ライブラリ (cuDNN, cuBLAS) CUDA GPU DIGITS DEVBOX 今すぐディープラーニングを始めるシステム TITAN X & DIGITS プリインストールモデル日本ではG-DEPが販売 http://www.gdep.jp/ 東京工業大学 TSUBAME  TSUBAMEはTesla K20を4224枚搭載したスーパーコンピュータ  先端研究基盤共用・プラットフォーム形成事業により、約20%の計算リソースを産業界に開放利用区分カテゴリ学術利用無償成果公開産業利用有償合計成果非公開 2014年度 2013年度 2012年度 2011年度 2010年度 2009年度 22 17 14 9 4 1 17 21 12 10 8 15 10 8 9 7 6 3 12 10 4 6 7 2 61 56 39 32 25 21  利用方法は学術国際情報センターの先端研究基盤共用・プラットフォーム形成事業のホームページをご覧ください。 http://www.gsic.titech.ac.jp/ 情報・ダウンロード Developer Zone: https://developer.nvidia.com/deeplearning GTC: http://www.gputechconf.com/ cuDNN ダウンロード: https://developer.nvidia.com/cuDNN DIGITS ダウンロード: https://developer.nvidia.com/digits DIGITS ソースコード: https://www.github.com/nvidia/digits THANK YOU [email protected]