ディープラーニング

基調講演
エヌビディア コーポレーション ソリューション アーキテクチャ & エンジニアリング
副社長 マーク・ハミルトン
ゲーム
ENTERPRISE
エンタープライズ
HPC & クラウド
自動車
ビジュアルコンピューティングの世界的リーダー
GPU コンピューティングの大きな飛躍
2008
2015
3,000,000
150,000
CUDA ダウンロード
CUDA ダウンロード
27
319
CUDA アプリ
CUDA アプリ
60
800
大学の CUDA コース
4,000
学術論文
6,000
Tesla GPU
77
スーパーコンピューティング
テラフロップス
大学の CUDA コース
60,000
学術論文
450,000
Tesla GPU
54,000
スーパーコンピューティング
テラフロップス
先進のレンダリングから
仮想PCまで
製品デザイン
GEFORCE
製品の可視化NOW
建築
サイエンス
You listen to music on Spotify.
You watch movies on Netflix.
GeForce Now lets you play games
先進のレンダリングが可能にする
the
same way.
次世代バーチャル製品開発
建築
Instantly stream the latest titles
GRID
が実現する拡張性、
from
our2.0
powerful
cloud-gaming
supercomputers.
Think of it as your
仮想 PC におけるセキュリティ
game console in the sky.
リアルタイム可視化が HPC データ
Gaming
is now easy and instant.
センターに新たな価値を
リアルタイム可視化
東京工業大学
学術国際情報センター 副センター長
GPU コンピューティング研究会 主査
共同利用推進室 室長
CUDA Fellow 青木 尊之教授
スパコンにおける VDI の必要性
※ 膨大なデータ転送時間
※ 巨大なローカルストレージ
プリ・ポスト処理(可視化)
数時間~数日 (~数10MB/s)
大規模データ 数100GB~数10TB
スパコンにおける VDI の必要性
シンクライアント
デスクトップ画面のみ
インターネット (~10Mbps)
プリ・ポスト処理
※ データ転送時間の削減
※ セキュリティの大幅向上
スパコン直結
VDIシステム
大規模データ 数100GB~数10TB
TSUBAME2.5直結 VDI システム (概要)
計算ノード 4224 GPU (Tesla K20X)
インターネット
NVIDIA GRID K2 x 3
HP ProLiant SL250s × 3
Xeon(R) CPU E5-2660 v2
2.20GHz ×2
128GB
TSUBAME2.5直結 VDI システム (デモ)
 TSUBAMEで動作するCAEアプリケーションのインタラクティブ・ポスト処理
(CST MWStudio)
 TSUBAMEで行った大規模計算をTSUBAME上で可視化した計算結果のフルHD
動画再生
個別要素法の粒子計算によるバンカーショット (1670万個)
粒子法(SPH) による多数の浮遊物を含んだ津波シミュレーション (8700万個)
メッシュ(VOF) 法による気液二相流シミュレーション (1.1億メッシュ)
NVIDIA GRID 2.0
NVIDIA GRID vGPU
アーキテクチャ
VMware
Horizon View
Citrix
XenDesktop
ゲスト OS
Windows
ゲスト OS
Linux
NVIDIA ドライバ
クライアント
デバイス
NVIDIA ドライバ
仮想マシン
仮想マシン
vGPU
vGPU
データセンター
サーバー
ハイパーバイザ
vGPU マネージャー
サーバー
CPU
GRID
NVIDIA GRID は誰のため?
よりよいユーザー
エクスペリエンスを期待する
ビジネスユーザー
中小規模のファイルを扱う
エンジニアとデザイナー
最高のグラフィックス性能を
必要とする
エンジニアとデザイナー
NVIDIA GRID 2.0
ソフトウェア・サポート + アップデートサブスクリプション
GRID 仮想
ワークステーション
GRID 拡張仮想
ワークステーション
一年更新
ソフトウェア
ライセンス
(一括払い)
GRID 仮想 PC
NVIDIA データセンター GPU (TESLA M6/M60)
ハードウェア
ディープラーニング
ディープラーニングとは?
典型的なネットワーク例
目的
顔認識
トレーニングデータ
1,000万~1億イメージ
ネットワークアーキテクチャ ラーニングアルゴリズム
10 層
30 エクサフロップスの計算量
10 億パラメータ
GPU を利用して30日
機械学習ソフトウェア
反復
フォワード プロパゲーション
“亀”
木
トレーニング
バックワード プロパゲーション
猫
犬
推論
“亀” から “犬” へ
計算の重み付けを更新
学習済みモデル
“猫”
なぜディープラーニングが注目を集めるのか?
ビッグデータの存在
毎日 3億5000万枚
の画像がアップロード
毎時 2.5 ペタバイトの
顧客データ
毎分 300 時間分の
ビデオがアップロード
新しいアルゴリズム
GPU の計算パワー
エヌビディア ディープラーニング
開発
運用
アプリケーション
DIGITS ツール
ディープラーニング フレームワーク
ソフトウェア
システム
ハードウェア
ソフトウェア
cuDNN
DevBox
TITAN X
システム管理
システム
ハードウェア
TESLA
NVIDIA cuDNN
GPU が加速するディープラーニング フレームワーク
性能向上
ハイパフォーマンス ニューラルネットワーク トレーニング
Caffe、Chainer、Theano、Torch などのディープラー
ニング フレームワークを GPU で高速化
pooling、ReLU、sigmoid、softmax、TANH など様々
なタイプのレイヤーをサポート
最新のエヌビディア GPU アーキテクチャに最適化
Linux、Windows、OSX および Linux for Tegra
(ARM) をサポート
80
60
40
20
0
cuDNN 1
(TITAN Black)
cuDNN 2
(TITAN X)
cuDNN 3
(TITAN X)
1日で学習できる画像の数(100万枚単位)
http://developer.nvidia.com/cuDNN
NVIDIA DIGITS
インタラクティブ ディープラーニング GPU トレーニング システム
データ処理
DNN の構成
トレーニング進捗確認
レイヤーの可視化
Test Image
http://developer.nvidia.com/digits
エヌビディア
DIGITS デモ
CUDA エンジニア
村上 真奈
エヌビディアが加速するディープラーニング フレームワーク
音声認識
画像分析
自然言語処理
エンドユーザ アプリケーション
DIGITS
ディープラーニング フレームワーク (Caffe, Chainer, Torch, Theano)
高度に最適化された cuDNN ライブラリ
CUDA プログラミング ツールキット
GPU ハードウェア
×
GPUコンピューティング
DL ライブラリ
DL の技術開発力
Chainer
Chainerおよび関連技術の開発期間の短縮
各産業へのディープラーニングの適用を促進
株式会社 Preferred Networks
代表取締役社長 西川 徹様
Distributed Cooperative Deep Learning
次世代ビッグデータ・IoT技術基盤の確立を目指して
分散協調型
強化学習
学習結果は
リアルタイムに反映
From Sensing to Controlling Action
IoT デバイスはセンシングだけでなくリモートでのコントロール・アクションを実現する
Cooperate
Control
Data Collection
Sensing
Chainer
A Powerful, Flexible, and Intuitive Framework of Neural Networks
パワフル
ChainerはCUDAを採用
GPUを数行のコードで動かせる
複数GPUでの実行も可能
フレキシブル
様々なネットワークアーキテク
チャをサポート
feed-forward、convnet、
recurrent、 recursive nets
バッチごとに異なるアーキテク
チャも記述可能
直観的
Pythonの任意の制御構文を
使って逆伝播可能なコードが
書ける
コードは直観的で、デバッグも
容易
DAVE
DARPA 自動走行車 (2004年)
ディープラーニングによるロボットナビゲーション
ディープニューラルネットワークが人間の運転手を「見て」、対応を学習
“左に曲れ”
“右に曲れ”
自動運転を目指して
エヌビディア コーポレーション 自動車担当シニアディレクター
ダニー・シャピロ
世界中の道路に
NVIDIA
オートモーティブ
800万台以上
さらにこれから…
20以上のブランド
100以上のモデル
NVIDIA
フォトリアル デザイン シミュレーション
効率を改善するためのシミュレーション
シミュレーションによるより良い、より速い車作り
シミュレーションによる、より良い、より速い車作り
実際のクラッシュ
クラッシュシミュレーション
ソフトウェア ディファインド カー
ソフトウェア ディファインド カー
ソフトウェア ディファインド カー
ソフトウェア ディファインド カー
ソフトウェア ディファインド カー
ソフトウェア ディファインド カー
ソフトウェア ディファインド カー
今日の ADAS
SENSE
PLAN
ACT
WARN
BRAKE
FPGA
CV ASIC
CPU
次世代の ADAS
SENSE
PLAN
ACT
WARN
BRAKE
FPGA
CV ASIC
CPU
STEER
ACCELERATE
次世代の ADAS
自動運転にはディープラーニングが必須の技術に
SENSE
PLAN
ACT
WARN
FPGA
CV ASIC
CPU
BRAKE
STEER
DNN
ACCELERATE
ディープラーニングによる車の分類
画像
“Audi A7”
Image source: “Unsupervised Learning of Hierarchical Representations with Convolutional Deep Belief Networks” ICML 2009 & Comm. ACM 2011.
Honglak Lee, Roger Grosse, Rajesh Ranganath, and Andrew Ng.
より良く見える、そして学習する自動車へ
分類された対象物
正しく認識されなかった
対象物をフィードバック
!
学習済みの
ニューラルネットモデル
NVIDIA GPU によるディープラーニング
スーパーコンピューター
カメラ入力
DRIVE PX 自動運転用
カーコンピューター
NVIDIA DRIVE™ PX
自動運転用カーコンピューター
2.3 テラフロップス
12 カメラ入力
センサーフュージョンとディープラーニング
Video: Danny-05
歩行者
ADAS Today
乗用車
スクールバス
救急車
株式会社 ZMP
代表取締役社長 谷口 恒様
Robot of Everything
様々な応用事業を実現していく
エアロセンス社
ロボットタクシー社
物流支援
農業機械
鉱山・建設機械
自律移動
技術
自動運転
技術
ロボット技術
©2015 ZMP Inc. All Rights Reserved.
ZMP RoboCarシリーズにNVIDIA DRIVE PXを採用
NVIDIA DRIVE PX上で動作するディープラーニングを応用した画像認識ソフトウェアを開発、販売
さらに、RoboCarシリーズとDRIVE PXを組み合わせて販売へ
↓ 歩行者認識
↑ 車両/レーン認識
DRIVE PX
DNNを使ったヒトの胴体検出と
ステレオカメラによる距離計測処理
DNNによる車両、レーン検知、信号認識
↑ 信号機認識
©2015 ZMP Inc. All Rights Reserved.
®
MiniVan
伝統的なモデル
イノベーションのためのモデル
OEM
OEM
TIER 1
チップ
サプライヤー
SILICON
VALLEY
TIER 1
MERCI
月面での自動運転
未来の GPU テクノロジー
GPU ロードマップ
72
Volta
60
Pascal
48
混合精度演算
倍精度演算
3D メモリ
NVLink
36
SGEMM / W
24
Maxwell
12
Kepler
Fermi
Tesla
0
2008
2010
2012
2014
2016
2018
Pascal: 次世代 GPU
パフォーマンス
メモリバンド幅
NVLink ハイスピードインターコネクト
ユニファイドメモリ
世界最高の倍精度演算
PCIE Gen 3 の5倍の性能
メモリ容量およびバンド幅の大幅な向上
単一メモリ空間による容易なプログラミング
NVIDIA OpenACC ツールキット
アクセラレイテッドコンピューティングへのシンプルかつ強力なパスを無償提供
PGI コンパイラ
アカデミックユーザーへ OpenACC コンパイラを無償提供
NVProf プロファイラ
コンパイラディレクティブの挿入箇所を容易に発見
コードサンプル
実際のアプリケーションのアルゴリズムから学ぶ
ドキュメント
クィックスタートガイド、ベストプラクティス、フォーラム
http://www.nvidia.com/openacc からダウンロード
世界の HPC のリーダーシップへ
CORAL プロジェクト
米国国家戦略計算イニシアティブ
2017年運用開始予定
2023年までに米国でエクサフロップスシステムを作る大統領令
100-300 ペタフロップス
ポストムーアの法則時代への明確なパス
10倍のアプリケーション性能
現行の米国最速スパコンの30倍の性能
IBM POWER9 CPU と NVIDIA Volta GPU
GPU がプレエクサおよびエクサスケールマシンを実現
NVLink ハイスピードインターコネクト
研究開発予算 5 億ドル (2016-22)
40,000 個の Volta GPU
日本アイ・ビー・エム株式会社
ハイエンド・システム事業部 理事 朝海 孝様
HPCの新潮流 –Data Centric ComputingSUMMIT
SIERRA
ピーク性能
150-300 ペタフロップス
ピーク性能
100 ペタフロップス以上
IBM POWER9 CPU + NVIDIA Volta GPU
NVLink 超高速インターコネクト
ノード当り 40 テラフロップス以上
3,400ノード以上
2017年稼動予定
データを動かさずに処理する“新しい設計思想”に準拠した
データセントリックシステム時代の幕開け!
74
データセントリック推進センターを日本に開設へ
豊かな日本社会へ
豊かな日本社会へ
POWER+GPGPU
POWER
+ GPGPU
日本発のInnovation
日本発の
Innovation
ビッグデータの有効利活用で
標準製品・低消費電力で
データセントリック推進センターで
社会に貢献!
超高速ビッグデータ分析を!
オープンコラボレーション!
75
TESLA アクセラレイテッド データセンタープラットフォーム
QUADRO
デザイン &
レンダリング
GRID
仮想PC &
ワークステーション
VCA, Iray
DESIGNWORKS
vGPU
HPC
ディープラーニング
OpenACC
cuDNN
CUDA
DIGITS
TESLA システム管理およびコミュニケーションミドルウェア
TESLA データセンター サーバー / ラック
Enjoy GTC Japan 2015!
WELCOME TO THE FUTURE