ディープラーニングの映像認識への応用 - 中山英樹研究室

Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
ディープラーニングの映像認識への応用
西田典起
東京大学 大学院情報理工学系研究科
創造情報学専攻 中山英樹研究室
[email protected]
Prometech Simulation Conference 2015
2015 年 9 月 17 日
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
1 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
Overview
1
Deep Learning 入門
2
Deep Learning の映像認識への試み
3
マルチモーダルジェスチャー認識
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
2 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
機械学習
▶
観測データを用いて関数 fθ のパラメータ θ を
最適化
▶
例: 動物画像の分類
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
3 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
教師あり学習
▶
観測データと正解出力のペアをたくさん用意
▶
fθ (入力) = 正解 となるように θ を調整
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
4 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
パラメータ θ の最適化
▶
損失関数 L(θ) を定義
例.
N
1 ∑
L(θ) =
(fθ (xn ) − tn )2
N n=1
▶
損失関数 L(θ) が減少する方向へ θ を修正
▶
勾配降下法
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
5 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
勾配降下法 (Gradient Descent, GD)
更新式
西田典起
θ =θ−λ
ディープラーニングの映像認識への応用
∂L
∂θ
東京大学 中山英樹研究室
6 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
ところで関数 fθ って?
▶
一般的には特徴抽出部と分類部 (分類問題の場
合) からなる
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
7 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
従来の特徴抽出手法の問題
▶
どのような特徴が有用かはタスクやデータドメ
インによって大きく異なる
▶
作り込み, 事前知識が必要
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
8 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
ILSVRC 2012 の衝撃
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
9 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
ニューラルネットの基本形: 3 層パーセプトロン
▶
式で記述すると:
h = σ(Win x + bin )
y = g(Wout h + bout )
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
10 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
フィルタによる畳み込み: 局所特徴の抽出
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
11 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
例: エッジ特徴の抽出

−1 0 1
wx =  −1 0 1 
−1 0 1

西田典起

−1 −1 −1
wy =  0 0 0 
1 1 1

ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
12 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
Convolutional Neural Networks [LeCun et al., 1998]
▶
画像を入力とし, 階層的に畳み込みを繰り返す
▶
ConvNet のパラメータは畳み込み層 (特徴抽出)
と完全結合層 (分類) にある
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
13 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
ConvNets の特徴
▶
▶
▶
局所特徴を抽出するのに適した構造
特徴抽出も学習 (表現学習) ⇔ 作り込み
層を深くすることによる高い表現力 (deep
learning)
▶
浅い層では単純な特徴が, 深い層では複雑な特
徴が抽出される
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
14 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
最近話題になった Deep Dream って何してるの?
http://googleresearch.blogspot.jp/2015/06/inceptionism-going-deeper-into-neural.html
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
15 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
やってること
▶
画像を入力して, 活性が高くなるユニットがあ
れば, その活性値がより大きくなるように入力
画像を修正
▶
高くなった活性は, 何かしらの特徴を抽出した
ことを表し, その原因を増大させている
▶
だからああいう画像が出来上がるのはある意味
当然
▶
利点: ニューラルネットがどんな特徴を抽出し
ているのか確認することができる
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
16 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
入力に近い層の活性に注目した場合
▶
単純な特徴が増大されている
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
17 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
出力に近い層の活性に注目した場合
▶
抽象的で複雑な特徴が増大されている
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
18 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
ランダムな画像でも可能
▶
出力の分類結果が “バナナ"になるように特徴
増大
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
19 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
ConvNet を使った物体検出の例 [Yoo et al., 2015]
▶
▶
現在の bounding box の端点の移動方向を出力
画像全体から始めて, bounding box を徐々に洗
練化
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
20 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
ConvNet を使った画像生成の例 [Desovitsky et al., 2015]
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
21 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
スポーツ映像認識 [Karpathy et al., 2014] (1)
▶
ConvNet を使ってビデオフレームを統合
▶
どういう順序で統合していくか
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
22 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
スポーツ映像認識 [Karpathy et al., 2014] (2)
▶
Slow Fusion が最も良いという結果に
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
23 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
スポーツ動画認識 [Karpathy et al., 2014] (3)
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
24 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
スポーツ動画認識 [Karpathy et al., 2014] (4)
▶
Slow Fusion モデルをスポーツ動画データセッ
トで事前学習
▶
これを初期値として, UCF-101 データセットで
再学習
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
25 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
フレームをまとめて入力してもダメ?
▶
Karpathy et al. (2014) 曰く,
“we qualitatively observe that the motion-aware
network clearly benefits from motion information
in some cases, but these seem to be relatively
uncommon."
▶
同時に複数フレームを入れるだけでは時間的ダ
イナミクスの効率的な抽出は難しい?
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
26 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
オプティカルフローを用いる [Simonyan et al., 2014] (1)
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
27 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
オプティカルフローを用いる [Simonyan et al., 2014] (2)
▶
▶
RGB 画像を入力する ConvNet: 物体認識
オプティカルフローを入力する ConvNet: モー
ション情報抽出
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
28 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
オプティカルフローを用いる [Simonyan et al., 2014] (3)
▶
UCF-101(データセット) で Karpathy らの
Slow Fusion に比べて約 23%も正解率向上!
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
29 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
3D ConvNets [Ji et al., 2013]
▶
縦と横だけでなく, 時間軸方向にも畳み込み
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
30 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
ジェスチャー認識 [Molchanov et al., 2015] (1)
▶
高解像度入力と低解像度入力の 2 ストリームの
3D ConvNets
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
31 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
ジェスチャー認識 [Molchanov et al., 2015] (2)
▶
作り込みの特徴抽出手法 (HOG) に比べて 13%
正解率向上
▶
VIVA Challenge 2015 のジェスチャー認識タ
スクで 1 位
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
32 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
Recurrent Neural Networks (RNNs)
ht = σ(Win xt + Whh ht−1 + bin )
yt = g(Wout ht + bout )
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
33 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
RNN をステップ毎に展開すると
P (yt |ht ) = P (yt |ht−1 , xt )
= P (yt |x1 , . . . , xt )
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
34 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
RNN とジェスチャー認識 [Murakami et al., 1991]
▶
RNN の各ステップの入力は画像ではなく,
Data Glove からの信号
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
35 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
RNN の問題
▶
RNN は遠い過去の情報を保持することが困難
▶
勾配が消失/爆発してしまい上手く学習できない
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
36 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
Long Short-Term Memory (LSTM)
▶
隠れ層 h ∈ Rm の計算にメモリーベクトル
c ∈ Rm と制御用ベクトル i, f , o ∈ Rm を使う
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
37 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
Long Short-Term Memory (LSTM)
▶
LSTM における状態 ht の計算 (バイアス項省
略):
gt
it
ft
ot
ct
ht
西田典起
= tanh(Win xt + Whh ht−1 )
= sigmoid(Wix xt + Wih ht−1 )
= sigmoid(Wf x xt + Wf h ht−1 )
= sigmoid(Wox xt + Woh ht−1 )
= it ⊙ gt + ft ⊙ ct−1
= ot ⊙ tanh(ct )
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
38 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
動画認識, 画像説明文の生成 [Donahue et al., 2014]
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
39 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
生成された画像説明文の例
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
40 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
動画の説明文生成 [Yao et al., 2015]
▶
動画の n 個のサブセットを 3D ConvNet でエ
ンコード
V = {v1 , v2 , . . . , vn }
▶
RNN 言語モデル + attention で単語列にデ
コード
yt = P (wt |w1 , . . . , wt−1 , ϕt (V ))
▶
ϕt (V ) は, n 個の動画サブセットのどれに重きを
置くかを求め, それに基づいて V をベクトルへ
変換
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
41 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
生成された動画説明文の例
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
42 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
(i) Autoencoder による特徴抽出 [Bengio et al., 2007]
▶
▶
y = x となるようにネットワークを学習
h から x を復元できるということは, h は x を
効率的に表現
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
43 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
(ii) Sequence to Sequence [Sutskever et al., 2014]
▶
▶
系列をエンコードする Encoder RNN (赤) と,
系列にデコードする Decoder RNN (青)
機械翻訳: 単語系列 −→ 単語系列
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
44 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
動画特徴抽出器の学習 [Srivastava et al., 2015] (1)
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
45 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
動画特徴抽出器の学習 [Srivastava et al., 2015] (2)
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
46 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
動画特徴抽出器の学習 [Srivastava et al., 2015] (3)
▶
▶
学習後は Decoder RNN は不要
学習した Encoder RNN を初期値として, 別の
映像データセットで教師あり学習
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
47 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
マルチモーダルジェスチャーとは?
▶
従来のカラー情報だけでなく, depth やスケル
トン, 音声データを用いてジェスチャー分類を
行う
▶
各モダリティをどのように効果的に統合するか
が課題
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
48 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
Multi-stream RNN (MRNN) [Nishida et al., 2015]
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
49 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
Early Multimodal Fusion Model
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
50 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
Late Multimodal Fusion Model
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
51 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
テストデータに対する正解率の比較
正解率 (%)
手法
Liu et al. (2013)
Choi et al. (2014)
Tung et al. (2014)
Early multimodal fusion
Late multimodal fusion
MRNN (color only)
MRNN (optical flow only)
MRNN (depth only)
MRNN
88.7
91.9
96.7
94.1
94.6
91.6
88.5
95.9
97.8
▶
SKIG データセットにおける最高正解率を達成
▶
時間依存性を考慮したマルチモーダルの統合が有効
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
52 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
ノイズに対するロバスト性の評価
▶
ガウシアンノイズ (標準偏差 σ) をテストデータの depth モダ
リティに加えて正解率を評価
▶
マルチモーダルで学習した MRNN はより高い正解率を維持
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
53 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
まとめ
▶
映像への応用では, 空間的な情報と時間的な情報をどのよ
うにモデル化するかが問題
▶
現在では, 3D ConvNet か, ConvNet + RNN (LSTM) が
最も多い (しかし人間の認識率を越えてはいない)
▶
今後, 映像だけでなくマルチモーダル情報の応用も増えて
くるだろう
▶
ネットワーク構造やハイパーパラメータの調整など,
deep learning では試行錯誤がほぼ必須
▶
そのため GPU による学習の高速化は非常に重要
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
54 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
参考文献 (1)
LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P.: Gradient-based learning applied to document recognition.
Proceedings of the IEEE, 86(11):2278-2324, 1998
Karpathy, A., Toderici, G., Shetty, S., Leung, T., Sukthankar, R., and Fei-Fei, L.: Large-scale video classification with
convolutional neural networks. In Proc. CVPR, 2014
Simonyan, K., and Zisserman, A.: Two-stream convolutional networks for action recognition in videos. In Proc.
NIPS, 2014
Ji, S., Xu, W., Yang, M., and Yu, K.: 3D convolutional neural networks for human action recognition. In Trans. PAMI,
35(1):221-231, 2013
Pavlo Molchanov, P., Gupta, S., Kim, K., and Kautz, J.: Hand Gesture Recognition with 3D Convolutional Neural
Networks. In CVPR 2015 Workshop on Hand gesture recognition, 2015
Murakami, K., and Taguchi, H.: Gesture recognition using recurrent neural networks. In Proc. SIGCHI, 1991
Donahue, J., Hendricks, L. A., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., and Darrell, T.:
Long-term recurrent convolutional networks for visual recognition and description. In Proc. CVPR, 2014
Srivastava, N., Mansimov, E., and Salakhutdinov, R.: Unsupervised learning of video representations using lstms.
arXiv preprint arXiv:1502.04681, 2015
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
55 / 56
Deep Learning 入門
Deep Learning の映像認識への試み
マルチモーダルジェスチャー認識
参考文献 (2)
Sutskever, I., Vinyals, O., and Le, Q. V.: Sequence to sequence learning with neural networks. In Proc. NIPS, 2014
Bengio, Y., Lamblin, P., Popovici, D., and Larochelle, H.: Greedy layer-wise training of deep networks. In Proc. NIPS,
2007
Yao, L., Torabi, A., Cho, K., Ballas, N., Pal, C., Larochelle, H., and Courville, A.: Describing videos by exploiting
temporal structure. arXiv preprint arXiv:1502.08029, 2015
Liu, L. and Shao, L.: Learning discriminative representations from RGB-D video data. In Proc. IJCAI, 2013
Choi, H., and Park, H.: A hierarchical structure for gesture recognition using RGB-D sensor. In Proc. HAI, 2014
Tung, P. T., and Ngoc, L. Q.: Elliptical density shape model for hand gesture recognition. In Proc. ICTD, 2014
Nishida, N., and Nakayama, H.: Multimodal Gesture Recognition using Multi-stream Recurrent Neural Network. In
Proc. PSIVT, 2015
西田典起
ディープラーニングの映像認識への応用
東京大学 中山英樹研究室
56 / 56