セミナー資料

東京大学大学院情報理工学系研究科
創造情報学専攻講師
中山英樹
Nakayama Lab.
Machine Perception Group
The University of Tokyo

１．画像認識分野におけるdeep learningの歴史
２．一般画像認識：Deep learning 以前と以後で何が変わったか

３．Deep learningの数理

４．実践するにあたって

５．今後の展望・研究動向

◦ Bag-of-visual-words
◦ 畳み込みニューラルネット (ConvNets)
◦ なぜ優れた性能が実現できるのか？
◦ ブレークスルーを生んだ各要素技術
◦ 適切利用するために必要な知識
◦ チューニングの勘所
◦ 中山研究室の研究事例
◦ 最新の研究動向
Nakayama Lab.
Machine Perception Group
The University of Tokyo
2

１．画像認識分野におけるdeep learningの歴史
２．一般画像認識：Deep learning 以前と以後で何が変わったか

３．Deep learningの数理

４．実践するにあたって

５．今後の展望・研究動向

◦ Bag-of-visual-words
◦ 畳み込みニューラルネット (ConvNets)
◦ なぜ優れた性能が実現できるのか？
◦ ブレークスルーを生んだ各要素技術
◦ 適切利用するために必要な知識
◦ チューニングの勘所
◦ 中山研究室の研究事例
◦ 最新の研究動向
Nakayama Lab.
Machine Perception Group
The University of Tokyo
3

制約をおかない実世界環境の画像を単語で記述
◦ 一般的な物体やシーン、形容詞（印象語）
◦ 2000年代以降急速に発展（コンピュータビジョンの人気分野）
◦ 幅広い応用先
デジタルカメラ、ウェアラブルデバイス、画像検索、ロボット、…
Nakayama Lab.
Machine Perception Group
The University of Tokyo
易

Categorization (カテゴリ識別)
◦ 映ってる物体の名前だけ
◦ 物体の位置を答える必要はない
horse
human
human

Detection (物体検出)
◦ 矩形で物体の位置を切り出す
horse

Semantic Segmentation
◦ ピクセルレベルで物体領域を認識
難
Nakayama Lab.
Machine Perception Group
The University of Tokyo
human
horse
5

機械学習（教師付）
{(xi , yi ), i = 1,..., N }
大量のラベル付き訓練データ
(x:画像，y:ラベル）
x
…
cat
dog
bird
y
“cat”
未知のデータ（学習データに含まれない）を正しく認識させることが目標
Nakayama Lab.
Machine Perception Group
The University of Tokyo
6

ニューラルネットワークを用いた人工知能の
構築技術の総称
◦ 脳（神経細胞）の働きを模した学習アルゴリズム

特に、深く大規模な構造を備えていることが特徴
cat
dog
horse
Nakayama Lab.
Machine Perception Group
The University of Tokyo
cat
7

小さな画像を用いた基礎研究が主流
◦ MNISTデータセット [LeCun]
 文字認識、28 x 28ピクセル、6万枚
◦ CIFAR-10/100 データセット [Krizhevsky]
 物体認識、32 x 32ピクセル、5万枚

機械学習のコミュニティで地道に発達
◦ ビジョン系ではあまり受け入れられず…
Nakayama Lab.
Machine Perception Group
The University of Tokyo
8
“We are withdrawing it for three reasons: 1) the scores are so low,
and the reviews so ridiculous, that I don't know how to begin writing
a rebuttal without insulting the reviewers; 2) we prefer to submit
the paper to ICML where it might be better received. （中略）
Getting papers about feature learning accepted at vision conference
has always been a struggle, and I‘ve had more than my share of bad
reviews over the years. Thankfully, quite a few of my papers were
rescued by area chairs. （中略）
This time though, the reviewers were particularly clueless, or
negatively biased, or both. （中略）
So, I‘m giving up on submitting to computer vision conferences
altogether. CV reviewers are just too likely to be clueless or
hostile towards our brand of methods. Submitting our papers is just
a waste of everyone’s time （中略）
Regardless, I actually have a keynote talk at [Machine Learning
Conference], where I'll be talking about the results in this paper.”
Nakayama Lab.
Machine Perception Group
The University of Tokyo
9
Russakovsky et al., “ImageNet Large Scale Visual
Recognition Challenge”, 2014.

ImageNetのデータの一部を用いたフラッグシップコンペ
ティション (2010年より開催)
◦ ImageNet [Deng et al., 2009]
 クラウドソーシングにより構築中の大規模画像データセット
 1400万枚、2万2千カテゴリ（WordNetに従って構築）

コンペでのタスク
◦ 1000クラスの物体カテゴリ分類
 学習データ120万枚、検証用データ5万枚、テストデータ10万枚
◦ 200クラスの物体検出
 学習データ45万枚、検証用データ2万枚、テストデータ4万枚
Nakayama Lab.
Machine Perception Group
The University of Tokyo
10

1000クラス識別タスクで、deep learning を用いたシステムが圧勝
◦ トロント大学Hinton先生のチーム (AlexNet)
[A. Krizhevsky et al., NIPS’12]
エラー率が一気に10%以上減少！
（※過去数年間での向上は1~2%)
Nakayama Lab.
Machine Perception Group
The University of Tokyo
11

エラー率が 16% (2012) → 4.94% (2014)
Classification error (%)
30
28%
25
26%
20
16%
15
12%
10
6.6%
5
0
2010
2011
2012
2013
2014
5.3% 5.1% 4.9%
2015
(Baidu)
Human
2015
(MS)
Wu et al., “Deep Image: Scaling up Image Recognition”, 2015.
He et al., “Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet
Classification”, 2015.
Nakayama Lab.
Machine Perception Group
The University of Tokyo
12

エラー率が 16% (2012) → 4.94% (2014)
Classification error (%)
30
28%
25
26%
20
16%
15
12%
10
6.6%
5
0
2010
2011
2012
2013
2014
5.3% 5.1% 4.9%
2015
(Baidu)
Human
2015
(MS)
Wu et al., “Deep Image: Scaling up Image Recognition”, 2015.
He et al., “Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet
Classification”, 2015.
Nakayama Lab.
Machine Perception Group
The University of Tokyo
13

映像認識
◦ 487クラスの
スポーツカテゴリ認識
[Karpathy., CVPR’14]

RGB-D物体認識
◦ [Socher et la., NIPS’13]
Nakayama Lab.
Machine Perception Group
The University of Tokyo
14

領域分割（シーンラベリング）
◦ ピクセルレベルで物体領域を認識
◦ [Long et al., 2014]

RGB-Dシーンラベリング
◦ [Wang et al., ECCV’14]
Nakayama Lab.
Machine Perception Group
The University of Tokyo
15

デノイジング・インペインティング [Xie et al., NIPS’12]

超解像 [Dong et al., ECCV’14]

ボケ補正 [Xu et al., NIPS’14]
◦ 画像のノイズ除去
◦ Stacked denoising auto-encoder
◦ 低解像度画像から
高解像度画像を復元（推定）
Nakayama Lab.
Machine Perception Group
The University of Tokyo
16

１．画像認識分野におけるdeep learningの歴史
２．一般画像認識：Deep learning 以前と以後で何が変わったか

３．Deep learningの数理

４．実践するにあたって

５．今後の展望・研究動向

◦ Bag-of-visual-words
◦ 畳み込みニューラルネット (ConvNets)
◦ なぜ優れた性能が実現できるのか？
◦ ブレークスルーを生んだ各要素技術
◦ 適切利用するために必要な知識
◦ チューニングの勘所
◦ 中山研究室の研究事例
◦ 最新の研究動向
Nakayama Lab.
Machine Perception Group
The University of Tokyo
17
人手で設計
伝統的
方法論
(“Shallow”
learning)
人手で設計/教師なし学習
Low-level
image feature
Mid-level
image feature
SIFT, HOG,
SURF, etc.
Deep
learning
Nakayama Lab.
Machine Perception Group
The University of Tokyo
Supervised Classifier:
SVM, Logistic
Regression, etc.
“Car”
BoVW, VLAD,
Fisher Vector, etc.
・・・
“Car”
生の画素値から、識別に至る階層構造を直接的に学習
18
人手で設計
伝統的
方法論
(“Shallow”
learning)
人手で設計/教師なし学習
Low-level
image feature
Mid-level
image feature
SIFT, HOG,
SURF, etc.
Deep
learning
Supervised Classifier:
SVM, Logistic
Regression, etc.
“Car”
BoVW, VLAD,
Fisher Vector, etc.
・・・
“Car”
[Zeiler and Fergus, 2013]
Nakayama Lab.
Machine Perception Group
The University of Tokyo
生の画素値から、識別に至る階層構造を直接的に学習
従来の特徴量に相当する構造が中間層に自然に出現
19

e.g.
SIFT記述子
画像中の局所特徴の分布（統計情報）を表現する
大域的特徴ベクトルを抽出
1.0   0 
  
 0   0.5 
 0   0.5 
  
   
 0.5   0.0 
   
 0.0  0.0
  
1. 局所特徴抽出
◦ SIFT, SURF, HOG, etc.
◦ Dense sampling
(回転、スケールの
正規化なし）
Nakayama Lab.
Machine Perception Group
The University of Tokyo
2. エンコーディング
◦ ベクトル量子化
◦ 多項式特徴（要素積）
…
0 
 
0 
0 
 
 
0 
 
 1.0 
 
 0.5 
 
1.2 
 0.1 
 
 
 
 
3. プーリング
◦ 最大値プーリング
◦ 平均値プーリング

前
処
理
ベクトル量子化により局所特徴のヒストグラムを作成
学
習
用
画
像
xi xi
x i K-means
クラスタリング
xi xi
xi xi xi
xi xi
局所特徴
Codebook
Source: K. Yanai
Nakayama Lab.
Machine Perception Group
The University of Tokyo
21

つまり…
◦ 最近傍のvisual wordに対応するコードに対してのみ1、
それ以外に0を埋める最も単純な局所特徴エンコーディング
◦ 平均値プーリング
平均ベクトル
1 
 
0 
0 
 
 
0 
 
0 
 
0 
 
0 
1 
 
 
0 
 
0 
 
…
画像中の全局所特徴
[Wang et al., CVPR’10]
Nakayama Lab.
Machine Perception Group
The University of Tokyo
0 
 
0 
0 
 
 
1 
 
0 
 
 0.2 
 
 0.5 
 0.1 
 
 
 0.9 
 
 0.3 
 
M次元
（visual wordsの数）
22

畳み込みニューラルネットワーク
◦ 脳の視覚野の構造を模倣した多層パーセプトロン
◦ ニューロン間の結合を局所に限定（パラメータ数の大幅な削減）
[A. Krizhevsky et al., NIPS’12]

最初に基本構造が提案されたのは実はかなり昔
◦ ネオコグニトロン（福島邦彦先生、1980年代前後)
Kunihiko Fukushima, “Neocognitron: A Self-organizing Neural
Network Model for a Mechanism of Pattern Recognition
Unaffected by Shift in Position“, Biological Cybernetics, 36(4):
93-202, 1980.
Nakayama Lab.
Machine Perception Group
The University of Tokyo
23

局所領域（受容野）の畳み込みとプーリングを繰り返す
多層ネットワーク
◦ 段階的にスケールを変えながら、局所的な相関パターンを抽出
◦ プーリングにより、局所的な平行移動不変性を確保
最終的に、識別したいクラス数
と同数のニューロンへ
Y. LeCun, L. Bottou, Y. Bengio and P. Haffner: Gradient-Based Learning Applied
to Document Recognition, Proceedings of the IEEE, 86(11):2278-2324, 1998.
Nakayama Lab.
Machine Perception Group
The University of Tokyo
24

一般的なフィルタだと…

識別に有効なフィルタをデータから学習したい
◦ 例）エッジ抽出
Nakayama Lab.
Machine Perception Group
The University of Tokyo
Source: M. Ranzato, CVPR’14 tutorial slides
25

色の違いは異なる畳み込みフィルタを示す
◦ 各フィルタのパラメータは全ての場所で共有
非線形活性化関数（とても重要）
r = φ (w ∗ h − θ )
フィルタの係数
※もちろん入力は生画像のみ
とは限らない（中間層など）
Nakayama Lab.
Machine Perception Group
The University of Tokyo
入力
バイアス
例えば、5x5の畳み込み、
10チャンネルの入力の場合、
5x5x10=250個
Source: M. Ranzato, CVPR’14 tutorial slides
26

一定領域内の畳み込みフィルタの反応をまとめる
◦ 領域内での平行移動不変性を獲得
平均値プーリング、
最大値プーリングなど
Source: M. Ranzato, CVPR’14 tutorial slides
Nakayama Lab.
Machine Perception Group
The University of Tokyo
27

層を上るにつれ、クラスの分離性能が上がる
ILSVRC’12 の
validation data
（色は各クラスを示す）
第１層
第6層
J. Donahue et al., “DeCAF: A Deep Convolutional Activation Feature for Generic
Visual Recognition”, In Proc. ICML, 2014.
Nakayama Lab.
Machine Perception Group
The University of Tokyo
28
Matthew D. Zeiler and Rob Fergus, “Visualizing and Understanding
Convolutional Networks”, In Proc. ECCV, 2014.
Nakayama Lab.
Machine Perception Group
The University of Tokyo
29
Matthew D. Zeiler and Rob Fergus, “Visualizing and Understanding
Convolutional Networks”, In Proc. ECCV, 2014.
Nakayama Lab.
Machine Perception Group
The University of Tokyo
30


エンコーディング+プーリングの構造自体は同じ（活性化関数が違う）
◦ 例えばSIFT-BoVWの場合、4x4の畳み込みと解釈できる
◦ スパースコーディングに代表されるようなアサインメント
の工夫は活性化関数の工夫と解釈できる
SIFT記述子
A. Coates, A. Ng, “Learning Feature Representations
with K-Means”, Neural Networks: Tricks of the Trade,
pp.561-580, 2012.
BoVW
球面k-meansの場合
エンコーディング： s
(i )
j
1
=
0
◦ 線形射影 + 非線形な活性をとる点で全く同じ
◦ Coatesらのエンコーディング方法 (2012)
これは, 活性化関数にReLU(後述)を用いた場合の畳み込みに他ならない
Nakayama Lab.
Machine Perception Group
The University of Tokyo
31
SIFT, HOG, etc.
SVM, etc.
識別器
プーリング
ヒスト
グラム
非線形
変換
フィルタ
（
畳み込み）
量子化
Bag of visual words
プーリング
輝度勾配
非線形
変換
フィルタ
（
畳み込み）
従来の方法
（特徴量ベース）
K-means
Sparse coding
畳み込みニューラルネット
識別層
プーリング
非線形
変換
フィルタ
（畳み込み）
プーリング
非線形
変換
フィルタ
（畳み込み）
The University of Tokyo
プーリング
Machine Perception Group
非線形
変換
フィルタ
（畳み込み）
Nakayama Lab.
…
32


End-to-endでパラメータを最適化（誤差逆伝播法）
非線形変換（活性化関数）の設計が重要
◦ 少なくとも微分可能でないといけない
訓練サンプル
xi
∇L
識別層
プーリング
非線形
変換
…
フィルタ
（畳み込み）
プーリング
非線形
変換
フィルタ
（畳み込み）
The University of Tokyo
プーリング
Machine Perception Group
非線形
変換
フィルタ
（畳み込み）
Nakayama Lab.
yˆ i
L(x i , y i )
33


勾配が出やすいように関数の設計を工夫
区分線形関数が良好な性能を示すことが分かってきた
シグモイド関数
1
1 + exp(− x )
サチると勾配が
出ない!
Nakayama Lab.
Machine Perception Group
The University of Tokyo
Rectified linear units
(ReLU)
[Nair & Hinton, 2010]
max(0, x )
Maxout
[Goodfellow, 2013]
多数の線形関数のmax
（任意の閾値関数を近似）
パラメータ数は増える
34


複数のカーネル（畳み込みフィルタ）を束ね、最大値をとる
パラメータ数が増えるのが欠点
Nakayama Lab.
Machine Perception Group
The University of Tokyo
[山下隆義先生、MIRU’14 チュートリアルスライドより]
35



現在、画像認識において最も性能がよいアーキテクチャ
◦ ILSVRC’14トップのGoogleチームもNINがベース
活性化関数自体を多層パーセプトロンで学習（Maxoutの一般化）
最後に全結合層をおかなくても十分な性能
◦ 見た目は複雑だが実はパラメータ数は減っている
Min Lin et al., “Network In
Network”, arXiv preprint, 2013.
Nakayama Lab.
Machine Perception Group
The University of Tokyo
Maxoutはここで最大値
をとるだけ（固定的）
36
Min Lin et al., “Network In
Network”, arXiv preprint, 2013.


実装上、1x1の畳み込み層を重ねることと等価
（本来の意味で畳み込みではないが）
Deep learning的にはこちらの解釈の方が自然
活性化関数はいずれもReLU
Nakayama Lab.
Machine Perception Group
The University of Tokyo
http://www.imagenet.org/challenges
/LSVRC/2014/slide
s/ILSVRC2014_NUS
_release.pdf
37

GoogLeNet (22層) [Szegedy et al.]
◦ ILSVRC 2014 で優勝
◦ 独自の並列分散フレームワークで学習 (CPUベース)
Convolution
Pooling
Softmax
Other
Nakayama Lab.
Machine Perception Group
The University of Tokyo
http://www.image-net.org/challenges/LSVRC/2014/slides/GoogLeNet.pptx
38
Szegedy et al., “Going deeper with convolutions”, 2014.
Nakayama Lab.
Machine Perception Group
The University of Tokyo
39

全結合ネットワーク
◦ 極めて多くのパラメータ
◦ 最適化が困難
 収束まで時間がかかる
 そもそもメモリにのらない
Source: M. Ranzato, CVPR’14 tutorial slides
MNISTデータセット（28x28ピクセル）のような小さい画像を
用いて古くから研究されているが、今のところConvNetには遠
く及ばない
Nakayama Lab.
Machine Perception Group
The University of Tokyo
40

局所結合ネットワーク
◦ 構造はConvNetと同じだが、フィルタの
パラメータに場所ごとで異なる
◦ つまり、平行移動不変性がない
Source: M. Ranzato, CVPR’14 tutorial slides

入力画像の正確なアラインメントが前提となっている場合、
state-of-the-art を達成している場合もある
◦ DeepFace [Taigman et al., CVPR’14]

一般的な画像認識ではまだConvNetに劣る
Nakayama Lab.
Machine Perception Group
The University of Tokyo
41

“局所的な畳み込み(フィルタバンク) → 非線形変換 → プーリング”
という基本構造は今までの画像認識(BoVW)と変わらない。
◦ 正確には、BoVW系が2000年代に一旦追いつき追い越し、再び逆転された
◦ 多層化、活性化関数の工夫、パラメータの最適化等の技術が進展
深さ

活性化関数
BoVW
１層（デスクリ複雑
プタは除く）
ConvNet
多層
学習
識別層以外は
（多くの場合）生成的
識別層を独立に構築
シンプル(ReLU) 識別的、end-toendの学習
より一般的な全結合・局所結合ネットワークなどはいまひとつ
◦ おそらく構造に不変性がないのがネック
◦ 今後の発展に期待（データがもっと増えればよくなる？）
Nakayama Lab.
Machine Perception Group
The University of Tokyo
42

１．画像認識分野におけるdeep learningの歴史
２．一般画像認識：Deep learning 以前と以後で何が変わったか

３．Deep learningの数理

４．実践するにあたって

５．今後の展望・研究動向

◦ Bag-of-visual-words
◦ 畳み込みニューラルネット (ConvNets)
◦ なぜ優れた性能が実現できるのか？
◦ ブレークスルーを生んだ各要素技術
◦ 適切利用するために必要な知識
◦ チューニングの勘所
◦ 中山研究室の研究事例
◦ 最新の研究動向
Nakayama Lab.
Machine Perception Group
The University of Tokyo
43
ある一定の表現能力を得ようとした場合に…

深いモデルの方が必要なパラメータ数が少なくて済むと考
えられている [Larochelle et al., 2007] [Bengio, 2009] [Delalleau and Bengio, 2011]
(※単純なケース以外では完全に証明されていない）
（ちゃんと学習
できれば）
Nakayama Lab.
Machine Perception Group
The University of Tokyo
 汎化性能
 計算効率
 スケーラビリティ
反論もある:
“Do Deep Nets Really
Need to be Deep?”
[Ba & Caruana, 2014]
44

Sum-product network [Poon and Domingos, UAI’11]

同じ多項式関数を表現するために必要なノード数の増加が
◦ 各ノード（ニューロン）が入力の和か積を出力するネットワーク
◦ 浅いネットワークでは指数的
◦ 深いネットワークでは線形
[Delalleau & Bengio, NIPS’11]
Nakayama Lab.
Machine Perception Group
The University of Tokyo
45
例）畳み込み層
◦ 7 x 7 の畳み込みは、3 x 3の畳み込み層を3つ積めば意味的に等価
より少ないパラメータで、
より深い非線形性！
≒
7×7 = 49

プーリング

◦ 一つのレイヤ内(線形変換)の
パラメータを増やすのは効率が悪い
活性化関数
（非線形）
できるだけ少ないパラメータで深い非線形性を与える
畳み込み
（線形）

3×(3×3) = 27
Maxoutも最近はあまり使われない
◦ NINのように1 x 1の畳み込み層+ReLUを積む方が合理的
Nakayama Lab.
Machine Perception Group
The University of Tokyo
46

CNNのパラメータの大半は全結合層に集中

NIN, GoogLeNet は全結合層を持たない
◦ あくまで一層内の線形結合。非線形性は増えない。
◦ ないよりはあった方がよいが、割に合わない？
◦ 最終層の平均値プーリングをとり、そのままsoft maxへ入力
Nakayama Lab.
Machine Perception Group
The University of Tokyo
Min Lin et al., “Network In
Network”, arXiv preprint, 2013.
47


GoogLeNetのパラメータ数は、AlexNet (2012) の 1/10以下
全結合層を省略したことが大きい
GoogLeNet (22層)
Convolution
Pooling
Softmax
Other
http://www.image-net.org/challenges/LSVRC/2014/slides/GoogLeNet.pptx
Nakayama Lab.
Machine Perception Group
The University of Tokyo
48

Fisher vector (ILSVRC’11)

AlexNet (ILSVRC’12)

Network in Network (ILSVRC’13)

Deep model の計算コストは“相対的には軽い”！
◦ 26万次元 × 1000クラス = 約2億6000万
◦ 約6000万
◦ 約750万
◦ 同じレベルのパフォーマンスをshallowなアーキテクチャで達成
しようとしたらもっと大変になる（はず）
Nakayama Lab.
Machine Perception Group
The University of Tokyo
49
SIFT, HOG, etc.
Bag of visual words
SVM, etc.
識別器
プーリング
非線形
変換
フィルタ
（
畳み込み）
プーリング
非線形
変換
フィルタ
（
畳み込み）
従来の方法
（特徴量ベース）
• できるだけ作りこむ
• いかにして一層の表現能力を上げるか
• パラメータを増やし、非線形変換を作りこむ
輝度勾配
量子化
ヒスト
グラム
K-means
Sparse coding
畳み込みニューラルネット
識別層
プーリング
非線形
変換
フィルタ
（畳み込み）
プーリング
非線形
変換
フィルタ
（畳み込み）
The University of Tokyo
プーリング
Machine Perception Group
非線形
変換
フィルタ
（畳み込み）
Nakayama Lab.
…
• できるだけ余計なことをしない
• 一層一層は極限までシンプルに、パラメー
タを減らす
• 多層化し、全てをデータに任せる
50

根本的に昔と何かが変わったわけではない（と思う…）

復習：昔多層パーセプトロンが失敗した主な理由
◦ 地道に一つ一つ問題を潰していった結果
◦ 入力に近い層の学習が遅い (Vanishing gradient)
◦ 過学習しやすい (Overfitting)
Nakayama Lab.
Machine Perception Group
The University of Tokyo
51

ブレークスルー：個人的に重要と思う順番
◦
◦
◦
◦
◦

０．データの増加、計算機の高速化
１．活性化関数：Rectified linear units (ReLU)の発明
２．過学習回避手法：Dropoutの発明
３．その他、最適化に関する手法・ノウハウの発達
（４．教師なし事前学習手法の発明）
深層学習のトレンドは急速に変化し続けている
◦ もともと、教師なし事前学習手法こそが深層学習が
ブレイクしたきっかけであったが…
Nakayama Lab.
Machine Perception Group
The University of Tokyo
52

深層学習ブームの火付け役となった成果
◦ Hinton and Salakhutdinov, “Reducing the dimensionality of data with neural networks”,
Science, Vol. 313, No. 5786, pp. 504 - 507, 2006.
◦ 一層ごとに、restricted Boltzmann machine (RBM)を用いて生成的に初期化
◦ 全層通した学習を収束させやすくなる&過学習しにくくなる効果がある？
可視層
RBM
W
v = (v1 ,..., vL )
T
vl ∈ {0,1}

v
隠れ層
h
h = (h1 ,..., hM )
T
hm ∈ {0,1}
単純なパーセプトロンでない、さまざまな生成モデルネットワークが提案され、
一時代を築く
Nakayama Lab.
Machine Perception Group
The University of Tokyo
53
Le et al., “Building High-level Features Using Large Scale Unsupervised Learning”, ICML’12.



9層のautoencoder
1000万枚のYouTube画像から教師なし事前学習
これを初期状態として識別的学習を始める
ことで識別精度向上

Nakayama Lab.
Machine Perception Group
The University of Tokyo
人の顔に特異的に反応するニューロンが
自動的に獲得された（他、猫なども）
≒“おばあちゃんニューロン”？
54

しかしながら…

最近ではほとんど用いられていない

理由：
◦ Dropoutのようなすぐれた正則化方法がその後登場した
◦ 教師付データが十分あれば、ランダムな初期値から十分学習可能
（教師付データが少ない場合はある程度有効）
Nakayama Lab.
Machine Perception Group
The University of Tokyo
55

ブレークスルー：個人的に重要と思う順番
◦
◦
◦
◦
◦
０．データの増加、計算機の高速化
１．活性化関数：Rectified linear units (ReLU)の発明
２．過学習回避手法：Dropoutの発明
３．その他、最適化に関する手法・ノウハウの発達
（４．教師なし事前学習手法の発明）
Nakayama Lab.
Machine Perception Group
The University of Tokyo
56
（プラスなら）どこでも
一定の勾配
サチると勾配が
出ない!
1
1 + exp(− x )
シグモイド関数
例）単純パーセプトロン
の更新式
Nakayama Lab.
Machine Perception Group
The University of Tokyo
max (0, x )
Rectified linear units (ReLU)
[Nair & Hinton, 2010]
w new = w old + η ( yi − yˆ i ) f ′(w Told x i − θold )x i
57

すべての入力データが負になると、常に微分がゼロとなる
◦ → パラメータが二度と更新されなくなる
w new = w old + η ( yi − yˆ i ) f ′(w Told x i − θold )x i
入力データ集合
“死んだ” ReLU
Nakayama Lab.
Machine Perception Group
The University of Tokyo
58

負の側にも少し勾配を与えたReLU

MSR (2015)
◦ 負側の勾配係数もパラメータの一つとしてチューニング
◦ ILSVRC’2014 のデータセットで 4.94% error
He et al., “Delving Deep into Rectifiers: Surpassing Human-Level Performance
on ImageNet Classification”, arXiv preprint, 2015.
Nakayama Lab.
Machine Perception Group
The University of Tokyo
59

各訓練データ（バッチ）のフィードバックの際に、
一定確率(0.5)で中間ニューロンを無視
認識時は全ニューロンを使うが、結合重みを半分にする

多数のネットワークを混ぜた構造

◦ 訓練データが各ニューロンで異なるため、
バギングと同様の効果
（ただしパラメータは共有）

L2正則化と等価

以前と比較して大幅な精度向上
∇L
L(x i , y i )
◦ [Wager et al., NIPS’13]
◦ ほぼ必須のテクニック
Nakayama Lab.
Machine Perception Group
The University of Tokyo
60

Drop connect [Wan et al., ICML’13]

Adaptive dropout [Ba et al., NIPS’13]
◦ ニューロンではなく、結合をランダムに落とす
◦ Dropoutで落とすニューロンをランダムでなく適応的に選択する
Nakayama Lab.
Machine Perception Group
The University of Tokyo
61

実際に学習を実行するのは非常に困難

Y. Bengio (2012), “Practical recommendations for
Gradient-based training of deep architectures”
◦ 設定すべきハイパーパラメータが極めて多い！
◦
◦
◦
◦
◦
◦
◦
◦
学習率の設定・スケジューリング、early stopping
ミニバッチサイズ
ドロップアウトのパラメータ
Early stopping
パラメータ初期化方法
隠れ層のニューロン数
L1/L2 weight decay
Sparsity regularization
Nakayama Lab.
…などなど
Machine Perception Group
The University of Tokyo
62

１．画像認識分野におけるdeep learningの歴史
２．一般画像認識：Deep learning 以前と以後で何が変わったか

３．Deep learningの数理

４．実践するにあたって

５．今後の展望・研究動向

◦ Bag-of-visual-words
◦ 畳み込みニューラルネット (ConvNets)
◦ なぜ優れた性能が実現できるのか？
◦ ブレークスルーを生んだ各要素技術
◦ 適切利用するために必要な知識
◦ チューニングの勘所
◦ 中山研究室の研究事例
◦ 最新の研究動向
Nakayama Lab.
Machine Perception Group
The University of Tokyo
63

自分の問題について、どのようにdeep learningを使う
べきか？
◦ 十分な効果を得るには、かなり多くの教師付データが必要
◦ 必ずしもフルスクラッチから学習することが賢いとは限らない

そもそもdeep learningを利用可能な問題か？
◦ 使わない方が幸せになれることも多い…
Nakayama Lab.
Machine Perception Group
The University of Tokyo
64


あらかじめ汎用性の高い大規模教師付データセットでネット
ワークを学習しておき、これを初期値としてターゲットタスク
の学習データでさらに細かい学習を進める（＝Fine-tuning）
(教師なし事前学習とは違う概念であることに注意）
例えば…
ImageNet ILSVRC’12
130万枚、1000クラス
Nakayama Lab.
Machine Perception Group
The University of Tokyo
PASCAL VOC 2007
5千枚、20クラス
65
Pre-trained
network
適用先
データセット
∇L
L(x i , y i )
出力層だけ
つけかえ
Nakayama Lab.
Machine Perception Group
The University of Tokyo
66

Pre-trainedネットワークを特徴抽出器として用いる
◦ 中間層の出力を利用して識別器を構築
Pre-trained
network

ロジスティック回帰,
SVM,etc.
最終層だけfine-tuningしているとも解釈できる
Nakayama Lab.
Machine Perception Group
The University of Tokyo
67

ILSVRC 2012 → VOC 2007 の例 (検出成功率、mAP%)
◦ フルスクラッチConvNet: 40.7
◦ Pre-trained feature: 45.5
Agrawal et al., “Analyzing the Performance of Multilayer Neural
◦ Fine tuning: 54.1
Networks for Object Recognition”, In Proc. ECCV, 2014.
ImageNet ILSVRC’12
130万枚、1000クラス
Nakayama Lab.
Machine Perception Group
The University of Tokyo
PASCAL VOC 2007
5千枚、20クラス
68

Pre-trainingに用いる外部データセットが、所望のタス
クを内包するものでなければ効果が薄い（むしろ悪化）
◦ ImageNetはあくまで物体認識のデータセット

参考：Fine-grained competition 2013
https://sites.google.com/site/fgcomp2013/
飛行機、車、靴データセットなど、ImageNet上にあまりデータが
存在しないドメインに関してはターゲットの学習データのみ用いた
Fisher
vectorの方が良かった
Nakayama Lab
.
Machine Perception Group
The University of Tokyo
Fisher
vector
ConvNet
(finetuning)
69
教師付データが十分あるか？
（少なくとも数万サンプル）
Yes

フルスクラッチCNN
◦ ランダムにパラメータ初期化
No
（逆でもいいかも）
ImageNetに含まれそうなタスクか？

Yes

Pre-trained feature (一番簡単)
Fine tuning
No


Deep learning はあきらめる？
頑張るなら：
◦ 教師なし事前学習
Nakayama Lab. ◦ Stackingによる深層モデル
Machine Perception Group
The University of Tokyo
70

ハードウェア
◦ 学習にはGPU計算機が必要（CUDAを利用）
◦ ビデオメモリの容量がボトルネックになる場合が多い
 メインメモリとの通信は遅い
 ネットワークのパラメータはもちろん、できるだけ多くの学習サンプル
をビデオメモリに積みたい

Titan Black （約15万円）

Tesla K20 (約40万円), K40 (約80万円)
◦ コストパフォーマンス的にお薦め
◦ 当研究室では、これを積んだPCが6台ほど
◦ より信頼性が高い
Nakayama Lab.
Machine Perception Group
The University of Tokyo
71

2012年頃から、著名な研究チームによる主導権争い
◦
◦
◦
◦

Caffe/Decaf： UC Berkeley
Theano/Pylearn2： Univ. Montreal
Torch7： Univ. New York
Cuda-convnet2: Univ. Toronto (Alex Krizhevsky)
いずれも、複数の便利な環境を提供
◦ C++, Python, Matlabインタフェース
◦ CPUとGPUの切り替えによる開発効率化
◦ ネットワークパラメータの設定・探索フレームワーク
Y. Jia et al., “Caffe: Convolutional Architecture for Fast Feature
Embedding”, ACM Multimedia Open Source Competition, 2014.
Nakayama Lab.
Machine Perception Group
The University of Tokyo
72

画像系ではデファクトスタンダード

多くの研究者が既に自分の研究に利用

Model Zoo
◦ トップクラスに高速
◦ オープンソースコミュニティとして確立しつつある
◦ Oxford visual geometry group など
◦ 各研究者の学習済みネットワークを共有
◦ AlexNetはもちろん、Network-in-network、GoogLeNet モデルなども
◦ 最新の成果を極めて容易に試せる
Nakayama Lab.
Machine Perception Group
The University of Tokyo
73

Webドキュメントが充実
http://caffe.berkeleyvision.org/
◦ ImageNet等の結果を再現可能
◦ IPython notebookによる
コード実例多数

ECCV 2014でのチュートリアル
◦ http://tutorial.caffe.berkeleyvision.org/
Nakayama Lab.
Machine Perception Group
The University of Tokyo
74
Nakayama Lab.
Machine Perception Group
The University of Tokyo
ECCV’14 チュートリアルスライド「DIY Deep Learning for Vision:
a Hands-On Tutorial with Caffe」より引用
75
Nakayama Lab.
Machine Perception Group
The University of Tokyo
ECCV’14 チュートリアルスライド「DIY Deep Learning for Vision:
a Hands-On Tutorial with Caffe」より引用
76
Nakayama Lab.
Machine Perception Group
The University of Tokyo
ECCV’14 チュートリアルスライド「DIY Deep Learning for Vision:
a Hands-On Tutorial with Caffe」より引用
77
Nakayama Lab.
Machine Perception Group
The University of Tokyo
ECCV’14 チュートリアルスライド「DIY Deep Learning for Vision:
a Hands-On Tutorial with Caffe」より引用
78


ネットワークの初期値をランダムに与える
誤差逆伝播法でパラメータ更新
◦ 適当な大きさのミニバッチでフィードフォワード・フィード
バックを繰り返す(100枚単位など）
◦ データをあらかじめシャッフルしておくこと
$ build/tools/convert_imageset --backend leveldb --shuffle 101_ObjectCategories/ ・・・
ミニバッチ
Yˆ
X
∇L
Nakayama Lab.
Machine Perception Group
The University of Tokyo
Source: [Smirnov et al., 2014]
79


ネットワーク構造（層、ニューロン数）
◦ ベストの構造を探り当てるのは大変だが、
一般的なものに従えば大外れはしない（と思う）
◦ Fine-tuningならほぼ全て流用
調整必須
オンライン学習 (SGD)
◦ 学習率、モメンタム、重み減衰率
Vt +1 = µVt − α∇L
Wt +1 = Wt + Vt +1
α
∇L
∆W
Vt
Nakayama Lab.
Machine Perception Group
The University of Tokyo
µ
マジック
ナンバー？
80

訓練誤差・予測誤差、過学習・正規化についての理解
が重要
◦ 訓練誤差：学習サンプルに対する誤差
◦ 予測誤差(汎化誤差)：未知の入力に対する誤差
検証用のサンプルで評価
×
×
×
×
×
Nakayama Lab.
Machine Perception Group
The University of Tokyo
×
×
×
過学習：訓練誤差は小さいが、予測
誤差が著しく大きい状況
=訓練サンプルに過度に適応
正規化：訓練サンプルに過度に適応
しないような制約条件を加える操作
81
I1120 11:27:09.007803
I1120 11:27:09.007859
I1120 11:27:17.979998
I1120 11:27:17.980051
I1120 11:27:18.068891
I1120 11:27:18.068940
I1120 11:27:18.068958
I1120 11:27:19.620609
I1120 11:27:28.556694
I1120 11:27:28.556756
I1120 11:27:28.634579
I1120 11:27:28.634629
I1120 11:27:28.634642
I1120 11:27:30.183964
I1120 11:27:39.118187
I1120 11:27:39.118242
I1120 11:27:39.196316
I1120 11:27:39.196364
I1120 11:27:39.196377
I1120 11:27:40.746333
I1120 11:27:49.677788
I1120 11:27:49.677836
I1120 11:27:49.755615
I1120 11:27:49.755662
I1120 11:27:49.755676
I1120 11:27:51.304983
I1120 11:28:00.235947
I1120 11:28:00.236030
I1120 11:28:00.313851
Nakayama Lab.
I1120 11:28:00.313899
Machine Perception Group
The University
of Tokyo
)
537 solver.cpp:160] Solving CaffeNet
537 solver.cpp:247] Iteration 0, Testing net (#0)
537 solver.cpp:298] Test net output #0: accuracy = 0.0048
537 solver.cpp:298] Test net output #1: loss = 5.01857 (* 1 = 5.01857 loss)
537 solver.cpp:191] Iteration 0, loss = 5.38866
537 solver.cpp:206] Train net output #0: loss = 5.38866 (* 1 = 5.38866 loss)
537 solver.cpp:403] Iteration 0, lr = 0.001
537 solver.cpp:247] Iteration 10, Testing net (#0)
537 solver.cpp:298] Test net output #0: accuracy = 0.1096
537 solver.cpp:298] Test net output #1: loss = 4.34054 (* 1 = 4.34054 loss)
537 solver.cpp:191] Iteration 10, loss = 5.02612
537 solver.cpp:206] Train net output #0: loss = 5.02612 (* 1 = 5.02612 loss)
537 solver.cpp:403] Iteration 10, lr = 0.001
537 solver.cpp:247] Iteration 20, Testing net (#0)
537 solver.cpp:298] Test net output #0: accuracy = 0.2762
537 solver.cpp:298] Test net output #1: loss = 3.7547 (* 1 = 3.7547 loss)
537 solver.cpp:191] Iteration 20, loss = 3.64996
537 solver.cpp:206] Train net output #0: loss = 3.64996 (* 1 = 3.64996 loss)
537 solver.cpp:403] Iteration 20, lr = 0.001
537 solver.cpp:247] Iteration 30, Testing net (#0)
537 solver.cpp:298] Test net output #0: accuracy = 0.4078
537 solver.cpp:298] Test net output #1: loss = 2.97932 (* 1 = 2.97932 loss)
537 solver.cpp:191] Iteration 30, loss = 3.5529
537 solver.cpp:206] Train net output #0: loss = 3.5529 (* 1 = 3.5529 loss)
537 solver.cpp:403] Iteration 30, lr = 0.001
537 solver.cpp:247] Iteration 40, Testing net (#0)
537 solver.cpp:298] Test net output #0: accuracy = 0.5382
537 solver.cpp:298] Test net output #1: loss = 2.32026 (* 1 = 2.32026 loss)
537 solver.cpp:191] Iteration 40, loss = 2.67447
537 solver.cpp:206] Train net output #0: loss = 2.67447 (* 1 = 2.67447 loss)
予測誤差
訓練誤差
82

訓練精度・予測精度がバランスよく上昇し、収束
識別精度
予測精度が訓練精
度のやや下で推移
訓練精度
予測精度
緩やかな指数関数的
カーブ
（数十～百エポックの間で
目に見える程度がよい）
Nakayama Lab.
Machine Perception Group
The University of Tokyo
エポック
（データを何周したか）
83
① 訓練誤差が減っていない
◦ 学習そのものが破綻
② 訓練誤差は減っているが、予測誤差が非常に大きい
◦ 過学習（オーバーフィッティング）
③ 訓練誤差と予測誤差がほとんど変わらない
◦ アンダーフィッティング
◦ 致命的ではないが、もったいない（もっと精度を上げられる）
Nakayama Lab.
Machine Perception Group
The University of Tokyo
84

学習そのものが破綻している (gradient explosion)
→
学習率を小さくする
誤差
エポック
Nakayama Lab.
Machine Perception Group
The University of Tokyo
85

しかし一筋縄ではいかない…

学習率が大きすぎる例

学習率が小さすぎる例
◦ すぐ頭打ちになる
◦ 途中で突然で破綻する
ことも多い
◦ おおむね線形に見える場合
◦ 最終的にいいところまで行くが、
時間がかかりすぎる
Nakayama Lab.
Machine Perception Group
The University of Tokyo
86

時間の経過(=学習の進行)に伴い、
学習率を小さくしていく操作

例）cuda-convnet チュートリアル (Krizhevsky)

単純に時間減衰させてもよい
◦ 0.001 (150エポック) → 0.0001 (10エポック) → 0.00001 (10エポック)
◦ 精度向上が頭打ちになったら下げてみる？
◦ 1/t, exp(-t) など
Nakayama Lab.
Machine Perception Group
The University of Tokyo
87

過学習（オーバーフィッティング）
→ 1. 正規化を強くする (dropout の割合を増やす）
2. ネットワークを小さくする(層、ニューロン数を減らす）
(3. データを増やす)
訓練精度
大きな
ギャップ
予測精度
Nakayama Lab.
Machine Perception Group
The University of Tokyo
88


アンダーフィッティング
モデルの表現能力が足りない
訓練精度
予測精度
→ ネットワークを大きくする
層数、ニューロン数を増やす
Nakayama Lab.
Machine Perception Group
The University of Tokyo
89

データの前処理（実はかなり重要）
◦ ZCA whitening （白色化）
コントラスト正規化など
◦ 最終的な識別性能に大きく影響する
[Zeiler and Fergus, 2013]

Data augmentation
◦ アフィン変換、クロップなど、人工的に
さまざまな変換を学習データに加える
◦ 不変性を学習させる
Nakayama Lab.
Machine Perception Group
The University of Tokyo
[Dosovitskiy et al., 2014]
90

１．画像認識分野におけるdeep learningの歴史
２．一般画像認識：Deep learning 以前と以後で何が変わったか

３．Deep learningの数理

４．実践するにあたって

５．今後の展望・研究動向

◦ Bag-of-visual-words
◦ 畳み込みニューラルネット (ConvNets)
◦ なぜ優れた性能が実現できるのか？
◦ ブレークスルーを生んだ各要素技術
◦ 適切利用するために必要な知識
◦ チューニングの勘所
◦ 中山研究室の研究事例
◦ 最新の研究動向
Nakayama Lab.
Machine Perception Group
The University of Tokyo
91
教師付データが十分あるか？
（少なくとも数万サンプル）
Yes

フルスクラッチCNN
◦ ランダムにパラメータ初期化
No
ImageNetに含まれそうなタスクか？

Yes

Pre-trained feature (一番簡単)
Fine tuning
No
?
Nakayama Lab.
Machine Perception Group
The University of Tokyo
92

限られた学習データからいかにして深い構造を得るか
◦ ディープラーニングの適用可能性を大きく広げる可能性
◦ 一般的な学習アプローチでは困難（極めて不安定）
◦ できるだけ安定・高速に、“そこそこよい“ネットワークを
事前学習したい
解析的かつ識別的なlayer-wiseネットワーク構築
Nakayama Lab.
Machine Perception Group
The University of Tokyo
93
G.-B. Huang et al., “Extreme Learning
Machine for Regression and Multiclass
Classification,” IEEE Trans. Systems,
Man, and Cybernetics, vol. 42, no. 2,
2011, pp. 513–529.

ランダム結合により中間層を生成した３層パーセプトロン
◦ カーネル法 (explicit embedding)とも密接に関連
Task-specific
analytical solution
Random
projection
http://www.ntu.edu.sg/home/egbhuang/
Nakayama Lab.
Machine Perception Group
The University of Tokyo
94

識別的解析解を用いたlayer-wiseな
畳み込みニューラルネットワーク
[Nakayama, BMVC’13]

先行研究に匹敵する性能
◦ 特にデータが学習データ少ない場合,
state-of-the-art
フィッシャー重みマップ
（空間構造の制約を
加えた線形判別分析）
Nakayama Lab.
Machine Perception Group
The University of Tokyo
95


PCA (主成分分析)、LDA (線形判別分析)等で
畳み込みフィルタを学習しても意外によい精度がでる
FWMが最もよい識別性能
Nakayama Lab.
Machine Perception Group
The University of Tokyo
96
Logistic
regression


一層ごとに固有値問題ベース
で畳み込み層を構築
各解像度ごとに中間特徴を抽
出し、ロジスティック回帰に
よる識別層を設置

ReLUによる活性は重要

もちろんFine-tuningも可能
Output
Average pooling
(Global)
ReLU
Convolution with FWM
Output
Average pooling
Average pooling
(Global)
ReLU
Output
Convolution with FWM
Average pooling
Average pooling
(Global)
Logistic
regression
Logistic
regression
ReLU
Convolution with FWM
ReLU
Random projection
or k-means filter
Nakayama Lab.
Machine Perception Group
The University of Tokyo
input
97

High performance on many benchmarks despite its simplicity
Classification accuracy (%)
(Without data augmentation)
68.8
62.7
Nakayama Lab.
Machine Perception Group
The University of Tokyo
98

ランダムに多数のネットワークを生成し、統合
◦
◦
◦
◦
畳み込みに用いる次元圧縮手法 (FWM, PCA, LDA, etc.)
学習サンプル
活性化関数
ネットワーク構造
＋

更なる精度向上を確認
・・・
Nakayama Lab.
Machine Perception Group
The University of Tokyo
99

Random forest + deep learning
◦ 二分木の分割関数をELMによる
autoencoderを用いて多層化
[岩本, SSII’15]

Multimodal deep learning の高速化
◦ クロスモーダルの学習に
ELMと解析的アプローチを導入
Nakayama Lab.
Machine Perception Group
The University of Tokyo
100

より難しい画像認識タスクへ

マルチモーダル学習

計画・行動へ

パターン生成

弱点の理解・可視化
◦ 物体検出
◦ セマンティック・セグメンテーション
◦ 画像・動画像の文章による説明
◦ 強化学習とのコラボレーション
Nakayama Lab.
Machine Perception Group
The University of Tokyo
101

R-CNN
[Girshick et al., CVPR’2014]
◦ 物体の領域候補を多数抽出（これ自体は別手法）
◦ 無理やり領域を正規化し、CNNで特徴抽出
◦ SVMで各領域を識別
Nakayama Lab.
Machine Perception Group
The University of Tokyo
R-CNNもCaffeと同じチームが開発・提供
（比較的簡単に試せます）
102
ランダムに選んだテスト画像の認識結果
（いいところだけ見せているのではない！）
Nakayama Lab.
Machine Perception Group
The University of Tokyo
Girshick et al., “Rich feature hierarchies for
accurate object detection and semantic
segmentation”, In arXiv, 2014.
103


基本構造はR-CNNと同じで、
CNN部分をGoogLeNetに置き換え
検出率（mAP、200クラス)
◦ ILSVRC 2013 winner： 22.6%
◦ R-CNN： 31.4%
◦ GoogLeNet： 43.9%
◦ Googleチームの続報(12月)： 55.7%
Szegedy et al., “Scalable, High-Quality Object Detection”,
In arXiv, 2014.
Nakayama Lab.
Machine Perception Group
The University of Tokyo
104

Semantic segmentation
◦ ピクセルレベルで物体領域を認識
◦ [Long et al., 2014]

Segmentation + Detection (同時最適化)
◦ [Hariharan et al., ECCV’14]
Nakayama Lab.
Machine Perception Group
The University of Tokyo
105

2014年11月、同時多発的にいろんなグループが発表

Google

Microsoft

Stanford

UC Berkeley

Univ. Toronto
◦ arXivで公開。おそらくCVPR 2015に投稿したもの。
◦ Recurrent Neural Network (RNN) が言語モデルとして大人気
◦ O. Vinyals et al., “Show and Tell: A Neural Image Caption Generator”, 2014.
◦ H. Fang et al., “From Captions to Visual Concepts and Back”, 2014.
◦ A. Karpathy and L. Fei-Fei, “Deep Visual-Semantic Alignments for Generating
Image Descriptions”, 2014.
◦ J. Donahue et al., “Long-term Recurrent Convolutional Networks for Visual
Recognition and Description”, 2014.
◦ R. Kiros et al., “Unifying Visual-Semantic Embeddings with Multimodal Neural
Language Models”, 2014
Nakayama Lab.
Machine Perception Group
The University of Tokyo
106

ConvNet (画像側)の出力をRNN(言語側)へ接続
◦ RNN側の誤差をConvNet側までフィードバック
O. Vinyals et al., “Show and Tell: A Neural Image Caption Generator”, 2014
Nakayama Lab.
Machine Perception Group
The University of Tokyo
107

領域ベース (RCNNを利用)
Nakayama Lab.
Machine Perception Group
The University of Tokyo
A. Karpathy and L. Fei-Fei, “Deep Visual-Semantic Alignments
for Generating Image Descriptions”, 2014.
108

複数のモダリティを一つの枠組で統合
◦ よりロバスト・汎用的な知能へ
（CVPR’12 チュートリアルスライドより引用）
Nakayama Lab.
Machine Perception Group
The University of Tokyo
109

共通の上位レイヤ(潜在空間)へマッピング [Kiros et al., 2014]
◦ 異なるモダリティ間での“演算”が可能
Nakayama Lab.
Machine Perception Group
The University of Tokyo
110
Nakayama Lab.
Machine Perception Group
The University of Tokyo
[Kiros et al., 2014]
111
Nakayama Lab.
Machine Perception Group
The University of Tokyo
[Kiros et al., 2014]
112

Bimodal Deep Autoencoder
[Ngiam et al., ICML’11]
◦ 音声 + 画像(唇)による発話音認識
◦ 音声側にノイズが大きい時にもロバスト
Nakayama Lab.
Machine Perception Group
The University of Tokyo
113

Deep Q-learning [Mnih et al, NIPS’13, Nature’15]
◦ DeepMind (Googleに買収されたベンチャー）の発表
◦ 強化学習の報酬系の入力に畳み込みネットワークを利用（生画像を入力）
◦ アタリのクラッシックゲームで人間を超える腕前
Nakayama Lab.
Machine Perception Group
The University of Tokyo
114
Deep learning の本質

実践方法
プーリング

◦ Bag-of-words → ConvNets
◦ 一層ごとの基本的な構造は同じ
◦ “作りこみ”から”データ任せ”へ
活性化関数
（非線形）
画像認識分野で deep learning がもたらした変化
畳み込み
（線形）

◦ 構造を深くすることにより、少ないパラメータで強い非線形変換を
表現できる
◦ 一層一層はできるだけシンプルにして、積み重ねる
◦ フルスクラッチ v.s. fine-tuning、pre-trained feature
◦ 訓練誤差・予測誤差の挙動をみながら、学習率に特に気を付けて
チューニング
Nakayama Lab.
Machine Perception Group
The University of Tokyo
115

ConvNetの巨大化による性能向上・新タスク応用はまだ続きそう

本質的には、依然としてConvNetの構造に依存している

より汎用的な人工知能へ近づくことはできるか？
◦ 入出力がきっちり定義されるタスクは基本的に得意
ただし学習データの有無がボトルネック
◦ 全結合ネットワークなどは今後成功するか？
◦ 真の意味でブラックボックスになるか？
◦ 深い意味構造の理解、記憶、思考、計画、創造…
Nakayama Lab.
Machine Perception Group
The University of Tokyo
116

Download Report