Deep Learningベースの 画像認識エンジンのご提案 - G-DEP

Deep Learning
モバイルイメージングへの応用
2015年5月26日
株式会社モルフォ
概要
1. 会社紹介(10分)
2. Deep Learningに関する取組み(40分)
2
Copyright © 2015 Morpho,Inc. All Rights Reserved.
モルフォ
 東大発ベンチャーとしてスタート
 設立11年
 7年目マザーズ上場
 実用的な画像処理技術が強み
 従業員数60人弱の研究・開発型組織
3
Copyright © 2015 Morpho,Inc. All Rights Reserved.
ビジネスモデル
 主要事業:B2B向け画像処理技術ソフトウェア・ライセンス事業
 対象市場:国内外の携帯電話端末市場を中心に、デジタルカメラ・画像関連サービス市場等
組込最終製品が携帯電話の場合
モ
ル
フ
ォ
半
導
体
製
造
メ
ー
カ
様
LSIの販売
対価
携
帯
電
話
端
末
機
器
メ
ー
カ
様
端末の開発
及び販売等
開発費及び
端末代金等
端末の販売
及び通信等の
各種サービス
通
信
事
業
者
様
端末代金及び
通信料等支払い
一
般
利
用
者
(
ユ
ー
ザ
)
ソフトウェアの利用許諾や、ソフトウェア開発サポート・保守サポート等の役務提供の流れ
ライセンス料、開発費、技術サポート等による対価の流れ
4
Copyright © 2015 Morpho,Inc. All Rights Reserved.
モバイルイメージング技術
Shoot
3S
Show
Search
撮る
見る
探す
手ブレ補正
パノラマ撮影
HDR撮影/WDR補正
ノイズ除去
高速画像ビューワ
新たな
付加価値
創出へ
シーン認識※
タグ付け※
物体検出
※Deep Learning技術の応用
5
Copyright © 2015 Morpho,Inc. All Rights Reserved.
世界トップレベルのソフトウェア技術力
 グローバルな成功と実績
 主要な海外取引先
 Samsung, Motorola, LG, HTC, Huawei, Lenovo 等
 海外売上高比率は前期80%超
 日本を代表するリーンスタートアップ企業
 アジャイル手法によるスピーディな開発
 柔軟かつ手厚いサポート体制
Huawei アワード受賞
Sony Mobile Communications アワード受賞
6
Copyright © 2015 Morpho,Inc. All Rights Reserved.
スマートフォンでの採用実績例
Optimus G2/ G Pro
Morpho HDR™
PhotoSolid®
MovieSolid®
Morpho Denoiser ™
Morpho Video Denoiser ™
Morpho Panorama ™
Mopho Panorama GP ™
Moto G
Morpho HDR™
Morpho Video Denoiser ™
Moto E
Morpho HDR™
DIGNO M
Morpho HDR™
PhotoSolid®
MovieSolid®
Morpho Defocus ™
Morpho EffectLibrary ™
Morpho FilerEngine™
PhotoScouter ®
Galaxy Note 3
Morpho Panorama ™ Morpho Hyperlapse ™
9
Huawei など他多数…
7
Galaxy S6/S6 edge
割は海外顧客
Copyright © 2015 Morpho,Inc. All Rights Reserved.
モルフォ製品の携帯端末への搭載実績
 国内外での搭載ライセンス数は累計11億ライセンスを超えています。
 特に、2013年以降だけで5億ライセンスと急激に伸びています。
15億
10億
5億
0
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
参考:「モルフォ製品の累計ライセンス数が10億ライセンスを突破」、モルフォ社プレスリリース、2015/3/13
8
Copyright © 2015 Morpho,Inc. All Rights Reserved.
Computational Photography
画像処理を前提とした写真撮影
カメラの物理的・光学的な限界から生じる課題を軽減・解決することを目的とした技術
スマートフォンカメラ
の課題
モルフォの課題解決
ソリューション
手ブレ発生(多)
手ブレ補正技術
ノイズ(多)
ノイズ除去技術
レンズ組合せ(限定的)
レンズ収差(大)
歪補正(研究開発中)
レンズの長さ(短)
光学ズーム倍率(小)
超解像化技術
広角撮影範囲(有限)
パノラマ合成技術
被写界深度(浅難)
背景ぼかし技術
ダイナミックレンジ(小)
HDR合成技術
スマートフォン搭載カメラの特性
物理特性
レンズの口径(小)
フラッシュの光量(小)
レンズ交換可否(不可)
光学特性
入光量(小)
シャッタースピード
(遅)
照射範囲(短)
感度アップ必要性
(大)
広角レンズ(不可)
撮像素子サイズ(小)
焦点距離(短)
1画素あたりの
撮像素子のサイズ(小)
9
Copyright © 2015 Morpho,Inc. All Rights Reserved.
SOFTGYRO®
モバイルイメージングの根幹
ハードウェア(ジャイロセンサー等)
ソフトウェア(SOFTGYRO®)
容積
✖
追加部品搭載が必要
〇
追加部品搭載が不要
コスト
✖
比較的高価
〇
比較的安価
ブレ
補正
✖ 2自由度での補正
(右下図:①+②)
〇 6自由度までの補正が可能
(右下図:①+②+③+④+⑤+⑥)
動被写体の動きとカメラの動き量を計算可能
動き検出
2自由度:①+②
6自由度:①+②+③+④+⑤+⑥
③前後ブレ
+
④回転ブレ
10
⑥縦ブレ
+
②回転ブレ
⑤横ブレ
+
①回転ブレ
Copyright © 2015 Morpho,Inc. All Rights Reserved.
世界トップレベルの動画ブレ補正
11
Copyright © 2015 Morpho,Inc. All Rights Reserved.
モバイルイメージングとGPU
12
Copyright © 2015 Morpho,Inc. All Rights Reserved.
Deep Learningに関する取組み
13
Copyright © 2015 Morpho,Inc. All Rights Reserved.
Deep Learningへのアプローチ
 どんなデバイスでも認識
 サーバ側のみで学習
NVIDIA DIGITS
+
Caffe
+
α
入力データ
認識
モデル
学習
+
タブレット
PC
等々
・
・
・・・
・・
・・
・・
14
Copyright © 2015 Morpho,Inc. All Rights Reserved.
NVIDIA DIGITS
 Caffeベース
効率的な実装と拡張性
最新の研究成果との比較
 可視化
学習誤差と予測誤差の可視化
学習率の推移
 シンプルなインターフェイス
プラットフォーム依存しない非常に軽い学習インターフェイス
専門的なエンジニアでなくても使える
15
Copyright © 2015 Morpho,Inc. All Rights Reserved.
Deep Learning 取組み事例
認識器のワンストップ提供
・フォトストレージサービス事業者様向け、自動画像分類(タグ付け)用途
・医療、建設業界向け、画像診断用途
・不正画像フィルター用途
学習環境の提供およびコンサルティング
・フォトストレージサービス事業者様向け、独自自動画像分類用途
・研究開発機関向け
16
Copyright © 2015 Morpho,Inc. All Rights Reserved.
国内ビジネスパートナー
• フォトストレージ
情報通信産業
(3社)
• フォトストレージ
• フォトギャラリー
• ウェブプリント
デジタルカメラ
(1社)
• フォトストレージ
• フィルタリング
• デジタルマーケティング
ウェブ
(3社)
• 検査
• 診断
非IT産業
(2社)
17
Copyright © 2015 Morpho,Inc. All Rights Reserved.
画像とDeep Learning
114, 110, 103, 102, …
114, 106, 104, 102, …
109, 106, 107, 104, …
92, 90, 86, 87, …
81, 82, 80, 73, …
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
画像提供 ©amanaimages
.
.
.
.
.
.
特徴量抽出
.
Deep Convolutional
.
アルゴリズム
.
.
.
.
.
18
機械学習
Neural Network
アルゴリズム
猫
Copyright © 2015 Morpho,Inc. All Rights Reserved.
Convolutional Neural Network(LeNet)
convolution
pooling
convolution
pooling
fully connected
人
室内
花
・
・
・
特徴量抽出
全結合層
19
Copyright © 2015 Morpho,Inc. All Rights Reserved.
特徴量抽出
Convolution
Pooling
-1 0 1
-2 0 2
-1 0 1
-1 -2 -1
0 0 0
1 2 1
⇒
11
20
50
54
4
5
3
77
4
70
20
22
10
⇒
20
44
34
20
77
70
44
Max pooling
10
46
26
30
Average pooling
•
•
•
特定のパターンを抽出
フィルタの大きさ・ステップ幅次第で次元数を増減できる
フィルタ数次第でパラメータ数を増減できる
画像提供 ©amanaimages
•
•
20
フィルタの大きさ・ステップ幅次第で次元数を減らせる
局所的な不変性を得られる
Copyright © 2015 Morpho,Inc. All Rights Reserved.
一般画像認識
画像認識
速い
計算処理の重さ
物体検出
猫
遅い
易しい
セグメンテーション
問題の難しさ
難しい
画像提供 ©amanaimages
21
Copyright © 2015 Morpho,Inc. All Rights Reserved.
モルフォの強み
Deep Learningのシーン認識器をすでに実用化
 高い認識率と高速処理を実現
 スマートフォン上で動作する軽量な認識器から、
サーバ上で動作する高認識率の認識器まで幅広い用途に対応可能
認識器アーキテクチャの性能
高
Google, Microsoft,
Baidu, Facebook etc.
認識率
Deep Learning
Morpho スマートフォン向け
シーン認識エンジン
Morphoで
対応可能
従来技術(SVM等)
低
高
(サーバ向け)
計算コスト
22
低
(スマートフォン向け)
Copyright © 2015 Morpho,Inc. All Rights Reserved.
どこに写真を保存していますか?
これから
•クラウドストレージも主要な保存先に
今まで
•SDカード/CD/DVD/Blurayなどのメディア
•PCのハードディスク
23
Copyright © 2015 Morpho,Inc. All Rights Reserved.
どの保存先にどの写真を保存したか分からない!
24
Copyright © 2015 Morpho,Inc. All Rights Reserved.
これからは全てを連携する世界
クラウド
•保存
•画像認識による
タグ付け/分類
?
•閲覧/検索
•撮影(スマフォ)
•撮影
デジタルカメラ
スマフォ/PC
25
Copyright © 2015 Morpho,Inc. All Rights Reserved.
どのように写真を整理するか?
 今まで
時刻データ、GPS情報(ジオタグ)による整理
PCのディレクトリに手動で整理
 これから
平賀
整理のAI化(Deep Learning)
赤ちゃん
 顔認識技術によるフェイスタグ
 画像認識・時刻データ・GPS情報による自動/半自動タグ付け
複数ストレージをまたがった検索
26
Copyright © 2015 Morpho,Inc. All Rights Reserved.
Deep Learning on Smartphones
27
Copyright © 2015 Morpho,Inc. All Rights Reserved.
Deep Learning実用化のポイント
 大量のデータ
ネットワーク
デザイン
 シンプルなモデル/ネットワーク
 効率的な学習・認識
検証
開発プロセス
学習データ選定
コーディング
学習
28
Copyright © 2015 Morpho,Inc. All Rights Reserved.
データと機械学習
2012年
Deep Learning
認
識
率
他の機械学習技術
データ量
※引用先: RSS2014 Andrew Ng
29
29
Copyright © 2015 Morpho,Inc.
All Rights Reserved.
データの重要性① ラベルのコスト
 例:シーン認識(画像分類)
1200万画像 x 1000ラベル x 0.1円 = 12億円!
 画像アノテーションコスト
<
画像分類
ラベル:男性・屋内
<
物体検出
ラベル:顔・男性
30
セグメンテーション
ラベル:顔
Copyright © 2015 Morpho,Inc. All Rights Reserved.
データの重要性② データ収集は大変
 大量ラベルの集め方
一般向け(B2C) :クラウドソーシングやウェブ
専門家向け(B2B) :独自のシステム
 医療・建設業界などの専門的なデータ
等
オープンリソース(研究開発目的):
オープンでもNG:
(非商用でもダメ、サービスに貢献する場合のみOK)
31
Copyright © 2015 Morpho,Inc. All Rights Reserved.
マルチラベルアノテーション
● 人
● 男
● 女
● 家族
● 赤ちゃん
● 食事
● ステーキ
● 皿
● 屋内
● 魚
● お吸い物
・・・
32
Copyright © 2015 Morpho,Inc. All Rights Reserved.
カテゴリの特性を活かしたアノテーション
[Deng+,2014]
33
Copyright © 2015 Morpho,Inc. All Rights Reserved.
効率的なアノテーションアルゴリズム
アルゴリズム概要
[Deng+,2014]
1. 自動的に質問を選択(大きなカテゴリから小さいものへ)
2. カテゴリ特性(Hierarchy, Sparsity, Correlation)を利用して質問を絞る
3. すべての画像が終わるまで繰り返す
Amazon Mechanical Turkを使い、2万枚・200カテゴリのラベル付けで
コストは6分の1に
34
Copyright © 2015 Morpho,Inc. All Rights Reserved.
大量のデータ:まとめ
 現状
データのパワーゲームだが、効率化の余地はまだまだある
アノテーションコストの軽減
データの前処理による補完
難しいのはどれだけの学習データが必要かの判断
 将来
ここ数年は、半自動・半教師学習によるデータ収集の効率化
 少ないラベルと、沢山のラベルなしデータの利用など
それより先は、ほぼ全自動・教師なし学習による完全自律型の学習になる可能性が高い
35
Copyright © 2015 Morpho,Inc. All Rights Reserved.
シンプルなモデル
層の深さとパラメータ数
2012年
AlexNet
15層
層は増え
2014年
GoogLeNet
TOP5最少エラー率16.4% 約6000万パラメータ
パラメータ数は減るが精度は上がる
40層 TOP5最少エラー率6.7%
36
約700万パラメータ
Copyright © 2015 Morpho,Inc. All Rights Reserved.
シンプルなモデル
特徴量抽出と認識のパラメータ量比較
AlexNet2012
合計約6000万パラメータ
特
徴
量
抽
出
GoogLeNet2014
全結合層(約96%)
合計約700万パラメータ
特徴量抽出
37
全結合層
(約15%)
Copyright © 2015 Morpho,Inc. All Rights Reserved.
シンプルなモデル
Network-In-Network: よりシンプルな層を重ねることでより非線形に
Linear convolution layer
Network-in-network
[Lin+,CoRR2013]・NUS
inception
[Szegedy+,CoRR2014]・Google
38
Copyright © 2015 Morpho,Inc. All Rights Reserved.
シンプルなモデル
Parametric Rectified Linear Unit: マイナス信号も考慮する線形活性化関数
[He+,CoRR2015]・Microsoft
ReLU
Dropout: 過学習対策として非常に効果的
PReLU
[Srivastava+,JMLR2014]
39
Copyright © 2015 Morpho,Inc. All Rights Reserved.
シンプルなモデル:まとめ
 ひとつひとつはシンプルだが、まだまだ決定すべきパラメータが多い
Convolutionフィルタの数・大きさ・ステップ幅
Poolingフィルタの大きさ・ステップ幅
層の深さ
特徴量抽出・全結合層の厚み
初期化の方法
Dropoutの割合
などなど
デバイスに応じた、問題に応じたモデルのデザインが成功条件
40
Copyright © 2015 Morpho,Inc. All Rights Reserved.
学習の効率化
 High Performance Computingの必要性
急増する学習時間
PC1台+Titan Black GPU1枚で1000カテゴリ画像認識を学習するのに学習画像1千万枚を
超えると1週間以上は確実・・・
理想的にはサーバ側で複数台のPC・GPUを使って効率化
・・
・・
・・
・・
引用先:http://www.atmarkit.co.jp/fnetwork/tokusyuu/51ib01/01.html
41
Copyright © 2015 Morpho,Inc. All Rights Reserved.
学習効率化①:データ分散
各バッチごとの画像セットを分散
全結合層
W
W
同期
特徴量抽出層
画像2
画像1
同じPC上の異
なるGPUで
②
①
①
42
Copyright © 2015 Morpho,Inc. All Rights Reserved.
学習効率化①:データ分散
各バッチごとの画像セットを分散
全結合層
W
W
同期
特徴量抽出層
画像2
画像1
異なるPC上で
②
①
43
Copyright © 2015 Morpho,Inc. All Rights Reserved.
学習効率化②:モデル分散
モデル自体を分散
全結合層
W
特徴量抽出層
画像1
異なるPC上で
②
①
44
Copyright © 2015 Morpho,Inc. All Rights Reserved.
学習効率化②:モデル分散
モデル自体を分散
全結合層
W
特徴量抽出層
画像1
同じPC上の異
なるGPUで
①
②
45
Copyright © 2015 Morpho,Inc. All Rights Reserved.
学習効率化③:データ+モデル分散
モデルも、各バッチごとの画像セットも分散
[Krizhevsky,CoRR2014]・Google
𝑾𝟏 𝒇𝒄
𝑾𝟐 𝒇𝒄
同期
全結合層
同期
𝑾𝒄𝒐𝒏𝒗
𝑾𝒄𝒐𝒏𝒗
同期
特徴量抽出層
画像2
画像1
異なるPC上で
②
①
46
Copyright © 2015 Morpho,Inc. All Rights Reserved.
学習効率化:まとめ
学習の分散効率化 → 研究開発の効率化
モデルの大きさ
大
モデル
分散
モデル
+
データ
分散
分散効率
が低い
データ
分散
小
多
少
データ量
47
Copyright © 2015 Morpho,Inc. All Rights Reserved.
更なる効率化手段
 【学習】バッチ正規化
[Ioffe+,CoRR2015]・Google
学習効率を最大14倍高速化
 【認識】複数モデルを統合し簡易化
[Hinton+,CoRR2015]・Google
48
Copyright © 2015 Morpho,Inc. All Rights Reserved.
今後の取組み
 実用に基づいた研究開発
 多種多様な認識タスク
 よりシンプルで効率的なインターフェイス
学習・認識を高速化・効率化
より多彩な認識タスクへの対応
 特定物体認識、物体検出に対応
 画像とテキスト情報を合わせて学習・認識
(例:画像+Exif情報)
動画対応
 静止画像だけでなく、動画対応することで認識技術応用の幅を拡大
49
Copyright © 2015 Morpho,Inc. All Rights Reserved.
会社概要
(2015年1月29日現在)
社名
株式会社モルフォ ( Morpho, Inc. )
設立年月日
2004年5月26日
資本金
852,870千円
事業内容
画像処理技術の研究開発および製品開発ならびにライセンシング
所在地
東京都千代田区西神田3-8-1 千代田ファーストビル東館12階
代 表 取 締 役
平
常 務 取 締 役
染
取
役
漆
山
正
幸
社 外 取 締 役
木
下
耕
太
社 外 監 査 役 (常勤) 能
勢
征
児
社 外 監 査 役
上
原
将
人 (公認会計士)
社 外 監 査 役
平
野
高
志 (弁護士)
最高技術顧問
東京大学名誉教授
國
井
利
泰
従業員数
59名
主要株主
株式会社NTTドコモ
平賀 督基
主要取引銀行
三菱東京UFJ銀行
みずほ銀行
役員
締
賀
谷
督
謙
太
基
朗
上場金融商品取引所 東京証券取引所マザーズ(証券コード:3653)(上場日:2011年7月21日)
情報セキュリティマネジメント
ISO27001認証取得(JQA-IM0922)
51
Copyright © 2015 Morpho,Inc. All Rights Reserved.
お問い合わせ先
 ✉ m-info-sales[at]morphoinc.com
 ☎ +81 3 3288 3240
 📠 +81 3 3288 3340
52
Copyright © 2015 Morpho,Inc. All Rights Reserved.