セミナー資料

ディープラーニング事例集
2015.5.26
XCompass Intelligence Ltd.
All Rights Reserved.
会社概要
 株式会社クロスコンパス(英名:XCompass Ltd.)
人工知能に特化した子会社を設立
=>株式会社クロスコンパス・インテリジェンス
XCompass Intelligence Ltd.
 設立年月日 2015年4月10日
 社員 常勤4名(5月より5名)、共同研究1名、人材大募集中!!!
 所在地
〒108-0014 東京都港区芝5-29-18 NBC三田ビル 7F
TEL: 050-3640-7621
URL: http://www.xcompass.com
(インテリジェンスのHPはまだありません!!)
機械学習・Neural Network、
特にDeep Learningを用いた研究開発にフォーカスしています。
2015/5/26現在、Googleで 「ディープラーニング ベンチャー」「ディープラーニング 会社」
で検索するとトップ表示。SEO皆無。
2
設立から今までの経緯
2012年 年末よりDeepLearning調査開始。
2013年 DeepLearning独自実装開始。DL関連研究開発案件受託開始。
2014年 第16回データウエアハウス&CRM EXPOに出展
(他に人工知能系の出展無し...そもそも筋違いのEXPOだった)
2014年 年末より研究開発案件および、パイロット(お試し)プロジェクト急増。
2015年 年明けからご相談ペース落ちず。
4/10新設分割により人工知能のみに特化した会社設立。
パイロットプロジェクトや研究開発系の事例はかなりあるが。。。
画像解析
NDAでなかなか
センサデータ
動画解析
言語処理
解析
発表できず...
その他
いろいろ
3
ご紹介できる事例
1. 公開データを用いた物体認識実験の結果
2. 公開データを用いた動作認識実験の結果
3. 時系列データ解析実験のあらまし
4. 開発サイクル
5. IX(Intelligence eXchange)について
6. USBカメラを用いた物体認識デモ
4
事例1:公開データを利用した物体認識実験
ILSVRC(ImageNet Large Scale Visual Recognition Competition)
2010年に始まった大規模画像認識のコンテストで、毎年識別率が1%ずつ程度上昇していた。
ところが、2012年にトロント大学のHinton先生のチームがDLを用いて圧倒的な成績で優勝。
5
実験
• データ:ILSVRC2012の一部
pen
monitor
pen
notebook
cup
keyboard
digital
watch
coffeemag
notebook
monitor
cup
wall clock
wall clock
mouse
keyboard
ipod
6
実験
環境
OS
CUDA Toolkit
GPU
64 bit Ubuntu 14.04.1 LTS
6.5
Tesla K20c, K40c
データ:ILSVRC2012の一部
クラス数
学習画像数
テスト画像数
画像サイズ
10 クラス限定
12,524 枚
500 枚
256 x 256 px
#
1
2
3
4
5
6
7
8
9
10
クラス名
n02783161 ballpoint, ballpoint pen, ballpen, Biro
n03063599 coffee mug
n03085013 computer keyboard, keypad
n03197337 digital watch
n03584254 iPod
n03782006 monitor
n03793489 mouse, computer mouse
n03832673 notebook, notebook computer
n04548280 wall clock
n07930864 cup
7
実験
学習回数の影響
学習回数
平均
(およそ)
0
10
30
50
70
90
10.0%
41.2%
57.4%
57.2%
57.6%
57.6%
2位ま
で
許容
19.8%
61.0%
78.6%
74.8%
75.2%
75.2%
クラス
7
14.0%
30.0%
28.0%
26.0%
26.0%
値
決定方法
227 x 227 px 画像より少し小さく設定
128 クラス数以上
切り取りサイズ
バッチサイズ
90 試行錯誤
学習回数(およそ)
全然違う
#
レイヤ
タイプ
フィルタ
数
出力
ノード数
活性化
関数
0
備考
データレイヤ
1 畳み込み
96
ReLU
Max-Pooling、LRN
80.0%
2 畳み込み
256
ReLU
Max-Pooling、LRN
60.0%
40.0%
3 畳み込み
4 畳み込み
384
384
ReLU
ReLU
20.0%
5 畳み込み
256
ReLU
100.0%
識別正解率
畳み込み
0.01 目的値が減少する値、試行錯誤
学習率
平均
2位まで許容
0.0%
0
20
40
60
学習回数
80
100
6 全結合
7 全結合
8 全結合
4096 ReLU
4096 ReLU
10 Softmax
入力
畳み込み
畳み込み
畳み込み
畳み込み
全結合
Max-Pooling、LRN
Dropout
Dropout
出力レイヤ
全結合
出力
8
実験
隠れノード数の影響
レイヤ数の影響
入力
隠れ
ノード数
畳み込み
平均
1
約10,000
57.6%
5
半分
50.6%
6
4分の1
47.0%
畳み込み
構造3
構造4
入力
入力
入力
畳み込み
畳み込み
畳み込み
畳み込み
畳み込み
畳み込み
畳み込み
畳み込み
畳み込み
畳み込み
100.0%
識別正解率(平均)
構造2
畳み込み
80.0%
100.0%
畳み込み
60.0%
40.0%
全結合
20.0%
0.0%
0
5000
10000
全結合
畳み込み
畳み込み
畳み込み
畳み込み
全結合
全結合
全結合
ノード数
出力
出力
出力
識別正解率(平均)
構造
隠れ
隠れ
構造 畳み込み 全結合
平均
レイヤ数 レイヤ数
1
5
2 57.6%
2
5
1 57.8%
3
5
0 53.8%
4
3
2 54.8%
90.0%
80.0%
70.0%
60.0%
50.0%
40.0%
出力
9
学習時間
構造
隠れ
畳み込み
レイヤ数
1
2
3
4
5
6
環境
1
2
3
隠れ
全結合
レイヤ数
5
5
5
3
5
5
12,524枚の画像X 90回学習
隠れ
ノード数
2
1
0
2
2
2
GPU
Tesla K40
GeForceGTX TITAN X
GeForceGTX TITAN X
GPU
構造1の半分
構造1の4分の1
K40
K20
K20
K20
K40
K40
CUDAToolkit
6.5
7.0
7.0
学習時間
約120分
約131分
約127分
約95分
約60分
約45分
cuDNN
×
×
○
クラス数
10 クラス
学習画像数
12,524 枚
テスト画像数
500 枚
画像サイズ
256 x 256 px
学習時間
約120分
約75分
約45分
ソフトウェア機能
Tesla K40
Tesla K20
最大倍精度浮動小数点性能
1.43 Tflops
1.17 Tflops
最大単精度浮動小数点性能
4.29 Tflops
3.52 Tflops
メモリバンド幅 (ECCオフ)
288 GB/秒
208 GB/秒
メモリサイズ (GDDR5)
12 GB
5 GB
CUDAコア
2880
2496
10
事例2:公開データを利用した動作識別実験
人間動作データベース:KTH dataset
•
•
人間動作 6 種類 (歩き、ジョギング、走り、ボクシング、手振り、拍手)
各動作が 25 人、4 環境で4回繰り返して行われている
–
–
–
–
•
•
•
リサイズ
時系列
d1: 屋外、Static homogenous background
d2: 屋外、Static homogenous background + 色々なスケール
d3: 屋外、Static homogenous background + 色々な服
d4: 屋内、Static homogenous background + 色々な照明
1回の動作は約4秒 (25fpsで約100フレーム)
解像度が160x120 px (4:3)
データ元:http://www.nada.kth.se/cvap/actions/ [1]
サンプル画像
移動のある動作も、
カメラは固定して撮影する
走り
11
事例2:公開データを利用した動作識別実験
実験データ作成:人間動作データベース (KTH dataset)
•
100x100pxにリサイズ
リサイズ
– 正方形にリサイズ
•
•
•
•
利用ライブラリの制約
画像の解像度割合を4:3に
合わせればテスト可能
25fpsでフレーム分割
時系列画像の作成
– 動作時間の短い走り動作に合わせて
35フレームずつ選択し
– 2フレーム毎合計16フレームから作成
• 2フレーム毎でも人間の目は区別できる
• 利用ライブラリの制約(16で割り切る)
•
学習とテストデータに分割
– [1] に合わせて以下のように分割
•
•
•
学習用 8 人
検証用 8 人 (今回は学習に追加)
テスト用 9 人
– 右表のように学習・検証・テスト
の各動作は最小フレーム数に合わせる
•
•
時系列
静止画像フレーム数
= 6,000枚 x 6動作 x 3 = 108,000枚
時系列画像フレーム数
= 1,900枚 x 6動作 x 3 = 34,200枚
静止画像フレーム数
学習
検証 テスト
boxing
15092 13297 15269
handclapping
13167
14099
14806
handwaving
jogging
running
walking
16579
8943
6371
14820
17026
8639
6207
13863
17755
9615
6987
15055
時系列画像フレーム数
boxing
学習
検証 テスト
10808
8945 10407
handclapping
8951
9747
9920
handwaving
jogging
running
walking
12295
4591
2041
10468
12674
4287
1913
9511
12859
4719
2119
10159
学習データ = 16人分
テストデータ= 9人分
12
実験結果
•
CNN
– 時系列画像の方が正解率が高い傾向がある
CNN、レイヤ数7、実験結果
•
CNN、レイヤ数7、時系列画像、実験結果
CNNによるSiameseNNW


静止画像の分布
時系列画像の分布
静止画像の分布、d1-d4、約1000epoch (約19時間)
学習データ
テストデータ
時系列画像の分布、d1-d4、約1000epoch (約12時間)
学習データ
テストデータ
13
Siamese Network
•
•
•
パラメータを共有する同じ形NNW2つと距離関数の目的関数で構成される
学習時、ペアデータによってNNWを学習する
使用時、片方NNWによる出力でデータ分布を作成し、
従来手法の最近傍探索などと組み合わせて分類問題に応用できる
学習時
sample
ラベルが一致すれば、
距離が0になるように
ラベルが一致しなけれ
ば、
距離が1になるように
学習を行う
使用時
sample
14
事例3:センサデータ解析実験のあらまし
■前提:異常なパターンは正常なパターンに比較して圧倒的に発生頻度が少ない
センサ出力をAutoEncoderで教師なし学習させる
sensorからの出力
時間
sensor-1
sensor-2
...
...
N次元時系列データ
sensor-N
異常発生期間
正
常
正常なパターンは再現率が高い
異
常
異常なパターンは再現率が低い
AutoEncoder
どのようなNNW構造が最適なのかを見極める必要があるが期待は大きい
15
Intelligence eXchangeの紹介
NNWの学習には大量の計算リソースを必要としており、GPGPUに対する期待は大きい。しかし、今現在
GPGPUの提供を目的としたGPU Readyなクラウド環境は十分整備されているとはいえない。プラット
フォームがあれば「機械が利用可能な知識=学習済みNNW」のリポジトリの中心に位置することが可能
ではないか。
誰もが「(Deep)NNW」を構築し、学習させ、既に存在する「学習済
みNNW」を組み合わせて利用することができる仕組みを提供し、さら
に「学習済みNNW」を流通させるためのプラットフォームを
Intelligence eXchange
略して IX と呼ぶ。
株式会社クロスコンパス・インテリジェンスはIXを通して、様々
な事業会社様との連携を構築していきます。
16
開発サイクル
弊社+お客様担当
弊社担当
1:課題設定(コンサルフェーズ)
2:探索
期間:1か月
期間:1か月
•
•
•
•
•
•
契約(NDA等)
実現目標決定
サンプルデータ確認
開発期間決定
処理概要ご提案
概算見積もり等決定
•
•
•
データ収集(お客様)・確認・調査
目標設定(継続・成功判定基準)
解析/処理手法検討・選定
 前処理検討
 DNNW処理方式検討
 その他の方法検討
4:検証
3:実験・実装
期間:1、2週間
期間:2か月
•
•
•
納品・検収(納品物がある場合)
報告会
継続判定
 サービスイン
 継続研究開発
 打ち切り
•
•
前処理実装
機能実装と実験の反復
•
レポート作成
17
IXの系統
Core-IXは他のIX(=Node-IX)のハブであり、中心である。Node-IXで利用する基本アルゴリズムを提供し、Core-IXは
Node-IXで蓄積された全てのプライベートを除くNNWにアクセス可能である。Node-IXは業種毎に特化したI/F(API含
む)を実装し、解析に必要なリソースを提供するものとする。各Node-IXで作成された学習済みNNWは、提供者が設定し
た価格によってIXの世界を流通させることができる。蓄積されたビッグデータの価値化や、無償サービスのマネタイズ等、活用
範囲は広大である。
Marketing-IX
Service-IX
販売予測・ユーザ行動分
析・商圏分析・その他
エンターテインメント応用・
WebAPIサービス
Partner&XCI
ITSP&XCI
Medical-IX
疾病予測・生活改善サポー
ト・その他
Education-IX
学習支援・自動翻訳・その
他
Patner&XCI
Core-IX
Construction-IX
制震・その他
Patner&XCI
画像認識・音声認識・自然
言語処理・時系列データ処
理・記憶・群知能・創発
Patner&XCI
Agri-IX
最適環境制御・その他
EndUser
Partner&XCI
Partner&XCI
Manufacturing-IX
工場自動化・故障検知・故
障予知・自動走行・センサ
解析・その他
Partner&XCI
Partner&XCI
Resource-IX
デマンドレスポンス・太陽光
発電予測・その他
Express-IX
経路探索・燃料最適化・
その他
18
demonstration
USB
Camera
MacBook Pro
Coffee Mag
Cup
Mouse
Notebook
Monitor
Monitor
iPod
Mouse
wall clock
Cup
一喜一憂す
る
19