ディープラーニング事例集 2015.5.26 XCompass Intelligence Ltd. All Rights Reserved. 会社概要 株式会社クロスコンパス(英名:XCompass Ltd.) 人工知能に特化した子会社を設立 =>株式会社クロスコンパス・インテリジェンス XCompass Intelligence Ltd. 設立年月日 2015年4月10日 社員 常勤4名(5月より5名)、共同研究1名、人材大募集中!!! 所在地 〒108-0014 東京都港区芝5-29-18 NBC三田ビル 7F TEL: 050-3640-7621 URL: http://www.xcompass.com (インテリジェンスのHPはまだありません!!) 機械学習・Neural Network、 特にDeep Learningを用いた研究開発にフォーカスしています。 2015/5/26現在、Googleで 「ディープラーニング ベンチャー」「ディープラーニング 会社」 で検索するとトップ表示。SEO皆無。 2 設立から今までの経緯 2012年 年末よりDeepLearning調査開始。 2013年 DeepLearning独自実装開始。DL関連研究開発案件受託開始。 2014年 第16回データウエアハウス&CRM EXPOに出展 (他に人工知能系の出展無し...そもそも筋違いのEXPOだった) 2014年 年末より研究開発案件および、パイロット(お試し)プロジェクト急増。 2015年 年明けからご相談ペース落ちず。 4/10新設分割により人工知能のみに特化した会社設立。 パイロットプロジェクトや研究開発系の事例はかなりあるが。。。 画像解析 NDAでなかなか センサデータ 動画解析 言語処理 解析 発表できず... その他 いろいろ 3 ご紹介できる事例 1. 公開データを用いた物体認識実験の結果 2. 公開データを用いた動作認識実験の結果 3. 時系列データ解析実験のあらまし 4. 開発サイクル 5. IX(Intelligence eXchange)について 6. USBカメラを用いた物体認識デモ 4 事例1:公開データを利用した物体認識実験 ILSVRC(ImageNet Large Scale Visual Recognition Competition) 2010年に始まった大規模画像認識のコンテストで、毎年識別率が1%ずつ程度上昇していた。 ところが、2012年にトロント大学のHinton先生のチームがDLを用いて圧倒的な成績で優勝。 5 実験 • データ:ILSVRC2012の一部 pen monitor pen notebook cup keyboard digital watch coffeemag notebook monitor cup wall clock wall clock mouse keyboard ipod 6 実験 環境 OS CUDA Toolkit GPU 64 bit Ubuntu 14.04.1 LTS 6.5 Tesla K20c, K40c データ:ILSVRC2012の一部 クラス数 学習画像数 テスト画像数 画像サイズ 10 クラス限定 12,524 枚 500 枚 256 x 256 px # 1 2 3 4 5 6 7 8 9 10 クラス名 n02783161 ballpoint, ballpoint pen, ballpen, Biro n03063599 coffee mug n03085013 computer keyboard, keypad n03197337 digital watch n03584254 iPod n03782006 monitor n03793489 mouse, computer mouse n03832673 notebook, notebook computer n04548280 wall clock n07930864 cup 7 実験 学習回数の影響 学習回数 平均 (およそ) 0 10 30 50 70 90 10.0% 41.2% 57.4% 57.2% 57.6% 57.6% 2位ま で 許容 19.8% 61.0% 78.6% 74.8% 75.2% 75.2% クラス 7 14.0% 30.0% 28.0% 26.0% 26.0% 値 決定方法 227 x 227 px 画像より少し小さく設定 128 クラス数以上 切り取りサイズ バッチサイズ 90 試行錯誤 学習回数(およそ) 全然違う # レイヤ タイプ フィルタ 数 出力 ノード数 活性化 関数 0 備考 データレイヤ 1 畳み込み 96 ReLU Max-Pooling、LRN 80.0% 2 畳み込み 256 ReLU Max-Pooling、LRN 60.0% 40.0% 3 畳み込み 4 畳み込み 384 384 ReLU ReLU 20.0% 5 畳み込み 256 ReLU 100.0% 識別正解率 畳み込み 0.01 目的値が減少する値、試行錯誤 学習率 平均 2位まで許容 0.0% 0 20 40 60 学習回数 80 100 6 全結合 7 全結合 8 全結合 4096 ReLU 4096 ReLU 10 Softmax 入力 畳み込み 畳み込み 畳み込み 畳み込み 全結合 Max-Pooling、LRN Dropout Dropout 出力レイヤ 全結合 出力 8 実験 隠れノード数の影響 レイヤ数の影響 入力 隠れ ノード数 畳み込み 平均 1 約10,000 57.6% 5 半分 50.6% 6 4分の1 47.0% 畳み込み 構造3 構造4 入力 入力 入力 畳み込み 畳み込み 畳み込み 畳み込み 畳み込み 畳み込み 畳み込み 畳み込み 畳み込み 畳み込み 100.0% 識別正解率(平均) 構造2 畳み込み 80.0% 100.0% 畳み込み 60.0% 40.0% 全結合 20.0% 0.0% 0 5000 10000 全結合 畳み込み 畳み込み 畳み込み 畳み込み 全結合 全結合 全結合 ノード数 出力 出力 出力 識別正解率(平均) 構造 隠れ 隠れ 構造 畳み込み 全結合 平均 レイヤ数 レイヤ数 1 5 2 57.6% 2 5 1 57.8% 3 5 0 53.8% 4 3 2 54.8% 90.0% 80.0% 70.0% 60.0% 50.0% 40.0% 出力 9 学習時間 構造 隠れ 畳み込み レイヤ数 1 2 3 4 5 6 環境 1 2 3 隠れ 全結合 レイヤ数 5 5 5 3 5 5 12,524枚の画像X 90回学習 隠れ ノード数 2 1 0 2 2 2 GPU Tesla K40 GeForceGTX TITAN X GeForceGTX TITAN X GPU 構造1の半分 構造1の4分の1 K40 K20 K20 K20 K40 K40 CUDAToolkit 6.5 7.0 7.0 学習時間 約120分 約131分 約127分 約95分 約60分 約45分 cuDNN × × ○ クラス数 10 クラス 学習画像数 12,524 枚 テスト画像数 500 枚 画像サイズ 256 x 256 px 学習時間 約120分 約75分 約45分 ソフトウェア機能 Tesla K40 Tesla K20 最大倍精度浮動小数点性能 1.43 Tflops 1.17 Tflops 最大単精度浮動小数点性能 4.29 Tflops 3.52 Tflops メモリバンド幅 (ECCオフ) 288 GB/秒 208 GB/秒 メモリサイズ (GDDR5) 12 GB 5 GB CUDAコア 2880 2496 10 事例2:公開データを利用した動作識別実験 人間動作データベース:KTH dataset • • 人間動作 6 種類 (歩き、ジョギング、走り、ボクシング、手振り、拍手) 各動作が 25 人、4 環境で4回繰り返して行われている – – – – • • • リサイズ 時系列 d1: 屋外、Static homogenous background d2: 屋外、Static homogenous background + 色々なスケール d3: 屋外、Static homogenous background + 色々な服 d4: 屋内、Static homogenous background + 色々な照明 1回の動作は約4秒 (25fpsで約100フレーム) 解像度が160x120 px (4:3) データ元:http://www.nada.kth.se/cvap/actions/ [1] サンプル画像 移動のある動作も、 カメラは固定して撮影する 走り 11 事例2:公開データを利用した動作識別実験 実験データ作成:人間動作データベース (KTH dataset) • 100x100pxにリサイズ リサイズ – 正方形にリサイズ • • • • 利用ライブラリの制約 画像の解像度割合を4:3に 合わせればテスト可能 25fpsでフレーム分割 時系列画像の作成 – 動作時間の短い走り動作に合わせて 35フレームずつ選択し – 2フレーム毎合計16フレームから作成 • 2フレーム毎でも人間の目は区別できる • 利用ライブラリの制約(16で割り切る) • 学習とテストデータに分割 – [1] に合わせて以下のように分割 • • • 学習用 8 人 検証用 8 人 (今回は学習に追加) テスト用 9 人 – 右表のように学習・検証・テスト の各動作は最小フレーム数に合わせる • • 時系列 静止画像フレーム数 = 6,000枚 x 6動作 x 3 = 108,000枚 時系列画像フレーム数 = 1,900枚 x 6動作 x 3 = 34,200枚 静止画像フレーム数 学習 検証 テスト boxing 15092 13297 15269 handclapping 13167 14099 14806 handwaving jogging running walking 16579 8943 6371 14820 17026 8639 6207 13863 17755 9615 6987 15055 時系列画像フレーム数 boxing 学習 検証 テスト 10808 8945 10407 handclapping 8951 9747 9920 handwaving jogging running walking 12295 4591 2041 10468 12674 4287 1913 9511 12859 4719 2119 10159 学習データ = 16人分 テストデータ= 9人分 12 実験結果 • CNN – 時系列画像の方が正解率が高い傾向がある CNN、レイヤ数7、実験結果 • CNN、レイヤ数7、時系列画像、実験結果 CNNによるSiameseNNW 静止画像の分布 時系列画像の分布 静止画像の分布、d1-d4、約1000epoch (約19時間) 学習データ テストデータ 時系列画像の分布、d1-d4、約1000epoch (約12時間) 学習データ テストデータ 13 Siamese Network • • • パラメータを共有する同じ形NNW2つと距離関数の目的関数で構成される 学習時、ペアデータによってNNWを学習する 使用時、片方NNWによる出力でデータ分布を作成し、 従来手法の最近傍探索などと組み合わせて分類問題に応用できる 学習時 sample ラベルが一致すれば、 距離が0になるように ラベルが一致しなけれ ば、 距離が1になるように 学習を行う 使用時 sample 14 事例3:センサデータ解析実験のあらまし ■前提:異常なパターンは正常なパターンに比較して圧倒的に発生頻度が少ない センサ出力をAutoEncoderで教師なし学習させる sensorからの出力 時間 sensor-1 sensor-2 ... ... N次元時系列データ sensor-N 異常発生期間 正 常 正常なパターンは再現率が高い 異 常 異常なパターンは再現率が低い AutoEncoder どのようなNNW構造が最適なのかを見極める必要があるが期待は大きい 15 Intelligence eXchangeの紹介 NNWの学習には大量の計算リソースを必要としており、GPGPUに対する期待は大きい。しかし、今現在 GPGPUの提供を目的としたGPU Readyなクラウド環境は十分整備されているとはいえない。プラット フォームがあれば「機械が利用可能な知識=学習済みNNW」のリポジトリの中心に位置することが可能 ではないか。 誰もが「(Deep)NNW」を構築し、学習させ、既に存在する「学習済 みNNW」を組み合わせて利用することができる仕組みを提供し、さら に「学習済みNNW」を流通させるためのプラットフォームを Intelligence eXchange 略して IX と呼ぶ。 株式会社クロスコンパス・インテリジェンスはIXを通して、様々 な事業会社様との連携を構築していきます。 16 開発サイクル 弊社+お客様担当 弊社担当 1:課題設定(コンサルフェーズ) 2:探索 期間:1か月 期間:1か月 • • • • • • 契約(NDA等) 実現目標決定 サンプルデータ確認 開発期間決定 処理概要ご提案 概算見積もり等決定 • • • データ収集(お客様)・確認・調査 目標設定(継続・成功判定基準) 解析/処理手法検討・選定 前処理検討 DNNW処理方式検討 その他の方法検討 4:検証 3:実験・実装 期間:1、2週間 期間:2か月 • • • 納品・検収(納品物がある場合) 報告会 継続判定 サービスイン 継続研究開発 打ち切り • • 前処理実装 機能実装と実験の反復 • レポート作成 17 IXの系統 Core-IXは他のIX(=Node-IX)のハブであり、中心である。Node-IXで利用する基本アルゴリズムを提供し、Core-IXは Node-IXで蓄積された全てのプライベートを除くNNWにアクセス可能である。Node-IXは業種毎に特化したI/F(API含 む)を実装し、解析に必要なリソースを提供するものとする。各Node-IXで作成された学習済みNNWは、提供者が設定し た価格によってIXの世界を流通させることができる。蓄積されたビッグデータの価値化や、無償サービスのマネタイズ等、活用 範囲は広大である。 Marketing-IX Service-IX 販売予測・ユーザ行動分 析・商圏分析・その他 エンターテインメント応用・ WebAPIサービス Partner&XCI ITSP&XCI Medical-IX 疾病予測・生活改善サポー ト・その他 Education-IX 学習支援・自動翻訳・その 他 Patner&XCI Core-IX Construction-IX 制震・その他 Patner&XCI 画像認識・音声認識・自然 言語処理・時系列データ処 理・記憶・群知能・創発 Patner&XCI Agri-IX 最適環境制御・その他 EndUser Partner&XCI Partner&XCI Manufacturing-IX 工場自動化・故障検知・故 障予知・自動走行・センサ 解析・その他 Partner&XCI Partner&XCI Resource-IX デマンドレスポンス・太陽光 発電予測・その他 Express-IX 経路探索・燃料最適化・ その他 18 demonstration USB Camera MacBook Pro Coffee Mag Cup Mouse Notebook Monitor Monitor iPod Mouse wall clock Cup 一喜一憂す る 19
© Copyright 2024 ExpyDoc