深層学習による人物検出電気電子工学科 T213021 海住嘉希白井研究室

深層学習による人物検出
深層学習による人物検出
電気電子工学科
T213021
海住
嘉希
白井研究室
(3) SSD(Single Shot MultiBox Object Detector)[3]
概要
CNN
を前処理に使って得られた、層が深くなるに連
本研究では人物検出問題に対し、精度と速度の比較
れ出力サイズが小さくなる複数の特徴マップを用い、
を深層学習の 3 つの手法に対して行ったものである。
浅い層は小さい物体、深い層は大きい物体を検出す
る。領域はグリッドに分割され、それぞれに固定サ
1. はじめに
イズの領域変種が作られ、その領域における物体の
近年、画像認識の分野において深層学習 (Deep
種類の予測と信頼度計算を行い、最後の層で信頼度
Learning)が高い性能を上げていることで注目されての高い情報だけを拾い上げる方式である。
いる。深層学習とは、入力層、複数の中間層、出力
層からなるネットワークであり、クラス分類や回帰
これらの手法の比較のため、INRIA Person Data
set
[4]から、100 枚の画像データをランダムに取得し、
を行う機械学習手法のひとつである。安全面や防犯
面で、人を検出する技術が必要とされているため、評価に使用した。
深層学習手法を人物検出に適用することを考えた。
2. 研究内容
以下にあげる深層学習による物体検出手法(いずれ
も 2016 年 11 月時点で最先端の技術)を実装し、同じ
データに適用することにより、精度と実行時間の比
較をした。なお、ここでは人も含めた 20 種類の物体
の検出をするよう学習されたモデルを用いた。
(1) Faster R-CNN
(Faster Region-with Convolution Neural Network)[1]
畳み込みニューラネットワーク(CNN)は入力層、畳
み込み層とプーリング層の繰り返し、全結合層と出
力層で構成される。
3. 結果
100 枚の画像の平均検出速度と、人物の検出精度
(検出した人数の割合)とを比較した結果を表 1 に示
す。機器は HP 製 Z640、OS は Ubuntu 15.04、GPU
は Quadro M5000, CUDA7.5 を使用した。表 1 に示
すように、速度は SSD、YOLO、Faster R-CNN の順
であり、検出精度は、YOLO、Faster R-CNN、SSD
の順であった。
表 1．平均検出速度と検出精度の比較
Faster-R-CNN
YOLO
SSD
平均検出（GPU 使用） (CPU のみ) (CPU のみ)
25.28
12.34
11.19
速度(s)
検出精度
(%)
86.78
92.24
63.98
4. 考察とまとめ
考察とまとめ
検出速度においては、Faster R-CNN が 2 段階で検出
図 1．CNN の仕組み
するのに対して、YOLO、SSD は単一のネットワー
クで検出することから、後者二つが速い結果となる
R-CNN とは領域提案ネットワーク(RPN)と呼ばれる、のは当然であろう。また検出精度は、SSD の論文[3]
物体の位置の領域を提案する仕組みである。Faster の記述に反して YOLO の検出精度が最も高く、SSD
R-CNN は、RPN を用いた Fast R-CNN 研究をその先が低い結果となったのは興味深い。
行研究としている。画像データを入力し、CNN によ
本研究では、人物を含む 20 種の物体を検出可能な
り特徴マップを作成した後、次の 2 段階の手順で学システム 3 種を用いた。本研究から YOLO は平均速
習を行っている。
度が SSD とほぼ同程度であり、かつ検出精度が高い
1. CNN が出力する特徴地図を入力とし RPN でという結果が得られたが、検出速度が最も速かった
物体の領域を学習
SSD に対し検出物を人物と人物以外の 2 種に限定す
2. 学習した RPN が出力する領域候補から、ることで、速度を維持しつつ検出精度を高めること
CNN により物体認識を学習
ができるのではないかと考えている。
(2) YOLO(You Only Look Once)[2]
画像全体を 7×7 という固定サイズの領域 (グリッド)
に分割し、それぞれの分割領域ごとに物体の種類と
領域推定を、同じ特徴地図を用いて同時に行う手法
である。グリッド内に大量の物体が映っている場合
に弱く、一つのグリッドで検出できる物体も最大 2
つという制約がある。しかし Faster-R-CNN と異なり
単一のネットワークで実現されているため、検出速
度が速いのが利点である。
参考文献
[1] 浅川伸一 (2016)『Python で体験する深層学習』コ
ロナ社
[2] YOLO: Real-Time Object Detection (2015)
http://pjreddie.com/darknet/yolo/ 2016 年 12 月参照
[3] Liu, Wei, et al. SSD: Single Shot MultiBox Detector.
(2015) arXiv preprint arXiv:1512.02325
[4] INRIA Person Dataset (2005)
http://pascal.inrialpes.fr/data/human/ 2016 年 9 月参照

Download Report