深層学習による人物検出 電気電子工学科 T213021 海住 嘉希 白井研究室

深層学習による人物検出
深層学習による人物検出
電気電子工学科
T213021
海住
嘉希
白井研究室
(3) SSD(Single Shot MultiBox Object Detector)[3]
概要
CNN
を前処理に使って得られた、層が深くなるに連
本研究では人物検出問題に対し、精度と速度の比較
れ出力サイズが小さくなる複数の特徴マップを用い、
を深層学習の 3 つの手法に対して行ったものである。
浅い層は小さい物体、深い層は大きい物体を検出す
る。領域はグリッドに分割され、それぞれに固定サ
1. はじめに
イズの領域変種が作られ、その領域における物体の
近 年 、 画 像 認 識 の 分 野 に お い て 深 層 学 習 (Deep
種類の予測と信頼度計算を行い、最後の層で信頼度
Learning)が高い性能を上げていることで注目されて の高い情報だけを拾い上げる方式である。
いる。深層学習とは、入力層、複数の中間層、出力
層からなるネットワークであり、クラス分類や回帰
これらの手法の比較のため、INRIA Person Data
set
[4]から、100 枚の画像データをランダムに取得し、
を行う機械学習手法のひとつである。安全面や防犯
面で、人を検出する技術が必要とされているため、 評価に使用した。
深層学習手法を人物検出に適用することを考えた。
2. 研究内容
以下にあげる深層学習による物体検出手法(いずれ
も 2016 年 11 月時点で最先端の技術)を実装し、同じ
データに適用することにより、精度と実行時間の比
較をした。なお、ここでは人も含めた 20 種類の物体
の検出をするよう学習されたモデルを用いた。
(1) Faster R-CNN
(Faster Region-with Convolution Neural Network)[1]
畳み込みニューラネットワーク(CNN)は入力層、畳
み込み層とプーリング層の繰り返し、全結合層と出
力層で構成される。
3. 結果
100 枚の画像の平均検出速度と、人物の検出精度
(検出した人数の割合)とを比較した結果を表 1 に示
す。機器は HP 製 Z640、OS は Ubuntu 15.04、GPU
は Quadro M5000, CUDA7.5 を使用した。表 1 に示
すように、速度は SSD、YOLO、Faster R-CNN の順
であり、検出精度は、YOLO、Faster R-CNN、SSD
の順であった。
表 1.平均検出速度と検出精度の比較
Faster-R-CNN
YOLO
SSD
平均検出 (GPU 使用) (CPU のみ) (CPU のみ)
25.28
12.34
11.19
速度(s)
検出精度
(%)
86.78
92.24
63.98
4. 考察とまとめ
考察とまとめ
検出速度においては、Faster R-CNN が 2 段階で検出
図 1.CNN の仕組み
するのに対して、YOLO、SSD は単一のネットワー
クで検出することから、後者二つが速い結果となる
R-CNN とは領域提案ネットワーク(RPN)と呼ばれる、のは当然であろう。また検出精度は、SSD の論文[3]
物体の位置の領域を提案する仕組みである。Faster の記述に反して YOLO の検出精度が最も高く、SSD
R-CNN は、RPN を用いた Fast R-CNN 研究をその先 が低い結果となったのは興味深い。
行研究としている。画像データを入力し、CNN によ
本研究では、人物を含む 20 種の物体を検出可能な
り特徴マップを作成した後、次の 2 段階の手順で学 システム 3 種を用いた。本研究から YOLO は平均速
習を行っている。
度が SSD とほぼ同程度であり、かつ検出精度が高い
1. CNN が出力する特徴地図を入力とし RPN で という結果が得られたが、検出速度が最も速かった
物体の領域を学習
SSD に対し検出物を人物と人物以外の 2 種に限定す
2. 学 習 し た RPN が 出 力 す る 領 域 候 補 か ら 、 ることで、速度を維持しつつ検出精度を高めること
CNN により物体認識を学習
ができるのではないかと考えている。
(2) YOLO(You Only Look Once)[2]
画像全体を 7×7 という固定サイズの領域 (グリッド)
に分割し、それぞれの分割領域ごとに物体の種類と
領域推定を、同じ特徴地図を用いて同時に行う手法
である。グリッド内に大量の物体が映っている場合
に弱く、一つのグリッドで検出できる物体も最大 2
つという制約がある。しかし Faster-R-CNN と異なり
単一のネットワークで実現されているため、検出速
度が速いのが利点である。
参考文献
[1] 浅川伸一 (2016)『Python で体験する深層学習』コ
ロナ社
[2] YOLO: Real-Time Object Detection (2015)
http://pjreddie.com/darknet/yolo/ 2016 年 12 月参照
[3] Liu, Wei, et al. SSD: Single Shot MultiBox Detector.
(2015) arXiv preprint arXiv:1512.02325
[4] INRIA Person Dataset (2005)
http://pascal.inrialpes.fr/data/human/ 2016 年 9 月参照