深層学習による人物検出 深層学習による人物検出 電気電子工学科 T213021 海住 嘉希 白井研究室 (3) SSD(Single Shot MultiBox Object Detector)[3] 概要 CNN を前処理に使って得られた、層が深くなるに連 本研究では人物検出問題に対し、精度と速度の比較 れ出力サイズが小さくなる複数の特徴マップを用い、 を深層学習の 3 つの手法に対して行ったものである。 浅い層は小さい物体、深い層は大きい物体を検出す る。領域はグリッドに分割され、それぞれに固定サ 1. はじめに イズの領域変種が作られ、その領域における物体の 近 年 、 画 像 認 識 の 分 野 に お い て 深 層 学 習 (Deep 種類の予測と信頼度計算を行い、最後の層で信頼度 Learning)が高い性能を上げていることで注目されて の高い情報だけを拾い上げる方式である。 いる。深層学習とは、入力層、複数の中間層、出力 層からなるネットワークであり、クラス分類や回帰 これらの手法の比較のため、INRIA Person Data set [4]から、100 枚の画像データをランダムに取得し、 を行う機械学習手法のひとつである。安全面や防犯 面で、人を検出する技術が必要とされているため、 評価に使用した。 深層学習手法を人物検出に適用することを考えた。 2. 研究内容 以下にあげる深層学習による物体検出手法(いずれ も 2016 年 11 月時点で最先端の技術)を実装し、同じ データに適用することにより、精度と実行時間の比 較をした。なお、ここでは人も含めた 20 種類の物体 の検出をするよう学習されたモデルを用いた。 (1) Faster R-CNN (Faster Region-with Convolution Neural Network)[1] 畳み込みニューラネットワーク(CNN)は入力層、畳 み込み層とプーリング層の繰り返し、全結合層と出 力層で構成される。 3. 結果 100 枚の画像の平均検出速度と、人物の検出精度 (検出した人数の割合)とを比較した結果を表 1 に示 す。機器は HP 製 Z640、OS は Ubuntu 15.04、GPU は Quadro M5000, CUDA7.5 を使用した。表 1 に示 すように、速度は SSD、YOLO、Faster R-CNN の順 であり、検出精度は、YOLO、Faster R-CNN、SSD の順であった。 表 1.平均検出速度と検出精度の比較 Faster-R-CNN YOLO SSD 平均検出 (GPU 使用) (CPU のみ) (CPU のみ) 25.28 12.34 11.19 速度(s) 検出精度 (%) 86.78 92.24 63.98 4. 考察とまとめ 考察とまとめ 検出速度においては、Faster R-CNN が 2 段階で検出 図 1.CNN の仕組み するのに対して、YOLO、SSD は単一のネットワー クで検出することから、後者二つが速い結果となる R-CNN とは領域提案ネットワーク(RPN)と呼ばれる、のは当然であろう。また検出精度は、SSD の論文[3] 物体の位置の領域を提案する仕組みである。Faster の記述に反して YOLO の検出精度が最も高く、SSD R-CNN は、RPN を用いた Fast R-CNN 研究をその先 が低い結果となったのは興味深い。 行研究としている。画像データを入力し、CNN によ 本研究では、人物を含む 20 種の物体を検出可能な り特徴マップを作成した後、次の 2 段階の手順で学 システム 3 種を用いた。本研究から YOLO は平均速 習を行っている。 度が SSD とほぼ同程度であり、かつ検出精度が高い 1. CNN が出力する特徴地図を入力とし RPN で という結果が得られたが、検出速度が最も速かった 物体の領域を学習 SSD に対し検出物を人物と人物以外の 2 種に限定す 2. 学 習 し た RPN が 出 力 す る 領 域 候 補 か ら 、 ることで、速度を維持しつつ検出精度を高めること CNN により物体認識を学習 ができるのではないかと考えている。 (2) YOLO(You Only Look Once)[2] 画像全体を 7×7 という固定サイズの領域 (グリッド) に分割し、それぞれの分割領域ごとに物体の種類と 領域推定を、同じ特徴地図を用いて同時に行う手法 である。グリッド内に大量の物体が映っている場合 に弱く、一つのグリッドで検出できる物体も最大 2 つという制約がある。しかし Faster-R-CNN と異なり 単一のネットワークで実現されているため、検出速 度が速いのが利点である。 参考文献 [1] 浅川伸一 (2016)『Python で体験する深層学習』コ ロナ社 [2] YOLO: Real-Time Object Detection (2015) http://pjreddie.com/darknet/yolo/ 2016 年 12 月参照 [3] Liu, Wei, et al. SSD: Single Shot MultiBox Detector. (2015) arXiv preprint arXiv:1512.02325 [4] INRIA Person Dataset (2005) http://pascal.inrialpes.fr/data/human/ 2016 年 9 月参照
© Copyright 2025 ExpyDoc