物体の位置関係説明システム電気電子工学 T213009 井上翔太白井

物体の位置関係説明システム
電気電子工学
T213009
井上翔太
白井研究室
1. はじめに
座標を表示する、また検出された物体のうち最大の
近年、深層学習により、音声認識、画像認識、自面積のものに対し、他の物体がどのような位置にあ
然言語処理など多くの分野で進展が見られている。るかを説明するシステムが作成できた(図 2 に例)。
特に画像認識分野における一般物体認識の技術では、作成したシステムの検証結果は、物体検出された
枚数 n が 95 枚、説明文が生成された枚数 m が 71 枚、
カテゴリ分類精度は既に人間と同レベルに達してい
物体検出の正答率が 99.7% 、説明文の正答率が
ることから、現在では従来の一般物体認識タスクに
62.2%、71 枚中 1 文でも正しい文が生成された数が
加え、自然言語による説明文生成や質疑応答、動画
55 枚、71 枚から生成された説明文の総数が 149 文、
像の認識・要約などの研究が取り組まれている。
149 文中誤っていた文の数が 52 文という結果となっ
本研究では、物体検出手法である SSD(Single Shot た。また、誤っていた文 52 枚の中で、誤検出による
MultiBox Detector)[2]を用い、画像中の物体関係を説誤りの文を除くと、遠近法による誤りが 27 文、物体
明するシステムを作成することを目的とした。
が物体に乗っているとする誤りが 6 文であった。
SSD は図 1 に示すように、畳み込みニューラルネ
person1:1.000, (67,0)~(195,288)
ットワークという深層学習を用いている。層が深く
物体名:確信度, (xmin,ymin)~(xmax,ymax)
なるに連れて出力サイズが小さくなる複数の特徴地
There is a dog1 on the right
図を使用することによって、様々なサイズの物体の
hand side of a person1.
検出が可能である。つまり、層が浅い側は小さい物
体、深い側は大きな物体を検出することにより、単
一のネットワークで物体検出を実現している。
図 2. 物体位置関係説明システム例
図 1.SSD の構造
4. 考察
説明文の正答率が物体検出に比べてかなり低いの
は、図 3 のように物体に物体が乗っているか(図 3
左)乗っていないか(図 3 右)の判断や、遠近法により
遠くに見えるが左右にいると判断がつきにくいから
である。この解決策として、更に深層学習を用いて
物体の種類と大きさ、物体の位置関係から位置関係
を学習することでより良い結果が得られると考えら
れる。また本研究では CPU で処理を行ったため、検
出速度が 1 枚あたり約 7 秒であった。Titan X のよう
な高速の GPU で処理を行えば、動画に対する処理が
可能になり、動的な物体の関係(例えば「人がバイ
クの上にいる。」から「人がバイクを運転してい
る。」)を説明するシステムが可能になると考える。
2. 研究内容
SSD は 20 種類の物体を検出できるシステムが提
供されている。それを HP 社製 Z640 、 Ubuntu14.04OS の上に実装した。GPU は Nvidia 社製 Quadro
K620、CUDA7.5 が使える。そして物体検出プログ
ラムを改変し、画像を入力とし、画像中の物体の位
置関係を説明するシステムを作成した。
作成したシステムの性能の検証には、MSCOCO
[3,4]からランダムで取得した 100 枚の画像を使用し
た。そして以下のことを行った。
 物体検出(=n)および説明文生成(=m)が 1 つ以上
行われた画像の枚数の確認
 検出された物体おおよび生成された説明文が正図 3. 説明文生成において問題となる例
しく答えられているか(正答率)の検証
参考文献
正答率の求め方は以下の通りである。
[1] 山下隆義(2016)「イラストで学ぶディープラーニ
ング」講談社
[2] Liu, Wei, et al. (2015) SSD: Single Shot MultiBox
Detector. arXiv preprint arXiv:1512.02325
[3]Lin, Tsung-Yi, et al. (2015) Microsoft COCO: Common
Objects in Context. arXiv preprint arXiv:1405.0312
[4]MSCOCO Dataset (2015) http://mscoco.org/ 2016 年
3. 結果
12 月参照
画像を入力とし、検出された物体の確信度と位置

Download Report