物体の位置関係説明システム 電気電子工学 T213009 井上 翔太 白井研究室 1. はじめに 座標を表示する、また検出された物体のうち最大の 近年、深層学習により、音声認識、画像認識、自 面積のものに対し、他の物体がどのような位置にあ 然言語処理など多くの分野で進展が見られている。 るかを説明するシステムが作成できた(図 2 に例)。 特に画像認識分野における一般物体認識の技術では、 作成したシステムの検証結果は、物体検出された 枚数 n が 95 枚、説明文が生成された枚数 m が 71 枚、 カテゴリ分類精度は既に人間と同レベルに達してい 物 体 検 出 の 正 答 率 が 99.7% 、 説 明 文 の 正 答 率 が ることから、現在では従来の一般物体認識タスクに 62.2%、71 枚中 1 文でも正しい文が生成された数が 加え、自然言語による説明文生成や質疑応答、動画 55 枚、71 枚から生成された説明文の総数が 149 文、 像の認識・要約などの研究が取り組まれている。 149 文中誤っていた文の数が 52 文という結果となっ 本研究では、物体検出手法である SSD(Single Shot た。また、誤っていた文 52 枚の中で、誤検出による MultiBox Detector)[2]を用い、画像中の物体関係を説 誤りの文を除くと、遠近法による誤りが 27 文、物体 明するシステムを作成することを目的とした。 が物体に乗っているとする誤りが 6 文であった。 SSD は図 1 に示すように、畳み込みニューラルネ person1:1.000, (67,0)~(195,288) ットワークという深層学習を用いている。層が深く 物体名:確信度, (xmin,ymin)~(xmax,ymax) なるに連れて出力サイズが小さくなる複数の特徴地 There is a dog1 on the right 図を使用することによって、様々なサイズの物体の hand side of a person1. 検出が可能である。つまり、層が浅い側は小さい物 体、深い側は大きな物体を検出することにより、単 一のネットワークで物体検出を実現している。 図 2. 物体位置関係説明システム例 図 1.SSD の構造 4. 考察 説明文の正答率が物体検出に比べてかなり低いの は、図 3 のように物体に物体が乗っているか(図 3 左)乗っていないか(図 3 右)の判断や、遠近法により 遠くに見えるが左右にいると判断がつきにくいから である。この解決策として、更に深層学習を用いて 物体の種類と大きさ、物体の位置関係から位置関係 を学習することでより良い結果が得られると考えら れる。また本研究では CPU で処理を行ったため、検 出速度が 1 枚あたり約 7 秒であった。Titan X のよう な高速の GPU で処理を行えば、動画に対する処理が 可能になり、動的な物体の関係(例えば「人がバイ クの上にいる。」から「人がバイクを運転してい る。」)を説明するシステムが可能になると考える。 2. 研究内容 SSD は 20 種類の物体を検出できるシステムが提 供 さ れ て い る 。 そ れ を HP 社 製 Z640 、 Ubuntu14.04OS の上に実装した。GPU は Nvidia 社製 Quadro K620、CUDA7.5 が使える。そして物体検出プログ ラムを改変し、画像を入力とし、画像中の物体の位 置関係を説明するシステムを作成した。 作成したシステムの性能の検証には、MSCOCO [3,4]からランダムで取得した 100 枚の画像を使用し た。そして以下のことを行った。 物体検出(=n)および説明文生成(=m)が 1 つ以上 行われた画像の枚数の確認 検出された物体おおよび生成された説明文が正 図 3. 説明文生成において問題となる例 しく答えられているか(正答率)の検証 参考文献 正答率の求め方は以下の通りである。 [1] 山下隆義(2016)「イラストで学ぶディープラーニ ング」講談社 [2] Liu, Wei, et al. (2015) SSD: Single Shot MultiBox Detector. arXiv preprint arXiv:1512.02325 [3]Lin, Tsung-Yi, et al. (2015) Microsoft COCO: Common Objects in Context. arXiv preprint arXiv:1405.0312 [4]MSCOCO Dataset (2015) http://mscoco.org/ 2016 年 3. 結果 12 月参照 画像を入力とし、検出された物体の確信度と位置
© Copyright 2025 ExpyDoc