プレスリリース全文

報道発表資料
平成 28 年 12 月 9 日( 1 / 3 ページ)
一般物体認識分野で、府大生が世界一の認識精度を持つ
ニューラルネットワークを開発
大阪府立大学工学研究科 電気・情報系専攻 知能メディア処理研究室の大学院生、山田 良博さん(博
士前期課程2年)が、同研究室の岩村 雅一准教授、黄瀬 浩一教授と共に、一般物体認識の分野でこれ
までと異なる新たな構造のニューラルネットワークを開発しました。開発したニューラルネットワーク
は一般物体認識の性能評価に用いられる CIFAR-10、CIFAR-100 データセットを用いた実験で世界一の精
度(2016 年 12 月 9 日現在)を達成し、顔認証システムやカメラを用いた自動翻訳システム、歩行者や障
害物をうまく認識しなければならない自動運転システムなど、さまざまな分野での活用が期待されます。
本研究の成果は、2016 年 11 月に採択されました JST の大型研究推進事業(CREST プロジェクト)
(https://www.osakafu-u.ac.jp/affiliate-news/nws20161129/)の研究を始めとした、様々な応用分野
に適用していく予定です。
<背景>
「飛行機」や「自動車」、「鳥」、「猫」
などといった多様な物体を認識(分類)
するタスクは一般物体認識と呼ばれてい
ます。図1は一般物体認識の評価によく
用いられるデータセットの画像例です。
各物体カテゴリ(図の各行)には多様な
画像が含まれており、人間は画像を見た
だけで何が写っているのかを容易に言い
当てることができますが、機械にはそれ
ほど容易ではありません。そのため、こ
れを機械にもできるようにする方法が世
界中で研究されています。これができる
図1:一般物体認識の性能評価に用いられる
ようになれば、その技術は画像の認識に
CIFAR-10 データセットの画像例
留まらず、様々な応用に役立てることが
https://www.cs.toronto.edu/~kriz/cifar.html
できると考えられています。
近年は、深層学習(ディープラーニング)で注目されているニューラルネットワークを用いた手法
が主流で、Google や Microsoft、Facebook などの世界的 IT 企業を含め、世界中の研究者がより高い精
度を求めて日夜研究を進め、頻繁に記録が塗り替えられるという激しい競争が繰り広げられています。
図2は、これまでの認識率の推移の概略をまとめたグラフです。
【研究に関するお問い合わせ】
大阪府立大学 工学研究科 准教授 岩村 雅一
TEL 072-254-9277
E-mail: masa[at]cs.osakafu-u.ac.jp [at]の部分を@と差し替えてください。
報道発表資料
平成 28 年 12 月 9 日( 2 / 3 ページ)
図2:一般物体認識の認識率の推移
(CIFAR-100 データセットを用いた場合)
<研究内容>
今回提案した手法は、従来手法である PyramidNet(図3(a))と ResDrop(図3(b))を組み合わせ
た PyramidDrop(図3(c))をベースにしています。PyramidNet はその名の通り、ニューラルネット
ワークの層が深くなるほど、各層に含まれる「チャネル数」が徐々に増加するピラミッド型をしてい
ます。ここでいう「チャネル」は画像の表現方法に関係しています。各チャネルは元画像を異なる方
法で表現していて、チャネル数が増えるほど、豊富な情報で画像を表現することになります。ResDrop
は学習を効率的に行うために、学習時に一部のユニットを確率的に無視する「確率的な正則化」を用
いる方法です。この組み合わせは比較的容易に思い付くもので、PyramidNet の著者も論文中で試みた
ことに言及していますが、我々はこの方法が大きな性能向上に結びつかないことを実験的に確認して
います。
提案手法である PyramidSepDrop(図3(d))は、PyramidNet の構造の特殊性に着目して、新しく追
加されたチャネルとそうでないチャネルを区別して、それぞれに確率的な正則化を適用することにし
ました。
その結果、
CIFAR-10 のカテゴリ数を 100 に増やした、より難しいデータセットである CIFAR-100
において、従来手法である PyramidNet に比べて 2.19%の性能向上が実現できました。残念ながら、論
文公開前に新たに ResNeXt という手法が提案されたため、
従来手法との差分は 1.13%に縮小しましたが、
それでも 2016 年 12 月 9 日時点で世界一の認識性能を達成できています。
<今後の展望>
今回発表した論文では、CIFAR-10/100 という比較的小規模なデータセットを用いて評価しました。
一般物体認識ではさらに大規模な ImageNet(http://image-net.org/)や MS COCO(http://mscoco.org/)
というデータセットも用いられており、これらの性能には概ね高い相関があります。そのため、これ
らの大規模データセットを用いた性能評価を行います。これには大きな計算リソースと計算時間が必
要ですが、Amazon 社が提供する AWS Cloud Credits for Research(https://aws.amazon.com/grants/)
の援助を受けられることになったため、Amazon Web Services (AWS) クラウドを利用して実施いたし
ます。また、今回発表した方法を改良して、提案手法の性能をさらに向上させる予定です。
【研究に関するお問い合わせ】
大阪府立大学 工学研究科 准教授 岩村 雅一
TEL 072-254-9277
E-mail: masa[at]cs.osakafu-u.ac.jp [at]の部分を@と差し替えてください。
報道発表資料
平成 28 年 12 月 9 日( 3 / 3 ページ)
これらの成果は、2016 年 11 月に採択されました JST の大型研究推進事業(CREST プロジェクト)
(https://www.osakafu-u.ac.jp/affiliate-news/nws20161129/)の研究を始めとした、様々な応用分
野に適用していく予定です。
(a) 従来手法 PyramidNet
(b) 従来手法 ResDrop
(c)従来手法2つを単純に
(d) (c)を改良して得られた
組み合わせた PyramidDrop
提案手法 PyramidSepDrop
図3:従来手法と提案したニューラルネットワークに含まれるブロックの模式図
■開発した大学院生 山田 良博さんのコメント
元々は趣味のような形で始めた研究だったのですが、この度は岩村先生、
黄瀬先生ならびに研究室の皆様のお力添えで大きな結果を残すことが出来
ました。この場を借りて多くの方に感謝の気持ちと御礼を申し上げます。
私は現在修士 2 年なのですが、所属する知能メディア処理研究室で博士
後期課程に進学し、様々な経験を積み、将来は画像のみならず音声や言語
を含めた統合的な情報処理システムを実現していきたいと考えています。
これからも知能メディア処理研究室が目指す『欲しい情報が簡単に入手
できる便利な社会』、
『人のように身の回りの物を知覚できる知的な機械』
への貢献を目指し、誠心誠意、邁進していく所存です。
世界一の認識精度を持つ
ニューラルネットワークを開発した
山田 良博さん
<発表文献>
発表論文名
Deep Pyramidal Residual Networks with Separated Stochastic Depth,
著者
Yoshihiro Yamada, Masakazu Iwamura and Koichi Kise,
公開場所
Computing Research Repository (CoRR), arXiv:1612.01230
公開日
2016 年 12 月 5 日
URL
https://arxiv.org/abs/1612.01230
【研究に関するお問い合わせ】
大阪府立大学 工学研究科 准教授 岩村 雅一
TEL 072-254-9277
E-mail: masa[at]cs.osakafu-u.ac.jp [at]の部分を@と差し替えてください。