ディープラーニングとロボットが 超巨大産業を生み出す

Interview
●東京大学大学院工学研究科 松尾豊 特任准教授に聞く
ディープラーニングとロボットが
超巨大産業を生み出す
AI(人工知能)はディープラーニングの登場で大きなブレークスルーを迎えている。 英グーグル・ディープマインド社が開発した
囲碁 AI「AlphaGO(アルファ碁)」は予測を 10 年以上短縮してトップ棋士に勝ち、AI を活用したクルマの自動運転なども実
用段階に近づいてきている。 今後ディープラーニングは、産業にどう活用され、何を変えていくのだろうか? 気鋭の人工知能
学者、東京大学の松尾豊特任准教授に聞いた。
松尾豊(まつお ゆたか)
Profile
東京大学 大学院工学系研究科 特任准教授
1975 年生まれ。2002 年東京大学大学院工学系研究
科博士課程修了。工学博士。専門分野は、人工知能、
ウェブマイニング、ビッグデータ分析。
人工知能学会からは、論文賞、創立 20 周年記念事業
賞、現場イノベーション賞、功労賞を受賞。人工知能
学会では、2012 年から編集委員長・理事、2014 年
より倫理委員長を務める。
著書に「人工知能は人間を超えるか-ディープラーニ
ングの先にあるもの」( 角川 EPUB 選書 )、編著に「人
工知能とは」
(監修 : 人工知能学会、近代科学社)など。
松尾 豊 東京大学大学院工学系研究科 特任准教授
ディープラーニングの
3 つのタイプ
数を何らかの形で足しあわせたり掛け
それをいかにサボるか、いかにズルを
あわせたりと加工していく関数になって
して、その数万の変数からなる方程式
いるはずで、そこにはたくさんのパラ
を解いて、パラメーターを見つけてし
──ディープラーニングの基本となる
メーターがあります。この「猫関数」を、
まうか。ここが実は一番重要なところ
ニューラルネットワークについて教え
人間の神経回路を模した階層的な関数
になります。
てください。
の構造をもとに、たくさんのデータか
──さまざまな分野で「ディープラーニ
松尾●経済学などでは、さまざまな変
らの学習により見つけ出そうというの
ング」という言葉が使われていますが、
数の関連性を導き出す統計手法として、
が、ニューラルネットワークです。経
概要を教えていただけますか?
重回帰分析などの多変量解析を使うこ
済学だと変数は数個から数十個くらい
松尾●ディープラーニングについて、
とが多いですが、それと比較するとわ
のことが多いと思いますが、この「猫関
いろいろな説明がなされていますが、
かりやすいかもしれません。たとえば、
数」は、100 × 100 の小さな画像だとし
基本的には“深い構造をもったニューラ
ある画像に猫が映っているかどうかを
ても、1 万もの入力変数を取りますよ
ルネットワーク”ということになります。
人間が判断できるというのは、画像の
ね。つまり、x1, x2 から x10000 までという
今までは深いニューラルネットワークと
各画素の情報を入力 x とし、猫が映って
ことです。こうしたたくさんの数の変数
いうのは作るのが難しかったわけです
いるときには 1、猫が映ってないときに
を使った「猫関数」を見つけることは、
が、それができるようになってきた。と
は 0 をとるような関数 f(x) がある、とい
通常は非常に困難です。ところが、今
くに画像認識をするうえで非常に精度
うことです。この「猫関数」は、入力変
のディープラーニングですごいのは、
が高くなってきています。
8
The ROBOT イノベーション×ビジネス
008-013_matsuo_interview.indd 8
2016/06/03 2:06
──画像認識で使うのが一般的なので
しょうか?
松尾●今のところ 3 タイプぐらいに集約
猫
概念
されてきています。1 つは画像認識でよ
く使われる「CNN(Convolutional Neural
ディープラーニングで学習
Network)」
、日本語で「畳み込みニュー
ラルネットワーク」というものです。こ
名前
れは基本的には“教師あり学習”※ 1 なん
:
猫
ですよね。それからもう 1 つが、時系列
データなどを扱う「LSTM(Long Short
Term Memory)」というもの。これも、
昔からあった「RNN(Recurrent Neural
人間の認識
コンピュータの認識
人間は一瞬で「猫」であることを理解するが、AI は「名前」と「概念」に分けて理解する。ディープラーニングを使
うと「概念」を自動的に作り出し学習できる
Network)」という手法を発展させたも
ので、とくに自然言語処理系のデータ、
つまり対話のデータなどを扱う際によ
く使われます。最近では CNN と RNN
を組み合わせる方法もよく使われるよ
うになってきています。
3 つめが「生成モデル」といわれるも
ディープラーニングの「認識」とは?
人間にとって「猫」という言葉と、
「猫がどういうものであるか」とい
ラーニングを実行した後では、初
めて見る猫の写真も猫と認識でき
ので、ここが今後非常におもしろくな
う概念は自明でありイコールだ。
るところだと思います。生成モデルに
人間は簡単に「言葉」と「概念」を結
ディープ ラーニング は、 脳 の
も 2 系統ほどあって、1 つが「Variational
びつけるが、コンピュータには難
ニューロンの仕組みをまねた
Autoencoder( 変 分 オ ー ト エ ン コ ー
しい。人間がその結びつきをいち
ニューラルネットワークを何層に
ダー)」と呼ばれるもので、もう 1 つが
いち教えるのではなく、膨 大な
も重ね、学習を繰り返すことで、
「 G A N( G e n e r a t i v e A d v e r s a r i a l
データと計算からコンピュータ自
認識の確からしさを高めていき、
Network)」というものです。いずれも
ら「概念」を作り出し、
「言葉」との結
画像認識だけでなく画像の生成もでき
びつきを学習することで、
「言葉」が
静止画像の認識で実用化が進ん
る。非常に少ないデータから画像を描
示すものを認識できるようにする
でいるが、今後は動画や言語など
くことができるという、生成する側の
ための作業が「ディープラーニン
の分野での応用が期待されている。
技術なんですよね。それをうまく使う
グ」だ。猫の画像についてディープ
と次のシーンで何が起こるか予測する
ことができたり、文脈から画像や映像
を作ることができます。言い換えると、
人間が想像するとか、予見するといっ
※ 1 教師あり学習
入力データから正しい出力データを得るための関数を
作る際、入力とそれに対する正しい出力をペアで与え
(訓練データ)
、未知の入力に対する出力を正しく予測
させようとするもの。
るようになる。
「概念」を獲得する。
※ 2 教師なし学習
教師あり学習と異なり、正しい出力は与えられないた
め、何らかの基準を設けて、それを最適にするような
出力を得ようとするもの。
The ROBOT イノベーション×ビジネス
008-013_matsuo_interview.indd 9
9
2016/06/03 2:06