ディープラーニングとロボットが超巨大産業を生み出す

Interview
●東京大学大学院工学研究科　松尾豊　特任准教授に聞く
ディープラーニングとロボットが
超巨大産業を生み出す
AI（人工知能）はディープラーニングの登場で大きなブレークスルーを迎えている。英グーグル・ディープマインド社が開発した
囲碁 AI「AlphaGO（アルファ碁）」は予測を 10 年以上短縮してトップ棋士に勝ち、AI を活用したクルマの自動運転なども実
用段階に近づいてきている。今後ディープラーニングは、産業にどう活用され、何を変えていくのだろうか？　気鋭の人工知能
学者、東京大学の松尾豊特任准教授に聞いた。
松尾豊（まつおゆたか）
Profile
東京大学　大学院工学系研究科　特任准教授
1975 年生まれ。2002 年東京大学大学院工学系研究
科博士課程修了。工学博士。専門分野は、人工知能、
ウェブマイニング、ビッグデータ分析。
人工知能学会からは、論文賞、創立 20 周年記念事業
賞、現場イノベーション賞、功労賞を受賞。人工知能
学会では、2012 年から編集委員長・理事、2014 年
より倫理委員長を務める。
著書に「人工知能は人間を超えるか－ディープラーニ
ングの先にあるもの」( 角川 EPUB 選書 )、編著に「人
工知能とは」
（監修 : 人工知能学会、近代科学社）など。
松尾豊　東京大学大学院工学系研究科　特任准教授
ディープラーニングの
3 つのタイプ
数を何らかの形で足しあわせたり掛け
それをいかにサボるか、いかにズルを
あわせたりと加工していく関数になって
して、その数万の変数からなる方程式
いるはずで、そこにはたくさんのパラ
を解いて、パラメーターを見つけてし
──ディープラーニングの基本となる
メーターがあります。この「猫関数」を、
まうか。ここが実は一番重要なところ
ニューラルネットワークについて教え
人間の神経回路を模した階層的な関数
になります。
てください。
の構造をもとに、たくさんのデータか
──さまざまな分野で「ディープラーニ
松尾●経済学などでは、さまざまな変
らの学習により見つけ出そうというの
ング」という言葉が使われていますが、
数の関連性を導き出す統計手法として、
が、ニューラルネットワークです。経
概要を教えていただけますか？
重回帰分析などの多変量解析を使うこ
済学だと変数は数個から数十個くらい
松尾●ディープラーニングについて、
とが多いですが、それと比較するとわ
のことが多いと思いますが、この「猫関
いろいろな説明がなされていますが、
かりやすいかもしれません。たとえば、
数」は、100 × 100 の小さな画像だとし
基本的には“深い構造をもったニューラ
ある画像に猫が映っているかどうかを
ても、1 万もの入力変数を取りますよ
ルネットワーク”ということになります。
人間が判断できるというのは、画像の
ね。つまり、x1, x2 から x10000 までという
今までは深いニューラルネットワークと
各画素の情報を入力 x とし、猫が映って
ことです。こうしたたくさんの数の変数
いうのは作るのが難しかったわけです
いるときには 1、猫が映ってないときに
を使った「猫関数」を見つけることは、
が、それができるようになってきた。と
は 0 をとるような関数 f(x) がある、とい
通常は非常に困難です。ところが、今
くに画像認識をするうえで非常に精度
うことです。この「猫関数」は、入力変
のディープラーニングですごいのは、
が高くなってきています。
8
The ROBOT イノベーション×ビジネス
008-013_matsuo_interview.indd 8
2016/06/03 2:06
──画像認識で使うのが一般的なので
しょうか？
松尾●今のところ 3 タイプぐらいに集約
猫
概念
されてきています。1 つは画像認識でよ
く使われる「CNN（Convolutional Neural
ディープラーニングで学習
Network）」
、日本語で「畳み込みニュー
ラルネットワーク」というものです。こ
名前
れは基本的には“教師あり学習”※ 1 なん
：
猫
ですよね。それからもう 1 つが、時系列
データなどを扱う「LSTM（Long Short
Term Memory）」というもの。これも、
昔からあった「RNN（Recurrent Neural
人間の認識
コンピュータの認識
人間は一瞬で「猫」であることを理解するが、AI は「名前」と「概念」に分けて理解する。ディープラーニングを使
うと「概念」を自動的に作り出し学習できる
Network）」という手法を発展させたも
ので、とくに自然言語処理系のデータ、
つまり対話のデータなどを扱う際によ
く使われます。最近では CNN と RNN
を組み合わせる方法もよく使われるよ
うになってきています。
3 つめが「生成モデル」といわれるも
ディープラーニングの「認識」とは？
人間にとって「猫」という言葉と、
「猫がどういうものであるか」とい
ラーニングを実行した後では、初
めて見る猫の写真も猫と認識でき
ので、ここが今後非常におもしろくな
う概念は自明でありイコールだ。
るところだと思います。生成モデルに
人間は簡単に「言葉」と「概念」を結
ディープラーニングは、脳の
も 2 系統ほどあって、1 つが「Variational
びつけるが、コンピュータには難
ニューロンの仕組みをまねた
Autoencoder（変分オートエンコー
しい。人間がその結びつきをいち
ニューラルネットワークを何層に
ダー）」と呼ばれるもので、もう 1 つが
いち教えるのではなく、膨大な
も重ね、学習を繰り返すことで、
「 G A N（ G e n e r a t i v e A d v e r s a r i a l
データと計算からコンピュータ自
認識の確からしさを高めていき、
Network）」というものです。いずれも
ら「概念」を作り出し、
「言葉」との結
画像認識だけでなく画像の生成もでき
びつきを学習することで、
「言葉」が
静止画像の認識で実用化が進ん
る。非常に少ないデータから画像を描
示すものを認識できるようにする
でいるが、今後は動画や言語など
くことができるという、生成する側の
ための作業が「ディープラーニン
の分野での応用が期待されている。
技術なんですよね。それをうまく使う
グ」だ。猫の画像についてディープ
と次のシーンで何が起こるか予測する
ことができたり、文脈から画像や映像
を作ることができます。言い換えると、
人間が想像するとか、予見するといっ
※ 1　教師あり学習
入力データから正しい出力データを得るための関数を
作る際、入力とそれに対する正しい出力をペアで与え
（訓練データ）
、未知の入力に対する出力を正しく予測
させようとするもの。
るようになる。
「概念」を獲得する。
※ 2　教師なし学習
教師あり学習と異なり、正しい出力は与えられないた
め、何らかの基準を設けて、それを最適にするような
出力を得ようとするもの。
The ROBOT イノベーション×ビジネス
008-013_matsuo_interview.indd 9
9
2016/06/03 2:06

Download Report