報告資料

人工知能は人間を超えるか -ディープラーニングの先にあるもの
東京大学松尾豊
1
東京大学　松尾研究室について
1997年
東京大学工学部電子情報工学科卒業
2002年
同大学院博士課程修了．博士（工学）。産業技術総合研究所研究員
2005年
スタンフォード大学客員研究員
2007年～東京大学大学院工学系研究科技術経営戦略学専攻准教授
2014年〜　東京大学グローバル消費インテリジェンス寄付講座共同代表・特任准教授
◆人工知能、ディープラーニング、Webマイニングを専門とする。
◆論文数と被引用数に基づき科学者の科学的貢献度を示すh-Index=31（ウェブ・人工知能分
野最高水準）であり、2013年より国際WWW会議Web Mining部門のチェアを務める。
松尾　豊
◆世界人工知能国際会議プログラム委員。2012年より、人工知能学会理事・編集委員長（そ
れまでの慣例を大幅に更新し最年少で編集委員長就任）、2014年から倫理委員長。
◆人工知能学会論文賞（2002年）、情報処理学会長尾真記念特別賞（2007年）、ドコモモバイ
ルサイエンス賞（2013年）、文部科学省科学技術への顕著な貢献2015、大川出版賞（201
5年）、ビジネス本大賞審査員賞（2016年）等受賞。
◆経済産業省産業構造審議会新産業構造部会委員、IoT推進コンソーシアム運営委員、
厚生労働省「働き方の未来 2035」懇談会メンバー、内閣府「人工知能と人間社会に関する
懇談会」構成員、金融庁「フィンテック・ベンチャーに関する有識者会議」委員、総務省「ICTイン
テリジェント化影響評価検討会議」委員等。 ◆近著に「人工知能は人間を超えるか？--ディープラーニングの先にあるもの」（角川 2015）。
＜研究室の実績＞ ◆博士学生17人、修士・学部生10人が所属し、人工知能の基礎研究、ソーシャルメディアの分析、データ分析及びその実社会への
アプリケーションを多方面にわたって行っている。
◆これまでに、トヨタ、リクルート、マイクロソフト、CCC、経営共創基盤、ミクシィなどさまざまな企業と共同研究の実績がある。官公庁
からも、経産省（アジアトレンドマップ等）、文科省（ビッグデータ活用）など相談多数。
◆卒業生の主な進路は、Google、DeNA、楽天、サイバーエージェント、光栄、ゴールドマンサックス、BCG、三井物産、電通など。起
2
業した学生も多数。GunosyやREADYFORなどのサービスを構築、運用している。
Googleの人工知能（アルファ碁）が囲碁でプロ棋士を破る
（2016年3月）
3
読売新聞2016/3/13、朝鮮日報2016/3/11
関係者の衝撃
•
思考ゲームの歴史
– 1980年:オセロプログラムMoorが、世界チャンピオン井上博との六番勝負で1勝を挙げた
– 1997年：チェスプログラムDeepBlue（IBM）が、世界チャンピオン（ガルリ・カスパロフ）に勝つ
– 2012年：将棋プログラムボンクラーズが、故・米長永世棋聖に勝つ
• その後、2015年まで、プロ棋士と対局し、9勝5敗1分
– 残るは囲碁のみ
• 「将棋の10年遅れ」でまだ10年は大丈夫。解の空間が広く、難しいため。
• 2015年当時、まだアマチュアレベル。日本は研究でリード
•
Google（DeepMind）のアルファ碁が、トッププロ棋士に勝利
– 2015年1月にNature誌に掲載
– Googleが買収したDeepMindが参入し、
あっという間に（１年程度で）抜かれてしまった
– ３月にトッププロの韓国のイ・セドルと対局。
4勝1敗でアルファ碁の勝利。
– 鍵となるのは、ディープラーニングを活用し、 局面の「認識」技術を使ったこと
http://www.nature.com/nature/journal/v529/n7587/fig_tab/nature16961_F5.html
4
人工知能をめぐる動向
•
第１次AIブーム（1956〜1960年代）：探索・推論の時代
–
–
ダートマスワークショップ（1956）
•
人工知能（ArJﬁcialIntelligence）という言葉が決まる
•
世界最初のコンピュータENIAC(1946)のわずか10年後
数学の定理証明、チェスを指す人工知能等
•
...冬の時代
•
第２次AIブーム（1980年代）：知識の時代
–
–
–
考えるのが早い人工知能
エキスパートシステム
医療診断、有機化合物の特定、…
第５世代コンピュータプロジェクト：通産省が570億円
ものしりな人工知能
•
...冬の時代
•
第３次AIブーム（2013年〜）：機械学習・ディープラーニングの時代
–
–
ウェブとビッグデータの発展
計算機の能力の向上
データから学習する人工知能
5
hZp://venturebeat.com/2011/02/15/ibm-watson-jeopardy-2/,hZp://weekly.ascii.jp/elem/000/000/207/207410/
IBMワトソン
将棋電王戦
ディープラーニング革命
ILSVRCでの圧勝（2012）
Googleの猫認識（2012）
ディープマインドの買収（2013）
FB/Baiduの研究所（2013）
アルファ碁（2016）
車・ロボット
への活用
機械学習
ウェブ・ビッグデータ
自動運転
Pepper
統計的自然言語処理
（機械翻訳など）
検索エンジンへの活用
タスクオントロジー
MYCIN（医療診断）
DENDRAL
エキスパート
システム
オントロジー
ワトソン(2011)
LOD（LinkedOpenData)
Eliza
Caloプロジェクト
対話システムの研究
Siri(2012)
bot
探索
迷路・パズル
1956
プランニング
STRIPS
1970
第一次AIブーム
（推論・探索）
将棋(2012-)
電王戦
チェス（1997)
DeepBlue
1980
第二次AIブーム
（知識表現）
1995
2010
囲碁
2015
第三次AIブーム
（機械学習・ディープラーニング）
ディープラーニング革命
認識
「画像認識」ができる
（コンピュータができて以来、初めて！）
運動の習熟
言語の意味理解
ロボット・機械に
熟練した動きができる
文の「意味」が分かる
（文と映像の相互変換ができる）
7
機械学習（第３次AIブーム）
膨大な棋譜データ
変数（40個）
王将の位置金の位置
教師データ
銀の位置
...
指すべき手
８八
７八
５五
...
８六歩
５九
６七
７八
...
５四角
...
...
...
...
どういう変数（特徴量）を使うかが最も大事
変数（数百万以上）
王将と金と銀
の位置
王将と銀と角
の位置
王将と銀と飛王将と銀と香
の位置
の位置
(+2,-1)(+2,+3) (+3,+1)(0,-1) (-1,-2)(-3,+4) (-1,+1)(-3,0)
...
...
...
...
...
...
...
指すべき手
...
８六歩
...
５四角
...
8
認識の難しさ
ネコ
• 
イヌ
オオカミ
これをコンピュータで見分けたい
–  目が丸い→ネコ
–  目が細長い、耳が垂れている → イヌ
–  目が細長い、耳がとがっている → オオカミ
イヌ
結局、「耳が垂れている」「目が細長い」などの「特徴量」を人間が考えている限り
無理。どんなに頑張っても、必ず例外がある。人間はなぜかうまくできる。
9
これまでの人工知能の壁≒特徴抽出の壁
•
難しい問題１：機械学習における特徴量の設計（Featureengineering）
– 機械学習において、変数（特徴量）の設計が難しかった。
– 人間が対象をよく観察して設計するしかなかった。
•
難しい問題２：フレーム問題
– 人間が知識を記述することで、人工知能を動作させる。
– そのときに、いくら知識を書いても、うまく例外に対応できない。
•
難しい問題３：シンボルグラウンディング問題
– シマウマがシマのある馬だと、計算機が理解することができない。
– シンボル（記号）がそれが指すものと接続（グラウンド）しておらず、シンボルの操作がで
きない。
結局のところ、いままでの人工知能は、
人間が現実世界の対象物を観察し、「どこに注目」するかを見ぬいて（特徴量
を取り出して）、モデルの構築を行っていた。
その後の処理は自動で行うことができたが、モデル化の部分に人間が大きく介在していた。
それが、唯一にして最大の問題であった。
10
DeepLearning
• 
AIにおける50年来のブレークスルー
–  データをもとに、どこに注目すべきかという「特徴量」が自動的に獲得されている
日経ビジネス2013年4月15日号
11
Auto-encoder(2006-)
•
•
DeepLearningの主要な構成要素
出力を入力と全く同じにしたニューラルネットワーク
– 手書き文字認識では、ひとつの画素の値を予測する。
– 普通に考えると意味ない。
•
•
「１万円札をお店の人に渡して、１万円札をうけとるようなもの」(「考える脳考える
コンピュータ」J.Hawkins）
隠れ層のノードが「入力を圧縮したもの」になる。
正解
出力層
隠れ層
入力層
12
Auto-encoderで得られる表現
13
……..
……..
“Deep”にした場合
14
Googleの猫（2012）
・YouTubeから取ってきた大量の画像をニューラルネットワークに学習させることで、下位の層の
ニューロンには線や点といった単純な特徴量が、上位の層には、人の顔や猫といったより複雑な
特徴量が学習される。
シニフィエ
・人間の視神経のモデルとして知られているものと極めて近い。
15
QuocLe,et.al:BuildingHigh-levelFeaturesUsingLargeScaleUnsupervisedLearning,ICML2012,2012
認識：ディープラーニングの実績（2012）
• 
ディープ
ラーニング
長年の
特徴量設計
の工夫
ILSVRC2012：LargeScaleVisualRecogniJonChallenge2012
Teamname
Error
Descrip0on
SuperVision
15.315%
UsingextratrainingdatafromImageNetFall2011
release
SuperVision
16.422%
Usingonlysuppliedtrainingdata
ISI
26.602%
「ケタ」が違う
WeightedsumofscoresfromclassiﬁersusingeachFC
ISI
26.646%
NaïvesumofscoresfromclassiﬁersusingeachFV
ISI
26.952%
NaïvesumofscoresfromeachclassiﬁerwithSIFT+FV,
LBP+FV,GIST+FVandCSIFT+FV,respecJvely
OXFORD_VGG
26.979%
MixedselecJonfromHigh-LevelSVMscoresand
BaselineScores,decisionisperformedbylookingat
thevalidaJonperformance.
…
…
...
16
認識：2012年以降のエラー率の変化
Error
Before
ディープ
ラーニング
Imagenet2011winner(notCNN)
25.7%
Imagenet2012winner
16.4%
Imagenet2013winner
Imagenet2014winner
Aper
ディープ
ラーニング
(Krizhesvkyetal.)
11.7%
(Zeiler/Clarifai)
6.7%
(GoogLeNet)
BaiduArxivpaper:2015/1/3
6.0%
Human:AndrejKarpathy
5.1%
MicrosopResearchArxivpaper:2015/2/6
4.9%
GoogleArxivpaper:2015/3/2
4.8%
MicrosopResearchCVPRpaper:2015/12/10
3.6%
2015年2月には人間の精度を超えた
画像認識で人間の精度を超えることは
数十年間、実現されていなかった 17
運動の習熟：ディープラーニング＋強化学習（2013-）
• 
強化学習とは、行動を学習する仕組み。
–  「報酬」が得られると、事前の行動を強化する。
–  「状態」「行動」→「望ましさ（報酬ありなし）」
–  古くからある技術だが、これまでは、「状態」を人間が定義してきた。
• 
運動の習熟が可能に
–  状態の認識に、ディープラーニングを使う。
–  DeepMindの研究者（D.Hassabisら）。その後、Googleが買収。
• 
試行錯誤することによって、運動が習熟する
–  最初は下手。繰り返すうちに、うまくなってくる。
–  最終的には、ブロック崩しでの通路を作ったり、インベーダーゲームでの「名古屋撃ち」も。
–  「全く同じプログラム」で、異なるゲームを学習。半数のゲームで人間のハイスコアを上回る
18
http://www.clubic.com/mag/actualite-756059-google-jeu-video.html
hZp://www.economist.com/news/brieﬁng/21650526-arJﬁcial-intelligence-scares-peopleexcessively-so-rise-machines
運動の習熟：ディープラーニング＋強化学習が実世界へ（2015-）
•
実世界への適用
–
–
–
–
•
2015年5月試行錯誤で部品の取付を習熟するロボットの開発（UCBerkeley）
2015年5月試行錯誤で運転を習熟するミニカーの開発（PFN社,日本）
2015年12月試行錯誤でピッキングが上達するロボットの開発（PFN・ファナック，日本）
その他、メリーランド大、EUのプロジェクト等も進展
考えてみれば当たり前
– 犬や猫でもできる。高次な言語能力は必要ない。認識が問題だった。
– 歴史的には、多数の人工知能研究者がこのことを主張してきた。
試行錯誤で作業学ぶロボット（UCBerkeley）
hZps://research.preferred.jp/2015/06/distributed-deep-reinforcement-learning/
hZp://news.berkeley.edu/2015/05/21/deep-learning-robot-masters-skills-via-trial-and-error/
http://www.nikkei.com/news/print-article/?R_FLG=0&bf=0&ng=DGXMZO83844520S5A300C1000000&uah=DF170520127709
試行錯誤で運転を学習するミニカー（PFI社、日本）
19
ディープラーニングの人工知能における意味
•
モラベックのパラドックス：「子供のできることほど難しい。」
– 高度な推論よりも、認識や運動スキルの方が難しい。
– それがここ3年くらいのあいだに一気にできるようになった
•
現在のコンピュータのパワーでようやく可能に
– GPUを数十台並列に並べて、数日〜数ヶ月計算させてようやく精度が上がる
•
アイディアは昔からあった。もともとは日本発
– 1980年当時、NHK放送技術研究所にいた福島邦彦先生によるネオコグニトロン
– その後も多くの研究者が試みている
•
初期仮説への回帰
– 初期仮説「なぜ知能をコンピュータで実現することはできないのか？」
– できると思っていた→できない理由があった→それが解消された→だとしたら、もう一度で
きるという仮説を取るべきでは。
– 産業として非常に大きい可能性を秘めている。
20
ディープラーニングの今後の発展
①画像
画像から、特徴量を抽出する
認識
画像認識の精度向上
②マルチモーダル
映像、センサーなどのマルチモーダルなデータから
特徴量を抽出し、モデル化する
動画の認識精度の向上、行動予測、異常検知
③ロボティクス（行動）
自分の行動と観測のデータをセットにして、特徴量を抽出する。
記号を操作し、行動計画を作る。
プランニング、推論
運動
④インタラクション
外界と試行錯誤することで、外界の特徴量を引き出す
オントロジー、高度な状況の認識
⑤言葉とのひもづけ（シンボルグラウンディング）
高次特徴量を、言語とひもづける
言語理解、自動翻訳
⑥言語からの知識獲得
言語
グラウンディングされた言語データの大量の入力により、さらなる抽象化を行う
知識獲得のボトルネックの解決
ディープラーニングがすごいというより
その先に広がる世界がすごい
21
？
人工知能技術の発展と社会への影響
防犯・監視
セキュリティ
マーケティング
介護
自動運転
調理・掃除
物流・建設
農業の自動化
製造の効率化
画像による診断
広告
文脈にあわせて
「優しく触る」
「持ち上げる」技術
言語の意味理解
行動予測
異常検知
運動の習熟
認識
コンピュータができて以来
初めて「画像認識」ができる
2014
①
文の「意味」が分かる
（文と映像の相互変換ができる）
ロボット・機械に
熟練した動きができる
米国・カナダがリード
2007
大規模知識理解
言語理解
環境変化に
ロバストな
自律的行動
画像認識の
精度向上
翻訳
海外向けEC
教育
秘書
ホワイトカラー支援
②
画像認識マルチモーダルな
認識
2025
2020
③
④
⑤
2030
⑥
ロボティクスインタラクションシンボル
知識獲得
グラウンディング
DeepLearningをベースとするAIの技術的発展
22
言語の意味理解：AutomatedImageCapJoning(2014-)
•
a
http://cs.stanford.edu/people/karpathy/sfmltalk.pdf
23
言語の意味理解：GeneraJngImages(2015.12-)
A stop sign flying in
blue skies.
24
ElmanMansimovet.al:“GeneraJngImagesfromCapJonswithAZenJon”,Reasoning,AZenJon,Memory(RAM)NIPSWorkshop2015,2015
• 
画像による翻訳（意訳）
日本語
英語
–  日本語→画像→英語
–  課題
•  解像度
•  画像から映像、体験へ
•  抽象概念はどう扱うの？
生成モデル
識別モデル
–  いずれにしても視覚的な機構が ベースにあるのは間違いない
• 
映像による推論
–  言語→ 映像→シーン予測→次の映像 →言語
–  「風船が飛んでいる」 → 「山まで飛んで行くのかな」
言葉の空間とパターンの空間を
自由に行き来するのが人間の知能
日本語
日本語
生成モデル
識別モデル
生成モデル
25
知識の蓄積
記号処理の目指すべきところ
記号の空間
他者とのコミュニケーション
日本語
日本語
「風船が山を飛んでいる」
「風船が飛んでいる」
生成モデル
識別モデル
パターンの空間
生成モデル
現実世界
行動
観測
身体性
• 
• 
• 
いままでの推論（述語・命題論理による演繹や帰納・仮説推論）は、記号の空間だけでやろうとしてきた。26
思考とは、パターンの空間と記号の空間をいったりきたりすること。（ラプラス変換や周波数変換と近い。）
この上に、言語によるコミュニケーションや知識の蓄積が構成される。
• 
いずれも目的は、「いかに少ないサンプルで自由度の高いモデルを同定するか」
知識の蓄積
DLでパーツが揃う
記号の空間
他者とのコミュニケーション
日本語
日本語
「風船が飛んでいる」
「風船が山を飛んでいる」
生成モデル
識別モデル
パターンの空間
現実世界
行動
観測
身体性
• 
• 
• 
いままでの推論（述語・命題論理による演繹や帰納・仮説推論）は、記号の空間だけでやろうとしてきた。27
思考とは、パターンの空間と記号の空間をいったりきたりすること。（ラプラス変換や周波数変換と近い。）
この上に、言語によるコミュニケーションや知識の蓄積が構成される。
• 
いずれも目的は、「いかに少ないサンプルで自由度の高いモデルを同定するか」
「子どもの人工知能」と「大人の人工知能」
•
大人の人工知能：ビッグデータから人工知能へという持続的イノベーション
– ビッグデータ全般、IoT全般、ワトソン、Siri、Pepper...
– 一見すると専門家（大人）ができることができるが、人間が裏で作りこんでいる。
– 販売、マーケティングなど。今後は、医療、金融、教育など
•
子どもの人工知能：ディープラーニングを突破口とする破壊的イノベーション
– ディープラーニングを中心とする発展
– 子どものできることができるようになっている
– 人間の発達と同じような技術進化：認識能力の向上、運動能力の向上、言語の意味理
解という順で技術が進展する
– ものづくり中心。
特徴量の設計を人間がやらないといけないのが大人の人工知能、
やらなくてよいのが子どもの人工知能
28
既存産業の発展
農業
収穫判定
建設
測量
食品
加工
振り分け
確認
組み立て
加工
トラクター、コンバインの自動での収穫
適用範囲拡大、効率向上自動での耕うん
選別調製等の自動化
掘削、基礎工事、
外装内装作業等の
効率向上
カット、皮むき、解体等 の自動化
目視確認の
動作効率の向上
自動化
多くの作業の 自動化・効率化
多くの加工工程の 自動化
段取りの自動化
セル生産の自動化
…..
A:画像認識
B:運動の習熟
C:計画立案を伴う運動
29
変化の本質
•  認識（画像・映像）
–  世の中に、画像認識ができないから人間がやっている仕事がたくさんある。そこ
が自動化される。
–  コストが下がる。監視のコストは100分の1以下になる。
•  森林の管理や災害の監視も。新たな事業が次々と。
•  運動の習熟
–  機械も習熟するし、ロボットも上達するようになる。
•  我々は、機械は「機械的な動き」しかできない、ロボットは「ロボット的な動き」しかできな
いと思い込んでいる。（まさにこの形容詞が表している。）
–  自然物を相手にしているものが、自動化される。
•  例えば、農業、建設、食品加工。
•  さらには、日常生活のロボット、生産・仕事を担う機械・ロボット
•  言語の意味理解
–  そのうち（10年〜15年？）、意味理解を伴う自動翻訳が実現される
–  日本語の障壁がなくなる。そのときに、日本経済と社会は？
30
日本は運動路線のほうが戦いやすい
• 
最終的には、日常生活、仕事におけるロボット・機械の活用。状況ごとに個別性があるので、
認識能力がない状況では対応できなかった。ここにどう至るかが鍵。
• 
情報路線で行く道（Google,Facebook系）と、運動路線で行く道があるのではないか。
• 
海外企業・研究者は機械・ロボットに苦手意識
• 
予選を勝ち進んだ企業が決勝に進むイメージ
人工知能が組み込まれた 日常生活ロボット
生産を担うロボット・機械
予選リーグA
決勝リーグ
高度に知能・機械がモジュール化し
組み込まれた社会
情報路線
予選リーグB
運動路線
（大人の人工知能）
（子どもの人工知能）
・メール、スケジュール管理
・対話、質問応答
便利であるという付加価値
・ものを動かす
・加工する
・操作する
信頼できるという付加価値
G,F,M,A,A
現在
???
31
世界の動きは早い：画像の世界
Netatmo、DeepLearningを使った
屋外用監視カメラを発表(2016/1/5)
hZp://jp.techcrunch.com/2015/09/24/placemeter-measures-retail-shop-conversion-rates/
hZp://jp.techcrunch.com/2016/01/05/20160104netatmo-makes-outdoor-security-cameras-suck-less/
Placemeterは歩行者数を計測し、実世界の
コンバージョン率を導き出す(2015/9/24)
•  a
32
インタフェースや医療も変わる
Apple、感情認識のAI企業Emo0entを
買収(2016/1/8)
•
hZp://www.itmedia.co.jp/news/arJcles/1601/08/news093.html
hZp://itpro.nikkeibp.co.jp/atcl/column/15/061500148/122400043/?ST=bigdata&P=2
ディープラーニングの肺がん検出率は
人間より上、米Enli0c(2016/1/5)
a
33
機械・ロボットも変わる
料理から後片付けまですべて請け負う全
自動ロボティックキッチン(2015/12/14)
hZp://www.businessinsider.sg/roboJc-chef-cooks-for-you-2015-12/?r=US&IR=T#.VpOYnJOLTMU
hZp://jp.techcrunch.com/2016/02/24/20160223i-know-i-shouldnt-feel-bad-for-a-robot-but-i-do-anyway/
BostonDynamicsのAtlasが雪山を二足歩
行(2016/2/24)
34
眼の誕生
• 
カンブリア爆発
–  5億4200万年前から5億3000万年前の間に突如とし
て今日見られる動物の「門」が出そろった現象
–  古生物学者アンドリュー・パーカーは、「眼の誕生」
がその原因だったの説を提唱
• 
今後、ディープラーニングにより、「眼をもった機
械」が誕生する
三葉虫：史上初めて眼をもった生物
35
眼をもった機械の可能性 （認識系技術）
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
黒：さっさとやればいいもの（プロトタイプ開発）
赤：研究が必要なもの
青：議論が必要な戦略論
警備、防犯技術
介護施設、病院、独居老人等の見守り技術
防犯や交通違反検知を含めた社会インフラ構築
顔による認証・ログイン・広告技術
わいせつ画像判定、意匠の類似判定等、既存領域での画像活用
表情読み取り技術（サービス業全般にきわめて重要、嘘発見技術も）
顔認証含めたより根本的なプライバシーリスク検討（人が写った画像・映像は個人情報か、
特徴量利用の制限スキーム、本人認証書類の変化等も含め）
国家の安全保障、入国管理、警察業務、輸出入管理業務等での利用
実世界最適化支援（店舗内行動、街づくり等）
防災系画像処理（河川、火山、土砂崩れ）
医療画像処理（X線、CT、皮膚、心電図）
コンテンツ生成系（アート、デザイン、広告制作）
コンテンツ生成の発展系（深層生成モデルの発展。実写代替技術、アニメや映画）
一般数値データ異常監視（プラント、打音検査、情報セキュリティ等）
日本語の一般音声認識技術
画像認識系に関する戦略論（協調と競争のすみわけ、どこで競争力の差が生まれるか）
防犯による不動産価値向上、夜間活用、森林活用等の土地・場所の活用に関する検討
36
眼をもった機械の可能性 （運動系技術）
•
•
•
•
•
•
•
•
•
•
•
•
•
•
重機系（掘削、揚重）
建設現場系（セメント固め、溶接、運搬、取り付け）
農業系（収穫、選果、防除、摘花・摘果）
自動操縦系（ドローン、小型運搬車、農機、建機）
自動運転系（ドリフトする自動運転車、時速300キロの自動運転車、全力で飛び込んでくる
歩行者に対応できる自動運転車）
産業用ロボット系（特に組み立て加工等）
調理系（牛丼、炊飯）
ペットロボット系（AIBO＋強化学習）
医療・介護・バイオ系（手術ロボ、介護ロボ、実験ロボ）
廃炉系（深海や鉱山、宇宙も含めた極限環境）
ピッキング系基礎技術開発（ハードとのすり合わせ、片付けロボや陳列ロボ）
学習効率を上げるためのシミュレーション・試作・転移学習等の基礎技術開発
学習工場、プラットフォーム化に関する検討と戦略論（どういう切り出しにより「Intelinside」
あるいは「MicrosopのWindows化」を実現するか。安全性、信頼性等の競争力につなげる
方法論など）
軍事目的での利用に関する潜在的リスク・可能性の検討
37
DLに関わる海外ベンチャー
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
DeepMind（英）：DLの技術力をもった企業。DQNによるゲーム、アルファ碁、医療など。2011創業。Googleが2014
に£400Mで買収。
EnliJc：医療画像（X線）におけるDL活用。2014創業、15M調達。
NervanaSystems:医療、農業、金融、自動車、エネルギー等における画像処理。24M調達後、インテルが2016買
収。
EmoJent:顔の表情を認識する会社。2012創業、6M調達後、Appleが2016買収。
AﬀecJva：映画やTV番組のどこで表情が変わったのかを読み取る。2009創業、34M調達。
PercepJo：DLによる写真分類アプリ開発。創業、調達額不明。Appleが2015買収。
VocalIQ（英）：DLによる音声認識。1M調達後、Appleが2015買収。
Atomwise：ドラッグディスカバリーへのDL活用。新薬の候補物質を見つける。YC卒業生。2012創業。6M調達。
DescartesLabs：DLによる衛星画像の分析。農業への適用。2014創業、8M調達。
Canary：DLによるホームセキュリティ。2012創業。41M調達。
Netatmo：家電。DLによる監視カメラも。2011創業。38M調達。
PilotAILabs：DLの画像認識を使ったドローンの自動操縦。まだ小さいが、動画が面白い。
MetaMind：画像認識一般。2014創業、8M調達。
SkyMind:JavaベースのDL提供。2014創業。3M調達。
AlchemyAPI:DLによる言語処理と画像認識。クラウドで提供。2005創業、2M調達。IBMが2015に買収。
ZenRoboJcs（フィンランド）：ごみの選別ロボット。2007創業、17M調達。
38
DLに関わる海外大手企業
• 
先導するネット・IT系企業
– 
– 
– 
– 
– 
– 
– 
• 
Google：J.Hinton氏の引き抜きからDeepMindの買収まで抜かりがない。研究開発力も最強。
Facebook：Y.LeCun氏を引き抜き、FAIR（FacebookAIResearch）はDL技術で強い。
Microsop：学術研究にも力を入れ、有力研究者が多数。画像認識のコンペでも優勝。
Apple：DLのベンチャー企業を何社か買収。
Amazon：ピッキングチャレンジ開催。デルフト大（蘭）優勝。
IBM：ワトソン。DL技術もプラットフォームに加える。
Baidu（中）：世界2位の検索エンジン。A.Ng氏率いる強い研究チーム。DLによる音声認識、広
告、画像のキャプションつけ等。
製造業
– 
– 
– 
– 
– 
– 
GE：DLによる医療画像の診断。
Dyson：掃除機に眼をつけたものを開発。インペリアル・カレッジにRoboJcsラボ設立。
Kuka（独）：産業用ロボットへのDL適用
Mobileye（蘭）：車用の画像認識を提供。1999イスラエルで創業。2014年上場。時価総額10B。
LG（韓）：インチョン空港で、DLを使ったロボットでの案内の実験
Samsung（韓）：DLを使った胸部エコー検診の医療機器
39
DLに関わる国内ベンチャー
•  PFN：トヨタ、Fanuc、パナソニック等と連携。車、産業用ロボット、医療等へ
の応用。2014創業、20億円調達。
•  ABEJA：店舗内分析の画像認識ソルーション。さくらインターネット、セール
スフォース、ウフル、ダイキン等と提携。7億円調達。
•  クロスコンパス：DL開発の受託開発等。インテージ子会社と提携。
•  PKSHA：レントゲン、CT、MRI等の画像診断。ノーリツ鋼機グループのドク
ターネット社と提携。
•  PUX：パナソニックからスピンオフ。DLによる画像認識。2010年創業。
•  LeapMind：DL技術の企業向け提供。3億円調達。
40
DLに関わる国内大手（上場）企業
•
製造業
–
–
–
–
•
大手電機
–
–
–
–
•
トヨタ：米国ToyotaResearchInsJtute(TRI)に5年で10億ドル投資。モビリティや介護用のロボット視野。
Fanuc：米CiscoSystems、米RockwellAutomaJon、日PFNと協業し、DLを含む工場の新たなIoTプラットフォー
ムづくりへ。
パナソニック：DLを使った歩行者認識
デンソー：画像処理でモルフォと提携し、車載機器への応用。
NEC：RAPID機械学習。DLによる画像認識。富士通： Zinrai。時系列のDL技術や高速化DL。
Hitachi：人工知能”H”。
三菱電機：演算量の少ないDL開発。
ネット・IT企業
–
–
–
–
DeNA：ヤマトと物流サービス。自動運転バス。ZMPと合弁でロボットタクシー社。PFNと合弁でディープラー
ニングの開発のPFDeNA社。
モルフォ：DLによるシーン認識を製品化
ブレインパッド：機械学習／DLのサービス提供
データセクション：DLによる画像からの海外ニーズ発見サービス
41
どこから始めるか
•
始めること自体はそれほど難しくない
–
–
•
ライブラリが揃っている
–
–
–
•
数学の知識：線形代数や最適化
プログラムの知識：python、GPU
Tensorﬂow:Google、python
Caﬀe:UCバークレー、C++ベース
ほかにも、Keras,chainer,torch7,…
教科書
–
–
–
–
入り口：「人工知能は人間を超えるか」（拙著）
読み物：「人間さまお断り―人工知能時代の富と仕事の手引き」（JerryKaplan,近刊）
教科書：「深層学習」（岡谷貴之）
教科書：”DeepLearning”（Y.Bengioら、MITpressから来年出版。翻訳を出版予定）
•
–
•
www.deeplearningbook.orgにPDFがあり、読めます。
あとは論文を読んでください。
３つの主要な国際会議
–
–
ICML,NIPS,ICLR（それぞれ年1回）
ウェブで全ての情報が見れます。
理系の人が３ヶ月〜半年もやればそこそこできるようになる
42
DLの主な手法
•
CNN系（ConvoluJonalNeuralNetwork,畳み込みニューラルネットワーク）
–
–
–
–
•
RNN系（RecurrentNeuralNetwork、リカレントニューラルネットワーク）
–
–
–
–
•
画像認識でデファクト。視覚に該当
教師あり学習
畳み込みというのとプーリングというのを相互に繰り返す
アルファ碁は、CNN+強化学習+探索。DLロボットも、CNN+強化学習。
時系列のデータが処理できる。映像のデータ、言語のデータなど
教師あり学習
LSTM(Long-ShortTermMemory）というのが主流
マイクロソフトのTay等の技術はLSTM。
オートエンコーダ系
–
–
–
–
–
「分類」だけでなく「生成」ができる。
教師なし学習
変分オートエンコーダ（VAE）、生成敵対的ネットワーク（GAN）というのが主流
ピカソ風の絵を書いたり、言葉から画像を生成するのはこれ。
おそらく今後最も発展する。
この３つの系統があることを押さえておく
43
どうやって人材を獲得するか
•
国内で技術力のあるベンチャー
– 数が限られている
– 領域が特化されている
– 人材は圧倒的に不足しています。グローバルにも同じ。
•
社内で育成したほうがいい
– インパクトの大きさを考えれば社内に競争力をもったほうがいい
– 「まじめな」技術です
– 技術系の人、特に若い人で興味をもつひとは多い。若い人ほどこっそりやってた
りします。それをempowerしてあげること。他社、他業種との技術交流も重要。
•
教育・研修
– オンライン講義 Coursera等
– 東大内の「先端人工知能学教育」寄付講座
• トヨタ、ドワンゴ、オムロン、パナソニック、野村総研、DeNA、みずほFG、三菱重工
• 昨年度から国内で先駆けて講義開始
技術系の人を中心に、オープンな技術交流の機会をどんどん作る
44
どうやって学習させるか
•
学習させた結果を最終製品に乗せて売る
– 個々のものが学習するわけではない。（あまり現実的ではない）
– 「学習工場」のようなものができるはず
– いままでの「設計して動かす」のと考え方がだいぶ違う
•
学習のさせ方はノウハウ
– どういうDLの手法を使うか
– どういったデータを使うか
• 一般的な画像認識のデータセットはたくさんある
• タスクにあわせてのデータをどうやって取得し、ラベル付けするか
– どのようにシミュレータや「練習機」を作るのか
•
ここはまだ体系化されていないがやるしかない
– どういう手法でどういう学習をさせればいいかは、いろいろ試すしかない
– これ自体が差別化の要因になる
学習のさせ方自体がノウハウ化し、競争力となる（のでやるしかない）
45
経営的な側面からみた考え方
•  「認識」や「運動の習熟」で何ができるようになるか
–  いままでの工業化は機械が認識できない大前提で、「環境を整え」自動化
–  その大前提を外して考えることが必要
•  売上が5%,10%増えるかもではなく、（大企業であっても）5倍,10倍になるかも
しれないことを考える
–  ここ10-20年の情報系はニーズ探しだったが、今回はニーズ探しではない
–  今回は、圧倒的な性能向上。計画して投資する。
継続的な競争力へ
将来の技術
できるようになること
丸の大きさ：潜在的市場規模
現状の技術
事業領域の広がり
46
ポイント
• 
製品を作って、その利益を再投資に回すサイクルをいかに作れるか。
–  最終的な競争力は技術にはないはず。
–  データとハードウェア。それを使いこなすノウハウ。
–  インターネットの世界で起こったことと同じ。
• 
最も強いインセンティブをもつ企業が、最も効率的に再投資のループを作り勝つ
–  例えば、生産の効率化ができるとしても、そこに対してもっと強いインセンティブを持つ企業
が他にいるのではないか？
–  顔認識ができるとして、それに対して最も強いインセンティブをもつ企業はどこなのか？
–  つまり、自社事業と「最も直接的」に関係する技術革新を考えないといけない。
• 
実はこれは社内文化との戦い
–  情報系はこれまでも「本流」から外れ、弱かった
–  そのなかでも「機械学習」の技術をもつ部署をいかに中心にもってこれるか。長年の伝統
だった「本流」をいかに破壊し再構成するか。
–  それをトップダウンで意思決定できるか。
自社が最も強いインセンティブを感じる製品・サービスを描き、 それをトップダウンに実行できるか
47
変わりゆく社会
•  倫理や社会制度の議論がもう一度必要になる
–  自動運転で危険回避のときは？人の命の重さは？
•  人工知能システムが社会に広がったときの不具合の問題
–  製造者責任？保険や社会保障のほうが適切では
•  心をもつように見える人工知能を作ってよいか
–  プログラムの停止させると悲しむ？
–  恋愛させるビジネスなど（映画「Her」の世界）
•  人工知能を使った軍事
–  ロボット兵士やドローン
–  権力者を倒す、心を操る？
•  人工知能が知財を生み出す場合の権利
–  著作権や特許は認めるべきか
人工知能学会倫理委員会
（松尾が委員長）でも議論。
社会全体で議論していく必要。
内閣府でも、「人工知能と人間社会に 関する懇談会」にて議論。
•  実は人間が本来的にもっている権利がもっとあるのではないか
–  忘れられる権利、見られない権利、大目に見られる（警告を受ける）権利、好
きになる権利、...
48
我々はどういう社会を作りたいのか
• 
人工知能技術が進めば進むほど、「与えられた目的」に対して、それを実現する
手段は賢くできるようになる。
–  人間＝知能＋生命
–  知能は、目的を与えられたときの問題解決の力。
–  生命は、目的を持つ。
•  自己保存、自己複製、仲間を守るなど。そうしないものは、進化の過程で滅んできたため。
–  人工知能の技術は知能、すなわち問題解決の技術。
• 
そうすると、与える目的自体の是非の議論のほうがより重要になる。
–  なにが社会で大事なのか？
–  個人の幸せや社会全体の幸せはどのように考えればいいのか？
–  異なる価値観のものをどのようにバランスさせればいいのか？
• 
これまで人文社会学系でされてきたような議論が今後、改めて重要になる。
–  特に、哲学、政治学、社会学、法学、心理学、経済学など。
我々は、どういう社会を作りたいのか？
幸せで持続可能な社会とは？
49
日本の戦略
日本の社会課題に対して、 DLとものづくりの掛けあわせによる「眼をもった
機械」を開発し解決する
•  農業分野に「眼をもった機械」を適用することで
–  休耕地が耕せる。除草・防除や収穫ができる。収量が増える。
•  介護分野に適用することで
–  介助も楽に。移動したりトイレにいけるようになり、より自立した生活ができる。
•  廃炉作業に適用することで
–  危険な状況で人が作業しなくてよくなる。工期を短縮できる。
•  河川や火山を見張ることで
–  河川の氾濫や土砂崩れ、噴火などの危険な状態・予兆を早期に発見できる。
•  こうした技術を使った製品を海外に展開していくことで
–  新たな輸出産業に。GDPの増加につながる。
地方からグローバルへ
労働の必要な地方を舞台に技術を伸ばす。それをグローバルに展開
50
必要になる「学習工場」
•  学習工場のイメージ
– 
– 
– 
– 
– 
アルゴリズム開発人件費１人１億円（国際的に競争力のある価格）
学習のためのシミュレータ開発環境
模擬機の開発環境
データの取得環境（さまざまな過酷な環境）
高性能な計算機
•  学習工場で出荷されるもの
–  学習済みの「モデル」
–  これが最終製品に載せて売られる
•  これを新たな設備投資の形とすることができないか。
51
シリコンバレーの意義の日本化
• 
シリコンバレーの意義
– 
– 
– 
– 
– 
– 
• 
日本でこれを阻む要因
– 
– 
– 
– 
• 
ITの世界では20代が最強、30代で円熟
ただし、そのままだと社会的に意義の大きくないことをやってしまう
YCなどのシードアクセラレータが方向を修正する
投資を受け、Exitとし、富を得る。社会的にも評価される。人材が流入する。
大学等の教育機関を巻き込んだ教育から起業への一体となったバリューチェーン
社会全体としてみると、大変合理的
年功序列：ITでは20代が最強という意識がなく、下働きをさせてしまう
平等感：同じ会社で全然違う給与額はいかがなものか
スタートアップの社会的な評価の低さ：買い叩かれる、親に反対される
大学の教育の変化の遅れ：IT系の比率が小さすぎる。
大企業が「学習工場」に投資
– 
– 
– 
– 
若手のIT/AI技術者がたてたVBが、大企業と連携する。大企業は設備投資のつもりで投資。
社会的には、大企業勤務のブランドを与える。（あるいは就職のオプションを与える。）
うまくいけば大企業がバイアウトし、内部に取り込む
大学は、そうした新しい事業を担える人材を輩出する
52
国内の人工知能の動きに対しての問題点
•  企業はどこにお金をだしてよいのかわからない
–  困る中間管理職
–  わかりやすいブランドに流れる
•  投資資金は潤沢
–  民間VC、公的な資金
–  投資先がない
•  人がいない
–  海外に人材を求める。海外の人材は高い。
–  VBに流れ込む（理系でAI技術の高い）人材がまだまだ少ない
–  大学内では優秀な学生がいるが、きちんとしたインセンティブ設計がない
•  国からの研究予算
–  研究が必要というよりは、産業化が必要
–  そこに人が流れ込んでくる構造が必要
–  あまり根本的な解決になっていない
結局、優秀な人にお金を与えて、さらに優秀な人が流れ込む構造を作らないといけない。
それを新しい投資の概念で実現できないか。
53
ディープラーニング×ものづくり：
「眼をもった機械」による日本の新たな産業競争力の実現へ
• 
少子高齢化しており、労働力が不足している。
–  頭脳労働は不足していない。「運動を伴う労働」のニーズが高い。
–  農業従事者、建設・物流、介護、廃炉、熟練工の後継者、etc
• 
ディープラーニングが解決策になり得る。
–  眼をもった機械：認識や運動の上達ができる機械・ロボット
–  ものづくりと相性がよく、日本の強みを活かせる。素材や駆動系も強い
• 
チャンスを捉えるには、正しく早く動いていくことが重要
– 
ディープラーニング人材の育成
–  事業・産業がどう変わるかを早期に検討
–  社会全体で新しい未来像を描いていくこと
• 
新たな投資概念の必要性
–  人への投資をいかに既存の枠組み・文化を踏まえてやるか
–  企業からの投資を引き出し、そこに人材が流入する生態系を作るか
–  例えば「学習工場」
54

Download Report