人工知能はどうやって画像を認識するのか

基 礎を鍛える
初 級
なるほど!納得
アナリティクス ポイントのポイント
対象
データ分析を必要とする業務部門
第8回
人工知能はどうやって画像を認識するのか
∼ディープラーニングを実現するニューラルネットワーク
藤沼 貴士
株式会社イグアス
テクニカル&クラウド事業部
テクニカル推進部 部長
最近、 日経新聞の広告を見て、 CD やレ
ように人間と統計の接点にある気がします。
このうちの(3)が使われている。
コードのようにいわゆる「ジャケ買い」をし
ました。 購入したその本、
『成功している人
は、なぜ神社に行くのか?』
(*1)のなかに、
「神
社に参詣する回数(年間)と幸福度の関連」
AIと機械学習
ニューラルネットワークの話を始める前に、
を統計したレポートがありました。 幸福度は
まず人工知能(AI:Artificial Intelligence)
アンケートをとり、 5 段階評価で定量化して
について触れたい。
また人工知能を支える中核的な技術が、
「機械学習」 である。 機械学習とは、 学習
データを機械に読み込ませ、 推論のための
ルールをコンピュータが作る仕組みである。
機械学習は、まず大量の学習データから
コンピュータ上などで人工的に、 人間と同
特徴を抽出し、学習して推論するひな型とし
結果は、
「年収が高い人は、 参詣回数が
様の知能を実現させようという人工知能のカ
て、
「推論モデル」を作成する。たとえばあ
多く幸福度が高い」「年収の低い人でも、
テゴリは、 大きく以下の 3 つに分けられる。
る画像から、
「リンゴの特徴」 や 「ミカンの
います。
特徴」 などを取り出し、 特徴の組み合わせ
参詣回数が多いと幸福度が高い」という傾
向があったそうです。本の主旨は、
「神社に
(1)ルールベース・アプローチ
パターン(推論モデル)を作る。
お参りすると成功(年収高)するよ」 とい
専門家の知識やノウハウを人手によって
次に新たなデータを推論モデルにあては
うものですが、 幸福度という人間の感情や
ルール化し、そのルールに従ってデータを処
め、 結果を導き出す。 たとえばリンゴの写
感覚と、 参詣回数や年収などの具体的数値
理する
真から、その特徴を抽出し、あらかじめ用意
を掛け合わせると、 結構おもしろい結果にな
(2)統計・確率論的アプローチ
されている推論モデルに照合し、 その特徴
ると思いました。
データに内在する因果関係を確率的に記
パターンに最も近いと判断すれば、
「これは
今回は、 最近よく耳にするディープラーニ
述する統計手法を使って、データを処理する
リンゴです」という推論結果を確信度(パー
ングを支えるニューラルネットワークについ
て書きます。ニューラルネットワークが、ど
(3)脳科学的アプローチ
セント)付きでアウトプットする。
脳科学の研究成果を取り入れ、 脳の神
うディープラーニングにつながっていくのか
経活動を再現する数学的モデル(ディープ
をまとめています。
ニューラルネットワーク等)を使ってデータ
人間の思考に IT がどこまで近づけるかを
を処理する
実現しようとしたアルゴリズムは、この本の
68
今回解説するニューラルネットワークには、
ニューラルネットワーク
ニューラルネットワークとは、 脳機能に見
られるいくつかの特性を計算機上のシミュ
2016 No.13
068-071_16ISno13_kiso_analy_FIX.indd 68
2016/09/25 19:53
レーションによって表現することを目指した
た人工ニューロンが相互に接続したり、 いく
り大きく2 種類ある。
数学モデルである。
つもの層構造になってニューラルネットワー
1つは、 階層型ネットワークである(図表
名称は、 人間の神経細胞であるニューロ
クが構成される。
3)。 ニューロンを層状に並べ、 前の層から
ンに由来している。脳は多数のニューロンの
ニューラルネットワークは、 その構造によ
次の層へ一方向にのみ信号が伝わる。 入力
集まりなので、 脳(視覚や聴覚など)に刺
激を与えると、ニューロンが刺激されて他の
ニューロンに信号を伝える。
図表 1
人工ニューロン
他の神経細胞からの情報総量がしきい値
を超えたとき、その神経細胞は発火(という)
unit
x=1
し、 他の細胞へ同様に情報を伝える。 同じ
w1
刺激を繰り返し与えると、 同じ経路で信号が
伝わるようになる。これが学習による記憶の
x=2
で実現するのが、 ニューラルネットワークで
ある。
図表 1 は 1 つのニューロンを図式化したも
output
しきい値
w2
メカニズムと考えられている。これをモデル
w3
x=3
の、いわゆる人工ニューロンである。
ここでは 3 つの入力 として、 それぞれ
図表 2
動物園に行く理由 x1、 x2、 x3 があり(入力はいくつあって
動物園に行く要因
もよい)、各入力に重み(w)をもたせる(こ
xx 動物園に行く
の例だとw1、 w2、 w3)。 重みとは、 そ
れぞれの入力が出力に及ぼす影響の大きさ
を表す実数である。
しきい値をもつ unit にこれらをインプット
し、 演算し、 入力に重みを掛けた総和がし
きい値を超えたら、
「1」 を出力(つまり発
火)、 超えなければ 「0」を出力するという
構造である。
① 休日である
② お金を xxxx 円以上もっている
③ 家族にせがまれた
④ イベントがある
⑤ 天候が晴れ
本連載の第 5 回にも掲載した図表 2を使っ
て、 解説してみよう。
動 物 園に行く要 因とされるのが、 ① 休
図表 3
階層型ネットワーク
日である、 ②お金をxxxx 円以上もってい
入力層
中間層
出力層
る、 ③家族にせがまれた、 ④イベントがあ
る、 ⑤天候が晴れ、 の 5 つであった。これ
input
output
がニューロンの図式のインプットとして x1、
x2、 x3、 x4、 x5になる。
そして、 それぞれの x に重みをもたせる
(w1、 w2、 w3、 w4、 w5)。 基 本 的 に
休日であることが前提なので w1=10、ど
うしても行きたいイベントがあれば平日夜で
も行くのならw4=12、という感じだ。
そして unit のしきい値を設定すれば、 1
つの意思決定モデルが作成される。こういっ
http://www.ismagazine.jp/
068-071_16ISno13_kiso_analy_FIX.indd 69
69
2016/09/25 19:53
基 礎を鍛える
初 級
層、中間層、出力層の 3 層で構成され、入
ら、 それぞれの状態変化を繰り返し、 記憶
脳の働きをシミュレートするには至らなかった。
力層のニューロンに加えた input に対して、
することが可能になる。
ニューラ ル ネットワークを進 化させ た
ディープニューラルネットワーク(DNN)は、
出力層のニューロンの outputが決まる。
もう1つは、 相互結合型ネットワークであ
対象
る(図表 4)。 層という形状がなく、 ニュー
ディープラーニング
階層型をさらに発展させ、 中間層を3 層以
上重ねた構造になる(図表 5)。この DNN
データ分析を必要とする業務部門
ロン同士が相互に結合している。 信号の流
初期のニューラルネットワーク研究は、こ
を使った機械学習が、ディープラーニングで
れる方向は一方向でなく、フィードバックを
ういったニューロンを相互に接続した相互結
ある。2000 年代になって再び注目を集め
もち、 各ニューロンが互いに影響を与えなが
合型や階層型が研究されていたが、人間の
始め、 ニューラルネットワークの欠点を補え
ると期待されている。
ディープラーニングには、DNNに大量の
図表 4
相互結合型ネットワーク
データを読み込ませる「学習」と呼ばれる工
程から、DNNのなかにある重み付けパラメー
タを最適化する必要がある。ここで読み込ま
せ、学習させるデータを「教師データ」という。
たとえば大量の画像データをDNNに入力し、
DNNが教師データと同じデータを出力するよ
うになるまで、ニューロン間接続の重み付け
パラメータを繰り返し調整する。
ミカンの画像を「ミカン」と推論するには、
ミカンの入力画像のピクセルを使ってミカン
の画像的特徴を抽出するわけだが、これを
「特徴量」 という。 学習させたいデータを
表す特徴量として、よりたくさんの情報をも
図表 5
70
ディープニューラルネットワーク
2016 No.13
068-071_16ISno13_kiso_analy_FIX.indd 70
2016/09/25 19:53
つ特徴量を作り出すため、 出力層と入力層
に強く反応するものが確認されたという記事
まさにディープラーニングは、 我々人間と
のどちらにも学習させたいデータの正解例を
がある。
同じように学習できるレベルにまで成長して
読み込ませ、 推論の確信度を上げていくわ
この方式は、 人が設定したルールや学習
きたようだ。朝起きると、自分のスマートフォ
けだ。
モデルに沿って判断するのではなく、それ自
ンに 「動物園に行きなさい」 と指示される
こういったスタイルは、
「教師あり学習」
体をコンピュータが自己学習して作り出した
時代も遠くないのではないか。
といわれる。
もので、 筆者の人工知能のイメージに近い。
IBM Bluemixで提供している「Watson
つまりインプットに対して自己学習し、 新た
Visual Recognition」 は、 画像認識 API
なインプットに対して推論する。これを繰り
サービスである(*2)。 画像をインプットとし
返して、 推論の精度を上げていくスタイルで
て与えると、 その画像が何なのかを確信度
ある。
と併せてアウトプットする。このAPIの場合も、
「教師あり学習」 の作業が必要である。
しかしここまで述べてきた内容だと、 人工
知能とはいうものの、 人がデータを学習させ
る手間が前提のシステムであり、 落胆する
人もいるだろう。かくいう筆者も、 その 1 人
である。
そこで最近は、データをひたすら読み込ま
せ、
「教師データなし」 で推論する例も登場
してきた。2010 年の例なので少し古いが、
グーグルが YouTube 上にある大量の画像
(* 1)
『成功している人は、なぜ神社に行くのか?』
(八木龍平著、サンマーク出版)
(* 2)Visual Recognition のデモ
https://visual-recognition-demo.mybluemix.net/
参考
● ニューラルネットワークと深層学習
http://nnadl-ja.github.io/nnadl_site_ja/chap1.html
● ニューラルネットワーク入門
http://www-ailab.elcom.nitech.ac.jp/lecture/neuro/menu.html
● 最新の IT トレンドとビジネス戦略
http://libra.netcommerce.co.jp
著者プロフィール
藤沼 貴士 氏 ◉ 1966 年、栃木県栃木市生まれ。1989 年、日本ビジネスコンピューター(現 JBCC)入社。
AS/400 のインフラ SE を担当後、CRM ソリューションのプロモーションを担当し、その際初めてアナリティク
を、 教師データがないままDNNに入力した
ス(BI)製品に関わる。2007 年よりイグアス。ISV ソフトウェア、クラウド、アナリティクス製品を担当。特に
ところ、 DNN の出力の 1 つに、 猫の画像
いわゆるオヤジロッカー。年1回開催される
「イグアス芸術祭」
のプロデューサーも務める。
アナリティクス分野を深掘りし、パートナー向けサイトにて月 1 回、コラムを執筆中。趣味はギターとバンド、
http://www.imagazine.co.jp/
http://www.ismagazine.jp/
068-071_16ISno13_kiso_analy_FIX.indd 71
71
2016/09/25 19:53