わかりやすいパターン認識

わかりやすいパターン認識
第3章 誤差評価に基づく学習
3.3 誤差逆伝播法
ニューラルネットワーク(neural network)
• 複数のしきい値論理ユニットを含む層を、
入力層から出力層まで多数並べたネット
ワーク
しきい値論理ユニット
x0
1
xj
l
xd
c
入
力
層
中
間
層
出
力
層
ニューラルネットワーク(neural network)
ユニット間の結合は隣接する層間でのみ
存在する
入力層から出力層へ向かう一方向
区分的線形識別関数と等価
パーセプトロンは中間層を持たず入力層と
出力層からなる2層のネットワーク
誤差逆伝播法
(back propagation method)


ニューラルネットワーク:有効な学習方法
が知られていなかった
パーセプトロンの学習規則:学習できるの
は最終層のみで中間層には無力
これまでの学習法の欠点を解決、多層の
ネットワークにまで学習の適用範囲を拡張
誤差逆伝播法
(back propagation method)
隣接する3つの層を考え、ある層におけるj
番目のユニットについて

P番目のパターン x p (1  p  n)を入力

ユニットjへの入力 h jp  ij gip
i

ユニットjの出力 g jp  f j (h jp )
h jp
g ip
i
ij
hkp
g jp
j  jk
k
二乗誤差
• パターンpにたいし、出力層のl番目のユニット、
ユニットlに対する教師信号 b との差
lp
1
J p   ( g lp  blp ) 2
2 l
• 全学習パターンに対する二乗誤差
J  Jp
p
最小になるように重みを決める
最急降下法
これまで同様Jの最小解を求める
ij  ij  
J p
ij
 ij   jp gip
 J p J p h jp




  jp g ip 
 


h


jp
ij
 ij

 jp の決め方
J p
J p g jp J p
 jp 



f j(h jp )
h jp g jp h jp g jp
ユニットjが出力層にある時
J p
g jp
 g jp  b jp
ユニットjが中間層にある時
J p
J p hkp


 kp jk

g jp
k hkp g jp k
シグモイド関数(sigmoid function):S(u)
• しきい値関数を近似する微分可能な関数
1
S (u ) 
1  exp(u )
S (u )  S (u )(1  S (u ))
・ユニットjへの出力式(誤差伝播法) g jp  f j (hjp )
の f j をシグモイド関数に選ぶと次式が得ら
れる
f j(h jp )  g jp (1  g jp )
 jp の決定
( g jp  b jp ) g jp (1  g jp ) (ユニットj、出力層)

 jp  (   ) g (1  g )(ユニットj、中間層)
kp jk
jp
jp
 
k
0  g jp (1  g jp )  1であり、ユニットの出力値 g jpが
0.5の時重みの修正量はもっとも大きく、
g jp が0または1に近づく程修正量は小さくなる
一般化デルタルール
(generalized delta rule)
• 誤差逆伝播法の式を、2層のネットワーク
に対するWidrow-Hoffの学習規則の式と
比較すると、前者はより一般的な多層の
ネットワークへ拡張された形になっている
ため、一般化デルタルール( generalized delta
rule )とも呼ばれる