わかりやすいパターン認識」 第1章:パターン認識とは

「データ学習アルゴリズム」
第3章 複雑な学習モデル
3.3 ポルツマンマシン
…..
3.3.3 平衡状態の実現
3.3.4 ポルツマンマシンの学習
…..
9月18日(木)
発表者 新納浩幸
エルゴード理論の利用
平衡状態を得るためには、S の要素数分の確率値が必要
Sの要素数  2 K  2M  H  N
困難!
平衡状態を得るために、、、エルゴード理論を利用
平衡状態を得るアルゴリズム
(1) s  ( x, u, y) の初期値を定める(何でもよい)。
(2) すべてのK個のユニットの中から一様確率に従って
ユニット k を選択し、残りのユニットはそのままにして、
選んだユニット k の値を以下の確率に従い 1 にする。

 K

Pk  1 / 1  exp   wki si   k 
 i 1


(3) (2)の手続きを繰り返す。
Step 2 の意味
sk 以外の K  1 個のユニット ( sk )C の出力が固定されたと き
sk  1となる条件付き確率を p( sk  1 | ( sk )C , w)とおくと
p ( sk  1, ( sk ) C | w)
p ( sk  1 | ( sk ) , w) 
p ( sk  1, ( sk ) C | w)  p ( sk  0, ( sk )C | w)
C
 p ( sk  0, ( sk ) C | w) 
 1 / 1 

p ( sk  1, ( sk ) C | w) 

p( sk  0, ( sk )C | w)
 exp(L( sk  1, ( sk )C | w)  L( sk  0, ( sk )C | w))
C
p( sk  1, ( sk ) | w)
 K

 exp   wki si   k 
 i 1

p(sk  1 | (sk )C , w)  Pk
補題4
先のアルゴリズムにより、Sの確率関数は
ポルツマンマシンの確率関数に法則収束する
証明の概略
先のアルゴリズムはある状態に収束する
エルゴード理論
(既約なマルコフ過程は定常分布に収束する)
ポルツマンマシンの平衡状態は
step2 で変化しない状態
収束した分布
注32
平衡状態に達するには十分な時間が必要。
モデルのサイズに従って長くなる。
十分な時間が取れないと相転移の問題が生じる。
S の取りえる状態の集合がいくつかの
共通部分のない部分集合に分かれて、
互いに他の状態に移りあえない問題
wij
が確率変数のとき何が起こるかは重要な問題
ポルツマンマシンの学習
w  wij ,i 
を定める
同時確率と条件付確率の学習は少し異なる
まず同時確率の学習の説明を行う
逐次型の最急降下法を用いる
 ( x, y, w)
wij (t  1)  wij (t )   (t )
wij
 ( x, y, w)
 i (t  1)   i (t )   (t )
 i
損失関数
 ( x, y, w) : ( x, y) が与えられたときの損失関数
 ( x, y, w)   log p( x, y | w)
 1

  log
exp( L( s | w))

 Z ( w) u{0,1}H

  log  exp( L( s | w))  log  exp( L( s | w))
u{0 ,1}H
s{0 ,1}K
損失関数の微分
 ( x, y, w)
wij
s s
i

j
exp( L( s | w))
u{0 ,1}H
 exp( L(s | w))
s s
i

i

u{0 ,1}H
j
exp( L( s | w))
s{0 ,1}K
 exp( L(s | w))
u{0 ,1}H
s s
j
s{0 ,1}K
exp( L( s | w))
s s
i

j
exp( L( s | w))
s{0 ,1}K
Z ( w | x, y )
Z ( w)
1
1
  si s j
exp( L( s | w))   si s j
exp( L( s | w))
Z ( w | x, y )
Z ( w)
u{0 ,1}H
s{0 ,1}K
 E ( si s j | x, y, w)  E ( si s j | w)
最急降下法
 ( x, y, w)
wij (t  1)  wij (t )   (t )
wij
 wij (t )   (t )E ( si s j | x, y, w)  E ( si s j | w)
 ( x, y, w)
 i (t  1)   i (t )   (t )
 i
  i (t )   (t )E ( si | x, y, w)  E ( si | w)
条件付確率の学習(1)
損失関数が若干異なる
 ( y | x, w) : x が与えられたときの損失関数
 ( y | x, w)   log p( y | x, w)
 1

  log
exp( L( s | w))

 Z ( w | x) u{0,1}H

  log  exp( L( s | w))  log  exp( L( s | w))
u{0 ,1}H
( u , y ){0,1}H  N
条件付確率の学習(2)
損失関数の微分に対して,同時確率の場合と同様の
計算を行って以下を得る
 ( y | x, w)
 E (si s j | x, y, w)  E (si s j | x, w)
wij
以下,同様に最急降下法より学習が可能となる