「データ学習アルゴリズム」
第3章 複雑な学習モデル
3.3 ポルツマンマシン
…..
3.3.3 平衡状態の実現
3.3.4 ポルツマンマシンの学習
…..
9月18日(木)
発表者 新納浩幸
エルゴード理論の利用
平衡状態を得るためには、S の要素数分の確率値が必要
Sの要素数 2 K 2M H N
困難!
平衡状態を得るために、、、エルゴード理論を利用
平衡状態を得るアルゴリズム
(1) s ( x, u, y) の初期値を定める(何でもよい)。
(2) すべてのK個のユニットの中から一様確率に従って
ユニット k を選択し、残りのユニットはそのままにして、
選んだユニット k の値を以下の確率に従い 1 にする。
K
Pk 1 / 1 exp wki si k
i 1
(3) (2)の手続きを繰り返す。
Step 2 の意味
sk 以外の K 1 個のユニット ( sk )C の出力が固定されたと き
sk 1となる条件付き確率を p( sk 1 | ( sk )C , w)とおくと
p ( sk 1, ( sk ) C | w)
p ( sk 1 | ( sk ) , w)
p ( sk 1, ( sk ) C | w) p ( sk 0, ( sk )C | w)
C
p ( sk 0, ( sk ) C | w)
1 / 1
p ( sk 1, ( sk ) C | w)
p( sk 0, ( sk )C | w)
exp(L( sk 1, ( sk )C | w) L( sk 0, ( sk )C | w))
C
p( sk 1, ( sk ) | w)
K
exp wki si k
i 1
p(sk 1 | (sk )C , w) Pk
補題4
先のアルゴリズムにより、Sの確率関数は
ポルツマンマシンの確率関数に法則収束する
証明の概略
先のアルゴリズムはある状態に収束する
エルゴード理論
(既約なマルコフ過程は定常分布に収束する)
ポルツマンマシンの平衡状態は
step2 で変化しない状態
収束した分布
注32
平衡状態に達するには十分な時間が必要。
モデルのサイズに従って長くなる。
十分な時間が取れないと相転移の問題が生じる。
S の取りえる状態の集合がいくつかの
共通部分のない部分集合に分かれて、
互いに他の状態に移りあえない問題
wij
が確率変数のとき何が起こるかは重要な問題
ポルツマンマシンの学習
w wij ,i
を定める
同時確率と条件付確率の学習は少し異なる
まず同時確率の学習の説明を行う
逐次型の最急降下法を用いる
( x, y, w)
wij (t 1) wij (t ) (t )
wij
( x, y, w)
i (t 1) i (t ) (t )
i
損失関数
( x, y, w) : ( x, y) が与えられたときの損失関数
( x, y, w) log p( x, y | w)
1
log
exp( L( s | w))
Z ( w) u{0,1}H
log exp( L( s | w)) log exp( L( s | w))
u{0 ,1}H
s{0 ,1}K
損失関数の微分
( x, y, w)
wij
s s
i
j
exp( L( s | w))
u{0 ,1}H
exp( L(s | w))
s s
i
i
u{0 ,1}H
j
exp( L( s | w))
s{0 ,1}K
exp( L(s | w))
u{0 ,1}H
s s
j
s{0 ,1}K
exp( L( s | w))
s s
i
j
exp( L( s | w))
s{0 ,1}K
Z ( w | x, y )
Z ( w)
1
1
si s j
exp( L( s | w)) si s j
exp( L( s | w))
Z ( w | x, y )
Z ( w)
u{0 ,1}H
s{0 ,1}K
E ( si s j | x, y, w) E ( si s j | w)
最急降下法
( x, y, w)
wij (t 1) wij (t ) (t )
wij
wij (t ) (t )E ( si s j | x, y, w) E ( si s j | w)
( x, y, w)
i (t 1) i (t ) (t )
i
i (t ) (t )E ( si | x, y, w) E ( si | w)
条件付確率の学習(1)
損失関数が若干異なる
( y | x, w) : x が与えられたときの損失関数
( y | x, w) log p( y | x, w)
1
log
exp( L( s | w))
Z ( w | x) u{0,1}H
log exp( L( s | w)) log exp( L( s | w))
u{0 ,1}H
( u , y ){0,1}H N
条件付確率の学習(2)
損失関数の微分に対して,同時確率の場合と同様の
計算を行って以下を得る
( y | x, w)
E (si s j | x, y, w) E (si s j | x, w)
wij
以下,同様に最急降下法より学習が可能となる
© Copyright 2026 ExpyDoc