「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.3 ポルツマンマシン ….. 3.3.3 平衡状態の実現 3.3.4 ポルツマンマシンの学習 ….. 9月18日(木) 発表者 新納浩幸 エルゴード理論の利用 平衡状態を得るためには、S の要素数分の確率値が必要 Sの要素数 2 K 2M H N 困難! 平衡状態を得るために、、、エルゴード理論を利用 平衡状態を得るアルゴリズム (1) s ( x, u, y) の初期値を定める(何でもよい)。 (2) すべてのK個のユニットの中から一様確率に従って ユニット k を選択し、残りのユニットはそのままにして、 選んだユニット k の値を以下の確率に従い 1 にする。 K Pk 1 / 1 exp wki si k i 1 (3) (2)の手続きを繰り返す。 Step 2 の意味 sk 以外の K 1 個のユニット ( sk )C の出力が固定されたと き sk 1となる条件付き確率を p( sk 1 | ( sk )C , w)とおくと p ( sk 1, ( sk ) C | w) p ( sk 1 | ( sk ) , w) p ( sk 1, ( sk ) C | w) p ( sk 0, ( sk )C | w) C p ( sk 0, ( sk ) C | w) 1 / 1 p ( sk 1, ( sk ) C | w) p( sk 0, ( sk )C | w) exp(L( sk 1, ( sk )C | w) L( sk 0, ( sk )C | w)) C p( sk 1, ( sk ) | w) K exp wki si k i 1 p(sk 1 | (sk )C , w) Pk 補題4 先のアルゴリズムにより、Sの確率関数は ポルツマンマシンの確率関数に法則収束する 証明の概略 先のアルゴリズムはある状態に収束する エルゴード理論 (既約なマルコフ過程は定常分布に収束する) ポルツマンマシンの平衡状態は step2 で変化しない状態 収束した分布 注32 平衡状態に達するには十分な時間が必要。 モデルのサイズに従って長くなる。 十分な時間が取れないと相転移の問題が生じる。 S の取りえる状態の集合がいくつかの 共通部分のない部分集合に分かれて、 互いに他の状態に移りあえない問題 wij が確率変数のとき何が起こるかは重要な問題 ポルツマンマシンの学習 w wij ,i を定める 同時確率と条件付確率の学習は少し異なる まず同時確率の学習の説明を行う 逐次型の最急降下法を用いる ( x, y, w) wij (t 1) wij (t ) (t ) wij ( x, y, w) i (t 1) i (t ) (t ) i 損失関数 ( x, y, w) : ( x, y) が与えられたときの損失関数 ( x, y, w) log p( x, y | w) 1 log exp( L( s | w)) Z ( w) u{0,1}H log exp( L( s | w)) log exp( L( s | w)) u{0 ,1}H s{0 ,1}K 損失関数の微分 ( x, y, w) wij s s i j exp( L( s | w)) u{0 ,1}H exp( L(s | w)) s s i i u{0 ,1}H j exp( L( s | w)) s{0 ,1}K exp( L(s | w)) u{0 ,1}H s s j s{0 ,1}K exp( L( s | w)) s s i j exp( L( s | w)) s{0 ,1}K Z ( w | x, y ) Z ( w) 1 1 si s j exp( L( s | w)) si s j exp( L( s | w)) Z ( w | x, y ) Z ( w) u{0 ,1}H s{0 ,1}K E ( si s j | x, y, w) E ( si s j | w) 最急降下法 ( x, y, w) wij (t 1) wij (t ) (t ) wij wij (t ) (t )E ( si s j | x, y, w) E ( si s j | w) ( x, y, w) i (t 1) i (t ) (t ) i i (t ) (t )E ( si | x, y, w) E ( si | w) 条件付確率の学習(1) 損失関数が若干異なる ( y | x, w) : x が与えられたときの損失関数 ( y | x, w) log p( y | x, w) 1 log exp( L( s | w)) Z ( w | x) u{0,1}H log exp( L( s | w)) log exp( L( s | w)) u{0 ,1}H ( u , y ){0,1}H N 条件付確率の学習(2) 損失関数の微分に対して,同時確率の場合と同様の 計算を行って以下を得る ( y | x, w) E (si s j | x, y, w) E (si s j | x, w) wij 以下,同様に最急降下法より学習が可能となる
© Copyright 2024 ExpyDoc