D-49 近似ベイズ推論としての
dropoutとその最適化
DeepFace (CVPR, 2014)
顔画像 → 4030人の個人識別
パラメータ数1.2億個 >> 学習データ数400万個
前田新一 京都大学
←過学習しない?
dropoutは近似ベイズ推論?
既存のdropoutの解釈
log p( D |  )  log
  
z
T
t 1




p( yt | xt , z,  ) p( z )
  t  z p(z ) log p( yt | xt , z,  )
提案するdropoutの解釈
log p( D |  )  log
  
z
T
t 1
p( yt | xt , z,  ) p( z )
  t  z q(z ) log p( yt | xt , z,  )   z q(z )log p(z)   z q(z ) log q(z )
既存のdropoutは、q(z)=p(z)に固定
q(z)を最適化してみよう