論文輪読 - Deep Learning

論文輪読
A review of unsupervised feature learning and deep learning for time-series modeling 那須野 薫
東京大学松尾研究室
2015年4月16日
紹介する論文について
•  タイトル:
–  A review of unsupervised feature learning and deep
learning for time-series modeling
–  時系列モデリングのための教師なし表現学習とディープラー
ニングに関する調査
•  著者:
–  Martin L., Lars K., Amy L.
–  Örebro University in Sweden
•  被引用回数:12
•  引用件数:135
•  公開年:2014
東京大学松尾研究室 那須野薫
2015年4月16日
2
感想・分かったこと
•  良く分かっていないことが分かった。
•  時系列データの特徴に応じて、表現学習手法を選択できそ
うになった。
東京大学松尾研究室 那須野薫
2015年4月16日
3
アジェンダ
1. 
2. 
3. 
4. 
5. 
イントロダクション
時系列データの特徴
教師なし表現学習と深層学習
時系列問題の典型的な事例
まとめ
東京大学松尾研究室 那須野薫
2015年4月16日
4
アジェンダ
1. 
2. 
3. 
4. 
5. 
イントロダクション
時系列データの特徴
教師なし表現学習と深層学習
時系列問題の典型的な事例
まとめ
東京大学松尾研究室 那須野薫
2015年4月16日
5
1. イントロダクション
•  これまで時系列データについて多くの研究がなされてきた
ものの更なる改善が必要である。
–  従来手法は時間の扱いが浅い。
•  従来のFeature Engineerngの代替手法として教師なし表
現学習が利用され始めた。
–  Feature Engineringはコストが高い。
–  ラベルなしデータは大量に存在。
–  多層にすることで、より複雑なデータのモデリングが可能に。
•  時系列データからの表現学習に関する研究は多くない。
•  本論文の目的
–  時間関係を捉える為に開発された表現学習アルゴリズムの整理
–  それらが適用される様々な時系列問題の事例の整理
東京大学松尾研究室 那須野薫
2015年4月16日
6
アジェンダ
1. 
2. 
3. 
4. 
5. 
イントロダクション
時系列データの特徴
教師なし表現学習と深層学習
時系列問題の典型的な事例
まとめ
東京大学松尾研究室 那須野薫
2015年4月16日
7
2. 時系列データの5つの特徴
•  ノイズが多く高次元であること。
•  データにパタン全体が含まれているとは限らないこと。
•  時間変数に明示的な依存関係が存在すること
•  非定常性がある(平均、分散、頻度が常に変化する)こと
•  時間方向の移動に対する普遍性があること
–  画像データでは回転普遍性や移動普遍性がある
東京大学松尾研究室 那須野薫
2015年4月16日
8
アジェンダ
1. 
2. 
3. 
4. 
5. 
イントロダクション
時系列データの特徴
教師なし表現学習と深層学習
時系列問題の典型的な事例
まとめ
東京大学松尾研究室 那須野薫
2015年4月16日
9
3. サマリー
•  特定の問題へのモデル選択の要点
–  生成モデル or 識別モデル?
•  t+1のデータを復元するなどの予測やデータの統合を行う場合は生成モデルを利用する。
分類問題を行う場合は識別モデルで十分。
•  生成モデルはロバストで異常値に強いが、計算量が大きい。
–  データの特徴はなにか?
•  データが時系列の構造を持つ場合、本質的に時間の関係をモデリングしたり、時間の一貫
性を組み込んだりするモデルを利用する。単純に特徴ベクトル化すべきではない。
–  入力の大きさは?
•  画像処理等の多次元問題には、convolutionやpoolingを利用することで次元を減らした
り、時間方向に対して多少の移動普遍性を獲得することができる。
東京大学松尾研究室 那須野薫
2015年4月16日
10
3. 教師なし表現学習と深層学習の要素技術
1. 
2. 
3. 
4. 
5. 
6. 
7. 
8. 
9. 
Restricted Boltzman Machine
Conditional RBM
Gated RBM
Auto-encoder
Recurrent neural network
Deep Learning
Convolution and pooling
Temporal coherence
Hidden Markov Model
東京大学松尾研究室 那須野薫
2015年4月16日
11
3-2. Conditional RBM
東京大学松尾研究室 那須野薫
2015年4月16日
12
3-2. Gated RBM
•  2入力ベクトルの遷移をモデリングするRBM。
東京大学松尾研究室 那須野薫
2015年4月16日
13
3-4. Auto-encoder
東京大学松尾研究室 那須野薫
2015年4月16日
14
3-8. Temporal Coherence
•  時間の関係性を捉えるための構造を変える以外の方法。
•  隠れ層への活性化の変化を最小化する制約
–  min(¦h(t) ‒ h(t-1)¦)
東京大学松尾研究室 那須野薫
2015年4月16日
15
アジェンダ
1. 
2. 
3. 
4. 
5. 
イントロダクション
時系列データの特徴
教師なし表現学習と深層学習
時系列問題の典型的な事例
まとめ
東京大学松尾研究室 那須野薫
2015年4月16日
16
4. サマリー
•  Multi-variate:
–  多変量か、単変量か。
•  Raw data:
–  生データからの学習か。TDNN, cRBM, convRBMが適している。
•  Frequency rich:
–  周波領域帯が重要か否か。
•  Common features:
–  一般的に利用される素性。
•  Common method:
–  一般的に利用される手法。
•  Benchmark set:
–  ベンチマークに利用されるデータセット。
東京大学松尾研究室 那須野薫
2015年4月16日
17
4. 典型的な事例
1. 
2. 
3. 
4. 
5. 
6. 
7. 
動画
株式市場予測
音声認識
音楽認識
モーションキャプチャデータ
eノーズデータ
生理学的データ
東京大学松尾研究室 那須野薫
2015年4月16日
18
4-1. 動画
•  多次元時系列データ
•  伝統的な研究
–  フレームを静的データとして処理し、特徴点を検知する方法
•  最近な研究
–  Gated RBM
•  フレーム(t)の全体画像を入力とし、フレーム(t+1)の全体画像を出力するモデ
ル。全結合のため大きなサイズの画像への適用は難しい。
–  Convolutional GRBM with probabilistic max-pooling
–  Convolutional Stacked ISA
•  大きな入力へうまくスケールしない独立部分空間分析(Independent Spacial
Analysis)をConvolutionalに積み上げる手法。ハイパーパラメタが少ない。
–  Space-Time Deep Belif Network(ST-DBN)
•  ConvRBMの構造に対して、まずSpacial poolingし、spaciel pooling units
にtemporal poolingを行うモデル。convRBMより精度がかなり良いらしい。
–  Auto-Encoder on the temporal difference on the pooling units
•  今後の方向性
–  より長い時間方向の依存関係を学習できるモデルの開発。
東京大学松尾研究室 那須野薫
2015年4月16日
19
4-1. 時系列データ
a person running at frame 100, 105, 110, and 115
東京大学松尾研究室 那須野薫
2015年4月16日
20
4-2. 株式市場予測
•  外部要因の大きい一次元データ
–  non-linear, uncertain, non-stationary。
•  伝統的な研究
–  ニュース、ソーシャルメディア、チャットの情報より予測
–  ANN、
•  最近な研究
–  recurrent versions of TDNN
–  wavelet transformed fetures with RNN
–  echo state network
•  今後の方向性
–  情報源を増やし結合し利用する。
–  モデル開発をがんばる。
–  (改善の余地がかなりある)
東京大学松尾研究室 那須野薫
2015年4月16日
21
4-2. 時系列データ
Dow Jones Industrial Average (DJOI) over a period of 10 years
東京大学松尾研究室 那須野薫
2015年4月16日
22
4-3. 音声認識
•  音声認識の問題
–  音源判定、性別判定、文字起こし, 音響モデリング
–  DLで大きく進展した領域。
–  MFCCsというpre-madeな素性を用いることが主流。
•  伝統的な研究
–  Gaussian mixture models(GMM)で離散化し、Hidden Markov Models(HMMs)
を用いる手法が従来では最も優れていた。(features-GMM-HMM)
•  最近な研究
–  features-RBM-HMMs
–  convDBN、cRBMなどなどが試された。
–  features-DeepLSTMRNN
•  state-of-the-art。系列化処理がない。HMMs使わない。
–  MFCCs(features)を置換する
•  RBM-HMMに生データを入れる。
–  動画と音声を利用する
•  動画とそれに映る数字を読み上げた音声を利用する研究。
•  今後の方向性
–  生データよりよい素性を作成するアルゴリズムでpre-madeな素性を置換すること。
東京大学松尾研究室 那須野薫
2015年4月16日
23
4-3. 時系列データ
The quick brown fox jumps over the lazy dog
東京大学松尾研究室 那須野薫
2015年4月16日
24
4-4. 音楽認識
•  音楽認識
–  音声認識と似ているが、多変量データという点で異なる。
–  問題:アノテーション(清月、和音、楽器、ムード)、検索(テキストベースコンテン
ツ検索、コンテンツベース類似検索、)、テンポ特定
•  伝統的な研究
–  一般的な素性:MFCCs, chroma、constant-Qなど。
•  最近な研究
–  音楽ジャンルの特定にsparse codingを利用する事例。
–  自己教示学習を利用して、音楽ジャンルを分類する事例。
•  整理と今後の方向性
–  教師なし表現学習はよく利用されている。
–  深層ネットワークを利用するモチベーションとして、音楽自体がモチーブ、フレー
ズ、セクションと全体を形成する和音、メロディー、リズムの階層構造からなるこ
とが挙げられる。
–  生データからの表現学習は今後の課題。
–  Convolutional networkがいい精度出しているが改善の余地はある。
東京大学松尾研究室 那須野薫
2015年4月16日
25
4-5. モーションキャプチャデータ
•  ヒューマンモデリング
–  応用:トラッキング、活動認識、スタイル-コンテンツ分割、人物特定、アニメー
ション等。
–  データ取得方法
•  マーカーの利用 or 画像からアルゴリズムで抽出。
–  データの特徴:多次元。ノイズ多い。多変量。音楽や音声データ比べると振動数は
低い。
•  伝統的な研究
–  人間の動作のスタイルとコンテンツをHMMsや線形力学系でモデリングする事例。
•  HMMsや線形力学以外の手法
–  ガウス仮定を用いて、「歩く、走る、おおまたに歩く」をモデリング。
–  動作の最初の数フレームをTRBMやcRBMにかけてモーションキャプチャ。
–  cRBMの多層化やrecurrent TRBM、factored cRBMを利用することで、動作の
つなぎ目をスムーズにする事例。
–  Dynamic Factor Graphを利用したモーションキャプチャデータの欠損補完。
•  整理と今後の方向性
–  深層学習は、教師なしで、生データから動作のテンプレートを学習し、それらに基
づいて複雑な人間の動作を形成できるはず。
–  今後の課題は生データからの表現学習。
東京大学松尾研究室 那須野薫
2015年4月16日
26
4-5. 時系列データ
A sequence of human motion
東京大学松尾研究室 那須野薫
2015年4月16日
27
4-6. eノーズデータ
•  機会嗅覚
– 
– 
– 
– 
eノーズを用いた匂いの質の分析。
eノーズ:ガスセンサーを並べたものからなる。
データの特徴:多変量、非直感的、専門的知識の少ないデータ。
応用:飲食物や空気の質、ガス判別、ガスの出所判定、バクテリア判定、診断など。
•  伝統的な研究
– 
– 
– 
– 
静的データのパタン分析手法(PCA, clusteringなど)を利用する。
よく利用される素性:static sensor response, transient drivatives, AUCなど。
TDNN:スパイスの匂い、3成分混合物、黒茶最適発酵時間、ビンテージワイン
RNN:匂いの発生源の特定。
•  最近な研究
–  ガス識別&発生源特定問題に於いて、1) 生データにSVMを適用、2) AutoRegressiveと線形力学系より抽出された素性にSVMを適用、3) 構造化データに特
化したkernelを利用するSVM の3つのうち3) が最も性能がよく、2) よりもいい結
果となった。
–  Auto-encoder, RBM, cRBMがバクテリアの判定や肉の腐敗度の分類に利用された。
•  課題の整理と今後の方向性
–  各ガス単体や混合されたガスに適したセンサーをつくるのは難しい。
–  素性を考えるのも現実的ではない。
–  今後も動的モデリングを利用するトレンドに沿ってやるべき?
東京大学松尾研究室 那須野薫
2015年4月16日
28
4-6. 時系列データ
Normalized data from an array of electronic nose sensors
東京大学松尾研究室 那須野薫
2015年4月16日
29
4-7. 生理学的データ
•  生理学的データ
–  脳波検査(EEG)、脳磁気図検査(MEG)、心電図検査(ECG)、健康管理のためのウェ
アラブルセンサ
–  単一経路も複数経路もありうる。専門家が要るためラベリングが高コスト。
•  伝統的な研究
–  頭蓋内の脳波検査データからの手作り素性を用いてConvolutional network、ロジ
スティック回帰、SVMなどでてんかん性発作の予測する研究など。
•  最近な研究
–  RBMベースの手法により表現学習を行い、睡眠段階を分類する事例。
–  脳波検査や脳磁気図検査信号データの前処理の手法として、短時間フーリエ変換に
かけた後にICAに突っ込む事例がある。時間相関がよく考慮された結果になったら
しい。
–  自己教示学習を利用する事例もある。
•  整理
–  生理学的データは大規模で、多くの多様な手法が利用されている。
–  生データからの表現獲得が可能であるため、特にディープラーニングコミュニティ
にとっては興味深い領域のはずである。
東京大学松尾研究室 那須野薫
2015年4月16日
30
4-7. 時系列データ
EEG (top two signals), EOG (third and fourth signal), EMG(bottom signal),
東京大学松尾研究室 那須野薫
2015年4月16日
31
アジェンダ
1. 
2. 
3. 
4. 
5. 
イントロダクション
時系列データの特徴
教師なし表現学習と深層学習
時系列問題の典型的な事例
まとめ
東京大学松尾研究室 那須野薫
2015年4月16日
32
5. まとめ
•  教師なし表現学習では、単純に特徴ベクトル化するのでは
なく時系列の構造を保持できるモデルを利用すべきである。
•  モデル選択に加えて選択すべき要素が多く、時系列データ
への適用は多くの課題がある。また、有用な素性を構築し
た多くの研究は入力データから表現を学習する際に、その
データを前処理しているということも重要である。
–  選択すべき要素:結合、構造、ハイパーパラメータ
•  今後の方針
–  多変量入力データのシグナル選択
–  学習時に内部の構造を変えるモデルの開発
–  短期と長期の依存を捉える為のモデル平均化の利用?
東京大学松尾研究室 那須野薫
2015年4月16日
33