ニューラルネットのモデル選択 村田研究室 4年 1G06Q117-5 園田 翔 動機 脳の構造が知りたい。 実際に脳を眺めてみても何が起きているの かよく分からない。 脳のモデルとしてのNNを研究しよう。 NNに馴染むことで,いつか脳に戻る。 ロードマップ 1. フィードフォワード型(3層パーセプトロン) 1. 最もオーソドックスなニューラルネット 2. 当面はこれに絞る。 2. リカレントネットワーク 1. 相互結合を持つことにより、過去の入力にも依存した 出力が得られる。 2. 連想記憶など。 3. SOM 1. 教師なし学習ができる。 4. 生理学的な知見を検証しうるモデルへ FF型について(1枚目) 実ベクトルから実ベクトルへの関数 NN : R R D K FF型について(2枚目) 万能関数近似器 学習段階(パラメータ決定)→使用段階 コンパクト集合上の任意の連続関数・Lp関数を近似で きる。(Cybenko89; Hornik, Stinchcombe, White89; White89) あるクラスの関数は中間素子数 n に対し,二乗和誤差 を O(1/n) で一様近似できる。(Barron93, Murata94) 実際には入力と教師の(二乗和)誤差を最小化する最 適化問題を解くのが学習段階。 誤差逆伝播法による効率的な計算法 出力に近い層から入力側の層へ、誤差の情報を再利 用していく方法。 Rによる実装 3層ネットワーク( D-M-K ) 誤差逆伝搬学習 1. 2. 最急降下法 適応的自然勾配法 300行弱 t = sin(2πx), x∈[0,1] を学習させてみた。 データ点:100点 最適化法:最急降下法 中間層の素子数:10個 学習回数:5000回 学習係数:0.01 学習結果(その1) 教師信号 学習結果 学習結果(その2) 二乗和誤差:0.6086 FF型の問題点(1枚目) 経験的に決める事項 中間層の数はいくつが最適か? 学習係数の値はいくつが良いか? 数値の選択如何では発散する。 学習の遅さ 最急降下法では数万オーダーで回す。 適応的自然勾配法(ANGD)などの情報幾何学 的・統計力学的な改良もある。 FF型の問題点(2枚目) 中間層はブラックボックス 各パラメータの意味が分からない。 学習は逆問題なので、解が一つに定まらない。 これはプラトー問題にもつながる。 生理学的なリアリズム 情報が一方通行 BPのような情報の逆流は考えにくい。 研究する問題 無事に学習が終わるための指標を探す。 意図した精度が実際に計算できるための方 法。 1. 学習係数をどのように選ぶか? 2. 中間層の素子数をどのように選ぶか? 研究する問題―学習係数 1. 学習係数を学習する。(Murata97, 01) 2. 適応的自然勾配法(井上・朴・岡田03) 研究する問題―中間層の素子数 1. 多いほど良いわけではない。(汎化の一 般論) 2. 多くて良いこともある。(Akaho00) 3. いくつでも大丈夫ということもある。(ベイ ズ的モデル選択) 4. 情報量規準の理論が古典的(AICなど) 5. 中間層の規約性・極小性(Sussmann92, 福水・渡辺94) 研究手法 回帰問題を扱う。 閉区間[0,1]上の連続関数 F : [0,1]→R 最急降下法 徐々に関数のクラスを上げていく。 多次元入力・多次元出力 不連続関数 回帰させる関数をどのような基準で選ぶ か? これからの課題 回帰させる関数を選ぶ客観的な基準がほしい。 関数解析・情報幾何・確率論のスキルアップ VC次元はある種の「関数の複雑さ」を表す。 論文を読み進めるにあたって必ずぶち当たる。 既成パッケージを導入する。 バグなのかパラメータが悪いのか判断しかねる。 RよりもCの方がかなり早い(各方面の経験談) 終了 ご清聴ありがとうございました。 現在までの取り組み 「ニューラルネット」の整理 どのようなタイプがあるか。 FF、リカレント、SOM、etc どのような手法があるか。 Fisher情報行列、ベイジアン、カーネル FF型の関数近似能力についての論文を読んだ。 実装してみた。 最急勾配法(Bishop, PRML) 適応的自然勾配法(井上先生) 中間層を減らす試みに着手
© Copyright 2024 ExpyDoc