[i vi 7' ! 33 6, N 艶. $ 3 12 q6 72悪 賢9 !7F] 牢交化最小二乗法 による階層型ニューラルネ ットワークの 中間層ニューロン数の削減法 楊 子 江* ● Hi dd e n La y e rSi z eRe duc l n gf o rMu l t i l a y e rNe ur a lNe t wo r k sUs i n gt h eOr t h o g o n a l Le a s t Sq ua r e sMe t h o d Zi Ji angYANG* ● Thi spa pe rpr o po s e sane wa ndc o mput a t i ona l l ye 氏c i e nta p p r o ac ht ohi dde nl a ye rs i z er e duc l ngf ormu lt i l a y e r ● ● ● ne ur l ne a t wor ks ・Thea ut ho r ' sa t t e nt i o ni sf oc us e donm i ni mz l nghi dde nl a ye rr e du n da nc yus i ngt heo r t hog ona l l e a ・ s t s qua r e s( OLS)me t hodwi t ht hea ido fGr amSc hm i dto r t hog ona lt r ans or f ma t i o n.Thene ur a lne t wo r kw it h al a r gehi dde nl a y e rs i z ei sf ir s tt r a i ne dvi aas t n da a r dt r im a ingr le u .The nt heOLSme t hodi si nt r oduc e dt o i de nt i f ya n de hm i na t er e du n da ntne ur onss uc ht ha tas i mpl e rne ur l ne a t wor ki so bt a i ne d.TheOLSme t hodi s e mpl o ye da sa● or f wa r dr e g r e s s i onpr oc e dur et os e l e c tas ui t a bl es e to fne ur onsf r o m al a r g es e to fpr e l i mi na il r y t r ine a dhi dde nne ur o ns ,s uc ht ha tt hei nputt ot heo ut put l a y e ri sr e c ons t r uct e dwi t hl e s shi dde nne ur o ns ・At e ac hs t e po fr e gr e s s i o n, t hei nc r e me ntt Ot hee ne r g yo ft hes umma t i o no ft hewe i g ht e do ut put so ft hehi dde n ne ur o ns( t hei npl l tt Ot heo ut put l a y e r )i sma xi iz m e d.Andt hewe i ht g so ft hel i nksbe t we e nt hes e l e c t e dhi dde n ne ur o nsa ndt heout putl a ye ri sa ut o ma , t i c ll a yde t e r mi ne dt hr oug ht her e gr e s s i o npr oc e dur e ・The r e f or et hene ur d nswhi c hc o nt r i but et r i v i ll a yt ot hei nputt ot heout put l l a y e rc anbee l i i nat m e dwi t ho utmuc hdi s t o r t i o no ft he ne ur l ne a t wo r ko ut put ・Si mu la t i o nr e s lt u sa r ei nc l ude dt os ho wt hee f Rc i e nc yoft hepr o po s e dme t hod. KeyW or ds :ne ur a lne t wo r k) hi dde nne ur on70 r t ho g o na ll e a s t s qua r e sme t hod,r e du n da ・ nc ye l i mi na t i on 1. 近年 ,適切 な中間層 ニューロ ン数 を決定す る手法 は多 く は じめ に の研 究者 たちに よって研 究 されている 3),8).学習の段 階で, バ ックプ ロパグーシヨン学習 に基づ く階層型ニューラルネッ ニューロン数 を逐次 に加減 しなが ら,最終的に最適 なニ ュー トワー クが,パ ター ㌢認識,システム同定 と制御 な どに数多 ロ ン数 を得 ようとす る方法 は盛 んに研 究 されている.大 き く応 用 されている 1) ∼5 ).この階層型ニューラルネ ットワー く分けて,小 さめのネ ットワーク構造か ら出発 して,必要 な クを個 々の実際問題 に応用す る場合,問題 に適 したサ イズの ニューロンを逐次追加 してい く生成的学習法 と,逆 に大 きめ ネ ッ トワー クを用 いることが非常 に重要である.ネ ットワー のネ ットワー ク構造か ら出発 して,不要 なニューロンを逐次 クのサ イズが小 さす ぎると十分 な学習がで きない し,逆 に大 削 除 してい く削 除的学習法 とい う二つの タイプ に分類 で き きす ぎる と過剰 自由度のためオーバ ーフ ィッテ ィング をお こ る 8).この二つのアプ ローチに関 して,数多 くの手法が提案 して,ネ ッ トワークの汎化能力の低下 を招 く.理論 的 に,3 されているが,それぞれの長所 と短所があ り,簡便で広 く応 層 ニ ューラルネ ットワークの中間層 ニューロン数が無限 にと 用 される手法 はまだ多 くない.多数の中間層 ニューロン数 の れれぼ,任意の連続関数が 3層 ニューラルネッ トワークで任 C 候補 に対 し,それぞれのネ ットワークを学習 してか ら,AI 意 の精度 で近似 で きる ことは Fhn a ha s hi 6)ぉ よび Ho ni r k7) に基づ いて最 良のネ ットワークを選択す る手法 もあるが 9), な どによって証明されている. しか し,中間層 のニューロン 全体 としての計算量が莫大であるほか,AI Cの使用に当た っ 数 に関 しては,入出力のマ ッピングや,汎化能力 に十分 な個 て,バ ックプロパゲ-シ ョンなどの学習アルゴリズムで得 ら 数 を,試行錯誤的なシ ミュ レーシ ョンで決定す る場合が大半 れた結合重みの推定値 は必ず しも最尤推定値 になっている と であ り,多大の労力 を必要 としているのが現状である. は限 らない といった間選点が指摘 されている 10).なお,各手 法の詳細 については,文献 3 ) ,8)の解説 を参照 されたい. 本論文 は,ネ ッ トワークの中間層 ニューロンの出ガの線形 ● *九州工業大学情報工学部 飯塚市川津 6 80 4 ' Fa c ul t yo fCo mpu t e rEn g l n e e nn ga n dS y s t e msS c i e nc e , Kyu8 h uI n s t i t ut eo fTe c mo l l o g y , I i z ; u k a 1 9 96) ( Re c e i v e dMa . y27, ( Re v i s e dOc t o be r28, 1 996) 従属性 を検 出することによって,冗長 と思われるニューロン を削除 し, よりコンパ ク トなネ ットワーク構造 を得 る手法 に スポ ットを当てる.この考 えに基づいた手法は近年多数提案 TR 0003/97/3303-0216㊨ 1996SI CE 計測 自動制御学会論文集 第 33巻 第 3号 1 997年 3月 BL7 され,注 目を集めている.増田 ら 11)は学習の途中,出力の相 関が強い二つのニューロンを合成す ることによって,ネ ット ワークの簡単化 をはかったが,3個以上のニューロンの間に存 在す る線形従属性 を検出す ることがで きない.中間層 ニュー ロ ンの出力相 関行列の微小特異値 を検 出す る こ とに よって, 適切 なニ ューロン数 を決める手法 もあるが,具体的 に何番 目 のニ ューロンが冗長であるかが分 か らず,微小特異値 を判定 す る しきい値の設定 とネ ットワークの近似精度 との関係 も明 白ではない 12).中間層 ニューロンに対す る線形重回帰分析 に よって,線形従属の部分 を取 り除 き,最適 な中間層 ニューロ ン数 を求める方法 も提案 されてお り,良好 な結果 を得 ている が 13),中間層ニューロンの処理順番の影響 ,非線形成分 を単 Fi g.1 A t hr e el a y e rne ur l ne a t wo r k. 純 に加 え合わせて良い との理論 的根拠 な どをさらに論 じる必 要がある と思われる.村田 ら 14)も線形従属性判定 による中間 2. 問題の設定 層 ニュー ロ ン数の削減法 を提案 したが,文献 1 1 ) , 1 2) , 1 3)の 手法 と比べ て,冗長 と思 われるニューロンを取 り除 くことが ネ ットワー クの近似精度 に どの ように影響 を与 えるか を近似 的 に数値で検討で きること,縮約 されたネ ットワークの中間 層 と出力層 間の結合重みも再学習す ることな しにある程度決 め ることがで きるな どの利点があげ られる.ただ し,削除判 定基準値 は事前 に決めておかなければな らず,その適切 な設 走法 を検討す る必要がある.ほかに,以上 にあげた手法 と類 似 して,中間層 ニューロンの主成分分析 を用いた手法 も提案 されている 15).これ らの手法は,中間層 ニューロンの出力の 本論文 は,簡単のため,一般性 を失わず,Fi g.1に示す よ うな多入力 1出力の 3層 ニューラルネットワークを考 える.入 力層,中間層 ,出力層 のニューロンの数はそれぞれ ni,nh, 1 であ り、入力層 ニューロンは入力信号 をその まま出力す るだ けの作用 をす る.中間層の j番 目のニューロンの入力は次式 で表 わ される. n i y i ・ ( k)- ∑ 鴎 I i ( k)+埠 (1) i =1 線形従属性 を中心 に検討 しているが,実際 に,中間層 の出力 た だ し,I i ( k)は は,各ニューロンの出力の線形結合 として,出力層 の人力 と k( k -1, -, N)番 目の入力 デ ー タで あ る・wt % ・は i番 なるので,ネットワー クにおける各中間層 ニ ューロンの役割 目の入力層 ニューロンと j番 目の中間層ニューロンとの結合 はその出力が出力層 ニューロンの入力 に対す る寄与で評価す る ことは もっと適切だ と思 われる.す なわち,中間層 ニュー は3 '番 目の中間層 ニューロンのバ イ 重みである・ また, アスである.中間層の出力は次の ようなシグモ イド関数の出 ロ ンの出力の線形従属性 だけでな く,出力層 との結合重みの 力である. 影響 も考慮 して,総合的 に判断す る必要がある. 本研 究 は,システム同定の分野で,モデル選択 とパ ラメー i番 目の 入 力 層 ニュー ロ ン に対 す る 埠 hJl ( k)- 1+e xp( -y3 1 ( k) ) ( 2) タ推 定 において,非常 に有力 な手 法 と して,広 く使 われ る 出力層 ニ ューロンへの入力 は各中間層 ニューロンの出力の線 Gr amSc hmi dtの直交化に基づいた直交化最小二乗法 16)-18) 形結合 に よる階層型ニューラルネ ットワー クの中間層 ニューロン数 の削減法 を提案す る.提案 される手法 は,ネ ットワー クの学 習 を一度行 った後,直交化最小二乗法 を用いて,出力層ニュー ロンの入力の 自乗和への寄与が大 きい順番で,中間層 ニュー ロンを採用 して行 き,出力層 ニューロンの入力 を再構成す る. ほかのニ ューロンの線形結合で表現で きるニューロンまたは 出力層 との結合重みが小 さいニューロンは, 自然 に後の方で 選択 される.また,選択の過程で,選択 された各ニューロン n h d( k)- ∑ W, ?hj( k)+b o ( 3) 3 ' 1 である・ただ し,w gは j番 目の中間層 ニューロンと出力層 oは出力層ニューロンのバ ニューロンとの結合重みであ り,b イアスである. したが って,ネ ットワークの出力は 0( k)-I( d( k) ) ( 4) とな る . こ こで ,I( d( k) )は問題 に応 じて ,シグ モ イ ド の出力層 との結合重みの新 しい値,及 び既 に選択 されたい く 関 数 f( d( k) )- 1 /【 ( 1+ e xp( -d( k) ) ] また は線 形 関 数 つかのニ ューロンによる出力層 ニューロン入力の再構成 にお I( a( k) )-a( k)とす る. け る誤差 も自動的に計算 されるので,設計者が要求す る表現 一般 に,中間層 ニ ューロンが多す ぎる と,各ニューロンの 力 を満 たす最小限のニューロン数 を簡単 に決め られる.提案 間に強い線形従属関係が存在 し,い くつかのニューロンの出 した手法の有効性 はシ ミュレーシ ョンを通 して明 らかにす る. 力が ほかのニューロ ンの出力 の線形結合で表現 で きるので , 結 果的 にこれ らのニュー ロ ンは冗長であ り,役割が ほか の ニューロ ンに肩代 わ りされることが可能であることは既 に報 21 8 T. SI CE Vo l . 3 3 No. 3 Ma r c h 1 9 9 7 告 されている 11)、15). したが って,これ らの冗長ニューロン d = P wo を削 除す ることによって,ネ ットワークの表現能力 を大 き く a -l d( 1) , d( 2) ,・・・, a( N) ] T 損 なわな くて も中間層 ニューロン数 を削減す ることがで きる. そ こで,本研 究 は,直交化最小二乗法 16)-18)に よる中間 層 ニ ュー ロン数 の削減法 を提 案す る.収束 に十分 な数 の 中 -l pl , P, , ・ ・ ・ , Pnh.1 ] hj( 1) , hj( 2) , ・・・ , h, ・ ( N) ] T pj-l ( i-1, 2,・・・, nh+1) ( 6) p 間層 ニ ューロンをもって,ネ ットワークの学習 を一度行 った そこで,直交化最小二乗法で より少ないニューロンで d( k) 級,教 師入力 を再入力 した場合 の出力層 ニュー ロ ンの入力 を再構成す ることを考 える.い ま,何 らかの方法で,各中間 d( k) ( k- 1 ,・・ ・, N)の近似 問題 を検討す る.す なわち, ( 3) ・ ( i 1,2,・・・,nh+1)を,そ 層 ニューロンの出力ベ ク トル p, 式 にお い て,冗 長 な h J ・ ( k)を削 減 し,必 要最小 限 の項 で , れぞれが採用 された場合の d( k)の 自乗和 に対す る寄与が大 a( k)を精度 良 く再構成す る.具体 的 にい うと,モデ ル選択 きい順番で並べ替 えて,上式 を次の ように書 き直す. とパラメータ推定 において,非常 に有力 な手法 として広 く使 われて きた直交化最小二乗法 を用いて,出力層入力の 自乗和 への寄与が大 きい順番で,中間層 ニューロンを採用 してい く. 直交化最小二乗法 の実行 において,出力層 ニューロンの入力 に対する寄与が小 さいニ ューロン,す なわちほかのニ ューロ ンの線形結合で表現で きるニューロン及 び出力層 との結合重 みが小 さいニ ューロ ンは, 自然 に後の方で選択 される. した が って,文献 1 1 ) , 1 4 )の ように線形従属性判定の しきい値 を 事前 に設定す る必 要が な く,a( k)またはネ ットワー クの出 力 0( k)を再構成す る ときの近似誤差 を評価す ることによっ て,設計 者が要求す る表現力 を満たす最小限のニューロン数 を簡単 に決め られるので,本手法は極めて柔軟性 に富 む と思 d =PIco -l c l , C 2 , ・. ・ , C nh+1 ] T p'- l pl ,P' ,,・・・,P' nh+1] p ; . -l p; . ( 1 ) , p i ・ ( 2 ) ,・・・, p i ・ ( N) ] T ( i-1, 2, ・ ・ ・ , nh+1) co ニ ュ ー ラ ル ネ ッ トワ ー クの 中 間 層 ニ ュ ー ロ ン 数の削減法 1,・ ・ ・, nh+1 )を直交基底ベ ク トル rJ ・ ( 3 '- 1 , ・ ・ ・, nh+1 )に 変換 している.ここで,P′は次の ように分解 される. P'=R Ao ( 8) ただ し, α12 α13 ・・・ α1 ( nh+1 ) 1 α23 α2 ( nh +1 ) 0 A 。 -00 OJ ・- Gr a mSc hmi dtの直交化 に基づいた直交化最小二乗法 は, . Rは N x( nh+1 )行列で、その列ベ ク トル して,近年注 目されている. この手法が最低限の複雑 さを持 r, .- l r , ・ ( 1) , r j( 2) ,・.・, r , ・ ( N) ] T ( i-1,2,・・ ・ , nh+1) つモデ ル を構築 しなが ら,非線形 システムを精度 よ く同定で 認 されている 16),17). ラジアル基底関数 ネ ッ トワークの基底 関数の選定 において も,良好 な結果が得 られた ことが示 され ( 9) ・ 1 αnh( nh+1 ) 0 0 1 モデ ル選択 とパ ラメー タ推定 において,非常 に有力 な手法 と きるこ とはシ ミュ レーシ ョンお よび実 システムへの応用で確 ( 7) '直交化最小二乗法 は,回帰行列 P'の列ベ ク トル p ; ・( j- 1 われる. 3. - ( 1 0) は互いに直交である. ( ll) RTR = B ている 18).本研究は,直交化最小二乗法 によるシグモ イドタ ただ し,B は ( nh+1 )×( nh+1 )対角行列で、対角要素 b j イプの階層型 ニューラルネ ットワークの中間層 ニューロン数 は次の ようである。 b J ・-rJ TrJ ・ の削減法 を提案す る. 〟 -∑ r , ・ ( k)r , ・ ( k) k = 1 3)式 を次 の ように書 き直す. まず, ( a( k)-zT( k)w o zT( k)-【 hl ( k) , h, ( k) , - ,hnh+1( k) ] w o - ( i-1, 2,・・・, nh+1 ) ( 5) : h . 1 ] T [ W ;,wg,・・・,W 以上 より, ( 7 )式 は次の ように書け る. d -R go こ こで ,出力層 ニュー ロ ンのバ イアス b o は,出力が常 に hnh+1( k)- 1 とい う nh+1番 目の仮想 中間層 ニ ューロ ン と出力ニューロンとの結合重み と見なされている.す なわち, W: A+1 - b o・ 本研究 で は,バ イアスは削 除の対 象 とな らな (12) ( 13) ただ し, -loco 90 -[ 91 , 92, ・・ ・ , gnh +1 ] T ( 1 4) いとす る. さらに,( 5)式 を k- 1,- ,N に対 して,次式の は直交変換後の新 しいパ ラメー タベ ク トルであ り,その推定 ようにま とめ る. 値 盲。は次式で与 えられる. 計測 自動制御学会論文集 ノ ヽ 90 - B-1RTd 第 33巻 ( 1 5) 第 3号 BL9 1997年 3月 ただ し, ( 21 )式 より nh+1 す なわち, ∑rj(k) e ( k )- S j-r r , f Tr J ( i-1 , 2 , ・ ・ ・ , nh+1 ) ns+1 -d( k )- ∑r , . ( k )9j d 基底ベ ク トル r3 ・は互 いに直交であ るので,い g j j - nL .+2 ( 1 6) くつかの項 を 削 除 した り,新 たな項 を加 えた りして も,すで に計算 された ト∑p i ・ ( k )cj j 1 -d ( k 盲。のほかの要素 に影響 を与 えない. また,各基底 ベ ク トル に よる d( k)の 自乗和へ の寄与 の計 算が可能 となる. これ ら の性 質は,ネットワークの構造決定 において,非常 に重要で あ る. ここで, nS 個 の中間層 ニューロ ンだけ を採用 した場 ( 23) j-1 ns+1 ( 21 )式の右辺の第 1項 は採用 されたベ ク トル r jによる d( k) の 自乗和へ の寄与の総合 を表 わす部分であ り,第 2項 は中 間 +1個 の項 だけ を残 し ( 良 )を再構成す る場合 の 自乗 誤 層 ニ ューロ ンの削除 に よる d て , ほかの項 を削 除 した場合 を考 える.採 用 された 中間層 差である・ したが って,93r, Trj はベ ク トル rj を取 り入れ る ニ ューロンの出力層 との結合重みベ ク トル Cの推定値 は次の k)の 自乗和の増加分 を意味す る.そこで,ベ ク ことによる d( 関係 で簡単 に求め られる. トル rJ ・の導入による誤差減少率 ( e r r orr e duc t i onr at i o)を 令 ,す なわち,バ イアス項 を含 む ns E : i Z I A3-9 ( 17) g j2rJ TrJ ・ l e r r ] j ( 24) drd と定義す る. これ よ り,マ トリクス P の列ベ ク トルの内で , ただ し, -【a ,i,,・・・ , gnB +1 ] T 盲-【31,読 ,- , Sns+1】 T 【 e r r 】 jを最 も大 き くす るベ ク トル を逐次選 んで,直交 変 換 を 盲 ( 1 8) e df or war dr e gr e s s i onアルゴ リズムを用 行 ってい くとい う Fe いて,必要最小 限の中間層 ニューロ ンで d ( k )を再構成す れ ば よい.具体的アル ゴリズムは次 の ようである. 1 α1 2 α1 3 -・ α1(ns+1) A= 0 1 0 0 α2 3 ・ ・ ・ α2(n. , +1) ● ● ・ 0 -・ ステ ップ A バ イアス に よる nh+1番 目の仮想 中間層 ニ ューロ ンは削 ( 1 9) 除 されないので,一番最初 に採用 される. ' ・ 1 αns(nB+1) 0 0 1 rl = Pnh+1 rTd なお, P'は Gr amSc hmi dt法 によって、次の ように直交化 され る. 912rTrl e lr r ] l i l ) rl ただ し,i l- αi d rj ( 25) rTr1 dTd nh +1. ステ ップ B rl Tri ∑ a pi ・- i i , ・ ri l 三 i i` j' ト ( 3 ' -2,・・・,nh+1) 中間層 ニ ューロ ンの出力ベ ク トル piか ら r e r r j jを最大 に r J ・とパ ラ メー タ , ・ ・ ・ , ns+1 ( nS ≦nh) , 推定値 ijを計算す る.ただ し,i-2 す るベ ク トル を逐次 に選 び,直交ベ ク トル 20) 1≦i≦ nh, i≠ i l,・・ ・,iJ ・ -1 .ここで,il, - 実際 に,列ベ ク トル に関す る直交変換 を行 う場合 , ( 8)式 の ような大 きいサ イズのマ トリクス に関す る計算 を直接行 う 必 要がな く,ニューロンの出力マ トリクス P の nh+1個の 選 ばれた piの番号である. まず j番 目に採用 されるベ ク トルの各候補 を取 り入れた場 合の誤差減少率 を計算す る. 列ベ ク トルか ら,a( k)の 自乗和 に対す る寄与が もっとも大 き い ものを選び,直交変換 を行 いなが ら,マ トリクス P'と R の列ベ ク トルを順次構築 してい くことが可能である 16)-18). ( 7)または ( 1 3)式 において,ns+1個 の項 だけ を残 して, k)の 自乗和 は ほかの項 を削除 した場合,d( ,i J ・ -1 はすで に αa ) , 1 ≦ <j ) r 荒 r m( rtpi m i -1 r 5 ・ i )-pi-m ∑ ( 堤r=1 ns+1 dt d- ∑ 9 , ? r , T r j +ETE 3 ' 1 ( 21) となる・ ここで,E は d( k)を再構成す る ときの近似誤差ベ ク トルである. E - l(1), e e ( 2 ), ・・ ・ , e ( N) ] T ( 22) 舅J : t L :- l e r r ] 5 i )- ( r l ・ i ' )T r, ' ・ i ' ( g P 5 ・ ' ) )2 (r i T rj ・ i ' d T d ( 1≦i≦ nh, i≠ i l,- ,i jll) T. SI CE Vbl . 33 No. 3 Ma r c h 1 9 9 7 BBC 次 に,誤差減少率 を最大 にす る列ベ ク トル (3 '番 目に採用 さ で β を決めることがで きる.また,β の値 は並べ替え られた れた中間層 ニューロン)の番号 i jを見つけ る.す なわち ニューロンを第何個 まで とればよいか との結論 だけに影響 を r r ] 5 ・ i j)- m xtt er r 1 5 ・,1≦i≦nh,i≠ il , ・ -,i, ・ -1) l e a i ) 与 えるので,労力のいる試行錯誤的や り直 しは必要 としない. したが って,本手法は実用上非常 に柔軟性 に富 むと思 われる. を見 つけ る. この場合,rj は次の ようになる. rj - rJ ( ・ i j) -pi,・- i l l ∑ α m = 1 実用上,この ように d ( k )の近似誤差 を評価すれば,必要最 小限のニューロンの選定 は効率 よ くで きるが,中間層 ニュー ( 27) m, ・ rm ロン数の削減 はネ ットワー クの近似精度 にどれほ ど影響 を与 えるのか を調べたい場合,再構成 した出力層 ニューロンの入 力 ただ し, S 3 i ・ ) (m - 1,・・・,i) ( 2 8) ・mj - α なお・パ ラメー タ推定値 は i, ・- 3, ( i ' ' ) として求 まる・ また` ・ 亡 : i : ヨ d ( k )を用いて,( 4)式 より縮約 されたネットワー クの出力 を計算す ることがで きる.す なわち,ネ ットワークの出力誤 差で評価す ることによって,ニューロンを何個 まで採用すれ ばよいのか を決めることもで きる. 本手法では,削減直後のネ ットワークの学習誤差 は多少大 j番 目に選択 されたニューロ ンの出力ベ ク トルは pi ・- pi, . と して得 られる.( 2 6) ∼( 2 8)式の計算は,d ( k )を再構成す る きくなるので, さらに学習 を行 った方が無難である. しか し, 場合の相対 自乗誤差が しきい値 β より小 さくな り,すなわち 縮約 されたネ ッ トワー クの結合重みをその まま初期値 とすれ ns+ 1- ば,さらなる学習が必要 とす る学習回数はそれほ ど多 くない. 1 ∑ 【err1 3 ' -1 5i3 ' ' <p ( 29) が成立するまで,i-2 , ・ ・ ・ , ns+1に対 して,繰 り返 される. この場合,nS 個 の 中間層 ニ ューロ ンが採 用 され,ほかの冗 以上の議論 より,提案 した手法の全体のアル ゴリズムは次 の ようである. ステ ップ 1 十分大 きな中間層 ニューロン数,結合重み な どの初期設定 長 と思われるニュー ロ ンは切 り捨て られる. を行 ってか ら,収束条件 または最大学習回数 を満たす までバ ッ ステ ップ C クプ ロパゲ-シ ョンや,ニュー トン法 な どの学習別でネ ット 選択 された中間層 ニ ューロンの出力層 ニューロンとの結合 重み及 び出力層ニューロンのバ イアスを ( 1 7)式 に基づいて計 算 し直す. ワー クの学習 を行 う. ステ ップ 2 直交化最小二乗法 を用いて,必要最小 限の中間層ニューロ ( 2 6) ∼( 28)式の繰 り返 し計算は,各繰 り返 しのステ ップで, まだ選 ばれてい ないニ ューロ ンの候補 の中か ら,d ( k )の 自 ンを選定す る.ニューロン数の削減が必要で ない場合,終了 ステ ップ 3へ進む. する.ニューロン数の削減があった場合,ステ 乗和 に対す る寄与 を最 大 にす る もの を選 び出 し,す で に選 ∫ p l , ・ -, P j 1に よって 縮約 されたネ ットワー クの結合重み をその まま初期値 とし 張 られ る空間の次元 を j-1か ら jへ拡張 してい る.ゆ え て,収束条件 または最大学習回数 を満たす まで ネ ッ トワー ク に,ほか のニ ュー ロ ンとの線形 従属性 が強 いニ ュー ロ ンま の学習 をさらに行 ってか ら終了す る. 択 されたニ ュー ロ ンの出力ベ ク トル たは出力層 との結合重 みが小 さいニュー ロ ンは,貢献度 が 提案す る手法の実行 に当た って,ネ ットワー クの学習アル 小 さいので,後 の方 で選択 される.特 に,( 2 6)式 において, ゴ リズムが局所 的最適 解 に陥 る場 合 や,初期 設定の中間層 ( r 5 ・ i ' ニューロン数が非常 に多 く,過学習の効果が非常 に大 きい場 )T r5 ・ i '記 0 となる場合,p湖 すでに選択 されたユニー ロンの出力ベ ク トル p' 1 , ・ ・ ・ , P ; ・ _1 の線形結合 でほぼ完全 に 合,1回の学習 と削減 だけでは十分でな く,上記のアル ゴ リ ( k )の 自乗和 に対す る寄与 な どを調べ な く 表現で きるので,a ズムを 2- 3回繰 り返 して実行 した方が無難である. て も,す ぐ削除すれば よい. したが って,直交化最小二乗法 は,冗長 な中間層 ニ ューロン数の削減 において,非常 に簡便 で しか も有力 な手法である と思 われる. 4. シミュレーション結果 4.1 関数近似間毘 必要 なニ ュー ロ ン個数 を決 める しきい値 β を適切 に決 め 提案 したアル ゴ リズムの有効性 を示すため に, まず,次 の 連続関数の近似問題 を考 える. になるが,β が大 きす ぎる と, よ り多 くのニューロ ンを削除 して しまい, ネ ッ トワー クの表現能力 を損 な う恐れが ある. 著者 の経験 で は,β の値 が 0 . 0 01- 0. 01前後 ,す なわ ち, a ( k )を再構成す る時の相対 自乗誤差が 0. 1 - l g( x)-0. 5+0. 2t anh( l ox-2) 2t anh( 20x-1 2) ( 30) -0. 3t a nh( 1 5 x-6)+0. -0・ 2t a nh( 5x-4) 1 % 前後であれ 1 ) , 1 4)では,冗長性 を判定す る しき ば,無難であ る.文献 1 い値は事前 に決めなければな らないので,試行錯誤的 にや り 直す とき,最初か ら計算 し直 さなければな らない.一万,本 手法では,各 ニ ューロンをその重要度 に応 じて並べ替 えた後 Tabl e1 De t e r mi ne dnumbe rofhi dde nne ur ons Ⅰ ni t i al 30 2 0 1 0 8 6 5 4 3 B BB T. SI CE Vol . 33 No. 3 Mar c h 1 997 ai ni nge r r oro ft hene ur a lne t wor k・ Tabl e5 Tr Pr e l i mi n . a r yt r a i n i ng A氏e rp r unl ng 21 . 1 ×1 02 1. 1×1 0 24 . 2 ×1 0 2 11 . 1 ×1 01 - 1 . 0×1 0 -2 9. 9×1 0 3 1. 0×1 0-2 1 . 0×1 0 -2 1. 0×1 0-2 1. 0×1 02 . 4×1 01 2. 0×1 0-1 6. 0×1 0 -1 5. 0×1 0-2 1. 2×1 0- 4 . 8×1 0-1 Tabl e4 De t e r mi ne dnumbe ro fhi dde nne ur ons Ⅰ ni t i al た, ネ ッ トワー クの汎化誤差 を e g- ∑三 o i2 [ 0( k)-y( k) ] 2 と定義 し,その計算結果 を Tabl e6に示 した.Tabl e6よ り, 30 2 0 1 0 9 8 7 6 5 4 中間層 ニ ューロン数の初期設定値が大 きい場合,ネ ットワー ク汎化誤差 も大 きいが,削減 を行 った後,汎化誤差 も大幅 に 4. duc e d 1 0 8 8 7 5 5 5 5 4 Re 2 システム同定間違 減少 した ことが確認で きる.す なわち,提案 した手法 に よっ ここで ,次式 で表 わ され る非線形 シス テ ムの 同定 を考 え て ネ ットワー クの汎化能力が 向上 した こ とがい える.なお, る 20). y( k) + y( k+1 )i+y2( k) ネ ッ トワー クの汎化能力 を もっと厳密 に論 じるには,ネ ッ ト u3( k) ( 31) なければな らない と思 われる 21). 入力信号 を次 の ように選んだ. u( k)-s i n( 誓 ).si n( 筈 ) よ く知 られている ように,一般 にニューラルネ ットワー ク ( 32) 出力 の観測値 に低 レベルで,ゼ ロ平均 の白色雑音 n( k)を加 えた. Z( k)-y( k)+n( k) ( 33) 用意 したニ ュー ラルネットワー クは,2入力 ( u( k) , y( k) ) 1出力 ( y( k+1))3層 で,出力層 ニ ュー ロ ンを線形 関数 と した.た だ し,実 際 に同定 を行 うと き,出力 の真 値 y( k) のかわ りに観測値 Z( k)を使 った.同定 に使 われ るデ ー タは k-1 , - , 1 01の範 囲でサ ンプ ル した N ワークのス リム化 だけで な く,学習 アル ゴリズムに も工夫 し -100組 の シス テムの入出力デー タを使 った.ただ し,観測雑音の標準偏差 01と した .学習別 は前 の例題 と同 じ く関数 t r ai dm を を 0. 000回, または学習誤差 使 った.終了 条件 は最大学習回数 1 -∑ た0 12[ 0( k卜 y( k) ] 2≦o・ 01と した・中間層 ニ ュー ロ ン数 の初期値 を 4, 5, 6, 7, 8, 9, 1 0, 20, 3 0とし,それぞれに対 eL して学 習 を行 ってか ら,1回の削減 を行 った.ただ し,必 要 の学習 において,重みの初期値 によって,学習結果が異 なる ことがある.中間層 ニ ューロン数の選定 において も,重みの 初期値 に よっては,選定 されたニューロン数が異 なる ( 大体 , 2個 の差 ) ことがあるが,前述の ように学習 と削 の場合,1 減 を 2∼ 3回繰 り返 した り, または重みの初期値 を 2- 3 試 した りす る と,ほ とん どの場合,必要最小限のニ ューロ ン 数が得 られることを確認 した. 5. 終 わ り に 本研 究 は, システム同定の分野で,モデル選択 とパ ラ メー タ推定 において,非常 に有力 な手法 として,広 く使 われる直 交化最小二乗法 に よる階層型ニ ューラルネ ットワークの中間 層 ニュー ロ ン数の削減法 を提案 した.提案 した手法 は,ネ ッ トワー クの学 習 を一度行 った後 ,直交化最小 二乗 法 を用い て,出力層 ニューロ ンの入力の 自乗和への寄与が大 きい順番 で,中間層 ニューロ ンを採用 して行 き,出力層 ニューロンの なニューロン個数 を決める しきい値 を p- 0. 001とした.結 入力 を再構成す る.ほかのニューロンの線形結合で表現 で き 果 を Tabl es4,5に示 した.Tabl e4の結果 か ら,中間層 るニューロ ンまたは出力層 との結合重みが小 さいニュー ロ ン ニューロン数の初期値 を 5 , 6, 7, 8とした場合,いず れ も適切 は選 ばれないので,設計者が要求す る表現力 を満たす最小 限 な中間層 ニ ューロン数 5個 とい う結果 を得 た.中間層 ニュー , 1 0, 2 0, 30 とした場合,1回の削減 だけ ロ ン数 の初期値 を 9 では十分 で なか ったが,中間層 ニューロ ン数の初期値 をそれ のニ ューロ ン数 を簡単 に決め られる.提案 した手法の有効 性 はシ ミュ レーシ ョンを通 して示 した.本論文は,簡単 のため, 多入力 1出力のネ ッ トワー クについて検討 したが,提 案 され ぞれ 7 , 8, 8, 1 0 と設定 し直 して もう 1回学習 してか ら削減す たアル ゴ リズムを拡張すれば,多入出力のネ ッ トワー クの場 れば,最終的 に中間層 ニューロン数 5個 とい う結果が得 られ 合 に も対応 で きる 16). る こ とが わか る.Tabl e5に示 されてい るネ ッ トワー クの学 習誤差 か らも,適切 な中間層 ニューロン数は 5個である こと が確認 で きる. ネットワークの近似能力 を維持 しなが ら,中間層 ニューロン 数 を削減 してネットワークのス リム化 を実現す ることで,オー バーフ ィッテ ィングの防止や汎化能力の向上 といったことが期 l l 待で きる・この効果 を示すため,新たな入力 として,ト 1, の範囲で一様分布す る乱数 を ( 31 )式のシステムのモデ ル,削 減前 のネ ッ トワークお よび削減後のネ ッ トワークにそれぞれ k)とその推定値 0( k)を計算 した.ま 入力 し,出力 の真値 y( 参 考 文 献 1)D.氏.Hus ha ndB.G.Hor ne:Pr ogr e s si ns upe r vi s e dne ur a lne t wor ks ,I EEE Si gnalPr oc e s s i ngMa ga z i ne, 618/39 ( 1 99 3) 2)K. ∫. Hunt , D.Sbar bar o, R. Zbi ko ws kia ndP. ∫. Ga wt hr o p: Ne ur alne t wor ksf orc ont r ols ys t e ms -as ur ve y, Aut o ma t i c a, 286,1 083/111 2( 1 992) ・ 3)阿部重夫 :ニューラルネットとファジイシステム [ 理論 と応用1 , 近代科学社 ( 1 995) 4)馬場,小島,小滞 :ニューラルネットの基礎 と応用,共立出版 ( 1 994) 1 995) 5)西川,北村 :ニューラルネットと計測制御,朝倉書店 ( 計測 自動制御 学会論文集 第3 3巻 第 3号 EBI 1 997年 3月 Tabl e2 T r ai ni nge r r oro ft hene ur alne t wor k. n g4. 5 ×1 0 -4 4 . 8 × 1 0 44 . 8 × 1 0 44 . 2× 1 0 44. 8×1 044 . 9× 1 0 45 . 0×1041 . 4×10-2 Pr el i mi na Ⅳt r a i nl A氏er p r u n l ng 1 . 6×1 021 . 2×1 0-23 . 6x103 .2. 3 ×1 0 21 . 3×1 024 . 2×1 0 3 Tbbl e3 Epoc hsoft r ai nl ng・ 習 と削減 を 2 - - - 3回繰 り返せ ば,すなわち,中間層 ニューロ ン数 を 5と設定 して もう一皮学習 してか ら削減す れば,適切 Pr e l i mi nar yt r ai ni ng 33 46 71 71 74 1 43 821 1 000 な中間層ニューロン数 4個 とい う結果が得 られるのは明 らか 0個のニューロンか ら一気 に 5個 まで削減で きた である. 3 ことは提案 した手法が非常 に強力であることを反映 している. 本手法 は,中間層 ニューロンの出力ベ ク トルの直交基底ベ ク トルによって張 られる部分空間の次元数 に基づいて,中間層 ニューロンの数 を決めている. しか し, この部分空間の次元 数 を数 える とき, どうして も人間の主観 的 (あいまいな)判 断に頼 らざるを得 ない.本論文 は,( 29)式の ように相対誤差 の しきい値 β を使 って判断 している.前述の ように,必要 な ニュー ロ ン個数 を決 め る しきい値 β を適切 に決め る こ とも 重要である.βが小 さす ぎる と,冗長性 を許す ことになるが, βが大 きす ぎる と,より多 くのニューロンを削除 して しまい, ネ ットワー クの表現能力 を損 な う恐 れがある.一般 に初期設 0. 4 X 0. 6 8 0. 1 定の中間層 ニューロン数が非常 に大 きい場合, もっと複雑 な 曲線 を近似す ることがで き,過学習 の効果 も非常 に大 きい と x) ・ Fi g.2 Tr ai ni ngdat aofg( 予想 されるので,中間層ニューロ ンの出力が張 る部分空 間の 次元数 も多少 (あい まいであ るが )大 き くなる傾 向が あ る. 教師デ ー タは Fi g・ 2に示 される ような,x∈【 0, 1 ]の範囲 -0. 0 2でサ ンプル した N =51組の関数の入 内,刻 み S x l abのニューラルネ ット 出力デ ー タを使 った.学習別 は Mat ワー クツールボ ックス 19)にあ る t r ai nl m とい う関数 を使 っ gMar quar dtと呼 ばれる Newt on法 の近似 を た.Levenber 使 用す る ことによって,勾配降下に基づ くバ ックプ ロパゲション法 よ り収束 が はるか に速 い こ とが 関数 t r ai nl m を使 う主 な理 由で あ る.中間層 ニューロ ン数 の削減 とい う目的 では,Newt on法 とバ ックプ ロパゲ-シ ョン法 はほぼ同 じ結 果 を出す こ とをす で に確 認 してい る.t r ai nl m の使 用 に当 0 0 0回, または学習誤差 た って,終了条件 は最大学習回数 1 ∑5 k - l =1 【 0( k)-9( k) ] 2≦o ・ 0 0 0 5と した・ また,ほかの パラメータはすべてデ フォル ト値 を使 った.用意 した 3層 ネッ el トワー クの出力層 ニ ューロンをシグモ イド関数 と選んだ.中 間層 ニューロン数の初期値 を 3 , 4, 5, 6, 8, 1 0, 2 0, 3 0とし,そ れぞれに対 して学習 を行 ってか ら,1回の削減 を行 った.ただ し,必 要 なニ ューロ ン個数 を決める しきい値 を p- 0 . 01と した.ニューロン数の判定結果 を Tabl elに示 した.Tabl e 5,6,8, 1 0 lの結果 か ら,中間層 ニューロン数の初期値 を 4, と した場 合,いずれ も適切 な中間層 ニューロン数 4個 とい う 結果 を得 た. しか し,中間層 ニューロン数の初期値 を 2 0と 3 0とした場合 ,中間層 ニューロ ン数は 5個 であ る とい う結 果 にな った.前述の ように,中間層 ニューロン数の初期設定 値 が非常 に大 きい場合,1回の削減 だけでは十分で な く,学 したが って,初期設定の中間層ニューロン数が非常 に大 きい 場合, しきい値 βを大 きめに,初期設定の中間層 ニューロ ン 数がそれほ ど大 き くない場合, しきい値 βを小 さめに した方 が よいが, この ように具体的値 を設定す ることは面倒 で難 し い. したが って,削除す るのを多少保守 的に して,pを小 さ めに設定 し, 2-3回にわたって学習 と削除 を行 った方が賢 明である. 削減直前,削減直後,お よび削減 した後 さらに学習 を行 っ た場合 のネ ットワー クの誤差 を Tabl e 2に示 した.中間層 , 5 , 6, 8, 1 0, 2 0, 3 0とした場合,学 ニューロン数の初期値 を 4 習誤差 はいず れ も収 束 条件 e` ≦ 0. 0 0 05を満足 してい る. ニューロン数 を削減 した後では,誤差 は多少上昇 しているが, 縮約 されたネットワークの結合重み をその まま初期値 として, さらにネ ットワー クの学習 を行 うと,学習誤差 はまた収束条 件 eJ≦ 0. 0 0 0 5を満足 してお り,提案 した手法 は必要最小限 のニュー ロ ン数 を正確 に判定 している こ とが分 か る. る.一方 , 中間層 ニューロン数 3個の場合では,学習誤差が収束条件 を 満足 していないので,ニューロン数が不充分であることが分 e 3に示 し 削減前 と削減後 の必 要 とした学習回数 を Tbbl た.削減後の さらなる学習は縮約 されたネ ットワー クの結合 重み をその まま初期値 としているので,必要 とした学習 回数 は削減前 の学習の回数 より少 ない ことが確認で きる. 計測 自動制御学会論文集 第 33巻 第 3号 BBB 1 997年 3月 Tabl e6 Ge ne r li a 2 ; at i o ne r r oroft hene ur l ne a t wor k. Pr e l i ml na r yne t W 一 一 ■ Or k 4. 5×1 0-1 3. 8×1 0-2 i . 1x1 0-2 2. 1×1 0-2 5. 0×1 0-2 3. 1×1 0-2 1 . 1×10- 2 6)K.F bna ha 8 hi :Ont hea ppr o xi ma t er e a l i 2 ; a . t i onofc ont i n● ur a lNe t wor kS,23, uouSma ppl ng Sbyne ur a lne t wor kS,Ne 1 83/1 92( 1 989) 7)K.Hom i k,M.St i nc hc ombea n d H.Whi t e:Mul t i l a ye r , Ne uFe e df or wa . r dNe t wor ksa . r eUni ve r s a lAppr o xi mat or s l Ne a t wo r k s ,25, 359/3 66( 1 989) r 8)石川真澄 :ネットワーク学習アルゴリズムの最近の話題 ,計測 と制御,304,285/290( 1 991 ) 9)栗 田多喜夫 :情報量基準 による 3層 ニューラル ネッ トワー ク の隠れ層 のユニ ット数の決定法 ,電子情報通停 学会論 文誌 , JT3DI I ll ,1 872/1 87 8( 1 990) 1 0)喜多- :ニューラルネ ットの汎化能力,システム/制御/情報 , 361 0,625/ 6 33( 1 992) ll)増 田,藤井,池谷 ,相部 :隠れユニ ットの合成 に よる階層 型 ニューラルネットワー クの コンパ ク ト構造化 ,計測 自動制御 学会論文集,284,51 9/527( 1 992) 1 2)pS i c ho gi o SD.C.andL H.Ungar :SVDne t :a nal gor i t hm t ha ta ut oma t i c a l l ys e l e c t sne t wor ks t r uc t ur e,I EEETr a nS . 53,51 3/515( 1 994) onNe ur l Ne a t wor k, 1 3)鹿山,阿部,武長,諸岡 :多層ニューラルネ ットの最適中間層 Dll,1064/1 070 ニューロン数決定法,電気学会論文誌,112( 1 992) 1 4)村 田,藤井,池田,平沢,相良 :冗長性判定 に基づ く階層 型 ニューラルネットワー クの構造決定法,計測 自動制御学会論 文集,312,2 36/2 43( 1 995) 1 5)金指正和 :主成分分析 を用 いた階層型ニューラルネ ッ トの縮 約法,電気学会論文誌,115・ C9,105 9/1 065( 1995) 1 6)S.Che n,S.A. Bi l l i ng Sa ndM.∫.Xo r e nbe r g:I de nt i 丘c a t i on o fMI MOnonl i ne a rs ys t e msus l ngaf br Ⅳar dr e g r e s s i onor or ,I nt e r na t i o na lJ our na lo fCont r o l , 496, t ho go na le s t i mat 21 57/ 21 89( 1 989) 1 7)S.Che n,S.A.Bi l l i ng 8a . ndW .Luo:Or t hogonall e as t S qua r e Sme t hodsandt he i rappl i c a t i ont ononl i ne a rs ys ,505, t e mi de nt i ic f a t i o n,I nt e r na t i ona lJ our na lo fCo nt r ol 1 873/1 896( 1 989) 1 8)S.che n,S.A.Bi l l i ngs ,C.F.N.Co wa n ,a n dP.M.Gr nt a : Pr ac t i c li a de nt i Rc at i onofNARMAX mode l sus i ngr adi a l ,Internati ona . IJ our nalofCont r ol ,52-6 ba Bi sf unc t i o nS 1 327/1 35 0( 1 990) mut handM・Be le a :Ne ur l Ne a t wor kTo oI Boxチ 1 9)H・De 1 996) ザ -ズガイド,サ イバネ ットシステム ( 2 0)K.S.Na r e ndr aa . ndK.Pa . r t ha s ar a . t hy:I de nt i ic f at i ona nd c ont r olo fdyna mi c als ys t e msuS mgne ur alne t wor ks , I EEE r ans T ・onNe ur l Ne a t wor k, 11, 4/27( 1 990) 21)渡辺英治 :関数近似問題 に対する階層型ニューラルネ ットワー クの汎化能力改善学習法,電子情報通信 学会論文誌 , J79D・ ⅠⅠ5,92 4/ 931( 1 996) 3. 2× 10- 3 1. 2× 10- 1 日日日日日日日日川HHH日日川日日川1 日川日日l 川Hl HHHHH日日川日日川MHM日日川HHHl 川‖川日日日日日日HMH [ 著 楊 者 紹 介] 子 江 ( 正会員) 1 992年 3月九州大学大学院工学研 究科電気工 学専攻博 士課程修 了.同年 4月九州工 業大 学助 辛. 1 996年 4月同大学情報工学部助教授 ,現在 に 至 る.システム同定およびそれに関連す る信号処 理,遺伝的アルゴ リズム,ニューラルネ ットワー ク, ウェーブ レット解析,モーシ ョンコン トロー ルな どの研究 に従事 ( 工学博士 ).システム制御 情報学会,電子情報通信学会,電気学会,ロボ ッ ト学会, 日本機械学会会月.
© Copyright 2025 ExpyDoc