「データ学習アルゴリズム」第３章複雑な学習モデル 3.2 競合学習 ….. 3.2.6 ノンパラメトリック学習 3.2.7 自己組織化写像 8月1日（金）発表者新納浩幸ノンパラメトリック学習とはパラメトリック学習モデル（確率密度関数）をパラメータを持つ関数で表現。学習とはパラメータの推定に帰着される。サンプルが多い場合は、もっと複雑なモデルを使えるはずノンパラメトリック学習予めモデル（確率密度関数）の関数を設定しない。ノンパラメトリック学習 X : R 、Y : R M N ( xi , yi )  R M  R N X、Y の同時密度関数を以下で表現する 1 1 1 pn ( x, y)  n (2 n2 ) M / 2 (2n2 ) N / 2  || x  xi ||2 || y  yi ||2   exp    2 2 2 n 2n  i 1  n サンプルの周辺は同じことが起こりやすい個所としている事例ベースの手法と似ているサンプル数 n に依存する  n  0、n  0 これらの設定方法が問題本当に確率密度関数？  p ( x, y)dxdy n 1 1 1   n (2 n2 ) M / 2 (2n2 ) N / 2  || x  xi ||2 || y  yi ||2  dxdy  1 exp    2 2 2 n 2n  i 1  n 以下の式より明らか  || x  xi ||2 || y  yi ||2   || x  xi ||2   || y  yi ||2   exp  2 n2  2  n2 dxdy   exp  2 n2 dx exp  2  n2 dy  (2 n2 ) M / 2 (2n2 ) N / 2 事例ベースの手法と類似 1 1 1 pn ( x, y)  n (2 n2 ) M / 2 (2n2 ) N / 2  || x  xi ||2 || y  yi ||2   exp    2 2 2 n 2n  i 1  n ( x, y ) がある ( xi , yi ) に等しいときに１となり、 ( xi , yi ) から離れると、非常に小さな値となる。 ( xi , yi ) の近傍では確率をもち、それ以外の点ではほとんど確率をもたない。  n や  n の定め方のヒント設定方法は難しい。問題を簡略化した以下のケースの場合を考える X : R 、Y : R N N ( x, y ) を M ( 2 N ) 次元のベクトル x と考える q( x) : X上の真の確率密度関数 x1 , x2 ,, xn : サンプル p(x) :ある確率密度関数 pn ( x) : q( x)の推定 1 n 1  x  xi  pn ( x)   M p  n i 1 h  h  pn ( x)とp( x, y)の関係 p( x)  1  M /2 exp(  || x ||2 ) 、h  2 nとおくと、  nの定め方 1 n 1  x  xi  pn ( x )   M p  n i 1 h  h  1 1  n 2 n2   || x  xi ||2   exp   2 2 n  i 1  n  M /2 MとNを新たな 1 1 1 pn ( x, y)  n (2 n2 ) M / 2 (2n2 ) N / 2 hの定め方 M 、 n   nとおくと 2  || x  xi ||2 || y  yi ||2   exp    2 2 2 n 2n  i 1  n h の定め方（１） E (n, h)  E X n  (q( x)  p ( x)) dx 2 n 真の関数との2乗誤差をサンプルの現れ方で平均をとったもの E(n, h) を最小にするような h をとればよい h の定め方（２）定理１結論から言うと、、、     MP2  h   M   n  Pij PklQijkl   i , j , k ,l  1 M 4 で E(n, h) は最小値を取るここで  2 q ( x )  2 q ( x) Qijkl   dx xi x j xk xl Pij  x x i RM 真の密度関数 q( x) が入っている j p ( x)dx P2   p( x) 2 dx RM 求めることは難しい定理１の証明の概要（１）添付資料参照、、、ここでは概要を示す pn ( x) の平均 pn ( x) を導入する。 1  x - Xi  p  の標本平均になっているので、 M h  h  1  x - Xi  p  の平均も pn ( x) になることに注意。 M h  h  pn ( x ) は E (n, h)   B( x) 2 dx   C ( x)dx B( x)  q( x)  pn ( x)  C ( x)  EX n  pn ( x)  pn ( x) 2  定理1の証明の概要（２） B( x) 、C ( x) の近似式を求める h2 M  2 q ( x) B( x)    Pi , j 2 i , j 1 xi x j q( x) C ( x)   M P2 nh 使っているのはテイラー展開 n   のとき h  0という性質  xp ( x)dx  0 という仮定中心極限定理 h4 M 1 E (n, h)  P P Q   ij kl ijkl nhM P2 4 i , j ,k ,l 1 この式を最小にする h を求めればよい微分して求まる。注30 （ノンパラメトリック学習のメモ） • 確率変数の次元が上がると推定精度は悪化（「次元の呪い」を受ける） •  n2、n2 の定め方は難しい • 中間層の個数をサンプルの数だけ用意しなくてはならず、学習が困難。クラスタリングを使えばよいが、そうするとパラメトリックな手法と本質的には同等自己組織化写像（1次元の例） C H  (1,0,0,,0), (0,1,0,,0),, (0,0,0,,1) 近傍も１に設定する S H  { (1,1,0,0,,0), (1,1,1,0,0,,0), (0,1,1,1,0,0 ,0),  , (0,0,0,,0,1,1,1), (0,0,0,,0,1,1) } S H を使って競合学習を行うイメージ的には、競合学習によりクラスタが H 個作成されるがそれらクラスタ間に1次元の繋がりがでてくる。自己組織化写像多次元への拡張例）2次元、、、クラスが２つ第1のクラスは J 種類、第2のクラスは K 種類 C  ( j, k ) : j  1,2,, J , k  1,2,, K  U jk  ( j' , k ' )  C : | j' j | 1, | k 'k | 1 U jk を使って競合学習を行う入力 x x に最も近い  j ,k を選ぶ  j ,k の近傍 U jk に属するベクトルを更新次元は何を表すか？最初に設定した次元はクラスを表す自己組織化後にできた次元の意味は？もとのクラス？識別のための属性？圧縮された次元？いろいろな見方が可能自己組織化に関係する分野は広い私なりの理解ある観点によれば連続性をもつあるクラスの列。（クラスもパターンの属性の一種。）結局、結果を見てから解釈するものだと思う。例47 （時系列データの自己組織化） 1ドルの日ごとの為替レート 5009日分連続した10日間のデータを1事例とする（10次元データ） {( xt , xt 1 , xt 2 ,, xt 9 ) ; t  1,2,,5000} 2次元の自己組織化写像（５×５）を構成例47 （実験結果）何を表しているのか、、、？？？？私なりに想像すると、、、例47 （私なりの理解）変化のパターンの属性２（為替の金額に対応？）赤丸がパターンの点。各クラスの代表点をとっている。曲線は後からつけたもの。変化のパターンの属性１どちらの軸にしても単なるクラスではなく、連続的な関連性がある