「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.2 競合学習 ….. 3.2.6 ノンパラメトリック学習 3.2.7 自己組織化写像 8月1日(金) 発表者 新納浩幸 ノンパラメトリック学習とは パラメトリック学習 モデル(確率密度関数)をパラメータを持つ関数で表現。 学習とはパラメータの推定に帰着される。 サンプルが多い場合は、もっと複雑な モデルを使えるはず ノンパラメトリック学習 予めモデル(確率密度関数)の関数を設定しない。 ノンパラメトリック学習 X : R 、Y : R M N ( xi , yi ) R M R N X、Y の同時密度関数を以下で表現する 1 1 1 pn ( x, y) n (2 n2 ) M / 2 (2n2 ) N / 2 || x xi ||2 || y yi ||2 exp 2 2 2 n 2n i 1 n サンプルの周辺は同じことが起こりやすい個所としている 事例ベースの手法と似ている サンプル数 n に依存する n 0、n 0 これらの設定方法が問題 本当に確率密度関数? p ( x, y)dxdy n 1 1 1 n (2 n2 ) M / 2 (2n2 ) N / 2 || x xi ||2 || y yi ||2 dxdy 1 exp 2 2 2 n 2n i 1 n 以下の式より明らか || x xi ||2 || y yi ||2 || x xi ||2 || y yi ||2 exp 2 n2 2 n2 dxdy exp 2 n2 dx exp 2 n2 dy (2 n2 ) M / 2 (2n2 ) N / 2 事例ベースの手法と類似 1 1 1 pn ( x, y) n (2 n2 ) M / 2 (2n2 ) N / 2 || x xi ||2 || y yi ||2 exp 2 2 2 n 2n i 1 n ( x, y ) がある ( xi , yi ) に等しいときに 1 となり、 ( xi , yi ) から離れると、非常に小さな値となる。 ( xi , yi ) の近傍では確率をもち、それ以外の点では ほとんど確率をもたない。 n や n の定め方のヒント 設定方法は難しい。 問題を簡略化した以下のケースの場合を考える X : R 、Y : R N N ( x, y ) を M ( 2 N ) 次元のベクトル x と考える q( x) : X上の真の確率密度関数 x1 , x2 ,, xn : サンプル p(x) :ある確率密度関数 pn ( x) : q( x)の推定 1 n 1 x xi pn ( x) M p n i 1 h h pn ( x)とp( x, y)の関係 p( x) 1 M /2 exp( || x ||2 ) 、h 2 nとおくと、 nの定め方 1 n 1 x xi pn ( x ) M p n i 1 h h 1 1 n 2 n2 || x xi ||2 exp 2 2 n i 1 n M /2 MとNを新たな 1 1 1 pn ( x, y) n (2 n2 ) M / 2 (2n2 ) N / 2 hの定め方 M 、 n nとおくと 2 || x xi ||2 || y yi ||2 exp 2 2 2 n 2n i 1 n h の定め方(1) E (n, h) E X n (q( x) p ( x)) dx 2 n 真の関数との2乗誤差をサンプルの現れ方で 平均をとったもの E(n, h) を最小にするような h をとればよい h の定め方(2) 定理1 結論から言うと、、、 MP2 h M n Pij PklQijkl i , j , k ,l 1 M 4 で E(n, h) は最小値を取る ここで 2 q ( x ) 2 q ( x) Qijkl dx xi x j xk xl Pij x x i RM 真の密度関数 q( x) が入っている j p ( x)dx P2 p( x) 2 dx RM 求めることは難しい 定理1の証明の概要(1) 添付資料参照、、、ここでは概要を示す pn ( x) の平均 pn ( x) を導入する。 1 x - Xi p の標本平均になってい るので、 M h h 1 x - Xi p の平均も pn ( x) になることに注意。 M h h pn ( x ) は E (n, h) B( x) 2 dx C ( x)dx B( x) q( x) pn ( x) C ( x) EX n pn ( x) pn ( x) 2 定理1の証明の概要(2) B( x) 、C ( x) の近似式を求める h2 M 2 q ( x) B( x) Pi , j 2 i , j 1 xi x j q( x) C ( x) M P2 nh 使っているのは テイラー展開 n のとき h 0という性質 xp ( x)dx 0 という仮定 中心極限定理 h4 M 1 E (n, h) P P Q ij kl ijkl nhM P2 4 i , j ,k ,l 1 この式を最小にする h を求めればよい 微分して求まる。 注30 (ノンパラメトリック学習のメモ) • 確率変数の次元が上がると推定精度は悪 化(「次元の呪い」を受ける) • n2、n2 の定め方は難しい • 中間層の個数をサンプルの数だけ用意し なくてはならず、学習が困難。クラスタリン グを使えばよいが、そうするとパラメトリッ クな手法と本質的には同等 自己組織化写像(1次元の例) C H (1,0,0,,0), (0,1,0,,0),, (0,0,0,,1) 近傍も1に設定する S H { (1,1,0,0,,0), (1,1,1,0,0,,0), (0,1,1,1,0,0 ,0), , (0,0,0,,0,1,1,1), (0,0,0,,0,1,1) } S H を使って競合学習を行 う イメージ的には、競合学習によりクラスタが H 個作成されるが それらクラスタ間に1次元の繋がりがでてくる。 自己組織化写像 多次元への拡張 例)2次元、、、クラスが2つ 第1のクラスは J 種類、第2のクラスは K 種類 C ( j, k ) : j 1,2,, J , k 1,2,, K U jk ( j' , k ' ) C : | j' j | 1, | k 'k | 1 U jk を使って競合学習を行 う 入力 x x に最も近い j ,k を選ぶ j ,k の近傍 U jk に属するベクトルを更 新 次元は何を表すか? 最初に設定した次元はクラスを表す 自己組織化後にできた次元の意味は? もとのクラス? 識別のための属性? 圧縮された次元? いろいろな見方が可能 自己組織化に関係する分野は広い 私なりの理解 ある観点によれば連続性をもつあるクラスの列。 (クラスもパターンの属性の一種。) 結局、結果を見てから解釈するものだと思う。 例47 (時系列データの自己組織化) 1ドルの日ごとの為替レート 5009日分 連続した10日間のデータを1事例とする(10次元データ) {( xt , xt 1 , xt 2 ,, xt 9 ) ; t 1,2,,5000} 2次元の自己組織化写像(5×5)を構成 例47 (実験結果) 何を表しているのか、、、???? 私なりに想像すると、、、 例47 (私なりの理解) 変化の パターンの 属性2 (為替の金額 に対応?) 赤丸がパターンの点。 各クラスの代表点を とっている。 曲線は後から つけたもの。 変化のパターンの属性1 どちらの軸にしても単なるクラスではなく、 連続的な関連性がある
© Copyright 2024 ExpyDoc