「データ学習アルゴリズム」
第3章 複雑な学習モデル
3.2 競合学習
…..
3.2.6 ノンパラメトリック学習
3.2.7 自己組織化写像
8月1日(金)
発表者 新納浩幸
ノンパラメトリック学習とは
パラメトリック学習
モデル(確率密度関数)をパラメータを持つ関数で表現。
学習とはパラメータの推定に帰着される。
サンプルが多い場合は、もっと複雑な
モデルを使えるはず
ノンパラメトリック学習
予めモデル(確率密度関数)の関数を設定しない。
ノンパラメトリック学習
X : R 、Y : R
M
N
( xi , yi ) R M R N
X、Y の同時密度関数を以下で表現する
1
1
1
pn ( x, y)
n (2 n2 ) M / 2 (2n2 ) N / 2
|| x xi ||2 || y yi ||2
exp
2
2
2 n
2n
i 1
n
サンプルの周辺は同じことが起こりやすい個所としている
事例ベースの手法と似ている
サンプル数 n に依存する
n 0、n 0 これらの設定方法が問題
本当に確率密度関数?
p ( x, y)dxdy
n
1
1
1
n (2 n2 ) M / 2 (2n2 ) N / 2
|| x xi ||2 || y yi ||2
dxdy 1
exp
2
2
2 n
2n
i 1
n
以下の式より明らか
|| x xi ||2 || y yi ||2
|| x xi ||2
|| y yi ||2
exp 2 n2 2 n2 dxdy exp 2 n2 dx exp 2 n2 dy
(2 n2 ) M / 2 (2n2 ) N / 2
事例ベースの手法と類似
1
1
1
pn ( x, y)
n (2 n2 ) M / 2 (2n2 ) N / 2
|| x xi ||2 || y yi ||2
exp
2
2
2 n
2n
i 1
n
( x, y ) がある ( xi , yi ) に等しいときに 1 となり、
( xi , yi ) から離れると、非常に小さな値となる。
( xi , yi ) の近傍では確率をもち、それ以外の点では
ほとんど確率をもたない。
n や n の定め方のヒント
設定方法は難しい。
問題を簡略化した以下のケースの場合を考える
X : R 、Y : R
N
N
( x, y ) を M ( 2 N ) 次元のベクトル x と考える
q( x) : X上の真の確率密度関数
x1 , x2 ,, xn : サンプル
p(x) :ある確率密度関数
pn ( x) : q( x)の推定
1 n 1 x xi
pn ( x) M p
n i 1 h
h
pn ( x)とp( x, y)の関係
p( x)
1
M /2
exp( || x ||2 ) 、h 2 nとおくと、
nの定め方
1 n 1 x xi
pn ( x ) M p
n i 1 h
h
1
1
n 2 n2
|| x xi ||2
exp
2
2 n
i 1
n
M /2
MとNを新たな
1
1
1
pn ( x, y)
n (2 n2 ) M / 2 (2n2 ) N / 2
hの定め方
M
、 n nとおくと
2
|| x xi ||2 || y yi ||2
exp
2
2
2 n
2n
i 1
n
h の定め方(1)
E (n, h) E X n
(q( x) p ( x)) dx
2
n
真の関数との2乗誤差をサンプルの現れ方で
平均をとったもの
E(n, h) を最小にするような h をとればよい
h の定め方(2)
定理1
結論から言うと、、、
MP2
h M
n Pij PklQijkl
i , j , k ,l
1
M 4
で E(n, h) は最小値を取る
ここで
2 q ( x ) 2 q ( x)
Qijkl
dx
xi x j xk xl
Pij
x x
i
RM
真の密度関数 q( x) が入っている
j
p ( x)dx
P2
p( x)
2
dx
RM
求めることは難しい
定理1の証明の概要(1)
添付資料参照、、、ここでは概要を示す
pn ( x) の平均 pn ( x) を導入する。
1 x - Xi
p
の標本平均になってい るので、
M
h
h
1 x - Xi
p
の平均も pn ( x) になることに注意。
M
h
h
pn ( x ) は
E (n, h) B( x) 2 dx C ( x)dx
B( x) q( x) pn ( x)
C ( x) EX n pn ( x) pn ( x)
2
定理1の証明の概要(2)
B( x) 、C ( x) の近似式を求める
h2 M
2 q ( x)
B( x) Pi , j
2 i , j 1
xi x j
q( x)
C ( x) M P2
nh
使っているのは
テイラー展開
n のとき h 0という性質
xp ( x)dx 0 という仮定
中心極限定理
h4 M
1
E (n, h)
P
P
Q
ij kl ijkl nhM P2
4 i , j ,k ,l 1
この式を最小にする h を求めればよい
微分して求まる。
注30 (ノンパラメトリック学習のメモ)
• 確率変数の次元が上がると推定精度は悪
化(「次元の呪い」を受ける)
• n2、n2 の定め方は難しい
• 中間層の個数をサンプルの数だけ用意し
なくてはならず、学習が困難。クラスタリン
グを使えばよいが、そうするとパラメトリッ
クな手法と本質的には同等
自己組織化写像(1次元の例)
C H (1,0,0,,0), (0,1,0,,0),, (0,0,0,,1)
近傍も1に設定する
S H { (1,1,0,0,,0), (1,1,1,0,0,,0), (0,1,1,1,0,0 ,0),
, (0,0,0,,0,1,1,1), (0,0,0,,0,1,1) }
S H を使って競合学習を行 う
イメージ的には、競合学習によりクラスタが H 個作成されるが
それらクラスタ間に1次元の繋がりがでてくる。
自己組織化写像
多次元への拡張
例)2次元、、、クラスが2つ
第1のクラスは J 種類、第2のクラスは K 種類
C ( j, k ) : j 1,2,, J , k 1,2,, K
U jk ( j' , k ' ) C : | j' j | 1, | k 'k | 1
U jk を使って競合学習を行 う
入力 x
x に最も近い j ,k を選ぶ
j ,k の近傍 U jk に属するベクトルを更 新
次元は何を表すか?
最初に設定した次元はクラスを表す
自己組織化後にできた次元の意味は?
もとのクラス? 識別のための属性? 圧縮された次元?
いろいろな見方が可能
自己組織化に関係する分野は広い
私なりの理解
ある観点によれば連続性をもつあるクラスの列。
(クラスもパターンの属性の一種。)
結局、結果を見てから解釈するものだと思う。
例47 (時系列データの自己組織化)
1ドルの日ごとの為替レート 5009日分
連続した10日間のデータを1事例とする(10次元データ)
{( xt , xt 1 , xt 2 ,, xt 9 ) ; t 1,2,,5000}
2次元の自己組織化写像(5×5)を構成
例47 (実験結果)
何を表しているのか、、、????
私なりに想像すると、、、
例47 (私なりの理解)
変化の
パターンの
属性2
(為替の金額
に対応?)
赤丸がパターンの点。
各クラスの代表点を
とっている。
曲線は後から
つけたもの。
変化のパターンの属性1
どちらの軸にしても単なるクラスではなく、
連続的な関連性がある
© Copyright 2026 ExpyDoc