わかりやすいパターン認識」 第1章:パターン認識とは

「データ学習アルゴリズム」
第3章 複雑な学習モデル
3.2 競合学習
…..
3.2.6 ノンパラメトリック学習
3.2.7 自己組織化写像
8月1日(金)
発表者 新納浩幸
ノンパラメトリック学習とは
パラメトリック学習
モデル(確率密度関数)をパラメータを持つ関数で表現。
学習とはパラメータの推定に帰着される。
サンプルが多い場合は、もっと複雑な
モデルを使えるはず
ノンパラメトリック学習
予めモデル(確率密度関数)の関数を設定しない。
ノンパラメトリック学習
X : R 、Y : R
M
N
( xi , yi )  R M  R N
X、Y の同時密度関数を以下で表現する
1
1
1
pn ( x, y) 
n (2 n2 ) M / 2 (2n2 ) N / 2
 || x  xi ||2 || y  yi ||2 

exp 


2
2
2 n
2n 
i 1

n
サンプルの周辺は同じことが起こりやすい個所としている
事例ベースの手法と似ている
サンプル数 n に依存する
 n  0、n  0 これらの設定方法が問題
本当に確率密度関数?
 p ( x, y)dxdy
n
1
1
1
 
n (2 n2 ) M / 2 (2n2 ) N / 2
 || x  xi ||2 || y  yi ||2 
dxdy  1
exp 


2
2
2 n
2n 
i 1

n
以下の式より明らか
 || x  xi ||2 || y  yi ||2 
 || x  xi ||2 
 || y  yi ||2 
 exp  2 n2  2  n2 dxdy   exp  2 n2 dx exp  2  n2 dy
 (2 n2 ) M / 2 (2n2 ) N / 2
事例ベースの手法と類似
1
1
1
pn ( x, y) 
n (2 n2 ) M / 2 (2n2 ) N / 2
 || x  xi ||2 || y  yi ||2 

exp 


2
2
2 n
2n 
i 1

n
( x, y ) がある ( xi , yi ) に等しいときに 1 となり、
( xi , yi ) から離れると、非常に小さな値となる。
( xi , yi ) の近傍では確率をもち、それ以外の点では
ほとんど確率をもたない。
 n や  n の定め方のヒント
設定方法は難しい。
問題を簡略化した以下のケースの場合を考える
X : R 、Y : R
N
N
( x, y ) を M ( 2 N ) 次元のベクトル x と考える
q( x) : X上の真の確率密度関数
x1 , x2 ,, xn : サンプル
p(x) :ある確率密度関数
pn ( x) : q( x)の推定
1 n 1  x  xi 
pn ( x)   M p

n i 1 h
 h 
pn ( x)とp( x, y)の関係
p( x) 
1
 M /2
exp(  || x ||2 ) 、h  2 nとおくと、
 nの定め方
1 n 1  x  xi 
pn ( x )   M p

n i 1 h
 h 
1
1

n 2 n2

 || x  xi ||2 

exp 

2
2 n 
i 1

n

M /2
MとNを新たな
1
1
1
pn ( x, y) 
n (2 n2 ) M / 2 (2n2 ) N / 2
hの定め方
M
、 n   nとおくと
2
 || x  xi ||2 || y  yi ||2 

exp 


2
2
2 n
2n 
i 1

n
h の定め方(1)
E (n, h)  E X n
 (q( x)  p ( x)) dx
2
n
真の関数との2乗誤差をサンプルの現れ方で
平均をとったもの
E(n, h) を最小にするような h をとればよい
h の定め方(2)
定理1
結論から言うと、、、




MP2

h   M

 n  Pij PklQijkl 
 i , j , k ,l

1
M 4
で E(n, h) は最小値を取る
ここで
 2 q ( x )  2 q ( x)
Qijkl  
dx
xi x j xk xl
Pij 
x x
i
RM
真の密度関数 q( x) が入っている
j
p ( x)dx
P2 
 p( x)
2
dx
RM
求めることは難しい
定理1の証明の概要(1)
添付資料参照、、、ここでは概要を示す
pn ( x) の平均 pn ( x) を導入する。
1  x - Xi 
p
 の標本平均になってい るので、
M
h
 h 
1  x - Xi 
p
 の平均も pn ( x) になることに注意。
M
h
 h 
pn ( x ) は
E (n, h)   B( x) 2 dx   C ( x)dx
B( x)  q( x)  pn ( x)

C ( x)  EX n  pn ( x)  pn ( x)
2

定理1の証明の概要(2)
B( x) 、C ( x) の近似式を求める
h2 M
 2 q ( x)
B( x)    Pi , j
2 i , j 1
xi x j
q( x)
C ( x)   M P2
nh
使っているのは
テイラー展開
n   のとき h  0という性質
 xp ( x)dx  0 という仮定
中心極限定理
h4 M
1
E (n, h) 
P
P
Q

 ij kl ijkl nhM P2
4 i , j ,k ,l 1
この式を最小にする h を求めればよい
微分して求まる。
注30 (ノンパラメトリック学習のメモ)
• 確率変数の次元が上がると推定精度は悪
化(「次元の呪い」を受ける)
•  n2、n2 の定め方は難しい
• 中間層の個数をサンプルの数だけ用意し
なくてはならず、学習が困難。クラスタリン
グを使えばよいが、そうするとパラメトリッ
クな手法と本質的には同等
自己組織化写像(1次元の例)
C H  (1,0,0,,0), (0,1,0,,0),, (0,0,0,,1)
近傍も1に設定する
S H  { (1,1,0,0,,0), (1,1,1,0,0,,0), (0,1,1,1,0,0 ,0),
 , (0,0,0,,0,1,1,1), (0,0,0,,0,1,1) }
S H を使って競合学習を行 う
イメージ的には、競合学習によりクラスタが H 個作成されるが
それらクラスタ間に1次元の繋がりがでてくる。
自己組織化写像
多次元への拡張
例)2次元、、、クラスが2つ
第1のクラスは J 種類、第2のクラスは K 種類
C  ( j, k ) : j  1,2,, J , k  1,2,, K 
U jk  ( j' , k ' )  C : | j' j | 1, | k 'k | 1
U jk を使って競合学習を行 う
入力 x
x に最も近い  j ,k を選ぶ
 j ,k の近傍 U jk に属するベクトルを更 新
次元は何を表すか?
最初に設定した次元はクラスを表す
自己組織化後にできた次元の意味は?
もとのクラス? 識別のための属性? 圧縮された次元?
いろいろな見方が可能
自己組織化に関係する分野は広い
私なりの理解
ある観点によれば連続性をもつあるクラスの列。
(クラスもパターンの属性の一種。)
結局、結果を見てから解釈するものだと思う。
例47 (時系列データの自己組織化)
1ドルの日ごとの為替レート 5009日分
連続した10日間のデータを1事例とする(10次元データ)
{( xt , xt 1 , xt 2 ,, xt 9 ) ; t  1,2,,5000}
2次元の自己組織化写像(5×5)を構成
例47 (実験結果)
何を表しているのか、、、????
私なりに想像すると、、、
例47 (私なりの理解)
変化の
パターンの
属性2
(為替の金額
に対応?)
赤丸がパターンの点。
各クラスの代表点を
とっている。
曲線は後から
つけたもの。
変化のパターンの属性1
どちらの軸にしても単なるクラスではなく、
連続的な関連性がある