情報幾何入門 - Staff

情報幾何入門
赤穂昭太郎
産業技術総合研究所
脳神経情報研究部門
情報幾何
情報処理を幾何的に(図で)理解する
世の中
データ
情報処理
結果
モデル
情報幾何から導かれる結論
• 多くのモデルは「平ら」である
• 多くのアルゴリズムは平らなモデルに
「まっすぐ」射影を下ろしたものになっている
• ただし,「平ら」「まっすぐ」は普通と違って
2種類ある(eとm:双対構造)
共通言語としての情報幾何
• 確率モデルやその周辺分野
– 統計学
– システム制御
– 符号理論
– 最適化理論
– 統計物理
それぞれ独自の理論・
アルゴリズムがあるが
関係がよくわからない
情報幾何で統一的に理解しよう
世の中=確率モデル
• 情報幾何の出発点:
確率モデル f ( x;  )
  ( ,  ,,  )
1
2
3
• 座標系
f ( x;  )
1
2
n
例: 離散分布
Pr[x=xi]
0 .6
q0
0 .5
0 .4
0 .3
0 .2
(0.2,0.5,0.3)
0 .1
q2
0
x0
x1
x2
q1
例: 正規分布




空間の構造
• ユークリッド空間ではダメ?
1
A
B
1
2
2
C
1
2
D

1
A
B
2
C
D
1
2
• ユークリッドではA-B と C-D の隔たりが同じになる

空間の構造
• 空間の構造は何で決まるか?
– 点の近く: 線形空間(計量)
– 空間全体: 線形空間のつながり方を決める

(接続)
2
• 設計方針
– 統計的に自然なもの
– パラメータの取り方によらない
1
点の近くの構造:線形空間
• 線形空間(接空間)
2
e2
p
• 接空間の構造は
基底の間の内積で
決まる(リーマン計量)
1
e1
gij  ei , e j

情報幾何での計量
• 統計的不変性⇒フィッシャー情報行列
gij ( )  E [i log p( x,  ) j log p( x,  )]

i 
 i
E  [ f ( x)]   f ( x) p ( x;  )dx
なぜフィッシャー情報量か?
• クラメール・ラオの不等式
N個のサンプルからの  の推定量 ˆ の分
散の下限
1
1
ˆ
Var[  ]  G  
N
• G が  のまわりでの散らばり具合を表す
1
1
⇔ G が大きいところはきめが粗い
例:正規分布
 (x  ) 1
2
p( x;  ,  )  exp 
 log 2 
2
2
2


2
1 1 0

G  2 
  0 2
• d , d だけ微小に動かしたときの変化は
(d 2  2d 2 )  2
⇒分散の小さいところは少し動かしただけで
大きくずれる
計量と座標変換
• 計量は(一般に非線形な)座標変換に対して
線形に変換される(テンソル)
  
i
     
a
gij   J ia J bj g ab
a ,b

J  i

2
2
p
1
a
a
i
1
ユークリッド空間をつなぐ
• 各点ごとにバラバラの接空間
 ( ~p)   ( p)  d
⇒接空間をつなぐ(接続)
j
p
• 接ベクトルe jの平行移動
 
k
i~
~
 d e j  e j   ij d ek
i ,k
•
ijk を(アファイン)接続係数と呼ぶ
ej
~
ej
d
~
p
j
ijk d i~
ek
d e j
測地線:まっすぐな線
• ある接ベクトルの方向 d の自分自身への
平行移動  d d 
をつなげたものを測地線という
(直線の概念の一般化)
d   d d
d
d  dd 
接続をどう決めるか?
• 二つの接ベクトルを平行移動したとき,
普通(物理等)はその間の内積を保存したい
d d1 , d d2   d1, d2
• これを満たす接続は計量から一意的に決
まってしまう⇒レビ・チビタ接続
• ところが情報幾何ではそれ以外の接続も考え
る
α接続
• 統計的な不変性⇒パラメータαをもつ接続係
数に限られる

1
 
 ( )  E   i  j l 
 i l j l  k l 
2
 


h
ij,k   ij g hk
il 
log p( x;  )
i
h
( )
ij , k
• 特にα=0のときがレビ・チビタ接続
• 情報幾何ではα=±1のときが最重要!
平坦な空間
• 接続はテンソルではない(座標系に依存)
• 逆に言えば,うまく座標系を取れば,=0に
できる(まっすぐな空間)
• このような座標系がもし存在するとき
αアファイン座標系といい,その座標系に
ついてα平坦であるという.
• 平坦な座標系の測地線(α測地線)はαアファイン座標
系での直線になっている.
  (1  t )0  t1
重要な分布族
• α=±1 は特別な意味がある:
確率分布の分布族で,α平坦になるのは
「指数分布族(exponential family)」と
「混合分布族(mixture family)」の
二つだけで,それぞれα=±1に対応する
指数分布族
• 情報幾何で最も基本的な分布族
n


i
p( x;  )  exp  Fi ( x)  ( )  C ( x) 
 i 1

• 指数分布族は  をアファイン座標系として
1-平坦
• 指数分布族は特別なので1-平坦や1-接続の
ことをe-平坦とかe-接続という
(e=exponential)
混合分布族
• 確率分布の線形和
n
p( x;  )   Fi ( x)   F0 ( x)
i
i 1
0
n
 0  1   i
i 1
• パラメータθをアファイン座標系として
-1平坦
• 混合分布族は特別なのでー1平坦,-1接続
のことをm平坦,m接続という(m:mixture)
離散分布は混合かつ指数
• 混合分布族としては
n
p( x;  )   qi ( x  i)  q0 ( x)
i 1
• 指数分布族としては
 n

p( x;  )  exp  ri ( x  i)  (r ) 
 i 1

ri  log qi  log q0
 (r )   logq0
正規分布は指数分布族
 ( x   )2 1
2
p( x;  ,  )  exp 
 log 2 
2
2
2


 n i

p( x;  )  exp  Fi ( x)  ( )  C ( x) 
 i 1


1


F1 ( x)  x
2
2
2

 1 2
F2 ( x)  x
2 
2 1
 ( )  2  log 2 2
2
2
C ( x)  0
双対平坦と双対座標
• 実はα平坦なら,別の座標系が存在して
ーα平坦 になる
• α平坦な座標系:θ,-α平坦な座標系:η
• ルジャンドル変換:ポテンシャル関数  ,
 ( )   ( )   i  0
i
i
 ( )


 ( )


双対性
• θに対する計量: gij ηに対する計量:
i
 i
ij

g

g
ij
j
 j

g
ij
• 計量が座標変換のヤコビ行列になっている
• θ座標での基底: ei η座標での基底: e j
双対直交:
ei , e
j
 i
j
指数分布族の場合
• θ座標系は1平坦
 n i

p( x;  )  exp  Fi ( x)  ( )  C ( x) 
 i 1

• 双対座標は i  E Fi ( x)
• ポテンシャルはψそのもの
• 混合分布族も双対平坦だが双対座標が
単純な形で書けないので,結局
指数分布族が唯一重要な分布族
離散分布の場合
• e座標系
 n

p( x;  )  exp  ri ( x  i)  (r ) 
 i 1

 i  ri  logqi  logq0
確率値の対数の線形空間
• m座標系
i  E [ ( x  i)]  qi
確率値の線形空間
例:正規分布
1  
1
A
  1
B
2
2
1
2
2
C
2
1
2
C
1
2
B
C
D

D
A
B
B
2
2 
1

A
2  E x 2    2   2
2
D
A
1
1  E x  
2
D
C
1
部分空間と射影
• 情報幾何的世界観
世の中
指数分布族S
データ
十分統計量η
情報処理
射影
結果
モデル
部分空間M
平坦な部分空間
• α平坦な線形部分空間:双対平坦な空間Sの
α座標系での線形部分空間
双対平坦空間S
α平坦な部分空間M
α座標系
• 注意:α平坦な部分空間はーα平坦な部分空
間とは限らない c.f. S自身はどちらも平坦
ダイバージェンス
• 射影を導入する前に...
• αダイバージェンス
D( ) ( p || q)   ( ( p))   ( (q))   i ( p)i (q)
i
i
 ( )   ( )   i  0
i
• 対称律以外は距離の性質を満たす
• p≒q なら距離に一致する
• 双対性 D( ) ( p || q)  D(  ) (q || p)
c.f. ルジャンドル変換
指数分布族の場合
• α=1(e接続)でのダイバージェンスは
カルバックダイバージェンスに一致する
f ( x)
KL( f || g )   f ( x) log
dx
g ( x)
• α=-1(m接続)でのダイバージェンスは
KL( g || f )
距離の分解
• ユークリッド空間で部分空間への射影を取る
のがなぜ簡単か?
• ある点から部分空間への距離が
直交成分と水平成分に簡単に分解
できるから (ピタゴラスの定理)
 2
 2
( x  y)  ( x  y )  ( y  y )
2
拡張ピタゴラスの定理
双対平坦空間S
p
α測地線
q
( )
ーα測地線
( )
r
( )
D ( p || r )  D ( p || q)  D (q || r )
射影定理
• α測地線で引いた直交射影は
αダイバージェンス D( ) ( p || q)の停留点
p
双対平坦空間S
α測地線
q
α射影
• 特にMがーα平坦なら
部分空間M
min D
q
( )
( p || q)
混合座標系:全部まっすぐに見える
• α射影とーα部分空間の組み合わせが一番単純←
双対性から
ei , e j   i j
• Mの中と外とでα座標系とーα座標系を分けて使え
ばまっすぐな図が描け,射影も陽に表現できる
 II
p  ( I ;II )
ˆII
q  ( ;ˆII )
I
M

I
統計的推定
• データは空間のどの点に配置するか?
• i  E Fi ( x) なので,N個のデータの十分統
1
計量 ri 
N
N
( j)
F
(
x
 i )をη座標とすればよい
j 1
r
指数分布族S
m射影
ˆ
モデルM
統計的推定(つづき)
p ( x , x ; )
• 最尤推定 max
N

( j)
 max log p( x ; )
 M
j 1
• 最尤推定はm射影と等価
(1)
(N )
q( x)
KL(q( x) || p( x; ))   q( x) log
dx  min
 M
p( x; )
• モデルが平らなときは推定が易しい.
推定の質についてはモデルの曲がり具合
(曲率)に関係⇒統計的漸近理論
線形システム
• 線形システム  (t )  N (0,1)

x(t )
H (z )
x(t )   hi (t  i) H ( z ) (t )
i 0
伝達関数

H ( z )   hi z i
i 0
パワースペクトラム
i
S () | H (e ) |
• システムの例:ARモデル,MAモデル,
ARMAモデルなど
• 最小位相推移→HとSが1対1に対応
2
線形システム(つづき)
• 確率モデル:信号x(t)の周波数成分X(ω)
2
 1 | X ( ) |

p( X ; S )  exp  
 ( S ) 
S ( )
 2

• 実はすべてのαについてα平坦になる
線形ステム全体S(α平坦)
MAモデル(m平坦)
ARMAモデル
ARモデル(e平坦)
潜在変数モデル
• x だけが観測される p( x, z;  )
例: 隠れマルコフモデル(HMM)
xt 1
xt
xt 1
p( xt | zt )
zt 1
zt
p( zt 1 | zt )
zt 1
em アルゴリズム
• em (exponential and mixture)
S
観測データの空間
(m平坦が多い)
m射影
e射影
モデルM (e平坦が多い)
• 実はこれがEMアルゴリズム(ExpectationMaximization/Baum-Welch) とほぼ等価
集団学習
• 三人寄れば文殊の知恵?
• バギング・ブースティング
y
多数決
1 
3
2
h1 ( x) h2 ( x) h3 ( x)
x
集団学習(つづき)
~
拡張空間 S
~
拡張空間 S
初期解 q0  M
e射影
経験分布p
m射影
モデルM(拡張指
数分布族:e平坦)
双
対
問
題
モデルQ(モーメン
ト制約:m平坦)
グラフィカルモデルとベイズ推定
• 変数間の依存関係をグラフであらわす
• HMM, カルマンフィルタもその一種
p( X )  p( X 1 )
X1
X2
p( X 2 | X 1 ) p( X 3 | X 1 )
X3
X4
p( X 4 | X 2 , X 3 ) p( X 5 | X 3 )
X5
ベイズ推定
• 一部が観測されたときに残りの変数を推定
事後分布
p( X )
p( X )
p( X 1 , X 2 , X 3 | X 4 , X 5 ) 
p( X 4 , X 5 )
• ノード数が増えると総和計算
(or 積分)が大変!(特に木でないとき)
• ⇒近似計算
(平均場近似・変分ベイズ)
(マルコフ連鎖モンテカルロ・
パーティクルフィルタ)

 p( X )
X1 , X 2 , X 3
X1
X2
X3
X4
X5
平均場近似・変分ベイズ法
p( X1, X 2 , X 3 | X 4 , X 5 )  q1 ( X1 )q2 ( X 2 )q3 ( X 3 ) モデルM(e平坦)
min KLq1 ( X1 )q2 ( X 2 )q3 ( X 3 ) || p( X1, X 2 , X 3 | X 4 , X 5 )
e射影
X1
X2
S
X3
X4
X5
真の分布p
e射影
初期解
モデルM(e平坦)
マルコフ連鎖モンテカルロ
• 乱数発生により事後分布からのサンプルを生成す
る
p( X1(t1) | X 2(t ) , X 3(t ) ; X 4 , X 5 )
• ギブスサンプラー
X1
X2
p( X
(t 1)
2
(t )
3
| X ,X
(t 1)
1
; X 4 , X5 )
X3
(t 1)
(t 1)
(t 1)
p
(
X
|
X
,
X
; X 4 , X5 )
X
3
1
2
X
• どのような初期値から始めても,
p( X1 , X 2 , X 3 | X 4 , X 5 ) に分布収束する
4
5
ギブスサンプラーの幾何
• 1ステップに一つの変数を更新するマルコフ
連鎖モンテカルロを考える.
目的の定常分布
ギブスサンプラー
1ステップに一つの
(e射影)
変数を更新して動
ける範囲(m平坦)
現在の状態分布
さらなる発展
• 有限次元のパラメータ空間から無限次元の
空間の幾何へ(セミパラメトリック幾何)
• 特異点の問題(ニューラルネットなどの階層
的なモデル:代数幾何の高みへ)
• 新たな情報処理へ...
参考文献
• 赤穂:情報幾何と機械学習
(「計測と制御」2005年5月号)
• 甘利:情報幾何とその応用
(「システム・制御・情報」連載
2004年6月~)
• 公文:推定と検定への幾何学的アプローチ,
(「統計科学のフロンティア 2
統計学の基礎II」,岩波書店)