情報幾何入門 赤穂昭太郎 産業技術総合研究所 脳神経情報研究部門 情報幾何 情報処理を幾何的に(図で)理解する 世の中 データ 情報処理 結果 モデル 情報幾何から導かれる結論 • 多くのモデルは「平ら」である • 多くのアルゴリズムは平らなモデルに 「まっすぐ」射影を下ろしたものになっている • ただし,「平ら」「まっすぐ」は普通と違って 2種類ある(eとm:双対構造) 共通言語としての情報幾何 • 確率モデルやその周辺分野 – 統計学 – システム制御 – 符号理論 – 最適化理論 – 統計物理 それぞれ独自の理論・ アルゴリズムがあるが 関係がよくわからない 情報幾何で統一的に理解しよう 世の中=確率モデル • 情報幾何の出発点: 確率モデル f ( x; ) ( , ,, ) 1 2 3 • 座標系 f ( x; ) 1 2 n 例: 離散分布 Pr[x=xi] 0 .6 q0 0 .5 0 .4 0 .3 0 .2 (0.2,0.5,0.3) 0 .1 q2 0 x0 x1 x2 q1 例: 正規分布 空間の構造 • ユークリッド空間ではダメ? 1 A B 1 2 2 C 1 2 D 1 A B 2 C D 1 2 • ユークリッドではA-B と C-D の隔たりが同じになる 空間の構造 • 空間の構造は何で決まるか? – 点の近く: 線形空間(計量) – 空間全体: 線形空間のつながり方を決める (接続) 2 • 設計方針 – 統計的に自然なもの – パラメータの取り方によらない 1 点の近くの構造:線形空間 • 線形空間(接空間) 2 e2 p • 接空間の構造は 基底の間の内積で 決まる(リーマン計量) 1 e1 gij ei , e j 情報幾何での計量 • 統計的不変性⇒フィッシャー情報行列 gij ( ) E [i log p( x, ) j log p( x, )] i i E [ f ( x)] f ( x) p ( x; )dx なぜフィッシャー情報量か? • クラメール・ラオの不等式 N個のサンプルからの の推定量 ˆ の分 散の下限 1 1 ˆ Var[ ] G N • G が のまわりでの散らばり具合を表す 1 1 ⇔ G が大きいところはきめが粗い 例:正規分布 (x ) 1 2 p( x; , ) exp log 2 2 2 2 2 1 1 0 G 2 0 2 • d , d だけ微小に動かしたときの変化は (d 2 2d 2 ) 2 ⇒分散の小さいところは少し動かしただけで 大きくずれる 計量と座標変換 • 計量は(一般に非線形な)座標変換に対して 線形に変換される(テンソル) i a gij J ia J bj g ab a ,b J i 2 2 p 1 a a i 1 ユークリッド空間をつなぐ • 各点ごとにバラバラの接空間 ( ~p) ( p) d ⇒接空間をつなぐ(接続) j p • 接ベクトルe jの平行移動 k i~ ~ d e j e j ij d ek i ,k • ijk を(アファイン)接続係数と呼ぶ ej ~ ej d ~ p j ijk d i~ ek d e j 測地線:まっすぐな線 • ある接ベクトルの方向 d の自分自身への 平行移動 d d をつなげたものを測地線という (直線の概念の一般化) d d d d d dd 接続をどう決めるか? • 二つの接ベクトルを平行移動したとき, 普通(物理等)はその間の内積を保存したい d d1 , d d2 d1, d2 • これを満たす接続は計量から一意的に決 まってしまう⇒レビ・チビタ接続 • ところが情報幾何ではそれ以外の接続も考え る α接続 • 統計的な不変性⇒パラメータαをもつ接続係 数に限られる 1 ( ) E i j l i l j l k l 2 h ij,k ij g hk il log p( x; ) i h ( ) ij , k • 特にα=0のときがレビ・チビタ接続 • 情報幾何ではα=±1のときが最重要! 平坦な空間 • 接続はテンソルではない(座標系に依存) • 逆に言えば,うまく座標系を取れば,=0に できる(まっすぐな空間) • このような座標系がもし存在するとき αアファイン座標系といい,その座標系に ついてα平坦であるという. • 平坦な座標系の測地線(α測地線)はαアファイン座標 系での直線になっている. (1 t )0 t1 重要な分布族 • α=±1 は特別な意味がある: 確率分布の分布族で,α平坦になるのは 「指数分布族(exponential family)」と 「混合分布族(mixture family)」の 二つだけで,それぞれα=±1に対応する 指数分布族 • 情報幾何で最も基本的な分布族 n i p( x; ) exp Fi ( x) ( ) C ( x) i 1 • 指数分布族は をアファイン座標系として 1-平坦 • 指数分布族は特別なので1-平坦や1-接続の ことをe-平坦とかe-接続という (e=exponential) 混合分布族 • 確率分布の線形和 n p( x; ) Fi ( x) F0 ( x) i i 1 0 n 0 1 i i 1 • パラメータθをアファイン座標系として -1平坦 • 混合分布族は特別なのでー1平坦,-1接続 のことをm平坦,m接続という(m:mixture) 離散分布は混合かつ指数 • 混合分布族としては n p( x; ) qi ( x i) q0 ( x) i 1 • 指数分布族としては n p( x; ) exp ri ( x i) (r ) i 1 ri log qi log q0 (r ) logq0 正規分布は指数分布族 ( x )2 1 2 p( x; , ) exp log 2 2 2 2 n i p( x; ) exp Fi ( x) ( ) C ( x) i 1 1 F1 ( x) x 2 2 2 1 2 F2 ( x) x 2 2 1 ( ) 2 log 2 2 2 2 C ( x) 0 双対平坦と双対座標 • 実はα平坦なら,別の座標系が存在して ーα平坦 になる • α平坦な座標系:θ,-α平坦な座標系:η • ルジャンドル変換:ポテンシャル関数 , ( ) ( ) i 0 i i ( ) ( ) 双対性 • θに対する計量: gij ηに対する計量: i i ij g g ij j j g ij • 計量が座標変換のヤコビ行列になっている • θ座標での基底: ei η座標での基底: e j 双対直交: ei , e j i j 指数分布族の場合 • θ座標系は1平坦 n i p( x; ) exp Fi ( x) ( ) C ( x) i 1 • 双対座標は i E Fi ( x) • ポテンシャルはψそのもの • 混合分布族も双対平坦だが双対座標が 単純な形で書けないので,結局 指数分布族が唯一重要な分布族 離散分布の場合 • e座標系 n p( x; ) exp ri ( x i) (r ) i 1 i ri logqi logq0 確率値の対数の線形空間 • m座標系 i E [ ( x i)] qi 確率値の線形空間 例:正規分布 1 1 A 1 B 2 2 1 2 2 C 2 1 2 C 1 2 B C D D A B B 2 2 1 A 2 E x 2 2 2 2 D A 1 1 E x 2 D C 1 部分空間と射影 • 情報幾何的世界観 世の中 指数分布族S データ 十分統計量η 情報処理 射影 結果 モデル 部分空間M 平坦な部分空間 • α平坦な線形部分空間:双対平坦な空間Sの α座標系での線形部分空間 双対平坦空間S α平坦な部分空間M α座標系 • 注意:α平坦な部分空間はーα平坦な部分空 間とは限らない c.f. S自身はどちらも平坦 ダイバージェンス • 射影を導入する前に... • αダイバージェンス D( ) ( p || q) ( ( p)) ( (q)) i ( p)i (q) i i ( ) ( ) i 0 i • 対称律以外は距離の性質を満たす • p≒q なら距離に一致する • 双対性 D( ) ( p || q) D( ) (q || p) c.f. ルジャンドル変換 指数分布族の場合 • α=1(e接続)でのダイバージェンスは カルバックダイバージェンスに一致する f ( x) KL( f || g ) f ( x) log dx g ( x) • α=-1(m接続)でのダイバージェンスは KL( g || f ) 距離の分解 • ユークリッド空間で部分空間への射影を取る のがなぜ簡単か? • ある点から部分空間への距離が 直交成分と水平成分に簡単に分解 できるから (ピタゴラスの定理) 2 2 ( x y) ( x y ) ( y y ) 2 拡張ピタゴラスの定理 双対平坦空間S p α測地線 q ( ) ーα測地線 ( ) r ( ) D ( p || r ) D ( p || q) D (q || r ) 射影定理 • α測地線で引いた直交射影は αダイバージェンス D( ) ( p || q)の停留点 p 双対平坦空間S α測地線 q α射影 • 特にMがーα平坦なら 部分空間M min D q ( ) ( p || q) 混合座標系:全部まっすぐに見える • α射影とーα部分空間の組み合わせが一番単純← 双対性から ei , e j i j • Mの中と外とでα座標系とーα座標系を分けて使え ばまっすぐな図が描け,射影も陽に表現できる II p ( I ;II ) ˆII q ( ;ˆII ) I M I 統計的推定 • データは空間のどの点に配置するか? • i E Fi ( x) なので,N個のデータの十分統 1 計量 ri N N ( j) F ( x i )をη座標とすればよい j 1 r 指数分布族S m射影 ˆ モデルM 統計的推定(つづき) p ( x , x ; ) • 最尤推定 max N ( j) max log p( x ; ) M j 1 • 最尤推定はm射影と等価 (1) (N ) q( x) KL(q( x) || p( x; )) q( x) log dx min M p( x; ) • モデルが平らなときは推定が易しい. 推定の質についてはモデルの曲がり具合 (曲率)に関係⇒統計的漸近理論 線形システム • 線形システム (t ) N (0,1) x(t ) H (z ) x(t ) hi (t i) H ( z ) (t ) i 0 伝達関数 H ( z ) hi z i i 0 パワースペクトラム i S () | H (e ) | • システムの例:ARモデル,MAモデル, ARMAモデルなど • 最小位相推移→HとSが1対1に対応 2 線形システム(つづき) • 確率モデル:信号x(t)の周波数成分X(ω) 2 1 | X ( ) | p( X ; S ) exp ( S ) S ( ) 2 • 実はすべてのαについてα平坦になる 線形ステム全体S(α平坦) MAモデル(m平坦) ARMAモデル ARモデル(e平坦) 潜在変数モデル • x だけが観測される p( x, z; ) 例: 隠れマルコフモデル(HMM) xt 1 xt xt 1 p( xt | zt ) zt 1 zt p( zt 1 | zt ) zt 1 em アルゴリズム • em (exponential and mixture) S 観測データの空間 (m平坦が多い) m射影 e射影 モデルM (e平坦が多い) • 実はこれがEMアルゴリズム(ExpectationMaximization/Baum-Welch) とほぼ等価 集団学習 • 三人寄れば文殊の知恵? • バギング・ブースティング y 多数決 1 3 2 h1 ( x) h2 ( x) h3 ( x) x 集団学習(つづき) ~ 拡張空間 S ~ 拡張空間 S 初期解 q0 M e射影 経験分布p m射影 モデルM(拡張指 数分布族:e平坦) 双 対 問 題 モデルQ(モーメン ト制約:m平坦) グラフィカルモデルとベイズ推定 • 変数間の依存関係をグラフであらわす • HMM, カルマンフィルタもその一種 p( X ) p( X 1 ) X1 X2 p( X 2 | X 1 ) p( X 3 | X 1 ) X3 X4 p( X 4 | X 2 , X 3 ) p( X 5 | X 3 ) X5 ベイズ推定 • 一部が観測されたときに残りの変数を推定 事後分布 p( X ) p( X ) p( X 1 , X 2 , X 3 | X 4 , X 5 ) p( X 4 , X 5 ) • ノード数が増えると総和計算 (or 積分)が大変!(特に木でないとき) • ⇒近似計算 (平均場近似・変分ベイズ) (マルコフ連鎖モンテカルロ・ パーティクルフィルタ) p( X ) X1 , X 2 , X 3 X1 X2 X3 X4 X5 平均場近似・変分ベイズ法 p( X1, X 2 , X 3 | X 4 , X 5 ) q1 ( X1 )q2 ( X 2 )q3 ( X 3 ) モデルM(e平坦) min KLq1 ( X1 )q2 ( X 2 )q3 ( X 3 ) || p( X1, X 2 , X 3 | X 4 , X 5 ) e射影 X1 X2 S X3 X4 X5 真の分布p e射影 初期解 モデルM(e平坦) マルコフ連鎖モンテカルロ • 乱数発生により事後分布からのサンプルを生成す る p( X1(t1) | X 2(t ) , X 3(t ) ; X 4 , X 5 ) • ギブスサンプラー X1 X2 p( X (t 1) 2 (t ) 3 | X ,X (t 1) 1 ; X 4 , X5 ) X3 (t 1) (t 1) (t 1) p ( X | X , X ; X 4 , X5 ) X 3 1 2 X • どのような初期値から始めても, p( X1 , X 2 , X 3 | X 4 , X 5 ) に分布収束する 4 5 ギブスサンプラーの幾何 • 1ステップに一つの変数を更新するマルコフ 連鎖モンテカルロを考える. 目的の定常分布 ギブスサンプラー 1ステップに一つの (e射影) 変数を更新して動 ける範囲(m平坦) 現在の状態分布 さらなる発展 • 有限次元のパラメータ空間から無限次元の 空間の幾何へ(セミパラメトリック幾何) • 特異点の問題(ニューラルネットなどの階層 的なモデル:代数幾何の高みへ) • 新たな情報処理へ... 参考文献 • 赤穂:情報幾何と機械学習 (「計測と制御」2005年5月号) • 甘利:情報幾何とその応用 (「システム・制御・情報」連載 2004年6月~) • 公文:推定と検定への幾何学的アプローチ, (「統計科学のフロンティア 2 統計学の基礎II」,岩波書店)
© Copyright 2024 ExpyDoc