情報幾何 じょうほうきか information geometry 1.情報幾何とは 情報幾何は Amari によって提唱され,統計学だ けでなく情報科学、量子物理学、人工知能などを 横断する様々な分野において数理的方法の一つ と し て 着 実 な 進 展 を 遂 げ て い る (Amari and Nagaoka, 2000). 統計モデルは有限個のパラメータθ1, ..., θp によ って確率分布,あるいは確率密度関数を p(x;θ ) によって記述される.ここで θ = (θ1 ,L,θ p ) . 統計 モデルは多様体の1つの例題であり,パラメータ ベクトルθ は,1つ座標系である.この観点から, 統計モデルとその統計的推測の研究に幾何的な 考察が可能となる. 典型的な例の一つは線型正規回帰分析である. n 次元結果変数ベクトル y は,p 個の説明変数ベ クトル x1 ,L, x p によって y = β1 x1 + L + β p x p + σ 2 ε と書かれるとする.ここで誤差ベクトルε は標準 正規分布に従うと仮定する.この内容でパラメー タβ1 ,…, βp は回帰係数と呼ばれる.このとき,n 次元ユークリッド空間の中に p 個の説明変数ベ クトルによって張られる線型部分空間 L = { β1 x1 + L + β p x p : ( β1 ,L, β p )T ∈ IR p } を考えよう.最小 2 乗推定量 βˆ = ( βˆ ,L, βˆ )T は 1 || y − { β1 x1 + L + β p x p } || 2 p (1) のβ = (β1 ,…, βp) の最小化によって定義される. この解は幾何的には, βˆ は,y の L への直行射影 で表される.このように,自然にピタゴラス定理 T することを直接に表現していることに注意する. この幾何的な理解の背景にはクルバック・ライ ブラー(KL)ダイバージェンスがある.一般に 確率密度関数 p と q に対して,KL ダイバージェ ンスは p( z) (3) dz D ( p , q ) = ∫ p ( z ) log q( z ) と定義される.離散分布のときは(3)式右辺の積 分記号が和記号に変わる.n 変量正規密度関数 p ( z; µ,σ 2 ) = の 形 を (3) 式 の 左 辺 の D に p = p(⋅; µ1 ,σ 2 ) , q = p(⋅; µ2 ,σ 2 ) を代入すると 1 D ( p, q ) = || µ1 − µ2 ||2 2σ 2 となる.これより,D がユークリッド距離の 2 乗 に比例している.従って,ユークリッド空間のピ タゴラス定理からの帰結である(2)式は,3 つの正 規密度関数 p(⋅ ; y, σ 2 ) , p(⋅; Xβˆ , σ 2 ) , p(⋅ ; Xβ , σ 2 ) が,確率密度空間の中で KL ダイバージェンスに 関してピタゴラス関係にあると理解できる. 2. 単体の幾何 この節では n+1 変量の離散分布について考えよ う.確率分布は Pr(X = i) = pi (i = 1,…, n+1)で与え られる.これより,p = (p1,…, pn)T を座標系と見 よう.座標空間は n 次元単体 S n = { p : pi > 0 (i = 1,L, n ), n i =1 pi < 1} うに,2×2 表において独立モデルを考えよう. pq p (1−q) p (1−q) (1−p) (1−q) 表 1. 2×2 表の独立モデル ここで p, q は行と列の周辺確率を表す.図 2 のよ うに 3 次元単体のような 2 次元曲面を張る.特に, この曲面は座標( p, q)の一方を固定すると線分に なる.このような特別な曲面を線織面と呼ぶ. Xβˆ Xβ ∑ となる.ここで pn +1 = 1 − ∑ n pi .例えば表 1 のよ i =1 || y − Xβ ||2 = || y − Xβˆ ||2 + || Xβˆ − Xβ ||2 (2) が成立している. ここで X は x1 ,L, x p を行ベク トルに持つ行列を表す. (2)式の両辺に対して期 待値を取れば,自由度の分解 n = (n − p) + p に帰 着される. y 1 1 exp{ − || z − µ ||2 } ( 2πσ 2 ) n / 2 2σ 2 A (1,0,0) L 図 1 ピタゴラス定理 以上のよう に線型正規回帰分析において最小 2 乗法はユークリッド幾何上のピタゴラス定理に よって理解することが出来る.ピタゴラス関係式 (2)は,β = βˆ のときに限り残差 2 乗和(1)を最小に B (0,1,0) D (0,0,1) C (0,0,0) 図 2.4 面体 ABCD 一般に 2 元分割表で I × J 頻度行列 P = (π ij )ij に対 して独立モデルは頻度行列 Q = pq T = ( pi q j )ij で表 される.このとき,2 つの頻度行列 P, Q の KL ダ イバージェンスは J I D( P, Q ) = ∑∑ π ij log j = 1 i =1 π ij 直交する.言い換えれば, ∫ ∂ (m) ∂ ps ( x ) log pt( e ) ( x )dx | = 0. ∂t ∂m s = 0 , t =1 この直交性と 3 点 p, q, r がピタゴラス関係 D( p, r ) = D( p, q) + D( q, r ) にあることは同値である. pi q j p ˆ = (πˆ ) に対して である.観測頻度行列 P ij ij ( pˆ , qˆ ) = arg min D( Pˆ , pq T ) ( p,q ) (4) は正確に解けて,最尤推定量と一致し,ピタゴラ ス定理 m-測地線 q e-測地線 r D( Pˆ , pq T ) = D( Pˆ , pˆ qˆ T ) + D( pˆ qˆ T , pq T ) を満たす.一般の多元分割表でもテンソル表現を 用いれば同様の議論ができる.このように単体の 中で Pˆ から独立モデルへの D 射影がピタゴラス 関係で特徴付けられる. 3. e-測地線と m-測地線 統計学で身近な線形回帰分析,独立分割表を題 材に KL ダイバージェンスによるピタゴラス関係 によって情報幾何的な理解が得られることを紹 介してきた. この節では,この考察を一般的な枠組みに広げ よう.正則な統計モデル M = { p( x; θ ) : θ ∈Θ } に対 してフィッシャー計量成分 {gij(θ )}, e-接続係数 ( m) {Γ ij(,ek) (θ )} ,m-接続係数 {Γ ij , k (θ )} は, g ij (θ ) = ∫ ∂ ∂ p ( x; θ ) log p( x; θ )dx ∂θ i ∂θ j Γ ij(,ek) ( θ ) = ∫ ∂2 ∂ log p ( x ; θ ) p ( x ; θ ) dx ∂θ i ∂θ i ∂θ k Γ ij(,mk ) ( θ ) = ∫ ∂2 ∂ log p ( x ; θ ) d x p( x; θ ) ∂θ i ∂θ i ∂θ k と定義される.この e-接続,m-接続は,双対的 であると言われる. 確率密度関数 p(x), q(x), r(x)を取る.p(x)と q(x) を結ぶ m-接続に関する測地線は, p (sm ) ( x ) = (1 − s ) p( x ) + sq( x ) また q(x)と r(x) を結ぶ e-接続に関する測地線は 1 q (te ) ( x ) = q ( x )1− t r ( x ) t Zt で与えられる.ここで Z t = ∫ q( z )1− t r ( z )t dz .この e-測地線は p (te ) ( x ) = p( x ) exp{ t log q( x ) − log Z t } p( x ) と表されるので,1 次元指数型分布族となる.同 ( m) 様に { p s }0≤ s ≤1 は,1 次元ミクスチュアー分布族 である.パラメータ s, t は,それぞれ, m-接続, e接続に関して,上で定義された接続係数を恒等的 に 0 とする,すなわち,アフィンパラメータとな る.定義から, p (sm=)1 = q (te=)0 = q となることに注意 して次の仮定をしよう.測地線 { p (sm ) }0 ≤ s ≤1 と { p (te ) }0 ≤t ≤1 が交点 q でフィッシャー計量の意味で 図 3 ピタゴラス定理 この事実は前で議論した線型回帰モデル,分割 表の独立モデルなどを含む一般的な表現である. 分割表の独立モデルの場合を振り返ろう.独立分 割表 pˆ qˆ T と pq T を結ぶ e-測地線上のモデルはαβ T と書けるのでまた,独立分割表になる( cf. (4) 式).ここで αβ T の(i, j)成分は t 1− t t 1− t q q p p α i = I 1i 1−2ti t , β j = I 1 j 12− tj t . ∑i ' =1 p1i ' p2i ' ∑ j ' =1 q1 j ' q2 j ' このように,独立分割表モデルは e-測地的である. 4. アルゴリズムとピタゴラス定理 不完全データからの最尤推定値はしばしば解 析解が得られなくて,数値解として求めなければ ならない.広く使われているのは EM アルゴリズ ムである.この各ステップがピタゴラス関係にあ ることが示されている(Amari, 1995).統計判別解 析において探索的な目的でアダブースト法が使 われることがある.このときも各ステップがピタ ゴラス関係で結ばれることが示されている (Muara et al., 2004).このようにアルゴリズムの反 復がピタゴラス関係で特徴付けられると,収束性 の判定や,連想する力学系を記述することなど幾 何的な直観が有効に働く. 本項目では情報幾何における双対接続から導 かれる 2 種の測地線によるピタゴラス関係に焦 点を当て,解説した.統計的漸近解析や推定関数 のセミパラメトリック理論や共役凸解析との密 接な関係については Amari and Nagaoka (2000) を 参照されたい. (江口真透) 参考文献;情報幾何 [1] Amari, S and Nagaoka, H. (2000). Methods of Information Geometry. Tran. Math. Mono. 197, Oxford Univ. Press. [2] Amari, S. (1995). Information geometry of the EM and em algorithms for neural networks. Neural Networks, 8 1379-1408. [3] Murata, N., Takenouchi, T., Kanamori, T. and Eguchi, S. Information geometry of U-Boost and Bregman divergence. Neural Computation 16, 1437-1481 (2004).
© Copyright 2024 ExpyDoc