β β β β β β L - 統計数理研究所

情報幾何
じょうほうきか
information geometry
1.情報幾何とは
情報幾何は Amari によって提唱され,統計学だ
けでなく情報科学、量子物理学、人工知能などを
横断する様々な分野において数理的方法の一つ
と し て 着 実 な 進 展 を 遂 げ て い る (Amari and
Nagaoka, 2000).
統計モデルは有限個のパラメータθ1, ..., θp によ
って確率分布,あるいは確率密度関数を p(x;θ )
によって記述される.ここで θ = (θ1 ,L,θ p ) . 統計
モデルは多様体の1つの例題であり,パラメータ
ベクトルθ は,1つ座標系である.この観点から,
統計モデルとその統計的推測の研究に幾何的な
考察が可能となる.
典型的な例の一つは線型正規回帰分析である.
n 次元結果変数ベクトル y は,p 個の説明変数ベ
クトル x1 ,L, x p によって
y = β1 x1 + L + β p x p + σ 2 ε
と書かれるとする.ここで誤差ベクトルε は標準
正規分布に従うと仮定する.この内容でパラメー
タβ1 ,…, βp は回帰係数と呼ばれる.このとき,n
次元ユークリッド空間の中に p 個の説明変数ベ
クトルによって張られる線型部分空間
L = { β1 x1 + L + β p x p : ( β1 ,L, β p )T ∈ IR p }
を考えよう.最小 2 乗推定量 βˆ = ( βˆ ,L, βˆ )T は
1
|| y − { β1 x1 + L + β p x p } ||
2
p
(1)
のβ = (β1 ,…, βp) の最小化によって定義される.
この解は幾何的には, βˆ は,y の L への直行射影
で表される.このように,自然にピタゴラス定理
T
することを直接に表現していることに注意する.
この幾何的な理解の背景にはクルバック・ライ
ブラー(KL)ダイバージェンスがある.一般に
確率密度関数 p と q に対して,KL ダイバージェ
ンスは
p( z)
(3)
dz
D ( p , q ) = ∫ p ( z ) log
q( z )
と定義される.離散分布のときは(3)式右辺の積
分記号が和記号に変わる.n 変量正規密度関数
p ( z; µ,σ 2 ) =
の 形 を (3) 式 の 左 辺 の D に p = p(⋅; µ1 ,σ 2 ) ,
q = p(⋅; µ2 ,σ 2 ) を代入すると
1
D ( p, q ) =
|| µ1 − µ2 ||2
2σ 2
となる.これより,D がユークリッド距離の 2 乗
に比例している.従って,ユークリッド空間のピ
タゴラス定理からの帰結である(2)式は,3 つの正
規密度関数 p(⋅ ; y, σ 2 ) , p(⋅; Xβˆ , σ 2 ) , p(⋅ ; Xβ , σ 2 )
が,確率密度空間の中で KL ダイバージェンスに
関してピタゴラス関係にあると理解できる.
2. 単体の幾何
この節では n+1 変量の離散分布について考えよ
う.確率分布は Pr(X = i) = pi (i = 1,…, n+1)で与え
られる.これより,p = (p1,…, pn)T を座標系と見
よう.座標空間は n 次元単体
S n = { p : pi > 0 (i = 1,L, n ),
n
i =1
pi < 1}
うに,2×2 表において独立モデルを考えよう.
pq
p (1−q)
p (1−q) (1−p) (1−q)
表 1. 2×2 表の独立モデル
ここで p, q は行と列の周辺確率を表す.図 2 のよ
うに 3 次元単体のような 2 次元曲面を張る.特に,
この曲面は座標( p, q)の一方を固定すると線分に
なる.このような特別な曲面を線織面と呼ぶ.
Xβˆ
Xβ
∑
となる.ここで pn +1 = 1 − ∑ n pi .例えば表 1 のよ
i =1
|| y − Xβ ||2 = || y − Xβˆ ||2 + || Xβˆ − Xβ ||2 (2)
が成立している. ここで X は x1 ,L, x p を行ベク
トルに持つ行列を表す. (2)式の両辺に対して期
待値を取れば,自由度の分解 n = (n − p) + p に帰
着される.
y
1
1
exp{ −
|| z − µ ||2 }
( 2πσ 2 ) n / 2
2σ 2
A (1,0,0)
L
図 1 ピタゴラス定理
以上のよう に線型正規回帰分析において最小 2
乗法はユークリッド幾何上のピタゴラス定理に
よって理解することが出来る.ピタゴラス関係式
(2)は,β = βˆ のときに限り残差 2 乗和(1)を最小に
B (0,1,0)
D (0,0,1)
C (0,0,0)
図 2.4 面体 ABCD
一般に 2 元分割表で I × J 頻度行列 P = (π ij )ij に対
して独立モデルは頻度行列 Q = pq T = ( pi q j )ij で表
される.このとき,2 つの頻度行列 P, Q の KL ダ
イバージェンスは
J
I
D( P, Q ) = ∑∑ π ij log
j = 1 i =1
π ij
直交する.言い換えれば,
∫
∂ (m)
∂
ps ( x ) log pt( e ) ( x )dx |
= 0.
∂t
∂m
s = 0 , t =1
この直交性と 3 点 p, q, r がピタゴラス関係
D( p, r ) = D( p, q) + D( q, r )
にあることは同値である.
pi q j
p
ˆ = (πˆ ) に対して
である.観測頻度行列 P
ij ij
( pˆ , qˆ ) = arg min D( Pˆ , pq T )
( p,q )
(4)
は正確に解けて,最尤推定量と一致し,ピタゴラ
ス定理
m-測地線
q
e-測地線
r
D( Pˆ , pq T ) = D( Pˆ , pˆ qˆ T ) + D( pˆ qˆ T , pq T )
を満たす.一般の多元分割表でもテンソル表現を
用いれば同様の議論ができる.このように単体の
中で Pˆ から独立モデルへの D 射影がピタゴラス
関係で特徴付けられる.
3. e-測地線と m-測地線
統計学で身近な線形回帰分析,独立分割表を題
材に KL ダイバージェンスによるピタゴラス関係
によって情報幾何的な理解が得られることを紹
介してきた.
この節では,この考察を一般的な枠組みに広げ
よう.正則な統計モデル M = { p( x; θ ) : θ ∈Θ } に対
してフィッシャー計量成分 {gij(θ )}, e-接続係数
( m)
{Γ ij(,ek) (θ )} ,m-接続係数 {Γ ij , k (θ )} は,
g ij (θ ) =
∫
∂
∂
p ( x; θ )
log p( x; θ )dx
∂θ i
∂θ j
Γ ij(,ek) ( θ ) =
∫
∂2
∂
log p ( x ; θ )
p ( x ; θ ) dx
∂θ i ∂θ i
∂θ k
Γ ij(,mk ) ( θ ) =
∫
∂2
∂
log p ( x ; θ ) d x
p( x; θ )
∂θ i ∂θ i
∂θ k
と定義される.この e-接続,m-接続は,双対的
であると言われる.
確率密度関数 p(x), q(x), r(x)を取る.p(x)と q(x)
を結ぶ m-接続に関する測地線は,
p (sm ) ( x ) = (1 − s ) p( x ) + sq( x )
また q(x)と r(x) を結ぶ e-接続に関する測地線は
1
q (te ) ( x ) = q ( x )1− t r ( x ) t
Zt
で与えられる.ここで Z t =
∫
q( z )1− t r ( z )t dz .この
e-測地線は p (te ) ( x ) = p( x ) exp{ t log q( x ) − log Z t }
p( x )
と表されるので,1 次元指数型分布族となる.同
( m)
様に { p s
}0≤ s ≤1 は,1 次元ミクスチュアー分布族
である.パラメータ s, t は,それぞれ, m-接続, e接続に関して,上で定義された接続係数を恒等的
に 0 とする,すなわち,アフィンパラメータとな
る.定義から, p (sm=)1 = q (te=)0 = q となることに注意
して次の仮定をしよう.測地線 { p (sm ) }0 ≤ s ≤1 と
{ p (te ) }0 ≤t ≤1 が交点 q でフィッシャー計量の意味で
図 3 ピタゴラス定理
この事実は前で議論した線型回帰モデル,分割
表の独立モデルなどを含む一般的な表現である.
分割表の独立モデルの場合を振り返ろう.独立分
割表 pˆ qˆ T と pq T を結ぶ e-測地線上のモデルはαβ T
と書けるのでまた,独立分割表になる( cf. (4)
式).ここで αβ T の(i, j)成分は
t
1− t
t
1− t
q q
p p
α i = I 1i 1−2ti t , β j = I 1 j 12− tj t .
∑i ' =1 p1i ' p2i '
∑ j ' =1 q1 j ' q2 j '
このように,独立分割表モデルは e-測地的である.
4. アルゴリズムとピタゴラス定理
不完全データからの最尤推定値はしばしば解
析解が得られなくて,数値解として求めなければ
ならない.広く使われているのは EM アルゴリズ
ムである.この各ステップがピタゴラス関係にあ
ることが示されている(Amari, 1995).統計判別解
析において探索的な目的でアダブースト法が使
われることがある.このときも各ステップがピタ
ゴラス関係で結ばれることが示されている
(Muara et al., 2004).このようにアルゴリズムの反
復がピタゴラス関係で特徴付けられると,収束性
の判定や,連想する力学系を記述することなど幾
何的な直観が有効に働く.
本項目では情報幾何における双対接続から導
かれる 2 種の測地線によるピタゴラス関係に焦
点を当て,解説した.統計的漸近解析や推定関数
のセミパラメトリック理論や共役凸解析との密
接な関係については Amari and Nagaoka (2000) を
参照されたい.
(江口真透)
参考文献;情報幾何
[1] Amari, S and Nagaoka, H. (2000). Methods of
Information Geometry. Tran. Math. Mono. 197,
Oxford Univ. Press.
[2] Amari, S. (1995). Information geometry of the
EM and em algorithms for neural networks. Neural
Networks, 8 1379-1408.
[3] Murata, N., Takenouchi, T., Kanamori, T. and
Eguchi, S. Information geometry of U-Boost and
Bregman divergence. Neural Computation 16,
1437-1481 (2004).