確率論における極限定理 と双有理不変量 - 東京工業大学

確率論における極限定理
と双有理不変量
渡辺 澄夫 東京工業大学
概要
確率論における,ある種の極限定理について考察し,二つの双有理不変量
との関係を述べる.考察する確率変数は,確率的に変動する平均操作によっ
て定義されるものであり,その漸近挙動は関数空間上の代数的な構造によっ
て定められている.また,統計学・情報理論・学習理論との関連を紹介する.
1
はじめに
本論は 2010 年日本数学会春季大会の講演予稿を修正したものである1 .本論で
は,確率論におけるある極限定理を考察し,二つの双有理不変量との関係につい
て述べる.また,考察している問題が,統計学・情報理論・学習理論とどのよう
な関係を持つかについて紹介する.
実ユークリッド空間 RN 上の確率密度関数 q(x) があり,確率変数 X1 , X2 , ..., Xn
および X はすべて独立に確率分布 q(x)dx に従うものとする.Rd の部分集合 W
の要素 w によって定まる RN 上の確率密度関数 p(x|w) と W 上の確率密度関数
ϕ(w) が与えられたとき,関数 F (w) の平均操作 Ew [ ] を次のように定義する.
n
p(Xi |w)β ϕ(w)dw
F (w)
Ew [F (w)] =
i=1
n
p(Xi |w)β ϕ(w)dw
i=1
ここで,0 < β < ∞ は定数である.
1
本研究は科研費 (課題番号:18079007) の助成を受けたものである.
2010 Mathematics Subject Classification:28D20
キーワード: 極限定理,双有理不変量,応用数学
〒 226-8503 横浜市緑区長津田 4259 東京工業大学 精密工学研究所
e-mail: [email protected]
web: http://watanabe-www.pi.titech.ac.jp
本論で考察する課題. 実数に値を取る二つの確率変数
G = −EX log Ew [p(X|w)] ,
1
T = −
n
n
log Ew [p(Xi |w)].
i=1
とその平均値の n → ∞ における漸近挙動を求めよ.
確率変数 G と T の漸近挙動が,組 (q(x), p(x|w), ϕ(w)) のどのような性質によっ
て決まるか,ということが問題である.なぜ,このような問題を考えるのかにつ
いて知りたいかたは,セクション 7 をご覧ください.
例.1.(自明な例)N = d で次の場合を考える.
1
exp(− x − w 2 /2),
d/2
(2π)
q(x) = p(x|0),
1
ϕ(w) =
exp(− w 2 /2),
(2π)d/2
p(x|w) =
とする.このときエントロピーと経験エントロピーを
S = −EX [log q(X)],
Sn = −
n
1
n
log q(Xi ),
i=1
とおくと E[Sn ] = S であり,
1
1
√
G = S+
2n
n
T = Sn −
n
Xi
2
i=1
n
1
1
√
2n
n
Xi
+ Op (
2
1
),
n2
+ Op (
i=1
1
n3/2
),
である.ここで Op (1/nα ) は nα をかけて法則収束する確率変数を表している.こ
の例では第2項までは β に依存しないことがわかる.また平均値については
d
,
2
d
lim E[n(T − S)] = − ,
n→∞
2
lim E[n(G − S)] =
n→∞
になる.d は w の次元である.この例から次のことが予想される.(1) 考察して
いる問題は中心極限定理と関係を持つ.(2) 最終的な結果は (q(x), p(x|w), ϕ(w))
の何らかの意味での不変量で表される.(3) E[G] と E[T ] の漸近挙動は対称性を
持つ.
例.2 (特異モデル) 次の場合を考える.N = 2, W = R4 , x = (x1 , x2 ), および
w = (a, b, c, d) として
1
1
q0 (x1 ) exp − x2 − a sin(bx1 ) − c sin(dx1 )
2π
2
q(x) = p(x|0),
1
a2 + b2 + c2 + d2
ϕ(a, b, c, d) =
exp −
,
2π
2
p(x|w) =
2
,
ここで q0 (x1 ) は台が開集合を含む任意の確率密度関数である.この場合 p(x|w)
が q(x) と一致するパラメータの集合は,代数的集合
{w ∈ R4 ; p(x|w) = q(x)} = {w ∈ R4 ; ab + cd = ab3 + cd3 = 0},
であり,原点は特異点である.統計学,情報理論,学習理論では,これと類似す
る特異点を持つ確率モデルは広く応用に用いられているにも関わらず,G や T の
挙動を考察する数学的方法は作られていなかった.
仮定. パラメータの集合 W はコンパクトで開集合 W ∗ に含まれるとする.
(W ⊂
∗
d
W ⊂ R ).W の境界は区分的に解析関数であり,W は空でない開集合を含む
ものとする.定数 s ≥ 3 についてバナッハ空間
Ls (q) = {f ; f ≡
|f (x)|s q(x)dx
1/s
< ∞}
を考えたとき,w → log p( |w) は W ∗ から Ls (q) への関数として解析的である
とする.
L(w) = −EX [log p(x|w)]
とおく.任意の w ∈ W について L(w) ≥ S = −EX [log q(X)] が成り立つから
L(w) は下に有界な解析関数である.L(w) を最小にするパラメータのひとつを
w0 ∈ W とし,w0 は W の内点にあるものとする.
K(w) = L(w) − L(w0 )
と書く.集合 W0 = {w ∈ W ; K(w) = 0} の要素は一般にひとつではない.任意
の w ∈ W0 について p(x|w) は同一の確率密度関数を与えることを仮定する.こ
れを p0 (x) と書くことにし,L0 = L(w0 ) = −EX [log p0 (X)] と書く.次の条件を
仮定する.
p0 (x)
f (x, w) = log
p(x|w)
と定義し,w → f ( |w) は W ∗ から Ls (q) への解析関数で,ある
して,
sup |f (x, w)|2
w∈W
sup p(x|w) dx < ∞.
K(w)<
> 0 が存在
定義. (1) p(x|w0 ) = q(x) となるようなパラメータ w0 が存在する場合には,q(x)
は p(x|w) によって実現可能 であるという.このときは p0 (x) = q(x) である.実
現可能でないとき,実現不可能という.
(2) L(w) を最小にするパラメータ w0 がひとつだけであり,その点で L(w) のヘ
シアン ∇2 L(w0 ) が正定値であるとき,q(x) は p(x|w) に対して正則であるとい
う.正則でないとき特異であるという.
実現性の可否や正則性・特異性が確率変数 G と T にどのような影響を与える
かを調べることが目的である.
2
準備
関数 f (x, w) を用いると,K(w) = L(w) − L0 = EX [f (X, w)] である.
Kn (w) =
n
1
n
f (Xi , w)
i=1
とおく.このとき W 上の平均 Ew [ ] は
F (w) exp(−βnKn (w)) ϕ(w)dw
Ew [F (w)] =
exp(−βnKn (w)) ϕ(w)dw
と書くことができる.また,二つの確率変数は
G = L0 − EX log Ew [exp(−f (X, w))] ,
1
T = Ln −
n
n
log Ew [exp(−f (Xi , w))].
i=1
と書ける.ここで
1
Ln = −
n
n
log p0 (Xi )
i=1
とおいた.Ln の平均は L0 である.以上のことから,二つの確率変数 G − L0 お
よび T − Ln は,関数 f (x, w) だけによって決まることがわかる.
注. 上記のことから分かる通り,学習理論とは,確率変数 X が与えられた場合
の f (X, w) の挙動を問う問題である.特に EX [f (X, w)] = 0 の特異点の近傍で
の f (X, w) = 0 がどのような性質を持つかを調べたい.
3
特異点解消と対数閾値
一般に q(x) が p(x|w) に対して特異である場合には,{w ∈ W ; K(w) = 0} は解
析関数の零点の集合であり特異点を含む.Kn (w) は2次関数で近似することはで
きない.exp(−βnKn (w)) も正規分布で近似することはできない.従って,Kn (w)
を最小にする点とその近傍を用いて Ew [ ] を評価する方法,いわゆる鞍点法は適
用できない.Kn (w) は確率的に変動する関数であるが,この関数の平均は K(w)
である.このセクションでは平均の関数 K(w) について考察し,次のセクション
では平均からのゆれを考える.
この問題では広中の定理を用いる方法が有効である.K(w) ≥ 0 は開集合 W ∗
上の解析関数であるから,ある d 次元実解析多様体 M∗ とプロパーな実解析写
像 g : M∗ → W ∗ が存在して,M∗ の任意の局所座標において
d
K(g(u)) = u
2k
2k
uj j ,
≡
j=1
d
h
h
|uj j |,
|g (u)|ϕ(g(u)) = b(u)|u | ≡ b(u)
j=1
となるものが存在する.ここで k = (k1 , k2 , ..., kd ) と h = (h1 , h2 , ..., hd ) は,非負
の整数を要素とする多重指数であり,|g (u)| は写像 w = g(u) のヤコビアンであ
り,b(u) は b(u) > 0 を満たす関数である.ここで写像 g がプロパーであるとは,
コンパクト集合の引き戻しがコンパクトであることをいう.W がコンパクトで
あると仮定したので M ≡ g −1 (W ) もコンパクトである.なお,一般に多重指数
h と k は局所座標毎に異なる.
定義. 特異点解消が与えられると対数閾値 λ を次のように定義することができる.
λ = min
M
min
1≤j≤d
hj + 1
2kj
ここで,kj = 0 の場合には (hj + 1)/kj = ∞ と考えることにする.自然数 m を,
上記の min を達成する j の個数の最大値とする.すなわち
m = max #{j; λ =
M
hj + 1
}.
2kj
ここで # は集合の要素の個数を表している.
一般に,ひとつの解析関数に対して,特異点解消の組 (M, g) は無限にある.特
異点解消の組に対して定義される量が,その組の選びかたによらないときに,双
有理不変量と呼ぶことにする.上記の定義によれば対数閾値は,特異点解消の組
を用いて定義されているが,次のようにして双有理不変量であることがわかる.
一変数 z の複素関数
ζ(z) =
K(w)z ϕ(w)dw
は,Re(z) > 0 の領域で正則であるが,特異点解消を用いると,全複素平面に有
理型関数として一意に解析接続できる.その極は全て負の有理数であるが,その
中で最も原点に近いものが (−λ) で,その位数が m である.従って,(λ, m) は
特異点解消の組にはよらない.
定数 (λ, m) を上記のように定義すると,n → ∞ において,超関数の収束を示
すことができる.任意の t > 0 について
nλ−1
t
δ
− u2k |uh | b(u) → tλ−1 D(u)
m−1
(log n)
n
が成り立つ.ここで D(u) は M 上のある超関数で,そのサポートは集合 {u ∈
M; K(g(u)) = 0} に含まれる.これより例えば n → ∞ における漸近挙動
− log
exp(−nK(w))ϕ(w)dw = λ log n − (m − 1) log log n + 定数
を導出することができる.
4
特異点解消と経験過程
次に関数 Kn (w) の確率的なゆれについて考える.
定義. ある定数 A > 0 が存在して,任意の w ∈ W について
EX [f (X, w)] ≥ A EX [f (X, w)2 ]
が成り立つとき,f (X, w) は相対的に有限な分散を持つ という.
集合 W はコンパクトなので上記の定義は実質的には K(w) = EX [f (X, w)] が
0の近傍での挙動を意味している.次の二つの補題は,定義からすぐに導かれる.
補題. q(x) が p(x|w) によって実現可能であれば,f (X, w) は相対的に有限な分
散を持つ.
補題. q(x) が p(x|w) に対して正則であれば,f (X, w) は相対的に有限な分散を
持つ.
しかしながら,q(x) が p(x|w) によって実現可能でなく,かつ特異である場合
には,p(x|w) は相対的に有限な分散を持つ場合とそうでない場合がある.本論で
は,f (X, w) が相対的に有限な分散を持つ場合について主に述べる.そうでない
場合については後述する.
関数 K(w) についての特異点解消と f (X, w) が相対的に有限な分散を持つこと
を用いると,ある Ls (q)-値解析関数 a(x, u) が存在して
f (x, g(u)) = a(x, u)uk .
とできることがわかる.また EX [a(X, u)] = uk が成立する.なお,このような
関数 a(x, u) が存在するためには,特異点が正規交差になっていることが必要で
ある.例えば W 上の関数 a(x, g −1 (w)) は,一般には well-defined ではないので,
もとの空間 W 上では通常の意味の関数ではない.コンパクト集合 M 上の確率
過程を次のように定義する.
1
ξn (u) = √
n
n
{a(Xi , u) − uk }.
i=1
バナッハ空間 B(M) を次のように定義する.
B(M) = {f (u) は連続 ; u ≡ sup |f (u)| < ∞}.
u∈M
B(M) は完備可分な距離空間である.関数 a(x, u) が u について解析関数である
ことを用いると {ξn }n=1,2,... は,B(M) に値をとる n について一様にタイトな確
率変数である.これより ξn は B(M) 上でタイトな確率変数 ξ に法則収束するこ
とを示すことができる.収束先の確率変数は正規確率過程であり,次の条件を満
たすものとして一意に定まることが知られている.
Eξ [ξ(u)] = 0,
Eξ [ξ(u)ξ(u )] = EX [a(X, u)a(X, u )] − EX [a(X, u)]EX [a(X, u )],
ここで Eξ [ ] は ξ についての平均を表している.すなわち ξn (u) は関数空間上の
中心極限定理を満たしている.このような性質を持つ確率過程を一般に経験過程
という.正規確率過程 ξ(u) を用いて M 上の平均操作を
√
D(u) du F (u, t) tλ−1 exp(−βt + β tξ(u))
∞
dt
F (u, t) =
0
∞
√
D(u) du tλ−1 exp(−βt + β tξ(u))
0
と定義する.この平均操作をして得られる値は, ξ(u) に依存して定まるから実
数に値を取る確率変数であるが,n には依存しない.
定義. 上記の記号を用いて特異ゆらぎ を
ν=
√
β
Eξ EX t a(X, u)2 − t a(X, u)
2
2
によって定義する(ν は一般には β の関数である).
この値は特異点解消の組 (M, g) を用いて定義されているが,確率変数 V を
n
{Ew [(log p(Xi |w))2 ] − Ew [log p(Xi |w)]2 }
V =
i=1
と定義すると,この確率変数は法則収束することを示すことができる.また,そ
の平均について
β
ν = lim E[V ]
n→∞ 2
を満たすことも示すことができるので,特異ゆらぎは双有理不変量である.M の
各局所座標において
1
Kn (g(u)) = u2k − √ ξn (u) uk
n
∞
であることを用いて,n → ∞ の極限を考え, 0 dt についての部分積分や確
率過程 ξ についての部分積分を計算を行うと次の定理を証明することができる
[46, 47, 50].
定理. 二つの確率変数 n(G − L0 ) および n(T − Ln ) は法則収束する.また,対数
閾値 λ と特異ゆらぎ ν を用いて
λ−ν
+ ν,
n→∞
β
λ−ν
lim E[n(T − L0 )] =
− ν.
n→∞
β
lim E[n(G − L0 )] =
が成り立つ.従って特に λ と ν を消去すれば
E[G] = E[T ] +
β
1
E[V ] + o( )
n
n
(1)
が成り立つ.
(証明のアウトライン2 )まず最初に確率変数 n(G − L0 ) および n(T − Ln ) の法則
収束を示す.
1
Kn (g(u)) = u2k − √ ξn (u) uk ,
n
と書けるので測度 Yn (w)dw を
Yn (w)dw ≡ exp(−nβKn (w)) ϕ(w) dw.
2
証明は具体的な計算によってなされますが,対数閾値や特異ゆらぎが現れる理由を考えると
数学的にも意義がまったくないわけではないかもしれません.厳密な証明が必要なかたは参考文
献 [46, 47, 50] をご覧ください.
によって定義すると
Yn (w)dw = Yn (g(u)) |g (u)| du
= e−nβu
∞
=
2k +√nβuk ξ (u)
n
(u)uh b(u)du
dt δ(t − n u2k )uh e−βt+
√
tβ ξn (u)
b(u)du
0
(log n)m−1
∼
D(u)du
=
nλ
∞
√
dt tλ−1 e−βt+
tβ ξ(u)
,
0
ここで ∼
= は n → ∞ において超関数の意味での漸近展開の最初の項が同じであ
ることを示している.これより任意の s > 0 について
√
√
Ew [( nf (x, w))s ] → ( t a(x, u))s
を示すことができる.変数間の対応は
w = g(u),
t = nK(w) = nu2k ,
f (x, w) = a(x, u)uk .
である.確率変数 G は
1
1
G = EX − log Ew [1 − f (X, w) + f (X, w)2 ] + op ( )
2
n
1
2
= EX Ew [f (X, w)] − EX Ew [f (X, w) ]
2
1
+ EX [Ew [f (X, w)]2 + op (1/n),
2
とかける.ここで op (1/n) は,確立収束 n op (1/n) → 0 を満たす確率変数を表し
ている.以上から n(G − L0 ) が法則収束することが示せた.確率変数 n(T − Ln )
についても同様である.
次に平均値の収束を示す.正規確率過程 ξ(u) を
∞
ξ(u) =
cj (u)gj
j=1
と表す.ここで {gj } は,標準正規分布に従う独立な確率変数の集合である.こ
のとき
∞
Eξ [ξ(u)ξ(u )] =
cj (u)cj (u ).
j=1
が成り立つ.母関数 Fn (α) を
Fn (α) = −EEX log
exp(−αf (X, w) − βnKn (w))ϕ(w)dw .
と定義すると
E[G] = L0 + Fn (1) − Fn (0),
(2)
E[T ] = L0 + Fn−1 (1 + β) − Fn−1 (β),
(3)
E[V ] = −n Fn−1 (β).
(4)
が成り立つ.この値を解析するためには,次の積分の値が必要である.
f (x, w)s exp(−βnHn (w))ϕ(w)dw,
Zn (s) =
ここで s ≥ 0.実際,例えば,
Zn (1)
,
Zn (0)
Zn (2)
Zn (1) 2
+E
.
Fn (0) = −E
Zn (0)
Zn (0)
Fn (0) = E
(5)
(6)
が成り立つ.測度 Yn (w)dw の漸近展開と同様にして
√
D(u, t)ts/2 exp(β tξ(u)) .
(log n)m−1
∼
Zn (s) =
nλ+s/2
と定義する.ここで
なわち,
D(u, t) は多様体の部分集合 M 上の積分を表している.す
∞
D(u, t) =
duD(u) tλ−1 exp(−βt)
dt
0
である.さらに次のように積分を定義する.
√
D(u, t) ξ(u)q tr/2 a(x, u)s exp(β tξ(u)).
ˆ r, s) =
Z(q,
すると次が成り立つ.
(log n)m−1 ˆ
Zn (s) ∼
Z(0, s, s).
=
nλ+s/2
第一に, EX [a(X, u)] = uk から
(7)
ˆ 1, 1)] = Z(0,
ˆ 2, 0).
EX [Z(0,
である.次に t についての部分積分
∞
0
dt tλ e−βt+β
√
tξ(u)
=
λ
β
1
+
2
より,
∞
0
dt tλ−1 e−βt+β
∞
√
tξ(u)
dt tλ−1/2 ξ(u)e−βt+β
0
ˆ 2, 0) = λ Z(0,
ˆ 0, 0) + 1 Z(1,
ˆ 1, 0).
Z(0,
β
2
√
tξ(u)
,
である.最後に正規確率過程 ξ(u) についての部分積分を用いて,
ˆ 1, 0)
Z(1,
Eξ
ˆ 0, 0)
Z(0,
√
∞
= Eξ
D(u, t)
cj (u)gj
j=1
∞
∂
D(u, t)
cj (u)
∂gj
j=1
= Eξ
= βEX Eξ
t1/2 eβ tξ(u))
√
D(u , t )eβ t ξ(u )
√
t1/2 eβ tξ(u))
√
D(u , t )eβ t ξ(u )
ˆ 2, 2)
ˆ 1, 1)
Z(0,
Z(0,
− βEX Eξ
ˆ 0, 0)
ˆ 0, 0)
Z(0,
Z(0,
= 2ν,
2
(8)
ここで集合 {u; K(g(u)) = 0} 上では Eξ [ξ(u)ξ(u )] = EX [a(X, u)a(X, u )] が成り
立つことを用いた.式 (7) から,
|Fn(3) (α)|n = 0,
(9)
lim |Fn (0) − Fn−1 (0)|n = 0,
(10)
lim |Fn (0) − Fn−1 (0)|n = 0,
(11)
lim
n→∞
sup
0≤α≤1+β
n→∞
n→∞
が得られ,さらに式 (5),(6) から
1
1
E[G] = L0 + Fn (0) + Fn (0) + o( ),
2
n
2β + 1
1
E[T ] = L0 + Fn (0) +
Fn (0) + o( ),
2
n
E[V ] = −nFn (0) + o(1),
が得られる(証明終)
上記の定理では,確率変数 n(G − L0 ) と n(G − Ln ) の法則収束の収束先は,正
規確率過程 ξ(u) を用いた積分で与えられている.平均値については,E[G] と
E[T ] の間には,ある種の対称性がある.なお,応用上は特に β = 1 の場合が重
要になる.β = 1 のとき,E[G] の挙動は λ だけで決まり, ν によらない.式 (1)
は,組 (q(x), p(x|w), ϕ(w)) が何であっても広く成り立つ.この式のように,考察
している対象の個々の条件に依存せずに成立する関係式は実用的な意義を持つ.
後述するように,学習理論において重要であると思われるので「学習の状態方程
式」と呼んでいる.
5
対数閾値と特異ゆらぎ
本論で述べる主張は以上である.以下では,関連することがらについて述べる.
5.1
数学的性質
対数閾値
対数閾値についての数学的な起源は,多変数の多項式 f (x) についての超関数
δ(t − f (x)) の t → 0 における挙動を考えることから生じたように思われる [26].
特異点解消定理によってこの問題が一般的に解決することが知られるようになっ
た [23].またベルンシュタイン・佐藤の b 関数が発見されて,より深い性質も研
究されるようになった [17, 24].振動積分の漸近展開に応用された [12].統計学へ
も応用されている [25, 46].対数閾値は,二つの代数多様体の関係を表す量であ
る.高次元代数幾何学で重要な役割を果たすことが知られている.その計算法に
ついてもよく研究が行われている.
対数閾値については日本人の研究者による貢献が非常に大きく,代数幾何学・
代数解析学・特異点論における多くの研究成果がありますので,参考文献をご覧
ください.
本論で考えた問題では,パラメータの集合 W と最適なパラメータの集合 W0
の関係から対数閾値は決まる.学習理論の立場からは,その二つの集合の相対関
係が学習の速さが定まっているということが非常に興味深い.
特異ゆらぎ
特異ゆらぎについては,今のところ,ほとんど何もわかっていない.しかし,
正則な場合に特異ゆらぎを計算すると,特徴のある値になっている(下記で述べ
る)ので,数学的に重要な意味を有しているように感じられる.自然科学的な表
現をすると λ も ν も解析的集合の「次元」を表す量である.
5.2
数学的な性質
対数閾値と特異ゆらぎは f (X, w) から定まる.実は,平均と分散共分散によっ
て定義される関数
K(w) = EX [f (X, w)]
ρ(w, w ) = [f (X, w)f (X, w )]
からユニークに決まることがわかる.このことは,例えば数値的に λ や ν を知
りたい場合に,f (X, w) そのものを用いなくいても,K(w) と ρ(w, w ) が同じな
ら,別のものを用いてもよいことを意味している.さらにある解析関数 K0 (w) と
定数 a1 , a2 > 0 が存在して任意の w ∈ W で
a1 K0 (w) ≤ K(w) ≤ a2 K0 (w)
が成り立つときには K(w) と K0 (w) は同じ対数閾値を持つ.
中心極限定理は,独立な確率変数の和が,もとの確率変数の平均と分散からユ
ニークに決まる正規分布に法則収束することを主張するものであるが,本論で述
べた極限定理は,それを関数空間の上で考えた似た種類のものであり,λ は平均
値の役割を,ν は分散の役割をそれぞれ果たしている.
5.3
具体的な値
対数閾値と特異ゆらぎの具体的な値について述べる.λ と ν の間には,一般的
に成り立つ関係式や不等式は無いように思われる.
実現可能かつ正則な場合
この場合は λ = ν = d/2 になる.最初に述べた例は,この特別な場合である.
実現かつ正則な場合には,パラメータ空間の次元だけで二つの量は定まっている.
実現不可能かつ正則な場合
この場合には
d
,
2
1
ν =
tr(IJ −1 ),
2
λ =
になる [48].この場合にも ν は β によらない.ここで I, J は d × d 行列で
I =
J = −
∇w log p(x|w0 ) ∇w log p(x|w0 ) q(x)dx,
∇2w log p(x|w) q(x)dx,
である.この結果は,実現可能かつ正則な場合を特別な場合として含んでいる.
実際,実現可能なら I = J である.
実現可能かつ特異な場合
統計学におけるモデルの検定や選択においては,このケースが重要である.一
般に λ, ν は q(x), p(x|w) に依存する.例えば,w = {ak , bk ; k = 1, 2, ..., H} で
あり,
H
1
1
p(x, y|w) =
q0 (x) exp(− (y −
ak sin(bk x))2 )
2π
2
k=1
かつ q(x) = p(x, y|0) である場合には (q0 (x) は任意でよい),対数閾値は,
H
H
ak (bk )2h−1
K0 (w) =
h=1
2
k=1
のものと同じであることがわかる.応用で現れる問題は,この例のようにニュー
トン図形は退化していることが多く,従って,特異点解消を見出すのは,一般に
は容易ではない.この場合には
√
√
[ H]2 + [ H] + 1
√
λ=
4[ H] + 2
である [22].ここで [x] は x を越えない最大の整数を表す.応用上,上記の K0 (w)
のように,考察するモデルの次元があがるにつれて一定のルールに従って複雑度
があがる関数が現れることが多い.この例では H が大きいとき
√
H
λ∼
=
4
であるが,このように,関数が複雑になる極限において対数閾値が普遍的な挙動
を持つことはたいへんに興味深い.背後にある構造の解明を期待したい(ランダ
ム行列の議論を一般化することに相当するように思われる).なお,特異ゆらぎ
については,このケースでは何もわかっていない.
実現不可能かつ特異な場合
このケースでは f (X, w) が相対的に有限な分散を持つ場合であっても,λ につ
いても ν についてもわかっていない.
なお,f (X, w) が相対的に有限な分散を持たない場合には,定理で述べたこと
は成立しない場合がある.例えば
1
1
exp(− (x2 + y 2 )),
2π
2
√
1
1
p(x, y|a) =
exp(− {(x − a)2 + (y − a4 − a2 + 1)2 }),
2π
2
q(x, y) =
ここで a ∈ R1 がパラメータである.このケースでは f (X, w) は相対的に有限な
分散を持たないことは簡単に確認できる.具体的な計算で
Q
1 1
E[G] ∼
= L0 + ( − ) · 2/3
2 β n
3 1
Q
E[T ] ∼
= L0 − ( + ) · 2/3
2 β n
7/6
2
Γ( 67 )),定理で述べたことは成立していない.しかし
である [50] から(Q = √
2π
定理の中の最後の部分である状態方程式は,
E[G] = E[T ] +
β
1
E[V ] + o( 2/3 )
n
n
の形で成立している.学習の状態方程式は,本論で考察した範囲よりも広く成立
している可能性が高い.
6
確率論としての課題
本論では,目的とする確率変数の漸近挙動を導出するために,非常に強い条件
をおいている.特に,f (x, w) が Ls (q)-値の解析関数であることと,W がコンパ
クトであることが強い条件である.
まず f (x, w) の w についての解析性は,特異点解消定理を用いるために必要
であった.w についての解析性を使わず,特異点解消定理を用いずに,本論で述
2
べた漸近挙動を導出することは可能だろうか.K(w) = e−1/ w のように応用上
は起こりそうもない例外を除去することによって,より一般的な場合に結果が結
果が拡張されることが望まれる.
次に W のコンパクト性についてであるが,これが効果を発揮するのは,B(M)
が完備可分な距離空間になり,経験過程 ξn (u) が n について一様にタイトになる
ところである.この場合の法則収束 ξn (u) → ξ(u) は,確率論の常套手段である
プロホロフの補題の援用によって示されるのであるが,W についてのコンパク
ト性がないと,そういった方法を使うことはできなくなる.しかしながら,目標
としているのは,実数に値を取る確率変数である G, T の法則収束と平均値の収
束であって,ξn (u) → ξ(u) を示すことではない.G, T の漸近挙動を経験過程の
議論を経過せずに直接的に導出できるような方法が望まれる.
以上の二つの問題について,数学的な進展があることを期待したい.
7
実世界での意味
このセクションでは,本論で考察した問題が実世界でどのような意味を持つか
について紹介いたします.実世界に関心のないかたはスキップしてください.
7.1
どのように実世界と関係するか
サンプルを発生している確率分布 q(x)dx のことを真の分布 あるいは情報源と
いう.実世界においては真の分布は決してわからない.観測されるのはサンプル
X1 , X2 , ..., Xn の実現値だけである.実世界にあるひとは実現値の情報だけから真
の分布を推測したいと願うのである.真の分布は未知であるから手がかりとして
モデル (p(x|w), ϕ(w)) を用意する.このモデルのことを,確率モデル,統計モデ
ル,学習モデル,学習機械という.モデル (p(x|w), ϕ(w)) は,人間が用意できる
ものなら何でも良く,真の分布について事前に何かを知っている必要はない.何
らかの意味でのモデルを用いなければ無限次元空間の元である真の分布を有限個
のサンプルから推測することは,そもそもできないのであるが,準備されたモデ
ルが良いか悪いかについては事前には何もわからないので,モデルの妥当性につ
いて評価する方法が大切になる.
確率密度関数 p∗ (x) ≡ Ew [p(x|w)] は,
「サンプル X1 , X2 , ..., Xn とモデル (p(x|w),
ϕ(w)) から,真の分布 q(x) を推測したもの」であり,予測分布と呼ばれる.予
測分布は,あくまでも推測にすぎず,その推測がどの程度に正しいかはわからな
い.実世界にある人は,予測分布の良さを知りたいと願う.すなわち,
「真の分布
は不明であるにも関わらず,推測した結果の正しさを知りたい」ということが,
実世界では望まれているのである.これは,
「比べる相手がわからないのに比較し
たい」ということであって,本来,できそうもないことを望んでいるに近いこと
である.
さて,確率変数 G は,推測 p∗ (x) の正しさを定量的に測るものである.もし
も,p∗ (x) = q(x) ならば,G は真の分布のエントロピーと一致し,そうでないと
きには G は,それよりも大きな値を取る.そこで,G のことを汎化誤差 という.
汎化誤差が小さければ小さいほど,予測分布は真の分布に対して情報論的な意味
で優れた推測であると考えてよい.実際,G は情報理論における平均符号長であ
る.すなわち,汎化誤差によって推測の良さを定量的に測ることができる.しか
しながら,汎化誤差を計算するためには,真の分布による平均 EX [ ] が必要で
あり,真の分布がわからなければ汎化誤差は求められない.そこで,G の変わり
に T を計算してみることにする.この T のことを学習誤差 という.学習誤差 T
は,真の分布を知らなくても,サンプルの実現値とモデルだけから計算できる.
つまり実世界にいるひとが計算できる.
T から G が求められないだろうか.これが本論で考察した問題の起源である.
もしも,この問題が解決すると,どのような良いことがあるのだろうか.うまく
解決すれば「学習誤差から汎化誤差が計算できる」.つまり,与えられたサンプ
ルとモデルから,真の分布を知らなくても,汎化誤差が予言できる.実際,学習
の状態方程式 E[G] = E[T ] + (β/n)E[V ] は,サンプルとモデルだけで計算でき
る量 T と V から,G の平均値が予測できるということを述べている.そこで学
習の状態方程式を用いれば,モデル (p(x|w), ϕ(w)) を評価することができる.さ
らに汎化誤差を小さくするように,モデルを選んだり最適化することができる.
以上の理由により,本論で考察する課題は統計学・情報理論・学習理論において
大切な意味を持っているのである.
7.2
新しく何がわかったか
本論で述べたことは,統計学・情報理論・学習理論において,従来は不明であっ
た何かを新しく解明したことになっているだろうか.
真の分布がモデルに対して正則であるときには,λ も ν も β に依存しない.
このときは「β → ∞」の極限は,
「n → ∞」の極限と自然な条件下で交換する.
代数
幾何
解析
確率論
パラメータ集合
推定量
モデル
最適パラメータ
フィッシャー情報行列
クラメル・ラオの不等式
最尤推定量の漸近正規性
最尤推測
漸近ベイズ事後分布
標準形
基本変形
対数閾値
特異ゆらぎ
自由エネルギー
モデル評価
相転移
例
正則
線形代数
微分幾何
実数値関数
中心極限定理
多様体
パラメータへの写像
特定可能
1点
正定値
成立
成立
漸近有効
正規分布
2 次形式
微分同相写像
d/2
d/2
(d/2) log n
AIC, TIC
ない
正規分布,2 項分布
線形回帰
線形予測
特異
環とイデアル
代数幾何
関数に値を取る関数
関数空間上の中心極限定理
解析的集合
確率分布への写像
特定不能
解析的集合
半正定値
無意味
無意味
漸近有効でない
特異な分布
正規交差
双有理変換
λ
ν
λ log n
状態方程式
起こる
混合分布
神経回路網
隠れマルコフ
表 1: 正則と特異
β = ∞ のときの p∗ (x) のことを最尤推定という.正則条件が成り立つ場合には,
最尤推定は漸近有効性を持つので,最善ではないにしろ,漸近的に良好な予測を
与えることが知られている.学習の状態方程式 E[G] = E[T ] + (β/n)E[V ] は,正
則かつ実現可能な場合には,統計学で赤池情報量規準 (AIC) と呼ばれるものと一
致する.また正則かつ実現不可能な場合には,竹内情報量規準 (TIC) と一致する.
従って,正則性が成り立つ場合には,本論で述べた結果は,従来から知られてい
たものを統合したものになっている.
正則性がなりたたない場合には,
「β → ∞」と「n → ∞」は一般に交換しない.
∗
β = ∞ のとき p (x) に相当するべきものは well-defined にならず存在しないこ
とが多い.存在する場合でも推測の精度は著しく悪化する.従って正則性が成り
立たない場合には最尤推定は用いるべきではない.正則性が成り立たない場合に
おける予測と学習の関係は従来は知られていなかったので,本論で述べたことは,
その場合について新しく解明したものである.
正則性の不成立は,実世界では非常にしばしば生じていることである.今日の
情報学におけるほとんどの課題,すなわち,人工知能の推論,音声や画像の認識
理解,遺伝子や生体生命工学,文字列からの文法学習などにおいては,階層構造,
モジュール構造,隠れ変数,文法構造を持つような複雑なモデルが広く利用され
ている.それらのモデルにおいては,ほとんど常に正則性は成立していない.こ
のため,結果的に正則性が成り立つ場合であっても,正則が成り立つかどうかに
依存せずに成立する理論は,応用上,有用であると考えられる.
表1に従来の理論と本論で開発された理論の比較をあげる.特異な学習理論は
正則な学習理論を特別な場合として含むものであり,正則な理論から特異な理論
への移動は,パラメータの集合の上の確率論からパラメータの関数の上の確率論
への移動と等しい.
8
まとめ
本論では,確率論において現れるある種の極限定理について説明し,双有理不
変量との関係を述べた.また,統計学・情報理論・学習理論との関連を紹介した.
謝辞. 本研究を行うにあたり,非常に多くの数学者の先生から,たくさんのこと
をお教え頂きました.ここに記して感謝申し上げます.また,本研究が可能にな
るためには,少なくても 50 年以上前からの深く広い現代数学の研究が必要でし
た.数学研究を支えて来られた先生がた,および研究者の皆様のたゆまない努力
と成果とに感謝申し上げます.
参考文献
[1] 上野健爾,“代数幾何入門,” 岩波書店,1995.
[2] D. コックス,J. リトル,D. オシ−,(落合, 示野, 西山, 室, 山本訳), “グレブナ基底と
代数多様体入門,I,II” スプリンガーフェアラーク東京,2000.
[3] 吉永悦男, 福井敏純, 泉脩蔵,“解析関数と特異点,” 共立出版,2002.
[4] 石井志保子,“特異点入門,”シュプリンガー・フェアラーク東京,1997.
[5] 石田正典,“トーリック多様体入門,” 朝倉書店, 2000.
[6] K.E.Smith,L.Kahanpaa,P.Kekalainenn,W.Traves,“ An invitation to algebraic geometry,” Springer, New York, 2000.
[7] 桂利行,“代数幾何入門,” 共立出版,1998.
[8] 川又雄二郎,“代数多様体論,” 共立出版,1997.
[9] J.Kollar,S.Mori, “双有理幾何学,” 岩波書店, 1998.
[10] 堀川穎二,“現代代数幾何学入門,” 岩波書店,1990.
[11] 西野利雄,“多変数函数論,” 東京大学出版会,1996.
[12] 金子晃,“ニュートン図形・特異点・振動積分,” 上智大学数学講究録,1981.
[13] 堀田良之,“代数入門−群と加群−,” 章華房,1987.
[14] 柏原正樹,“代数解析概論,” 岩波書店,2000.
[15] 木村達夫,“概均質ベクトル空間,” 岩波書店,1998.
[16] 大阿久俊則,“D 加群と計算数学,” 朝倉書店,2002.
[17] 佐藤幹夫,“佐藤幹夫の数学,” 上野健爾, 志賀浩二, 砂田利一 (数学のたのしみ第13
巻),1999.
[18] 佐藤担,“測度から確率へ,” 共立出版,1994.
[19] 渡辺澄夫, “代数幾何と学習理論,” 森北出版, 2006.
[20] H. Akaike. A new look at the statistical model identification. IEEE Trans. on
Automatic Control, Vol.19, pp.716-723, 1974.
[21] S. Amari, A universal theorem on learning curves, Neural Networks, Vol. 6, No.2,
pp.161-166, 1993.
[22] M.Aoyagi,S.Watanabe,“Resolution of singularities and generalization error with
Bayesian estimation for layered neural network,” Vol.J88-D-II, No.10,pp.21122124,2005.
[23] M.F. Atiyah. Resolution of singularities and division of distributions. Communications of Pure and Applied Mathematics, Vol.13, pp.145-150. 1970.
[24] I.N. Bernstein. The analytic continuation of generalized functions with respect to
a parameter. Functional Analysis and Applications, Vol.6, pp.26-40, 1972.
[25] M. Drton, B. Sturmfels, S.Sullivant, “Lectures on Algebraic Statistics,”
BirkHauser, 2008.
[26] I.M. Gelfand and G.E. Shilov. Generalized Functions. Academic Press, San Diego,
1964.
[27] J. A. Hartigan. A failure of likelihood asymptotics for normal mixtures. Proc.
Barkeley Conference in Honor of J. Neyman and J. Kiefer, Vol.2, pp.807-810,
1985.
[28] Craig Huneke, Mircea Mustata, Shunsuke Takagi, and Ken-ichi Watanabe, “FThresholds, tight closure, integral closure, and multiplicity bounds,” Michigan
Math. J. Volume 57 (2008), 463-483.
[29] H. Hironaka. Resolution of singularities of an algebraic variety over a field of
characteristic zero. Annals of Mathematics, Vol.79, pp.109-326, 1964.
[30] M. Kashiwara. B-functions and holonomic systems. Inventiones Mathematicae,
Vol. 38, pp.33-53, 1976.
[31] J. Koll´or, S.Mori, C.H.Clemens, A.Corti, Birational geometry of algebraic varieties. Cambridge Tract in Mathematics Cambridge University Press, Cambridge,
1998.
[32] M. Mustata. Singularities of pairs via jet schemes. Journal of the American Mathematical Society, Vol.15, pp.599-615. 2002.
[33] M. Mustata, S. Takagi, and K.-i. Watanabe, “ F-thresholds and Bernstein–Sato
polynomials,” Proceedings of the fourth European congress of mathematics, pp.
341-364, European Mathematical Society, Zurich, 2005.
[34] E. Levin, N. Tishby, S.A. Solla. A statistical approaches to learning and generalization in layered neural networks. Proceedings of IEEE, Vol.78, No.10, pp.1568-1574.
1990.
[35] T. Oaku. Algorithms for the b-function and D-modules associated with a polynomial. Journal of Pure Applied Algebra, Vol.117-118, pp.495-518, 1997.
[36] D.Rusakov, D.Geiger. Asymptotic model selection for naive Bayesian network.
Journal of Machine Learning Research. Vol.6, pp.1-35, 2005.
[37] M. Saito. On real log canonical thresholds, arXiv:0707.2308v1, 2007.
[38] M. Saito, B. Sturmfels, N. Takayama. Gr¨obner deformations of hypergeometric differential equations. Algorithms and computation in mathematics, Vol.6, Sprigner,
Berlin, 2000.
[39] S. Takagi and K.-i. Watanabe, “On F-pure thresholds,” J. Algebra 282 (2004),
pp.278-297.
[40] A.Takemura, T.Kuriki. On the equivalence of the tube and Euler characteristic
methods for the distribution of the maximum of the gaussian fields over piecewise
smooth domains. Annals of Applied Probability, Vol.12, No.2, pp.768-796, 2002.
[41] A. W. van der Vaart, J. A. Wellner. Weak Convergence and Empirical Processes.
Springer,1996.
[42] D.Rusakov, D.Geiger. Asymptotic model selection for naive Bayesian network.
Journal of Machine Learning Research. Vol.6, pp.1-35, 2005.
[43] G. Schwarz. Estimating the dimension of a model. Annals of Statistics, Vol.6,
No.2, pp.461-464. 1978.
[44] A.N. Varcenko, “Newton plolyhedra estimation of oscillating integrals,” Functional
Analysis and Applications,” 175-196, Vol.10, No.3, 1976.
[45] S. Watanabe, Algebraic analysis for nonidentifiable learning machines, Neural
Computation, 13(4) (2001) 899-933.
[46] S. Watanabe, Algebraic geometry and statistical learning theory, Cambridge University Press, Cambridge, UK, 2009.
[47] S. Watanabe, ”Equations of states in singular statistical estimation”, Neural Networks, Vol.23, No.1, pp.20-34, 2010.
[48] S. Watanabe, ”Equations of states in statistical learning for an unrealizable and
regular case,” to appear in IEICE Trans, Vol.E93-A, No.3, 2010
[49] S. Watanabe, ”A limit theorem in singular regression problem,” Advanced Studies
of Pure Mathematics, Vol.57, pp.473-492, 2010.
[50] S. Watanabe, “Asymptotic learning curves and renormalizable condition in statistical learning theory,” arXiv:1001.2957v1, 2010.
[51] K.Yamazaki, S.Watanabe. Singularities in mixture models and upper bounds of
stochastic complexity, Neural Networks, Vol.16, No.7, pp.1029-1038, 2003.
[52] K. Yamazaki, M. Aoyagi, S. Watanabe, “Asymptotic Analysis of Bayesian Generalization Error with Newton Diagram”, Neural Networks, Vol.23, No.1, pp.35-43,
2010.