異常統計と統計多様体の一般化した共形構造

異常統計と統計多様体の一般化した共形構造
松添 博
名古屋工業大学
2014 年 11 月 11 日 京都大学
量子系の統計的推測とその幾何学的構造
0
1
2
3
4
5
6
7
問題提起
統計モデルと推定関数
q-指数型分布族
q-指数型分布族の幾何学(前半)
q-指数型分布族の幾何学(後半)
擬加法的微分
独立性と最尤推定量の一般化
まとめ
1 統計モデルと推定関数
1
統計モデルと推定関数
定義 1.1
S が Ω 上の 統計モデル (またはパラメトリックモデル)
def
⇐⇒ S が ξ ∈ Ξ をパラメータとする確率密度関数族で
∫
{
}
S = p(x; ξ) p(x; ξ)dx = 1, p(x; ξ) > 0, ξ ∈ Ξ ⊂ Rn .
Ω
S を {Ξ; ξ1, . . . , ξ n} を局所座標系とする多様体(曲がった空間)とみなす.
多様体
局所座標系
6/51
1 統計モデルと推定関数
1
統計モデルと推定関数
定義 1.1
S が Ω 上の 統計モデル (またはパラメトリックモデル)
def
⇐⇒ S が ξ ∈ Ξ をパラメータとする確率密度関数族で
∫
{
}
S = p(x; ξ) p(x; ξ)dx = 1, p(x; ξ) > 0, ξ ∈ Ξ ⊂ Rn .
Ω
S を {Ξ; ξ1, . . . , ξ n} を局所座標系とする多様体(曲がった空間)とみなす.
多様体
局所座標系
7/51
1 統計モデルと推定関数
(復習) (一般の)内積 ⇐⇒ 正値 2 次形式 ⇐⇒ 正値対称行列
統計モデルの Riemann 計量
F
g F = (gij
) が S の Fisher 計量(Fisher 情報行列)(曲がった空間の内積)
∫
∂
∂
def
F
⇐⇒ gij (ξ) := Ep[∂ilξ ∂j lξ ] =
log p(x; ξ) j log p(x; ξ)p(x; ξ)dx
i
∂ξ
Ω ∂ξ
F
g F は正値で gij
(ξ) < ∞ などを仮定
∫
Ep[f ] =
f (x)p(x; ξ)dx,
∂ilξ =
Ω
∂
∂ξ i
log p(x; ξ) : スコア関数.
p
Tp M
多様体の各点ごとに異なるベクトル空間が張り付いている
8/51
1 統計モデルと推定関数
g F = (gij ) : S の Fisher 計量
)(
)
∫ (
∂
∂
def
F
⇐⇒
gij (ξ) :=
log p(x; ξ)
log p(x; ξ) p(x; ξ)dx
i
j
∂ξ
)
∫Ω ( ∂ξ ) (
∂
∂
=
pξ
log pξ dx
i
j
)
∫Ω ∂ξ ( ∂ξ ) (
∂
∂
1
p
pξ dx
=
ξ
i
j
∂ξ
∂ξ
Ω p(x; ξ)
(1)
(2)
命題 1.2 次の条件は同値
(1) g F は正値.
(2) {∂1pξ , . . . , ∂npξ } は線形独立.
(3) {∂1lξ , . . . , ∂nlξ } は線形独立.
∂ipξ
∂ilξ =
(
def
) ⇐⇒ m-表現,混合型表現
∂i pξ
def
⇐⇒ e-表現,指数型表現.
pξ
(p(x; θ) のスコア関数)
9/51
1 統計モデルと推定関数
統計モデルのアファイン接続,共変微分
∇(α) : α-接続 (α ∈ R: 固定)(曲がった空間の微分)
[(
)
]
1−α
def
(α)
⇐⇒
Γij,k (ξ) = Ep ∂i∂j lξ +
∂ilξ ∂j lξ (∂k lξ )
2
(α)
(α)
g F (∇∂i ∂j , ∂k ) = Γij,k
(α)
Γij,k :
ベクトル場
∂
∂ξ j
を
∂
∂ξ i
方向に微分したときの
∂
∂ξ k
成分
(補足) ある種の変換性を満たす n3 個の関数からアファイン接続が定義される.
∇(0) : g F の Levi-Civita 接続
微分幾何学で通常扱われるアファイン接続,一般相対性理論など
∇(e) := ∇(1) : 指数型接続
∇(m) := ∇(−1) : 混合型接続
10/51
1 統計モデルと推定関数
統計モデルのアファイン接続,共変微分
∇(α) : α-接続 (α ∈ R: 固定)(曲がった空間の微分)
[(
)
]
1−α
def
(α)
⇐⇒
Γij,k (ξ) = Ep ∂i∂j lξ +
∂ilξ ∂j lξ (∂k lξ )
2
(α)
(α)
g F (∇∂i ∂j , ∂k ) = Γij,k
(α)
Γij,k :
ベクトル場
∂
∂ξ j
を
∂
∂ξ i
方向に微分したときの
∂
∂ξ k
成分
∇(e) := ∇(1) : 指数型接続
∇(m) := ∇(−1) : 混合型接続
(α)
(−α)
(1) ∂ig(∂j , ∂k ) = g F (∇∂i ∂j , ∂k ) + g F (∂j , ∇∂i
∂k )
( ∇(α) と ∇(−α) は g F に関する双対接続)
α F
(α)
(0)
F
F
(2) g (∇∂i ∂j , ∂k ) = g (∇∂i ∂j , ∂k ) − C (∂i, ∂j , ∂k )
2
CpF (∂i, ∂j , ∂k ) := Ep[(∂ilξ )(∂j lξ )(∂k lξ )] : 3 次形式
(S, ∇(α), g F ) を不変統計多様体とよぶ.
11/51
1 統計モデルと推定関数
統計モデル Se が
{ 指数型分布族
}
n
∑
def
θ iFi(x) − ψ(θ)] ,
⇐⇒
Se = p(x; θ) p(x; θ) = exp[C(x) +
C, F1, · · · , Fn : Ω 上の確率変数
ψ
: パラメータ空間 Θ 上の関数
i=1
[θ i] を 自然座標系とよぶ.
局所座標系は目的に合わせて選ぶ
12/51
1 統計モデルと推定関数
正規分布族
Ω = R, n = 2, ξ = (µ, σ) ∈ R2+ (上半平面)
{
[
2 ]}
(x
−
u)
1
S = p(x; µ, σ) p(x; µ, σ) = √
exp −
2σ 2
2πσ
Fisher 計量は次で与えられる.
(
) (
)
1
1
1 0
F
(gij
)= 2
S は曲率 − の定曲率空間(双曲空間) .
0
2
σ
2
∇(1) と ∇(−1) は平坦なアファイン接続.
)
(
π
θ 1 = 2 , θ 2 = − 2 ψ(θ) = −
+ log − 2
2
σ
2σ
4θ
2
θ
]
[
[ 1
]
1
(x − u)2
2 2
= exp xθ + x θ − ψ(θ)
=⇒ p(x; µ, σ) = √
exp −
2
2σ
2πσ
µ
1
(θ 1)2
1
{θ 1, θ 2}: 自然パラメータ. (∇(1)-測地座標系)
[ 2]
η1 = E[x] = µ, η2 = E x
= σ 2 + µ2 .
{η1, η2}: 混合パラメータ. (∇(−1)-測地座標系)
13/51
1 統計モデルと推定関数
離散標本空間
Ω = {x0, x1, · · · , xn}, dim S = n
{
ηi
(1 ≤ i ≤ n)
∑
p(xi; η) =
n
1 − j=1 ηj (i = 0)
{
}
∑
n
Ξ =
{η1, · · · , ηn} ηi > 0 (∀i),
j=1 ηj < 1
(n-次元確率単体)
Fisher 計量:

1+
1 
 1
(gij ) =
 .
η0  .
1
ただし η0 = 1 −
n
∑
η0
η1
1
1+
···
···
η0
η2
1
..
..
...
· · · 1 + ηηn0
ηj .
j=1
(
)
1
S は曲率 の定曲率空間(半径 2 の球面) .
4
14/51



,

1 統計モデルと推定関数
離散標本空間
Ω = {x0, x1, · · · , xn}, dim S = n
{
ηi
(1 ≤ i ≤ n)
∑
p(xi; η) =
n
1 − j=1 ηj (i = 0)
{
}
∑
n
Ξ =
{η1, · · · , ηn} ηi > 0 (∀i),
j=1 ηj < 1
(n-次元確率単体)
{θ 1, · · · , θ n}: 自然パラメータ. (∇(1)-測地座標系)
where
θ
i
= log
1−
ηi
∑n
j=1
ηj
= log
p(xi)
p(x0)
.
{η1, · · · , ηn}: 期待値パラメータ. (∇(−1)-測地座標系)
15/51
1 統計モデルと推定関数
統計モデル Se が
{ 指数型分布族
}
n
∑
def
θ iFi(x) − ψ(θ)] ,
⇐⇒
Se = p(x; θ) p(x; θ) = exp[C(x) +
C, F1, · · · , Fn : Ω 上の確率変数
ψ
: パラメータ空間 Θ 上の関数
i=1
[θ i] を 自然座標系とよぶ.
命題 1.3 指数型分布族に対し次が成り立つ
(1) ∇(1) は平坦
(1) k
(2) [θ i] は ∇(1) に関するアファイン座標系,すなわち Γij ≡ 0
簡単のため C = 0 を仮定する.
F
gij
(θ) =
=
=
F
Cijk
(θ) =
=
E[(∂i log p(x; θ))(∂j log p(x; θ))]
E[−∂i∂j log p(x; θ)] = E[∂i∂j ψ(θ)]
∂i∂j ψ(θ) : Fisher 計量
E[(∂i log p(x; θ))(∂j log p(x; θ))(∂k log p(x; θ))]
∂i∂j ∂k ψ(θ) : 3 次形式
(Se, ∇(e), g F ) と (Se, ∇(m), g F ) は Hesse 多様体である.
16/51
1 統計モデルと推定関数
命題 1 指数型分布族 Se に対して以下が成り立つ.
(1) (Se, g F , ∇(e), ∇(m)) : 双対平坦空間
(2) {θ i}: Se の ∇(e)-アファイン座標系
(3) ψ(θ): {θ i} に関する g F のポテンシャル
F
gij
(θ) = ∂i∂j ψ(θ),
(∂i = ∂/∂θ i).
(4) 確率変数 Fi(x) の期待値を ηi = Ep[Fi(x)] とおく
=⇒ {ηi} は {θ i} の g F に関する双対座標系
(5) ϕ(η) = Ep[log p(x; θ)] とおく
=⇒ ϕ(η) は {ηi} に関する g F のポテンシャルである.
(Se, g F , ∇(e), ∇(m)) は双対平坦空間であるから,Legendre 変換も成り立つ.
∂ψ
∂θ i
F
gij
= ηi ,
=
∂ϕ
∂ηi
∂ 2ψ
∂θ i∂θ j
,
= θ i,
ψ(p) + ϕ(p) −
m
∑
i=1
F
Cijk
=
∂ 3ψ
∂θ i∂θ j ∂θ k
17/51
θ i(p)ηi(p) = 0
1 統計モデルと推定関数
S の Kullback-Leibler ダイバージェンス(または相対エントロピー)
∫
p(x)
def
⇐⇒ DKL(p, r) =
p(x) log
dx
r(x)
Ω
= Ep[log p(x) − log r(x)]
n
∑
( = ψ(r) + ϕ(p) −
θ i(r)ηi(p) = D(r, p) )
i=1
指数型分布族 Se の場合,DKL は平坦統計多様体 (Se, ∇(m), g F ) のカノニカ
ル・ダイバージェンスと一致する.
推定関数からのダイバージェンスの構成


1
∂/∂ξ log p(x; ξ)
..
: p(x; ξ) のスコア関数 (推定関数)
s(x; ξ) = 
∂/∂ξ n log p(x; ξ)
スコア関数をパラメータに関して積分し,期待値を考える.
∫
dKL(p, r) :=
p(x; ξ) log r(x; ξ ′)dx
S のクロス・エントロピー
Ω
クロス・エントロピーを用いて KL-ダイバージェンスは次で与えられる.
DKL(p, r) = dKL(p, p) − dKL(p, r)
18/51
1 統計モデルと推定関数
Kullback-Leibler ダイバージェンス, 相対エントロピー
∫
p(x; θ)
p(x; θ) log
DKL (p(x; θ), r(x; θ ′)) =
dx
′
r(x; θ )
Ω
= Eθ [log p(x; θ) − log r(x; θ ′)]
′
′
∂ip(θ)∂j log p(θ )dx
)
(
∂
∂
′
DKL[∂i|∂j ] = −
∂i =
,
∂
=
j
i
′j
∂θ
′
∂θ
Ω
θ=θ
∫
′
′
= −
∂i log p(θ)∂j log p(θ )p(θ)dx
∫
=
Ω
F
−gij
∫
DKL[∂i∂j |∂k ] = −
=
(
θ=θ ′
Fisher 計量
)
′
′
′
′
∂i∂j l(θ)∂k l(θ ) + ∂il(θ)∂j l(θ)∂k l(θ ) p(θ)dx
Ω
(m)
−Γij,k
m-接続
KL-ダイバージェンスは不変統計多様体 (S, ∇(m), g F ) を誘導する.
19/51
θ=θ ′
1 統計モデルと推定関数
KL-ダイバージェンス(幾何学的意味)
Se を指数型分布族とし
ψ(θ) : p(θ) のポテンシャル関数 (パラメータに関する規格化項)
lθ
: ψ の (θ, ψ(θ)) における接超平面.
DKL(p(θ), p(θ ′)) = ψ(θ ′) − lθ (θ ′)
+c
(c : 定数)
Kullback-Leibler ダイバージェンスは接超平面 lθ (θ ′) とポテンシャル関数
ψ(θ ′) の差に一致する.
{θ i}: 自然座標系
ηi = E[Fi(x)] =
∂ψ(θ)
∂θ i
{ηi}: {θ i} の双対座標系
20/51
1 統計モデルと推定関数
スコア関数


1
∂/∂ξ log p(x; ξ)
..
 : p(x; ξ) のスコア関数(推定関数)
s(x; ξ) = 
∂/∂ξ n log p(x; ξ)
推定関数
u(x, ξ) : S → Rn が p(x; ξ) の推定関数
def
⇐⇒
u(x; ξ) = (u1(x, ξ), . . . , un(x, ξ))T
が次を満たす
[
]
2
Eξ [u(x, ξ)] = 0, Eξ ||u(x, ξ)|| < ∞,
( [
])
∂u
det Eξ
(x, ξ)
̸= 0 (∀ξ ∈ Ξ).
∂ξ
21/51
2 Q-指数型分布族
2
q-指数型分布族
定義 2.1
p(x; µ, σ) : q-正規分布
1
[
2 ] 1−q
1
1 − q (x − µ)
p(x; µ, σ) =
1−
Zq
3−q
σ2
+(
√
)
3−q
 √ Beta 2−q , 1 σ
(−∞ < q < 1)
1−q 2
1−q
(
)
√
ただし Zq =
 √3−q Beta 3−q , 1 σ (1 ≤ q < 3)
2(q−1) 2
q−1
[∗]+ = max{0, ∗}
q→1
=⇒
p(x; µ, σ) は正規分布に収束する.
)
(
1
(x − µ)2
p(x; µ, σ) = √
exp −
2σ 2
2πσ
注意 2.2
正規分布 ⇐= BGS エントロピーの最大化
q-正規分布 ⇐= Tsallis エントロピーの最大化
(∫ ∞
)
1
Hq (p) =
(p(x))q dx − 1
1−q
−∞
22/51
2 Q-指数型分布族
1
[
2 ] 1−q
1
1 − q (x − µ)
p(x; µ, σ) =
1−
Zq
3−q
σ2
+
q
distribution
−∞
uniform on [µ − σ, µ + σ]
−1
semi-circle
1
normal
1
1+
Student t
n+1
2
Cauchy distribution
3
uniform on [−∞, ∞]
0.4
0.3
0.4
0.25
0.3
0.3
0.2
0.2
0.15
0.2
0.1
0.1
0.1
0.05
-1
-0.5
0.5
1
-4
-2
2
23/51
4
-4
-2
2
4
2 Q-指数型分布族
q-指数関数,q-対数関数 (q > 0)
expq x := (1 + (1 − q)x)
x1−q − 1
logq x :=
1−q
1
1−q
(1 + (1 − q)x > 0)
q-指数関数
(x > 0)
q-対数関数
q → 1 のとき,通常の指数関数と通常の対数関数に一致する.
F1(x), . . . , Fn(x) : Ω 上の確率変数
θ ={
{θ 1, . . . , θn} : パラメータ
}
∫
p(x; θ)dx = 1 : 統計モデル
S = p(x, θ) p(x; θ) > 0,
Ω
定義 2
Sq = {p(x; θ)} : q-指数型分布族
[ n
]
}
{
∑
def
θ iFi(x) − ψ(θ) , p(x, θ) ∈ S
⇐⇒ Sq := p(x, θ)p(x; θ) = expq
i=1
27/51
2 Q-指数型分布族
例 2.3 (Student t-分布族 (q-正規分布族))
1
[
2 ] 1−q
1
1 − q (x − µ)
p(x; µ, σ) =
1−
zq
3−q
σ2
1
θ =
2
3−q
zqq−1
·
µ
σ2
,
θ
2
とおく.このとき
= −
{
1
3−q
zqq−1
·
1
σ2
.
}
(
2)
1
1
1
1 − q (x − µ)
1−q
−1
logq pq (x) =
(p
− 1) =
1−q 1 −
2
1−q
1 − q zq
3−q
σ
q−1
q−1
2
2µzqq−1
zqq−1
z
z
−1
µ
q
q
2
=
x−
x −
· 2+
2
2
(3 − q)σ
(3 − q)σ
3−q σ
1−q
= θ 1x + θ 2x2 − ψ(θ)
zqq−1 − 1
(θ 1)2
ψ(θ) = −
−
2
4θ
1−q
q
F
の定曲率空間.
注意 2.4 (Sq , g ) は負曲率
q−3
28/51
2 Q-指数型分布族
2.2
変形指数型分布族 (χ-指数型分布族)
今回の結果は,ほとんどの場合 χ-指数型分布族に拡張できる.
χ : (0, ∞) → (0, ∞) : 狭義単調増加
χ-指数関数, χ-対数関数
定義 2.5
∫ x
1
logχ x :=
dt
1 χ(t)
∫ x
expχ x := 1 +
λ(t)dt
χ-対数関数
χ-指数関数
0
ただし
λ(logχ t) = χ(t)
例 2.1 χ(t) = tq のとき
∫ x
∫ x
1
1
x1−q − 1
dt =
dt =
= logq x
q
χ(t)
t
1
−
q
1
1
∫
λ(t) dt = (1 + (1 − q)x)
1+
x
λ(t) = (1 + (1 − q)t)
1
1−q
0
q-対数関数
q
1−q
q-指数関数
29/51
2 Q-指数型分布族
例 2.2 χ(t) =
∫
x
1
2x
xκ
1
χ(t)
+
x−κ
dt =
のとき
xκ − x−κ
2κ
= logκ x
(
√
κ-対数関数
) κ1
κx + 1 + κ2x2
λ(t) =
√
1 + κ2x2
∫ x
(
) κ1
√
1+
λ(t) dt = κx + 1 + κ2x2
= expκ x
0
κ-指数関数
30/51
2 Q-指数型分布族
χ : (0, ∞) → (0, ∞) : 狭義単調増加
定義 2.1
∫
χ-指数関数, χ-対数関数
x
logχ x :=
1
χ-対数関数
dt
χ(t)
∫ x
expχ x := 1 +
λ(t)dt
1
χ-指数関数
0
where
λ(logχ t) = χ(t)
F1(x), . . . , Fn(x) : Ω 上の関数
θ = {θ 1, . . . , θ n} : パラメータ
}
{
∫
p(x; θ)dx = 1 : 統計モデル
S = p(x, θ) p(x; θ) > 0,
Ω
定義 2.2
Sχ = {p(x; θ)}
, 変形指数型分布族
[ n
]
}
{ : χ-指数型分布族
∑
def
θ iFi(x) − ψ(θ) , p(x, θ) ∈ S
⇐⇒ Sχ := p(x, θ)p(x; θ) = expχ
i=1
31/51
2 Q-指数型分布族
定理 2.3 (有限集合上の確率分布族)
有限集合 Sn 上の確率分布の全体は,任意の χ に対して χ-指数型分布族である.
(証明) Ω = {x0, x1, . . . , xn}
{
}
n
n
∑
∑
Sn = p(x; η) ηi > 0,
ηi = 1, p(x; η) =
ηiδi(x) ,
η0 = 1 −
n
∑
i=0
i=0
ηi
i=1
θ i = logχ p(xi) − logχ p(x0) = logχ ηi − logχ η0 とおく.
このとき
( n
)
∑
logχ p(x) = logχ
ηiδi(x)
=
n
∑
(
i=1
i=0
)
logχ ηi − logχ η0 δi(x) + logχ(η0)
ψ(θ) = − logχ η0
32/51
2 Q-指数型分布族
2.3 期待値汎関数
例 2.4 q-正規分布
1
[
2 ] 1−q
1
1 − q (x − µ)
p(x; µ, σ) =
1−
Zq
3−q
σ2
+
q
確率密度関数
平均 分散
5
q≥
−1
semi-circle
◦
◦
3
1
normal
◦
◦
分散は存在しない.
1
q≥2
1+
student t
◦
◦
n+1
平均は存在しない.
2
Cauchy distribution ×
×
期待値は多様体の座標系を与えているに過ぎない.
=⇒ 適切な座標系(期待値)を指定する方が良い.
局所座標系は目的に合わせて選ぶ
33/51
2 Q-指数型分布族
定義 2.5
P (x) : p(x) のエスコート分布
1
def
⇐⇒
P (x; θ) =
{p(x; θ)}q ,
Zq (θ)
∫
{p(x; θ)}q dx
Zq (θ) =
Ω
Eq,p[f (x)] : f (x) の q-正準期待値
∫
def
⇐⇒ Eq,p[f (x)] =
f (x){p(x; θ)}q dx
Ω
esc
Eq,p
[f (x)] : f (x) の q-(エスコート)期待値
def
⇐⇒ f (x) のエスコート分布に関する期待値,すなわち
∫
∫
1
esc
f (x){p(x; θ)}q dx
Eq,p
[f (x)] =
f (x)P (x; θ)dx =
Zq (θ) Ω
Ω
Ep[f (x)] : f (x) の(単純)期待値
∫
def
⇐⇒ Ep[f (x)] =
f (x)p(x; θ)dx
Ω
34/51
2 Q-指数型分布族
定義 2.5
P (x) : p(x) のエスコート分布
1
def
⇐⇒
P (x; θ) =
{p(x; θ)}q ,
Zq (θ)
∫
{p(x; θ)}q dx
Zq (θ) =
Ω
Eq,p[f (x)] : f (x) の q-正準期待値
∫
def
⇐⇒ Eq,p[f (x)] =
f (x){p(x; θ)}q dx
Ω
esc
Eq,p
[f (x)] : f (x) の q-(エスコート)期待値
def
⇐⇒ f (x) のエスコート分布に関する期待値,すなわち
∫
∫
1
esc
f (x){p(x; θ)}q dx
Eq,p
[f (x)] =
f (x)P (x; θ)dx =
Zq (θ) Ω
Ω
注意 2.6 (Naudts (2004))
X : p(x) に従う確率変数
r(x) : 確率密度関数(p(x) のエスコート分布とよぶ)
X のエスコート分布に関する期待値
∫
def
⇐⇒
Fresc[X] :=
x r(x)dx
Ω
35/51
2 Q-指数型分布族
定義 2.7
P (x) : p(x) のエスコート分布
1
def
⇐⇒ Pχ(x; θ) =
χ(p(x; θ)),
Zχ(θ)
∫
Zχ(θ) =
χ(p(x; θ))dx
Ω
Eχ,p[f (x)] : f (x) の χ-正準期待値
∫
def
⇐⇒ Eχ,p[f (x)] =
f (x)χ(p(x; θ))dx
Ω
esc
Eχ,p
[f (x)] : f (x) の χ-エスコート期待値
def
⇐⇒ f (x) のエスコート分布に関する期待値,すなわち
∫
∫
1
esc
f (x)χ(p(x; θ))dx
Eχ,p
[f (x)] =
f (x)Pχ(x; θ)dx =
Zχ(θ) Ω
Ω
∫
logχ x :=
χ-指数関数, χ-対数関数
x
1
χ-対数関数
dt
χ(t)
∫ x
expχ x := 1 +
λ(t)dt
1
(ただし λ(logχ t) = χ(t))
0
χ-指数関数
36/51
3 Q-指数型分布族の幾何学(前半)
3
q-指数型分布族の幾何学(前半)
Sq : q-指数型分布族
ψ(θ) : Sq のパラメータに関する規格化関数(狭義凸と仮定)
( q 1
)T
q
q n
s (x; θ) = (s ) (x; θ), . . . , (s ) (x; θ) : q-スコア関数
∂
def
q i
⇐⇒
(s ) (x; θ) =
logq p(x; θ), (i = 1, . . . , n).
i
∂θ
Sq の統計多様体構造
Riemann 計量 g M :
M
gij
(θ) =
∫
∂ip(x; θ)∂j logq p(x; θ) dx
Ω
アファイン接続 ∇M (e), ∇M (m)
∫:
M (e)
Γij,k (θ) =
∫Ω
M (m)
Γij,k (θ) =
∂k p(x; θ)∂i∂j logq p(x; θ)dx
∂i∂j p(x; θ)∂k logq p(x; θ)dx
Ω
(Sq , ∇M (e), g M ) と (Sq , ∇M (e), g M ) は互いに双対的な Hesse 多様体.
37/51
3 Q-指数型分布族の幾何学(前半)
命題 6 q-指数型分布族 Sq に対して以下が成り立つ.
(1) (Sq , g M , ∇M (e), ∇M (m)) は双対平坦空間である.
(2) {θ i} は Sq の ∇M (e)-アファイン座標系である.
(3) Ψ(θ) は {θ i} に関する g M のポテンシャルである.すなわち
M
gij
(θ) = ∂i∂j Ψ(θ).
(4) Fi(x) の単純期待値を ηi = Ep[Fi(x)] とおく
=⇒ {ηi} は {θ i} の g M に関する双対座標系.
1
(5) Φ(η) = Ep[ 2−q
logq p(x; θ)] とおく
=⇒ Φ(η) は {ηi} に関する g M のポテンシャル関数.
Ψ(θ) : 一般化した Massieu ポテンシャル
Ψ(θ) = ϕ(θ) + ψ(θ),
ただし
ϕ(θ) =
∫
1
2−q
q → 1 のとき ϕ → 0 である.
(p(x; θ)2−q − p(x; θ))dx
Ω
38/51
3 Q-指数型分布族の幾何学(前半)
命題 6 q-指数型分布族 Sq に対して以下が成り立つ.
(1) (Sq , g M , ∇M (e), ∇M (m)) は双対平坦空間である.
(2) {θ i} は Sq の ∇M (e)-アファイン座標系である.
(3) Ψ(θ) は {θ i} に関する g M のポテンシャルである.すなわち
M
gij
(θ) = ∂i∂j Ψ(θ).
(4) Fi(x) の単純期待値を ηi = Ep[Fi(x)] とおく
=⇒ {ηi} は {θ i} の g M に関する双対座標系.
1
(5) Φ(η) = Ep[ 2−q
logq p(x; θ)] とおく
=⇒ Φ(η) は {ηi} に関する g M のポテンシャル関数.
: 双対平坦空間 (Sq , g M , ∇M (e), ∇M (m)) のカノニカル・
ダイバージェンス
D1−q (p, r) : Sq の β-ダイバージェンス(β = 1 − q )
D(p, q)
=⇒
D(p, r) = D1−q (r, p)
39/51
3 Q-指数型分布族の幾何学(前半)
推定関数からの β-ダイバージェンスの構成
uq (x; θ): スコア関数に重み付けした推定関数
def
⇐⇒
uq (x; θ) = (u1q (x; θ), . . . , unq(x; θ))T
uiq (x; θ) = p(x; θ)1−q si(x; θ) − Eθ [p(x; θ)1−q si(x; θ)].
q-対数関数の定義を用いて,uq (x; θ) は
{
}
∫
∂
1
1
i
1−q
2−q
uq (x; θ) =
p(x;
θ)
−
p(x;
θ)
dx
i
∂θ 1 − q
[ 2−q Ω
]
∂
∂
=
logq p(x; θ) − Eθ
logq p(x; θ)
i
i
∂θ
∂θ
と与えれるから,この推定関数は q-スコア関数を不偏化したものである.
40/51
3 Q-指数型分布族の幾何学(前半)
推定関数 uq (x; θ) をパラメータに関して積分し,単純期待値を考える.
クロス・エントロピーを
∫
∫
1
1
d1−q (p, r) = −
p(x; θ)r(x; θ)1−q +
r(x; θ)2−q dx
1−q Ω
2−q Ω
と定めると,β-ダイバージェンス (β = 1 − q) が
D1−q (p, r) = −d1−q (p, p) + d1−q (p, r)
∫
1
=
p(x)2−q dx
(1 − q)(2 − q)
∫ Ω
∫
1
1
p(x)r(x)1−q dx +
r(x)2−q dx
−
1−q Ω
2−q Ω
によって与えられる.
41/51
4 Q-指数型分布族の幾何学(後半)
4
q-指数型分布族の幾何学(後半)
定義 4.1 Sq = {p(x; θ)}: q-指数型分布族
q
gij
(θ) = ∂i∂j ψ(θ)
q
Cijk
(θ) = ∂i∂j ∂k ψ(θ)
: q-Fisher 計量
: q-3 次形式
q(0)
Γij,k :
q-Fisher 計量 g q に関する Levi-Civita 接続
1 q
1 q
q(e)
q(0)
q(m)
q(0)
Γij,k := Γij,k − Cijk ,
Γij,k := Γij,k + Cijk ,
2
2
∇q(e) : q-指数型接続
∇q(m) : q-混合型接続
補題 4.2
Sq = {p(x; θ)} : q-指数型分布族
=⇒ (Sq , ∇q(e), g q ) と (Sq , ∇q(m), g q ) は Hesse 多様体.
=⇒ (Sq , g q , ∇q(e), ∇q(m)) は双対平坦空間
42/51
4 Q-指数型分布族の幾何学(後半)
命題 7 q-指数型分布族 Sq に対して以下が成り立つ.
(1) (Sq , g q , ∇q(e), ∇q(m)) は双対平坦空間である.
(2) {θ i} は Sq の ∇q(e)-アファイン座標系である.
(3) ψ(θ) は {θ i} に関する g q のポテンシャルである.すなわち
q
gij
(θ) = ∂i∂j ψ(θ).
esc
(4) Fi(x) の q-期待値を ηi = Eq,p
[Fi(x)] とおく
=⇒ {ηi} は {θ i} の g q に関する双対座標系.
esc
(5) ϕ(η) = Eq,p
[logq p(x; θ)] とおく
=⇒ ϕ(η) は {ηi} に関する g q のポテンシャル関数.
esc
Eq,p
[f (x)] : f (x) の q-期待値
def
⇐⇒ f (x) のエスコート分布に関する期待値,すなわち
∫
∫
1
esc
Eq,p
f (x){p(x; θ)}q dx
[f (x)] =
f (x)P (x; θ)dx =
Zq (θ) Ω
Ω
43/51
4 Q-指数型分布族の幾何学(後半)
推定関数からの α-ダイバージェンスの構成
(sq )(x; θ) : q-スコア関数
def
⇐⇒
(sq )(x; θ) = ((sq )1(x; θ), . . . , (sq )n(x; θ))T
∂
(sq )i(x; θ) =
logq p(x; θ)
i
∂θ
q-スコア関数は q-正準期待値に関して不偏性を持つ.すなわち
Eq,p[(sq )i(x; θ)] = 0
が成り立つため,推定関数の一般化と考える.
q-スコア関数の正準期待値から α-クロス・エントロピー (α = 1 − 2q) を
∫
1
d(1−2q)(p, r) = −
p(x)q logq r(x)dx
q Ω
と定めると,α-ダイバージェンス (α = 1 − 2q) が
D (1−2q)(p, r) = −d(1−2q)(p, p) + d(1−2q)(p, r)
1
= Eq,p[logq p(x) − logq r(q)]
q
によって与えられる.
44/51
4 Q-指数型分布族の幾何学(後半)
α-ダイバージェンス (α = 1 − 2q)
∫
1 − p(x; θ)q p(x; θ ′)1−q dx
D (1−2q) (p(x; θ), p(x; θ ′)) =
q(1 − q)
D (1−2q) (α = 1 − 2q) は不変統計多様体 (S, ∇(1−2q), g F ) を誘導する
Csiszar の f -ダイバージェンスと α-ダイバージェンスなどの関連
(
)
∫
p(θ)
C
′
′
D (p(θ), p(θ )) =
p(θ )f
dx
′
p(θ )
KL-divergence : f (x) = x log x
xq − x
α-divergence : f (x) =
= xq logq x
q−1
正規化した Tsallis 相対エントロピー(χ-相対エントロピー)
[
]
esc
T
′
′
Dq (p(x; θ), p(x; θ )) = Eq,p logq p(x; θ) − logq p(x; θ )
∫
1 − p(θ)q p(θ ′)1−q dx
=
(1 − q)Zq (θ)
正規化した Tsallis 相対エントロピーは Hesse 多様体 (Sq , ∇q(m), g q ) を誘導する
45/51
4 Q-指数型分布族の幾何学(後半)
α-ダイバージェンスと正規化した Tsallis 相対エントロピーには次が成り立つ
q
T
′
Dq (p(x; θ), p(x; θ )) =
D (1−2q) (p(x; θ), p(x; θ ′)) .
Zq (θ)
q-指数型分布族 Sq の α-ダイバージェンスは共形的ダイバージェンスとよばれる
定理 8 (M. and Ohara (2011)) Sq = {p(x; θ)} : q-指数型分布族
=⇒ (1) 不変統計多様体 (Sq ,∇(2q−1), g F ) と平坦統計多様体 (Sq ,∇q(e), g q )
は 1-共形同値である.
(2) 特に不変統計多様体 (Sq , ∇(2q−1), g F ) は 1-共形平坦である.
(正値測度を確率測度へ規格化することで,幾何構造が変化する.
)
定義 4.3
¯ が α-共形同値
¯ h)
統計多様体 (M, ∇, h) と (M, ∇,
def
⇐⇒ 関数 φ が存在して次が成り立つ.
¯
h(X,
Y ) = eφh(X, Y ),
1+α
¯
∇X Y = ∇X Y −
h(X, Y )gradhφ
2
1−α
+
{dφ(Y ) X + dφ(X) Y }
2
46/51
4 Q-指数型分布族の幾何学(後半)
射影変形 ((−1)-共形変形)
c : I = (−ε, ε) → M :
M 上の曲線
c : 測地線
⇐⇒ ∇ d c˙ = 0
c : プレ測地線
dt
⇐⇒ ∇ d c˙ = γ(t)c˙
dt
射影変形はプレ測地線(前測地線,1 次元自己平行部分多様体)を保つ
∇ d c˙ = β(t)c˙
dt
⇐⇒
47/51
¯ d c˙ = γ
∇
¯ (t)c˙
dt
4 Q-指数型分布族の幾何学(後半)
双対射影変形(1-共形変形)
c : I = (−ε, ε) → M,
β(X) = h(X, c)
˙ :
c : 双対測地線
接 1-次微分形式
⇐⇒ ∇ d β = 0
dt
c : プレ双対測地線
⇐⇒ ∇ d β = γ(t)β
dt
双対射影変形はプレ双対測地線(前双対測地線)を保つ..
∇ d β = γ(t)β
dt
⇐⇒
48/51
¯ dβ = γ
∇
¯ (t)β
dt
4 Q-指数型分布族の幾何学(後半)
定理 8 (M. and Ohara (2011)) Sq = {p(x; θ)} : q-指数型分布族
=⇒ (1) 不変統計多様体 (Sq ,∇(2q−1), g F ) と平坦統計多様体 (Sq ,∇q(e), g q )
は 1-共形同値である.
(2) 特に不変統計多様体 (Sq , ∇(2q−1), g F ) は 1-共形平坦である.
D(p, r) : 平坦統計多様体 (Sq , ∇q(e), g q ) のカノニカル・ダイバージェンス
n
∑
D(p, r) = ψ(p) + ϕ(r) −
θ i(p)ηi(r)
i=1
(p, r) : Sq の α-ダイバージェンス (α = 1 − 2q)
(不変統計多様体 (Sq , ∇(1−2q), g F ) を誘導)
1
D (1−2q)(p, r) = Eq,p[logq p(x; θ) − logq r(x; θ ′)]
q
DqT (p, r) : Sq の正規化した Tsallis 相対エントロピー
(平坦統計多様体 (Sq , ∇q(m), g q ) を誘導)
esc
DqT (p, r) = Eq,p
[logq p(x; θ) − logq r(x; θ ′)]
D
(1−2q)
=⇒ 次の関係が成り立つ.
D(p, r) =
DqT (r, p)
=
49/51
q
Zq (r)
D (1−2q)(r, p).
まとめ
(Sq , g M , ∇M (e), ∇M (m))
[
]
∂
∂
uiq (x; θ) =
logq p(x; θ) − Eθ
logq p(x; θ)
i
i
∂θ
∫ ∂θ
β-ダイバージェンス
推定関数 uq (x; θ):
M
Riemann 計量 g M : gij
(θ) =
双対座標系 {ηi}:
∂ip(x; θ)∂j logq p(x; θ)dx
Ω
ηi = Ep[Fi(x)]
正規化した Tsallis 相対エントロピー
q
q i
推定関数 (s )(x; θ): (s ) (x; θ) =
Riemann 計量 g q :
双対座標系 {ηi}:
q
gij
(θ)
∂2
∂
∂θ i
(Sq , g q , ∇q(e), ∇q(m))
logq p(x; θ) (q-期待値に関し不偏)
ψ(θ)
∂θ iθ j
esc
ηi = Eq,p
[Fi(x)]
=
期待値,独立性は統計モデルに依存して決定される概念である.
5 擬加法的微分
5
5.1
擬加法的微分
中心極限定理再考
a1 =
a2 =
a3 =
..
..
Napier の数
(
)
1 n
e := lim 1 +
n→∞
n
)
(
1
1+
1) (
(
)
1
1
1+
1+
2) (
2) (
)
(
1
1
1
1+
1+
1+
3
3
3
..
..
区間の縮小の速さとコピーの生成速度がうまく釣り合っている.
52/51
5 擬加法的微分
Napier の数
(
)
1 n
e := lim 1 +
n→∞
n
区間の縮小の速さとコピーの生成速度がうまく釣り合っている.
中心極限定理
X1, . . . , Xn, · · · : i.i.d.,
E[Xi] = µ, V [Xi] = σ 2
(
)
n
σ2
1∑
¯ n :=
¯ n] =
X
Xi,
V [X
n i=1
n
(
)
∫ t
¯n − µ
X
1
2
=⇒
P
→
e−x /2dx
√
√ ≤t
σ/ n
2π −∞
区間の縮小の速さとコピーの生成速度が不釣り合いなとき,何が起こるのか.
また,縮小の速さやコピーの生成が不均一なとき,何が起こるのか.
53/51
5 擬加法的微分
Napier の数
(
)
1 n
e := lim 1 +
n→∞
n
区間の縮小の速さとコピーの生成速度がうまく釣り合っている.
中心極限定理
X1, . . . , Xn, · · · : i.i.d.,
E[Xi] = µ, V [Xi] = σ 2
(
)
n
σ2
1∑
¯ n :=
¯ n] =
X
Xi,
V [X
n i=1
n
(
)
∫ t
¯n − µ
X
1
2
=⇒
P
→
e−x /2dx
√
√ ≤t
σ/ n
2π −∞
区間の縮小の速さとコピーの生成速度が不釣り合いなとき,何が起こるのか.
また,縮小の速さやコピーの生成が不均一なとき,何が起こるのか.
指数関数の特徴
d x
e = ex
dx
54/51
5 擬加法的微分
5.2
d
dx
擬加法的 q-微分
f (x) = {f (x)}q : エスコート描像
1
1−q
=⇒ f (x) = (1 + (1 − q)x)
q-指数関数,q-対数関数 (q > 0)
expq x := (1 + (1 − q)x)
y 1−q − 1
logq y :=
1−q
1
1−q
(1 + (1 − q)x > 0)
q-指数関数
(y > 0)
q-対数関数
q → 1 のとき,通常の指数関数と通常の対数関数に一致する.
q-和,q-積
˜ q x2 := x1 + x2 + (1 − q)x1x2
x1 ⊕
q-和
1
[
] 1−q
y1 ⊗q y2 := y11−q + y21−q − 1
q-積
(
)
1−q
1−q
ただし y1 + y2 − 1 > 0
55/51
5 擬加法的微分
q-指数関数,q-対数関数 (q > 0)
1
1−q
expq x := (1 + (1 − q)x)
(1 + (1 − q)x > 0)
y 1−q − 1
logq y :=
(y > 0)
1−q
q-和,q-積
˜ q x2 := x1 + x2 + (1 − q)x1x2
x1 ⊕
1
[
] 1−q
y1 ⊗q y2 := y11−q + y21−q − 1
q-指数関数
q-対数関数
q-和
q-積
q-指数関数と q-対数関数の真数条件が成り立つとき
˜ q x2) = expq x1 · expq x2,
expq (x1 ⊕
˜ q logq y2,
logq (y1 · y2) = logq y1 ⊕
expq (x1 + x2) = expq x1 ⊗q expq x2,
logq (y1 ⊗q y2) = logq y1 + logq y2.
注意 5.1
q-和は定義域に作用する
q-積は値域(関数空間)に作用する
56/51
5 擬加法的微分
q-和,q-積
˜ q x2 := x1 + x2 + (1 − q)x1x2
x1 ⊕
q-和
1
[
] 1−q
1−q
1−q
y1 ⊗q y2 := y1 + y2 − 1
q-積
(
)
1
−x
[−x] := logq
=
: q-和に関する逆元
expq x
1 + (1 − q)x
˜ q x2 := x1 ⊕
˜ q [−x2] :
x1 ⊖
q-差
擬加法的 q-微分
f (x′) − f (x)
: 擬加法的 q-微分
f (x) := lim
q
′
′
˜
x →x
dq x
x ⊖ x
dq
dq
dq x
d
dx
f (x) = f (x) とすると
(擬加法的描像)
=⇒ f (x) = (1 + (1 − q)x)
f (x) = {f (x)}q とすると
1
1−q
(= expq x)
(エスコート描像)
=⇒ f (x) = (1 + (1 − q)x)
1
1−q
57/51
5 擬加法的微分
q-和,q-積
˜ q x2 := x1 + x2 + (1 − q)x1x2
x1 ⊕
1
[
] 1−q
1−q
1−q
y1 ⊗q y2 := y1 + y2 − 1
q-和
q-積
q-指数関数の無限積表現
命題 5.2
(
)1−q
x
− (n − 1) > 0
任意の n ∈ N に対して n 1 +
n
(
) n
x ⊗q
=⇒
expq x = lim 1 +
n→∞
n
(
)⊗q n (
)
(
)
x
x
x
ただし
1+
:= 1 +
⊗q · · · ⊗q 1 +
n
n
n}
{z
|
n 個
58/51
5 擬加法的微分
擬加法的 κ-微分
κ-指数関数, κ-対数関数 (−1 < κ < 1)
√
1
2
2
κ
expκ x := ( 1 + κ x + κx)
κ-指数関数
y κ − y −κ
logκ y :=
(y > 0)
κ-対数関数
2κ
κ → 0 のとき,通常の指数関数と通常の対数関数に一致する.
5.3
κ-和,κ-積 (Kaniadakis)
˜ κ x2 := logκ [expκ x1 · expκ x2]
x1 ⊕
√
√
2
= x1 1 + κ2x2 + x2 1 + κ2x1
y1 ⊗κ y2 := expκ [logκ y1 + logκ y2]
˜ κ x2) = expκ x1 · expκ x2,
expκ(x1 ⊕
˜ κ logκ y2,
logκ(y1 · y2) = logκ y1 ⊕
expκ(x1 + x2) = expκ x1 ⊗κ expκ x2,
logκ(y1 ⊗κ y2) = logκ y1 + logκ y2.
59/51
κ-和
κ-積
5 擬加法的微分
κ-和,κ-積 (Kaniadakis)
˜ κ x2 := logκ [expκ x1 · expκ x2]
x1 ⊕
√
√
2
= x1 1 + κ2x2 + x2 1 + κ2x1
y1 ⊗κ y2 := expκ [logκ y1 + logκ y2]
˜ κ x2 := x1 ⊕
˜ κ (−x2) :
x1 ⊖
κ-和
κ-積
κ-差
擬加法的 κ-微分
f (x′) − f (x)
f (x) := lim
: 擬加法的 κ-微分
κ
′
′
˜ x
x →x
dκ x
x ⊖
dκ
dκ
f (x) = f (x) とすると
(擬加法的描像)
dκ x
√
1
2
2
κ
(= expκ x)
=⇒ f (x) = ( 1 + κ x + κx)
d
1
f (x) とすると (エスコート描像)
f (x) = √
2
2
dx
1+κ x √
1
(= expκ x)
=⇒ f (x) = ( 1 + κ2x2 + κx) κ
60/51
5 擬加法的微分
κ-和,κ-積 (Kaniadakis)
˜ κ x2 := logκ [expκ x1 · expκ x2]
x1 ⊕
√
√
2
= x1 1 + κ2x2 + x2 1 + κ2x1
y1 ⊗κ y2 := expκ [logκ y1 + logκ y2]
κ-和
κ-積
κ-指数関数の無限積表現
定理 5.1 (M and Wada) ?
x > −1 のとき
)⊗κn
(
x
=⇒
expκ x = lim 1 +
n→∞
n
(
)⊗κn (
)
(
)
x
x
x
ただし
1+
:= 1 +
⊗κ · · · ⊗κ 1 +
n
n
n}
|
{z
n 個
61/51
6 独立性と最尤推定量の一般化
6
独立性と最尤推定量の一般化
6.1 独立性の一般化
X ∼ p1(x), Y ∼ p2(y)
X と Y が 独立
def
⇐⇒
⇐⇒
p(x, y) = p1(x)p2(y).
p(x, y) = exp [log p1(x) + log p2(x)]
(p1(x) > 0, p2(y) > 0)
x > 0, y > 0 かつ x1−q + y 1−q − 1 > 0 (q > 0) とする.
x ⊗q y : が X と Y の q-積
1
[ 1−q
] 1−q
def
1−q
⇐⇒ x ⊗q y := x
+y
−1
[
]
= expq logq x + logq y
expq x ⊗q expq y = expq (x + y),
logq (x ⊗q y) = logq x + logq y.
62/51
6 独立性と最尤推定量の一般化
6.1 独立性の一般化
X ∼ p1(x), Y ∼ p2(y)
X と Y が 独立
def
⇐⇒
⇐⇒
p(x, y) = p1(x)p2(y).
p(x, y) = exp [log p1(x) + log p2(x)]
(p1(x) > 0, p2(y) > 0)
x > 0, y > 0 かつ x1−q + y 1−q − 1 > 0 (q > 0) とする.
x ⊗q y : が x と y の q-積
1
[ 1−q
] 1−q
def
1−q
⇐⇒ x ⊗q y := x
+y
−1
[
]
= expq logq x + logq y
X1 と X2 : m-規格化のもとで q-独立
def
⇐⇒
pq (x1, x2) =
ただし
Zp1,p2 =
p1(x1) ⊗q p2(x2)
∫∫
Zp1,p2
p1(x1) ⊗q p2(x2)dx1dx2
Supp{pq (x1 ,x2 )}⊂X1 X2
63/51
6 独立性と最尤推定量の一般化
6.1 独立性の一般化
X ∼ p1(x), Y ∼ p2(y)
X と Y が 独立
def
⇐⇒
⇐⇒
p(x, y) = p1(x)p2(y).
p(x, y) = exp [log p1(x) + log p2(x)]
(p1(x) > 0, p2(y) > 0)
x > 0, y > 0 かつ x1−q + y 1−q − 1 > 0 (q > 0) とする.
x ⊗q y : が x と y の q-積
1
[ 1−q
] 1−q
def
1−q
⇐⇒ x ⊗q y := x
+y
−1
[
]
= expq logq x + logq y
X1 と X2 : e-規格化のもとで q-独立
def
⇐⇒
pq (x1, x2) = p1(x1) ⊗q p2(x2) ⊗q expq (−c)
∫∫
ただし c は次で定義される定数
pq (x1, x2)dx1dx2 = 1
Supp{pq (x1 ,x2 )}⊂X1 X2
pq (x1, x2) = p1(x1) ⊗q p2(x2) と同時分布のみを考え規格化をしない場合,
単に q-独立 とよぶ.
64/51
6 独立性と最尤推定量の一般化
6.3
q-最尤推定量の幾何学
S = {p(x; ξ)|ξ ∈ Ξ} : 統計モデル
{x1, . . . , xN } : p(x; ξ) ∈ S から得られる N -個の観測値
Lq (ξ) : q-尤度関数
def
⇐⇒
Lq (ξ) = p(x1; ξ) ⊗q p(x2; ξ) ⊗q · · · ⊗q p(xN ; ξ)
(
)
N
∑
⇐⇒ logq Lq (ξ) =
logq p(xi; ξ)
i=1
q → 1 のとき Lq は(通常の)尤度関数
expq (x1 + x2 + · · · + xN )
= expq x1 ⊗q expq x2 ⊗q · · · ⊗q expq xN
(
)
(
)
x2
xN
= expq x1 · expq
· · · expq
∑N −1
1 + (1 − q)x1
1 + (1 − q) i=1 xi
測定ごとに,他の測定は影響を受ける.
66/51
6 独立性と最尤推定量の一般化
6.3
q-最尤推定量の幾何学
S = {p(x; ξ)|ξ ∈ Ξ} : 統計モデル
{x1, . . . , xN } : p(x; ξ) ∈ S から得られる N -個の観測値
Lq (ξ) : q-尤度関数
def
⇐⇒
Lq (ξ) = p(x1; ξ) ⊗q p(x2; ξ) ⊗q · · · ⊗q p(xN ; ξ)
(
)
N
∑
⇐⇒ logq Lq (ξ) =
logq p(xi; ξ)
i=1
q → 1 のとき Lq は(通常の)尤度関数
ξˆ : q-最尤推定量
def
⇐⇒
(
ξˆ = arg max Lq (ξ)
)
= arg max logq Lq (ξ) .
ξ∈Ξ
ξ∈Ξ
q-尤度最大 ⇐⇒ 正規化した Tsallis 相対エントロピー最小
67/51
6 独立性と最尤推定量の一般化
Sq : q-指数型分布族
M : Sq の q-曲指数型分布族(Sq の部分多様体)
{x1, . . . , xN } : p(x; u) = p(x; θ(u)) ∈ M からの N 個の観測値
q-尤度関数は次で計算される:
logq Lq (u) =
=
N
∑
j=1
n
∑
logq p(xj ; u) =
N
∑
j=1
θ i(u)
i=1
N
∑
{
n
∑
}
θ i(u)Fi(xj ) − ψ(θ(u))
i=1
Fi(xj ) − N ψ(θ(u)).
j=1
q-対数 q-尤度方程式は
∂i logq Lq (u) =
N
∑
Fi(xj ) − N ∂iψ(θ(u)) = 0.
j=1
したがって,Sq の q-最尤推定量は次で与えられる.
ηˆi =
N
1 ∑
N
Fi(xj ).
j=1
68/51
6 独立性と最尤推定量の一般化
一方 正規化した Tsallis 相対エントロピー(カノニカル・ダイバージェンス)は
DqT (p(η),
ˆ p(θ(u))) = D(p(θ(u)), p(η))
ˆ
= ψ(θ(u)) + ϕ(ˆ
η) −
n
∑
θ i(u)ηˆi
i=1
= ϕ(η)
ˆ −
1
N
logq Lq (u).
となる.
q-尤度最大 ⇐⇒ 正規化した Tsallis 相対エントロピー最小
(補足 1) q-尤度関数は任意の凸関数でさらに一般化される.
(補足 2) 独立性の一般化は統計物理学や機械学習理論などで独立に提案されて
いるが,主に χ-ダイバージェンスが用いられる.
69/51
6 独立性と最尤推定量の一般化
推定量不変性
系 6.1 1 < q< 3 とし,q- 正規分布族(t-分布族)を考える.

1
[
]

2 1−q 
1
1
−
q
(x
−
µ)
2
Nq (µ, σ ) := p(x; µ, σ) p(x; µ, σ) =
1−


Zq
3−q
σ2
{x1, . . . , xN } : p(x; µ, σ) ∈ Sq からの N -個の観測値
=⇒ q-最尤推定量は期待値座標系に関して次で与えられる.
ηˆ1 =
N
1 ∑
N
xi ,
ηˆ2 =
i=1
N
1 ∑
N
x2i
i=1
N (µ, σ 2)
=⇒
ηˆ1 =
MLE
Nq (µ, σ 2)
=⇒
ηˆ1 =
N
1 ∑
N
ηˆ2 =
i=1
N
1 ∑
N
xi ,
i=1
q-MLE
70/51
xi ,
ηˆ2 =
N
1 ∑
N
i=1
N
1 ∑
N
x2i
i=1
x2i
6 独立性と最尤推定量の一般化
推定量不変性
• 正規分布族の最尤推定量
=⇒ ηˆ1 =
N
1 ∑
N
xi,
i=1
ηˆ2 =
N
1 ∑
N
x2i
i=1
• q-正規分布族 (Student’s t-分布族)
– 冪型変形エントロピー (Tsallis エントロピー) 最大化
– 混合正規分布による表示
)
(
)
∫ ∞ (
3−q q−1 2
1
Gamma t;
pq (x; µ, σ) =
N µ,
,
· 2 dt
t
2(q
−
1)
3
−
q
σ
0
q-正規分布族の Bayes 表現
• エスコート分布,擬加法的代数
微分幾何学の視点からは自然な数学構造
• q-正規分布族の q-最尤推定量 =⇒ ηˆ1 =
N
1 ∑
N
xi, ηˆ2 =
i=1
パラメータ空間の重みと標本空間の重みが
上手く釣り合っている.
71/51
N
1 ∑
N
i=1
x2i
まとめ
(Sq , g M , ∇M (e), ∇M (m))
[
]
∂
∂
uiq (x; θ) =
logq p(x; θ) − Eθ
logq p(x; θ)
i
i
∂θ
∫ ∂θ
β-ダイバージェンス
推定関数 uq (x; θ):
M
Riemann 計量 g M : gij
(θ) =
双対座標系 {ηi}:
∂ip(x; θ)∂j logq p(x; θ)dx
Ω
ηi = Ep[Fi(x)]
正規化した Tsallis 相対エントロピー
q
q i
推定関数 (s )(x; θ): (s ) (x; θ) =
Riemann 計量 g q :
双対座標系 {ηi}:
q
gij
(θ)
∂2
∂
∂θ i
(Sq , g q , ∇q(e), ∇q(m))
logq p(x; θ) (q-期待値に関し不偏)
ψ(θ)
∂θ iθ j
esc
ηi = Eq,p
[Fi(x)]
=
期待値,独立性は統計モデルに依存して決定される概念である.