正定値カーネルを用いた条件付き確率密度推定

正定値カーネルを用いた条件付き確率密度推定
総合研究大学院大学 金川元信
東京工業大学 鈴木大慈
統計数理研究所 福水健次
1
条件付き確率密度推定
空間 X と Y 上の何らかの同時分布 p(x, y) からの i.i.d. サンプル (X1 , Y1 ), . . . , (Xn , Yn ) が与えられてい
!
るとする.通常の回帰分析の目標は,与えられたサンプルから回帰関数 f (x) = yp(y|x)dy ,つまり応答変
数の条件付き期待値を推定することである.ここで p(y|x) は同時分布から定義される条件付き確率密度関
数である.回帰分析は加法ノイズモデル Y = f (X) + ε(ε は平均ゼロの単峰性ノイズ)が仮定できる場合
は有効であるが,先験的にそういったモデルを仮定できない場合は,データ解析の手段として適切であると
は限らない.また,条件付き確率密度 p(y|x) が多峰性を有していたり,非対称である場合には,回帰関数
の推定で説明変数と応答変数の間の関係を十分に捉えることはできない.こういった状況では,条件付き確
率密度そのものの推定が有効である.
2
正定値カーネルを用いた条件付き確率密度の推定量
本研究では,説明変数の空間 X は実ベクトル空間に限らず,画像,文書,グラフといった構造データの
集合であってもよい.ただし,X 上に正定値カーネル k(x, x! ) が定義されていると仮定する. 一方,応答
変数の空間 Y は d 次元実ベクトル空間 Rd の部分集合とする.
!
カーネル密度推定と同様に,Y 上に平滑化カーネル J(y) を定義する.J(y) は Y J(y)dy = 1 および J(y) ≥
" #
0, ∀y ∈ Y を満たし,Jh (y) := h1d J hy と定義する.ここで任意の h > 0 について,関数 fh : X × Y → R
!
を fh (x, y) = Jh (˜
y − y)p(˜
y |x)d˜
y で定義すると,limh→0 fh (x, y) = p(y|x) が成り立つ.したがって,適切
な h について fh (x, y) をサンプルから推定できれば,これが p(y|x) の良い推定値になると期待される.
ここで,fh (x, y) が条件付き期待値 EY |X=x [Jh (Y − y)] であることに注意する.したがって,
(X1 , Jh (Y1 , y)), . . . , (Xn , Jh (Yn , y))
を X × R 上の同時分布からのサンプルと捉え,これに対してノンパラメトリック回帰を適用することで,
fh (x, y) が推定できることがわかる.
提案手法は,この回帰を正定値カーネル k(x, x! ) を用いた正則化最小二乗回帰によって行う.GX =
(k(Xi , Xj )) ∈ Rn×n をカーネル行列,kX (x) = (k(X1 , x), . . . , k(Xn , x))T ∈ Rn とおく.これを用いる
と,推定量 fˆh,λ (x, y) は以下で与えられる.
fˆh,λ (x, y) =
n
$
i=1
wi (x)Jh (y − Yi ),
w(x) = (GX + nλIn )−1 kX (x).
ここで In ∈ Rn×n は単位行列,λ > 0 は正則化定数である.提案手法の強みは,従来の条件付き確率密度
推定手法とは異なり,説明変数が画像,文書,グラフといった構造データであっても適用できる点である.
本講演では,適切な速さで h → 0, λ → 0 (n → ∞) としたときに,fˆh,λ (x, y) が p(y|x) の一致推定量とな
ること,およびその収束レートを導出する.また,提案手法の有効性を計算機実験によって検証した結果も
あわせて報告する.