1章 統計的音響信号処理の新展開 - 音声メディア分野

特集 メディア処理のための機械学習 ∼ビッグデータ活用を支えるキーテクノロジー∼
1章
統計的音響信号処理の新展開
吉 井 和 佳†,糸 山 克 寿†
キーワード:統計的音響信号処理,板倉・斎藤ダイバージェンス,確率モデル,線形予測分析,非負値行列分解,ソース・フィルタ理論
ら x̂や x̃に変換はできないことに注意する.また,* は共役,
1.まえがき
T
本稿では,音を聴き分けるという観点から,モノラルの
混合音を分離する技術の最新動向を解説する.マルチチャ
ネル信号処理においては,音源数がマイク数以下(優決定)
は転置,H は共役転置を表すものとする. はベクトル間
の要素同士の積を表す.
2.線形予測分析
であれば,マイク間の位相差や独立性などに着目すること
本節では,音声信号(単独発話)の音色分析によく利用さ
で,高精度な分離が可能である.一方,モノラル信号の分
れる線形予測分析 1)
(LPC)について解説する.LPC を用い
離は数学的に不良設定問題(劣決定)であり,音響信号(音
ると,与えられた音声信号の周波数スペクトルの概形(ス
声・音楽・環境音)に内在する「スパース性」や「低ランク
ペクトル包絡)を求めることができる.音素を識別するう
性」といった何らかの性質を音の聴き分けの手がかりに用
えでスペクトル包絡のピーク(フォルマント)の位置や形状
いる必要がある.具体的には,各音源信号のスペクトルは
は重要な手がかりを与えるため,LPC は歴史的に重要な音
局所的な周波数領域にエネルギーが集中していることや,
響的特徴量抽出法としての役割を果たしてきた.
観測信号のスペクトルは高々有限個の音源スペクトルが重
2.1
ソース・フィルタ理論
畳して構成されていることなどを音源分離の制約に用いる
音声信号の音響的な性質は,人間の発声機構に基づいて
説明できる 9).声帯から生成される「音源信号」が,声道の
ことができる(3.3 項).
本稿では,板倉・斎藤(IS)ダイバージェンス最小化とい
形状に合わせて変化する「フィルタ」を通過することで,多
う一貫した立場から,音声信号に対する古典的解析法であ
様な音声が生成されると考える.音源信号としては,声帯
1)
る線形予測分析 (Linear Predictive Coding: LPC)をはじ
の振動(周期信号)や雑音などがある.一方,調音フィルタ
め,モノラル音響信号の音源分離において優れた性能を示
は共振特性のみで記述できる(周波数応答は極しか持たな
2)
す非負値行列分解 (Nonnegative MatrixFactorization:
NMF)や半正定値テンソル分解
3)4)
(Positive Semidefinite
Tensor Factorization: PSDTF)など最新技術を一挙に解説
い)と考えるのが一般的である.実際,調音器官を単純な
音響間の接続と考えれば,鼻子音を除く音素には反共振は
存在しない.
する(2 ∼ 4 節).各手法における IS ダイバージェンスの最
音素を識別するには,音声信号が通過した声道の形状を表
小化は確率モデルの最尤推定に対応しており,LPC と
す特徴量,すなわち調音フィルタを推定することが重要にな
NMF を確率的に統合した複合自己回帰モデル
5 )6 )
る.しかし,音声信号だけから調音フィルタと音源信号を同
(Composite Autoregressive Model: CAR)が自然に導ける
時に推定する問題は不良設定問題であるため,何らかの制約
(5 節).同様に,文献 7)8)を参考に,LPC と PSDTF を確
が必要になる.音声信号のスペクトルにおいては,音源スペ
率的に組み合せることで,従来のモデルをすべて内包する
クトルは微細構造(パワーの急峻な増減)に,調音フィルタ
統一的な確率モデルを構成できることを示す(6 節).
のスペクトルはなめらかな包絡構造に対応していると仮定
本稿で使用する数学記法について以下の通り定める.まず,
x̂∈ R を時間領域でサンプリングされた離散信号,x̃∈ C
M
M
し,それぞれの成分を分離することがよく行われる.
2.2
確率モデルの定式化
を複素スペクトル,x ∈ RM を非負のパワースペクトルとす
LPC の目的は,離散信号の将来の値をそれまでの標本群
る.ここで,M は離散フーリエ変換の窓幅を表す.同一記
の線型和として予測することである.まず,与えられた局
号を共有する変数は同一実体の異なる表現であるが,x か
所的な音声信号 x̂(信号全体では x̂が周期 M で無限に繰り返
†京都大学 大学院情報学研究科
"Recent Progress of Statistical Audio Signal Processing" by Kazuyoshi
Yoshii and Katsutoshi Itoyama (Kyoto University, Kyoto)
X (10)
すと仮定)が P 次の自己回帰過程
p
 p

xˆ m = − a p xˆ m− p + sˆm  a p xˆ m− p = sˆm 


p=1
 p=0
∑
∑
(1)
映像情報メディア学会誌 Vol. 69, No. 2(2015)
1.統計的音響信号処理の新展開
に従うことを仮定する.ここで,a = [a0, ..., aP]T は自己回
帰フィルタの係数(a0=1)であり,ŝ = {ŝm}M
m=1 は線形予測誤
差である.ソース・フィルタ理論では,x̂が音声信号,ŝが
声帯(ソース)から生成される音源信号に対応し,a が声道
(フィルタ)の特性を決定づける.
20
0
[dB]
スペクトル包絡 f
−20
−40
−60
−80
式(1)は,ŝを入力にとり,x̂を出力する線形系とみなす
ことができ,その振る舞いはパラメータ a で決定される.
−100
観測パワースペクトル x
(調波構造)
−120
−140
1
式(1)は a と x̂との畳み込みであるから
2
3
4
m
5
6
7
8 [kHz]
図 1 調波構造をもつ観測スペクトルに対する線形予測分析
A( z) X ( z) = S( z) i.e., X ( z) = S( z) F ( z)
(2)
が成立する.ここで,X(z)= Σ m=–∞ x̂m z –m および S(z)=
∞
def
def
∞
ŝmz–m は,それぞれ x̂および ŝの z 変換である.F(z)=
Σm=–∞
def
(8)の最小化と等価である.ここで,fm は
1
—
—
は全極型伝達関数であり,
A (z)
1
F ( z) =
=
A( z)
fm =
1
∑
P
p= 0
(3)
a p z− p
1
∑
P
p= 0
a pe
− iwm p
2
=
1
(9)
T
a U ma
であり,U m は,各要素が[U m ] pq = cos( ω m (p − q))となる
で定まる.これは,フィルタが共振特性のみで説明できる
ことを意味し,ソース・フィルタ理論と相性がよい.いま,
(P +1)×(P+1)のテプリッツ行列である.
まず,式(8)を σ2 に関して偏微分してゼロとおくと,
m
式(2)に z = eiω (ただし ωm = 2 π—
を代入することで,こ
M)
m
σ2 =
の線形系の伝達特性のフーリエ領域表現
x = s f
( 4)
1 M xm
M m=1 fm
∑
(10)
を得る.一方,a を求めるには,式(8)を各 ap に関して偏
を得る.ここで,観測信号 x̂,音源信号 ŝ,フィルタの複素
iω
˜
スペクトルをそれぞれ x̃ = {X(eiω )}M
)}M
m=1,s̃ = {S(e
m=1,f =
微分してゼロとおいたものを連立して得られる Yule-
{F(eiωm)}M
m=1 とした.また,対応するパワースペクトルをそれ
呼ばる効率的な反復解法も提案されている 10).結果のみ記
ぞれx = x̃ x̃*,s = s̃ s̃*,f = f̃ f̃ *と定義しておく.
すと,ベクトル a に関する乗法更新則は,
m
m
Walker 方程式を解けばよいが 1),乗法更新アルゴリズムと
LPC では,音源信号 ŝがガウス性白色雑音である,すなわ
 1
a← 2
 σ
ち,複素スペクトル s̃がすべての周波数 m で独立同分布な複
素ガウス分布に従うことを仮定する.
s ∼ N c (0, σ 2 I )
(5)
ここで,σ2 は各周波数ビンにおける平均的なパワーを表す.
式(4)および式(5)を用いると,
x ∼ N c (0, diag (σ 2 f ))
−1
∑
 M


fmU m  a


m=1
∑
(1
11)
となる.式(8)が収束するまで式(10)および式(11)を反
復する.ただし,反復ごとに σ2 を調節して,a0 = 1 を満た
すようスペクトル包絡 f を正規化しておく.
3.非負値行列分解
(6)
を得る.すなわち,各要素のパワー xm は指数分布
xm ∼ Exponential (σ 2 fm )

xmU m 

m=1
M
本節では,モノラル音響信号の音源分離によく利用され
る非負値行列分解(NMF)について解説する.最小化すべ
(7)
きコスト関数の違いによりさまざまな変種が存在するが,
音源分離には Kullback-Leibler(KL)ダイバージェンスに基
に従う.図 1 に,観測信号 x̂ のパワースペクトル x から推
づく KL-NMF11)や IS ダイバージェンスに基づく IS-NMF2)
定されたスペクトル包絡 f を示す.
がよく利用される.本稿では,最適化が難しいが,理論的
2.3
乗法更新アルゴリズムに基づく最適化
には音源分離により適している IS-NMF に着目する.
観測スペクトル x が与えられたとき,式(6)で与えられ
る尤度を最大化するスペクトル包絡 f( すなわち a)および
3.1
コスト関数最小化としての定式化
NMF では,非負値行列 X = [x1, ... , xN]∈ R M × N に対し,
def
パワー σ2 を求めたい.式(6)の対数をとって符号反転させ
X ≈ WH = Y となる二つの非負値行列 W = [w 1, ... , w K]∈
ると,IS ダイバージェンス
RM × K, H = [h1, ... , hK]T ∈ RK × N への低ランク分解を行う.
 x

x
 m − log m − 1
2
2


σ fm
m=1  σ fm
ただし,w k および h k はそれぞれ基底ベクトルおよび対応
M
DIS ( x|σ 2 f ) =
∑
(8)
と定数を除いて等しくなることから,式(6)の最大化は式
するアクティベーションベクトルであり,K ≪ min(M, N)
とする.ここで,再構成行列を Y = [y1, ... , yN]∈ RM × N とす
ると,
(11) X
特集 メディア処理のための機械学習 ∼ビッグデータ活用を支えるキーテクノロジー∼
K
∑h
xn ≈
k=1
knwk
= yn
def
(12)
と書ける.観測ベクトル x n と再構成ベクトル y n との間の
誤差 D (x n|y n) を評価する尺度として,本稿では以下で定
義される IS ダイバージェンスに着目する.
x
nm
M
DIS ( x n | yn ) =
∑  y
m=1
− log
nm

xnm
− 1

ynm
(13)
図 2 パワースペクトログラムに対する非負値行列分解(NMF)
全体のコスト関数 DIS (X|Y) =∑n DIS (xn|yn) を最小化する
W および H を求めるため,乗法更新アルゴリズム 12)が提
スペクトルは,倍音の相対強度は時間変化する.ただし,
案されている.
実際のスペクトル X k と簡単化したスペクトル Y k は厳密に
3.2
乗法更新アルゴリズムに基づく最適化
一致している必要はないため,上記仮定は有効に働くと考
本項では,補助関数法に基づく収束性が保証された乗法
更新アルゴリズムを紹介する.導出は文献 12)に詳しいの
で,本稿では結果のみを記すと,乗法更新則は

wkm ← wkm 

hkn

← hkn 

∑ x h /y
∑ h /y
n mn kn
kn
n
2
mn
mn
x kn ∼ N c (0, diag (ykn ))



(18)
(14)
式(16)に着目すると,複素ガウス分布の再生性から
x n ∼ N c (0, diag (yn ))
1
(15)
w k および h k をスケーリングしておく.この更新則では,
wkm および hkn の非負性は自然に保たれる.
を得る.ただし,y n = ∑ k y kn である.したがって,x nm =
xnm ∼ Exponential ( ynm )
(20)
ここで,式(19)の対数をとって符号反転させると,式(13)
音源分離への応用
と定数項を除いて等しい.したがって,式(19)の最大化は
観測されるモノラル音響信号(混合音)の複素スペクトロ
グラムを X̃ = [x̃1, ... , x̃N]∈ CM × N, k 番目の音源信号の複素
スペクトログラムを X̃k = [x̃k1, ... , x̃kN]∈ C
(19)
|x̃nm|2 は指数分布に従うことがわかる.
となる.ただし, ∑ m w km = 1 を満たすよう,反復ごとに
3.3
まず,潜在変数 x̃kn が ykn で定まる対角共分散行列をもつ
複素ガウス分布に従うことを仮定する
1
2
2 2
x w / ymn
m mn km

wkm / ymn 
m
∑
∑
えられる.
M×N
式(13)の最小化と等価であり,IS-NMF を用いて yn や ykn
= hknwk を求めることができる.
とする.こ
最終的に,式(18)および式(19)に着目すると,x̃n が与
こで,M は周波数ビン数,N はフレーム数である.観測し
えられたときの x̃kn の事後分布は複素ガウス分布になるこ
た混合音が K 個の音源信号の瞬時混合であると仮定する
とがわかり,その平均と分散は
と,以下が成り立つ.

X =
X k  x n =

k=1
K
∑

x kn 

k=1
E[ x kn | x n ] = diag ( ykn )diag ( yn )−1 x n
(21)
k
∑
(16)
観測変数 X̃を潜在変数 X̃k に分解する不良設定問題を解くに
V[ x kn | x n ] = diag ( ykn )
− diiag ( ykn )diag ( yn )−1 diag ( ykn )
(22)
は,X̃k に関して何らかの制約が必要になる.そこで,複素
で与えられる.この処理はウィナーフィルタリングと呼ば
スペクトログラム X̃k に対応するパワースペクトログラム
れ,X̃k の位相は X̃ の位相と同一であると仮定されている.
Xk [xk1, ... , xkN]∈ R
M×N
は,ランク 1 の行列 Yk で近似でき
ると仮定する(図 2).
X k ≈ wk hkT def
= Yk
最後に,逆フーリエ変換を用いて,E[X̃k|X̃]から k 番目の
音源信号を復元することができる.
(17)
4.複合自己回帰モデル
すなわち,Yk= [yk1, ... , ykN]∈ RM × N をどのフレーム n でス
本節では,LPC と NMF とを確率的に統合した複合自己
ライスしても,パワースペクトル ykn は基底スペクトル wk
回帰モデル 5)6)
(CAR)について解説する.LPC には,音高
∈ RM を重み hkn でスケーリングするだけで得られるものと
をもつ音響信号を解析すると,観測スペクトル x 中の調波
する(ykn= hknwk).この仮定は,同じ形状のパワースペク
構造に影響を受け,推定されるスペクトル包絡 f は倍音周
トルが音量を変えながら繰り返し現れるような打楽器音に
波数において不要に急峻なピークをもつ欠点があった.こ
対しては特に相性がよい.一方,調波構造をもつ楽器音の
の理由は,音源スペクトルはすべての周波数帯域で平均的
X (12)
映像情報メディア学会誌 Vol. 69, No. 2(2015)
1.統計的音響信号処理の新展開
に従うことを仮定する.
線形予測分析
ソースとフィルタの
音源パワースペクトル 各周波数ビンの積 全極型スペクトル包絡
s1
si ∼ N c (0, diag (si ))
f1
si
s2
f2
一方,調音フィルタに関しては LPC と同様に全極型を仮
定 す る . す な わ ち , フ ィ ル タ j の 複 素 ス ペ ク ト ル f˜ j
fj
={Fj(eiω )}M
m=1 は次式で与えられる.
fj
hijnを乗算
si
xijn
線形周波数[Hz]
m
線形周波数[Hz]
fjm =
fJ
sI
I ソース
(24)
1
∑
P
p= 0
a jp e
(25)
− iwm p
J フィルタ
ここで,a j={a jp} Pp=0 はソース j の線形予測係数である.式
各フレームの観測パワースペクトル xn
(9)と同様に,フィルタ j の非負のパワースペクトルを f j=
f˜j f˜ j* としておく.
図 3 混合音に対する複合自己回帰モデル(CAR)
いま,あるフレーム n におけるソース i とフィルタ j の組
合せに起因する複素スペクトル x̃ijn は,式(4)同様
には等しいパワーを持つという式(5)の仮定との乖離が大
x ijn = aijn ( si f j )
きくなるためである.一方,NMF を音声・音楽信号の音
(26)
源分離に適用すると,異なる音高ごとに基底スペクトル wk
で与えられる.ここで,aijn はスケーリング係数(直感的に
が割当てられるため(参考:図 2 における基底スペクトル),
は音量に対応)である.式(24)を用いると,
式(21)を用いると混合音が音高ごとに分離されるだけで,
x ijn ∼ N c (0, hijndiag (si f j ))
楽器パート(音色)ごとに分離することはできなかった.
(27)
上記問題を解決するため,CAR ではスペクトル包絡(音
を得る.ここで,hijn = a2ijn ≥ 0 とした.観測される混合音
色を表現)と音源スペクトル(音高を表現)を NMF と同様
の複素スペクトル x̃n={Xn(eiω )}M
m=1 は,あらゆる i と j の組合
の枠組みで同時推定する.音源スペクトルが調波構造をも
せの重畳 x̃n=∑ij x̃ijn であると考え,複素ガウス分布の再生
つよう制約を加えて,音楽音響信号の音高推定と楽器パー
性に着目すると,
m
6)
ト分離を同時に行う拡張も可能である .
4.1
x n ∼ N c (0, yn )
コスト関数最小化として定式化
最初に,3.1 項の NMF の枠組みと照らして,CAR の定式
(28)
を得る.式(28)は,|x̃nm|2 = xnm≥ 0 とすると,
化について示しておく.図 3 に示す通り,CAR は混合音の
xnm ∼ Exponential ( ynm )
パワースペクトログラムを I 個の微細構造(ソース)と J 個
(29)
の全極型スペクトル包絡(フィルタ)とに分解することがで
と等価であり,式(23)におけるコスト関数として IS ダイ
きるソース・フィルタ NMF である 5).いま,観測パワー
バージェンスが適切であることを示している.
スペクトログラム X ∈ R
M×N
中の各非負ベクトル xn の三因
源スペクトルがガウス性白色雑音であり(s i = σ 2I),ソー
子への分解を考える.
I
xn ≈
ス・フィルタの個数が S=J=1 の場合,CAR は LPC に帰着
J
∑∑h
i=1 j =1
ijn ( si
CAR は LPC や IS-NMF をその特殊な場合として含む.音
f j ) = yn
def
(23)
する.一方,全周波数帯域でフラットなフィルタが一つだ
け存在する場合(J=1 かつ{ajp=0}Pp=0),CAR は IS-NMF に
ここで,si ∈ RM はソース i のパワースペクトル,fj ∈ RM は
帰着する.
フィルタ j のパワースペクトル,hijn はフレーム n における
4.3
ソース i ・フィルタ j の組合せのパワーを表す.式(23)は
観測パワースペクトログラム X={x n} Nn=1 が与えられたと
NMF と同様に,s i および f j は定常(時不変)であり,その
きに,式(28)の尤度を最大化する音源スペクトル{s i} Ii=1,
重み hijn のみが時間変化すると仮定している.観測ベクト
スペクトル包絡{f j} Jj=1(すなわち{a j} Jj=1),それらの組合せ
ル xn と再構成ベクトル yn との間の誤差 D (xn|yn) を評価す
の時間方向のパワー変化{h ij} I,J
i=1, j=1 を求めたい.まず,式
る尺度として,式(13)で定義される IS ダイバージェンス
(28)の対数を取ると,式(13)で示される IS ダイバージェ
を用いるのが適切であることを次項で示す.
4.2
確率モデルの定式化
CAR では,音源信号のガウス性は仮定するが,白色性は
仮定しない.式(5)とは異なり,音源信号(ソース)i の複
素スペクトル s̃i ={Si(eiω )}M
m=1 は,周波数ビン m ごとに異な
m
る分散パラメータ si ={sim}M
m=1 を持つ独立な複素ガウス分布
乗法更新アルゴリズムに基づく最適化
ンスと定数を除いて等しくなる.これを最小化するには,
EM アルゴリズム 5)や 2.3 項および 3.2 項で紹介した乗法更
新アルゴリズムを組合せて用いればよい 6).
5.半正定値テンソル分解
本節では,NMF の正統的な拡張である半正定値テンソ
(13) X
特集 メディア処理のための機械学習 ∼ビッグデータ活用を支えるキーテクノロジー∼
5.2
乗法更新アルゴリズムに基づく最適化
本項では,3.2 項と同様に,補助関数法に基づく乗法更新
アルゴリズムを紹介する.導出は文献 3)4)に詳しいので,
本稿では結果のみ記すと,乗法更新則は
Vk ← Vk Lk ( LTk Vk PkVk Lk )
−
1
2
LTk Vk
(32)
1
hkn
図 4 音源分離のための半正定値テンソル分解(PSDTF)
 tr ( Y −1V Y −1 X )  2
n
k n
n 
← hkn 


tr ( Yn −1Vk )
(33)
となる.ここで,Lk はコレスキー分解 Qk = Lk LTk で求まる
下三角行列であり,Pk および Qk は次式で求まる.
ル分解
3 )4 )
( P S D T F )に つ い て 解 説 す る . 図 4 の 通 り ,
N
Pk =
PSDTF では,各時刻における複素スペクトル x̃ n の直積
Xn=x̃n x̃nH,すなわち半正定値行列を少数の半正定値基底行
∑h
n=1
−1
kn Yn
N
Qk =
∑h
n=1
−1
−1
kn Yn X n Yn
(34)
列の和に分解する.一方,NMF では,上記行列の対角成
したがって,hkn の非負性と Vk の半正定値性は自然に保た
分(パワースペクトル)xn=x̃n x̃n*,すなわち非負値ベクト
れているが,tr(Vk)= 1 を満たすよう,反復ごとに Vk およ
ルを少数の非負値基底ベクトルの和に分解する.行列の半
び h k をスケーリングしておく.式(32)および式(33)は,
正定値性は,ベクトルの非負性の自然な拡張概念である.
式(14)および式(15)の自然な拡張である.
従来の非負値テンソル分解(NTF)は,非負値データのみ
5.3
音源分離への応用
を取り扱う点で NMF の単純な拡張であり,PSDTF とは本
式(16)を満たすように,x̃n を音源スペクトル{x̃kn} Kk=1 の
和に分解したい.まず,潜在変数 x̃kn が共分散行列 Ykn をも
質的に異なっている.
PSDTF では,式(16)を保持しながら,観測スペクトロ
グラム X̃から音源スペクトル X̃k の位相を適切に復元するこ
とで,高品質な音源分離を実現する.音源信号の周期と短
つ複素ガウス分布に従うことを仮定する.
x kn ∼ N c (0, Ykn )
(35)
時間フーリエ変換の窓長 M が異なる場合には,音源信号の
ここで,式(18)のように共分散行列を対角行列に限定し
巡回定常性の仮定が成り立たなくなるため,周波数ビン間
ないことで,周波数ビン間の相関を考慮している.式(16)
に相関が生じる問題を取り扱える利点は大きい.一方,
に着目すると,複素ガウス分布の再生性から
NMF では,X̃k の位相は X と同じものをそのまま再利用し
ていたため,分離品質に限界があった.
5.1
Xn]∈ C
に対する分解を行う.各要素 Xn ∈ C
(36)
を得る.ただし,Yn=∑k Ykn である.ここで,式(36)の対
コスト関数最小化としての定式化
PSDTFでは,観測データとして3階のテンソルX= [X1, ... ,
M×M×N
x n ∼ N c (0, Yn )
M×M
数をとって符号反転させると,式(31)と定数項を除いて等
は
しい.したがって,式(36)の最大化は式(31)の最小化と
半正定値行列とする.いま,各 X n を K 個の半正定値行列
等価であり,LD-PSDTF を用いて Yn や Ykn を求めることが
{Vk}Kk=1(基底行列)の錐(すい)結合
できる.
最終的に,式(35)および式(36)から,x̃n が与えられた
K
Xn ≈
∑h
k=1
knVk
= Yn
def
(30)
ときの x̃kn の事後分布は複素ガウス分布になることがわか
り,その平均と分散は次式で求めることができる.
で近似したい.ここで,hkn≥ 0 は Xn における k 番目の基底
行列 Vk の重みである.観測行列 Xn と再構成行列 Yn との間
の誤差 D (Xn|Yn) を評価する尺度として,本稿では以下で
定義される Log-Determinant(LD)ダイバージェンス
13)
に
(31)
これは,式(13)の IS ダイバージェンスの自然な拡張であ
る.全体のコスト関数 DLD (X|Y) =∑n DLD (Xn|Yn) を最小
化する H = [h1, ... , hK]∈ R N × K および V = [V1, ... , VK]∈
C M × M × K を求める LD-PSDTF に対しては,乗法更新アル
3)
ゴリズム が提案されている.
X (14)
(37)
V[ x kn | x n ] = Ykn − Ykn Yn −1 Ykn
(38)
このウィナーフィルタリングでは,式(21)とは異なり,X̃k
の位相は X̃ の位相とは異なる点に注意する.ISNMF のよ
着目する.
DLD ( X n |Yn ) = tr ( X n Yn −1 ) − log| X n Yn −1 |− M
E[ x kn | x n ] = Ykn Yn −1 x n
うに各周波数ビン n, m ごとではなく,各フレーム n ごとに
一挙に分離を行うことで,周波数ビン間の相関を考慮しな
がら高品質な分離が可能となる.
6.統計的音響信号処理の最先端
最後に,LPC と PSDTF を確率的に統合することで,
LPC, NMF, CAR をすべて包含した統一的な確率モデルを
映像情報メディア学会誌 Vol. 69, No. 2(2015)
1.統計的音響信号処理の新展開
構成できることを示す.以降,4.2 項で示した CAR の流れ
なく,本解説が自然言語処理や画像処理などの他のメディ
に沿って説明する.まず,ソース i の複素スペクトル s̃ i
ア情報処理分野のさらなる発展に役立てば幸いである.
={Si(e
iωm
)}M
m=1 は,周波数ビン間の相関を考慮した複素ガウ
si ∼ N c (0, Vi )
謝辞 本研究の一部は,JSPS 科研費 26700020, 24220006,
24700168 および JST CREST「OngaCREST プロジェクト」
ス分布に従うことを仮定する.
(39)
の支援を受けた.貴重なアドバイスをくださった亀岡弘和
氏(東京大学/NTT)に感謝する.
ここで,Vi は共分散行列であり,CAR における式(24)の
〔文 献〕
ように対角行列とは限らない.あるフレーム n のソース i
とフィルタ j の組合せに起因する複素スペクトル x̃ i j n =
{Xijn(eiω )}M
(26)の線形性からやはり複素ガウス分
m=1 は,式
m
布に従うことがわかる.
x ijn ∼ N c (0, hijn (diag (f j ) Vidiag (f j ) H ))
(40)
ここで,f˜j = {Fj(eiω )}M
(24)で定まるフィルタ j の複
m=1 は,式
素スペクトルであり,分散行列を Yijn= hijn(diag (f˜j) Vidiag
m
(f̃ j)H )としておく.混合音の複素スペクトル x̃n= {Xn(eiω )}M
m=1
m
は,あらゆるソース i とフィルタ j の組合せの和であるから,
複素ガウス分布の再生性に着目すると,
x n ∼ N c (0, Yn )
(41)
を得る.ここで,Yn=∑ij Yijn とした.これは基底数が IJ 個
の PSDTF に対して,LPC が確率的に組み入れられた統合
モデルとなっている.これを最小化するには,2.3 項および
5.2 項で紹介した乗法更新アルゴリズムを組合せて用いるこ
とができる.
さらに,各変数に事前分布を導入することで確率モデル
のベイズ的な取り扱いも可能である 14).このとき,近年着
目されているノンパラメトリックベイズ理論を用いて,理
論的には無限の複雑さを持つベイズモデルを構成できるこ
ともできる 15)6).具体的には,ソースの重み{ θ i} Ii=1 および
フィルタの重み{ φi} Jj=1 を考え,I, J →∞の極限でほとんど
の要素がゼロとなるようなスパースな学習を行うことによ
り,データに合わせて自動的に実行的な複雑さを決定する
ことができる.
7.むすび
本稿では,ISダイバージェンス最小化という統一的な視点
から,信号処理分野発祥のLPC,画像処理分野発祥のNMF,
さらに機械学習技術を取り込みつつ音響信号処理分野で独
自の進化を遂げた CAR や PSDTF などの最新の統計的音響
(2014 年 10 月 25 日受付)
1)F. Itakura and S. Saito: "Analysis synthesis telephony based on the
maximum likelihood method", Int. Cong. on Acoust., pp.C17-C20
(1968)
2)C. Févotte et al.: "Nonnegative matrix factorization with the ItakuraSaito divergence: with application to music analysis", Neural
Computation, 21, 3, pp.793-830(2009)
3)K. Yoshii et al.: "Infinite positive semidefinite tensor factorization for
source separation of mixture signals", ICML, pp.576-584(2013)
4)K. Yoshii et al.: "Beyond NMF: Time-domain audio source separation
without phase reconstruction", ISMIR, pp.369-374(2013)
5)H. Kameoka and K. Kashino: "Composite autoregressive system for
sparse source-filter representation of speech", ISCAS, pp.2477-2480
(2009)
6)K. Yoshii and M. Goto: "Infinite composite autoregressive models for
music signal analysis", ISMIR, pp.79- 84(2012)
7)亀岡弘和ほか:“マルチカーネル線形予測モデルによる音声分析”,
日本音響学会春季研究発表会,pp.499-502(2010)
8)K. Yoshii and M. Goto: "Infinite kernel linear prediction for joint
estimation of spectral envelope and fundamental frequency",
ICASSP, pp.463-467(2013)
9)鹿野清宏ほか:“音声認識システム”,オーム社(2001)
10)
R. Hennequin et al.: "NMF with time-frequency activations to model
nonstationary audio events", IEEE TASLP, 19, 4, pp.744-753(2011)
11)
P. Smaragdis and J.C. Brown: "Non-negative matrix factorization for
polyphonic music transcription", WASPAA, pp.177-180(2003)
12)
亀岡弘和:“非負値行列因子分解の音響信号処理への応用”,日本音
響学会誌,68,11,pp.559-565(2012)
13)
B. Kulis, M. Sustik and I. Dhillon: "Low-rank kernel learning with
Bregman matrix divergences", JMLR, 10, pp.341-376(2009)
14)
A.T. Cemgil: "Bayesian inference for nonnegative matrix
factorisation models", Comp. Int. and Neurosci(2009)
15)
M. Hoffman et al.: "Bayesian nonparametric matrix factorization for
recorded music", ICML, pp.439-446(2010)
16)
亀岡弘和ほか:“音声 F0 パターン生成過程の確率モデル”,日本音響
学会秋季研究発表会,pp.207-210(2010)
17)
亀岡弘和:“全極型声道モデルと F0 パターン生成過程モデルを内部
に も つ 統 一 的 音 声 生 成 モ デ ル ”, 日 本 音 響 学 会 秋 季 研 究 発 表 会 ,
pp.211-214(2010)
よ し い
かずよし
吉井 和佳
2008 年,京都大学大学院情報学研究
科博士後期課程修了.同年,産業技術総合研究所情報
技術研究部門に入所.2014 年,京都大学大学院情報
学研究科講師に着任.音楽情報処理,統計的音響信号
処理の研究に従事.博士(情報学).
信号処理技術について述べた.温故知新の言葉通り,古典
的な音響理論を現代風に確率モデルとして再定式化するこ
とで,最先端の確率モデルのパーツとして組み入れるアプ
ローチは非常に有望である.好例として,音声の F0 の動き
をよく説明できる藤崎モデル(1980 年代に発表)を HMM の
いとやま
かつとし
糸山 克寿
2011 年,京都大学大学院情報学研究
科博士後期課程修了.同年,同大学研究科助教に着任.
音楽情報処理,音楽鑑賞インタフェース等の研究に従
事.博士(情報学).
枠組みで再定式化を行い 16),音響信号に対する F0 推定のた
めの確率モデルに組み入れた研究が挙げられる 17).このア
プローチは決して音響信号処理分野に限定されるものでは
(15) X