スパース周期信号分解とその単一チャネル音声分離への応用学籍番号：29C07026 1 飯國研究室奥村浩之はじめに表 1: 提案法と MaxVQ の分離結果の SNR(平均)[dB] 本報告では，スパース周期信号分解を提案し，それを単異性同性一チャネル音声分離へ応用する．スパース周期信号分解は，混合信号をエンベロープ変化を伴う少ない数の周期信号へ提案法 7.76 4.73 分解する方法である．音声分離法は一般に，混合音声を適当な信号群へ分解し，その信号群を各話者へ振り分ける． MaxVQ 6.27 3.92 提案する音声分離法は，スパース周期信号分解により混合音声を少ない数の信号へ分解する．したがって，信号分解に DFT を用いる方法 [2] よりも，分解結果に現れる信号を各話者へ容易に振り分けることができる．の推定信号 fS1 , fS2 は，fC1 , fC2 を fS1 , fS2 に振り分けることで得られる．振り分け方は 4 通り考えられるが，この中から最大化問題 2 スパース周期信号分解振幅時変 p 周期信号 fp (n) を，振幅が周期毎に変化する p 周期の信号として， ⌊N −1⌋/p fp (n) = ∑ ap,k tp (n − kp) T T maxi fS1 · c1,i /∥c1,i ∥2 + maxj fS2 · c2,j /∥c2,j ∥2 ∥fS1 ∥2 + ∥fS2 ∥2 (4) の解を音声分離結果とする．{c1,i }, {c2,j } は各話者のコー (1) ドブックである． k=0 と定義する．ただし，テンプレート tp (n) は平均が 0 の数列で，n ∈ [0, p − 1] で非零要素，それ以外で零を持つ．また，振幅系数列 ap,k は k ∈ [0, ⌊N − 1⌋/p] で定義される非負の数列である．スパース周期信号分解では，入力信号 f (n) を ∑ f (n) = fp (n) (2) p∈P と表す信号モデルを用いる．P は周期の集合である．以下では，f (n), fp (n) をベクトル表示し，それぞれ f , fp と表す．入力信号 f に対して，周期信号群 {fp }p∈P は一意に決めることができない．そこで，周期信号の発生源が少ないと仮定し，スパース信号分解の方法として知られている BPDN[1] を応用して，スパース性に関するペナルティを含んだコスト関数 E= ∑ ∑ 1 ∥f − fp ∥22 + λp ∥fp ∥2 2 p∈P (3) p∈P を導入する．λp は近似精度とスパース性を調整するパラメータである．このコスト関数の値を減少させながら，周期信号群への信号分解を実現する．コスト関数の値は，緩和法により減少させる．すなわち，注目する変数の値以外を固定してテンプレートと振幅係数を更新する操作を反復し，解を求める．スパース周期信号分解は，混合信号を少ない数の周期信号へ分解し，源信号のエンベロープ変化を推定できる． 3 単一チャネル音声分離への応用 4 音声分離実験提案する音声分離法を，DFT に基づく音声分離法である MaxVQ[2] の性能と比較するために，8kHz サンプリングで録音された男女各 8 人，各人 2 個の 8 秒程度の音声を用意し，各 2 人組の瞬時混合音声に対して各方法を適用した．各源音声は，混合音声の源音声に対する SNR が 0dB になるように振幅を調整した．8kHz サンプリングで 10 文程度の文章を読み上げた音声から，非音声部分を除去したものを，参照信号として用いた．分離結果の SNR の平均を，混合音声の話者が同性か異性で分けて，表 1 に示す．表 1 から，提案法の分離結果が MaxVQ の分離結果よりも高い SNR を示していることがわかる．また，MaxVQ の振り分けの計算量が O(Nc Ns ) であるのに対し，提案法の振り分けの計算量は O(Ns Ns +1 Nc ) である．ここで，Ns は話者の数，Nc はコードブックの代表ベクトルの数である．Ns ≪ Nc であるので，提案法の振り分けの計算量は，MaxVQ の振り分けの計算量よりも小さい．実際，Ns = 2, Nc = 256 として 8 秒の混合音声の振り分けの計算時間を測定したところ，MaxVQ が 1 分 10 秒程度であったのに対し，提案法は 4 秒程度であった．コードブックを作成する時間を除いた音声分離全体の計算時間は，MaxVQ が 1 分 10 秒程度，提案法は 1 分 50 秒程度であった． 5 まとめ本報告では，スパース周期信号分解を提案し，それを単一チャネル音声分離へ応用した．スパース周期信号分解は，混合信号をエンベロープ変化を伴う少ない数の周期信号へ分解できる．スパース周期信号分解に基づく音声分離法は，分解結果に現れる信号を各話者へ容易に振り分けられる．信号の振り分け法を改良することで，分離性能を向上させることが今後の課題である．スパース周期信号分解を，音声分離へ応用する．話者が 2 人の場合について述べるが，それ以上の場合も同様の音声分離法を考えることができる．まず，混合音声をフレームに分割し，各フレームに対してスパース周期信号分解を適用する．得られた周期信号を k 平均法で，2 つのクラス参考文献にクラスタリングする．これにより得られた 2 つの信号 fC1 , fC2 を各話者へ振り分ければ音声分離が実現される． [1] S. S. Chen, D. L. Donoho and M. A. Saunders, “Atomic decomposition by basis pursuit,” SIAM Jounal on scien振り分けには，各話者のコードブックを利用する．コード tiﬁc computing, Vol.20, No.1, pp.33-61, 1998 ブックは，次のように作成する．事前に各話者の音声から非音声区間を除去した信号を参照信号として用意し，これ [2] S. T. Roweis, “Factorial models and re-ﬁltering for をフレームに分割して各フレームでスペクトルを求める． speech separation and denoising,” Eurospeech, Vol.7, No.6, pp.1009-1012, 2003 このスペクトル群に LBG アルゴリズム適用し，類似したスペクトルをまとめたものをコードブックとする．各話者