スパース周期信号分解とその単一チャネル音声分離への応用 学籍番号:29C07026 1 飯國研究室 奥村 浩之 はじめに 表 1: 提案法と MaxVQ の分離結果の SNR(平均)[dB] 本報告では,スパース周期信号分解を提案し,それを単 異性 同性 一チャネル音声分離へ応用する.スパース周期信号分解は, 混合信号をエンベロープ変化を伴う少ない数の周期信号へ 提案法 7.76 4.73 分解する方法である.音声分離法は一般に,混合音声を適 当な信号群へ分解し,その信号群を各話者へ振り分ける. MaxVQ 6.27 3.92 提案する音声分離法は,スパース周期信号分解により混合 音声を少ない数の信号へ分解する.したがって,信号分解 に DFT を用いる方法 [2] よりも,分解結果に現れる信号 を各話者へ容易に振り分けることができる. の推定信号 fS1 , fS2 は,fC1 , fC2 を fS1 , fS2 に振り分ける ことで得られる.振り分け方は 4 通り考えられるが,この 中から最大化問題 2 スパース周期信号分解 振幅時変 p 周期信号 fp (n) を,振幅が周期毎に変化する p 周期の信号として, ⌊N −1⌋/p fp (n) = ∑ ap,k tp (n − kp) T T maxi fS1 · c1,i /∥c1,i ∥2 + maxj fS2 · c2,j /∥c2,j ∥2 ∥fS1 ∥2 + ∥fS2 ∥2 (4) の解を音声分離結果とする.{c1,i }, {c2,j } は各話者のコー (1) ドブックである. k=0 と定義する.ただし,テンプレート tp (n) は平均が 0 の数 列で,n ∈ [0, p − 1] で非零要素,それ以外で零を持つ.ま た,振幅系数列 ap,k は k ∈ [0, ⌊N − 1⌋/p] で定義される 非負の数列である.スパース周期信号分解では,入力信号 f (n) を ∑ f (n) = fp (n) (2) p∈P と表す信号モデルを用いる.P は周期の集合である.以 下では,f (n), fp (n) をベクトル表示し,それぞれ f , fp と 表す.入力信号 f に対して,周期信号群 {fp }p∈P は一意に 決めることができない.そこで,周期信号の発生源が少な いと仮定し,スパース信号分解の方法として知られている BPDN[1] を応用して,スパース性に関するペナルティを 含んだコスト関数 E= ∑ ∑ 1 ∥f − fp ∥22 + λp ∥fp ∥2 2 p∈P (3) p∈P を導入する.λp は近似精度とスパース性を調整するパラ メータである.このコスト関数の値を減少させながら,周 期信号群への信号分解を実現する.コスト関数の値は,緩 和法により減少させる.すなわち,注目する変数の値以外 を固定してテンプレートと振幅係数を更新する操作を反復 し,解を求める.スパース周期信号分解は,混合信号を少 ない数の周期信号へ分解し,源信号のエンベロープ変化を 推定できる. 3 単一チャネル音声分離への応用 4 音声分離実験 提案する音声分離法を,DFT に基づく音声分離法であ る MaxVQ[2] の性能と比較するために,8kHz サンプリン グで録音された男女各 8 人,各人 2 個の 8 秒程度の音声を 用意し,各 2 人組の瞬時混合音声に対して各方法を適用し た.各源音声は,混合音声の源音声に対する SNR が 0dB になるように振幅を調整した.8kHz サンプリングで 10 文 程度の文章を読み上げた音声から,非音声部分を除去した ものを,参照信号として用いた.分離結果の SNR の平均 を,混合音声の話者が同性か異性で分けて,表 1 に示す. 表 1 から,提案法の分離結果が MaxVQ の分離結果よりも 高い SNR を示していることがわかる. また,MaxVQ の振り分けの計算量が O(Nc Ns ) である のに対し,提案法の振り分けの計算量は O(Ns Ns +1 Nc ) で ある.ここで,Ns は話者の数,Nc はコードブックの代 表ベクトルの数である.Ns ≪ Nc であるので,提案法の 振り分けの計算量は,MaxVQ の振り分けの計算量よりも 小さい.実際,Ns = 2, Nc = 256 として 8 秒の混合音声 の振り分けの計算時間を測定したところ,MaxVQ が 1 分 10 秒程度であったのに対し,提案法は 4 秒程度であった. コードブックを作成する時間を除いた音声分離全体の計算 時間は,MaxVQ が 1 分 10 秒程度,提案法は 1 分 50 秒程 度であった. 5 まとめ 本報告では,スパース周期信号分解を提案し,それを 単一チャネル音声分離へ応用した.スパース周期信号分解 は,混合信号をエンベロープ変化を伴う少ない数の周期信 号へ分解できる.スパース周期信号分解に基づく音声分離 法は,分解結果に現れる信号を各話者へ容易に振り分けら れる.信号の振り分け法を改良することで,分離性能を向 上させることが今後の課題である. スパース周期信号分解を,音声分離へ応用する.話者が 2 人の場合について述べるが,それ以上の場合も同様の音 声分離法を考えることができる.まず,混合音声をフレー ムに分割し,各フレームに対してスパース周期信号分解を 適用する.得られた周期信号を k 平均法で,2 つのクラス 参考文献 にクラスタリングする.これにより得られた 2 つの信号 fC1 , fC2 を各話者へ振り分ければ音声分離が実現される. [1] S. S. Chen, D. L. Donoho and M. A. Saunders, “Atomic decomposition by basis pursuit,” SIAM Jounal on scien振り分けには,各話者のコードブックを利用する.コード tific computing, Vol.20, No.1, pp.33-61, 1998 ブックは,次のように作成する.事前に各話者の音声から 非音声区間を除去した信号を参照信号として用意し,これ [2] S. T. Roweis, “Factorial models and re-filtering for をフレームに分割して各フレームでスペクトルを求める. speech separation and denoising,” Eurospeech, Vol.7, No.6, pp.1009-1012, 2003 このスペクトル群に LBG アルゴリズム適用し,類似した スペクトルをまとめたものをコードブックとする.各話者
© Copyright 2024 ExpyDoc