スパース周期信号分解とその単一チャネル音声分離への応用

スパース周期信号分解とその単一チャネル音声分離への応用
学籍番号:29C07026
1
飯國研究室
奥村 浩之
はじめに
表 1: 提案法と MaxVQ の分離結果の SNR(平均)[dB]
本報告では,スパース周期信号分解を提案し,それを単
異性 同性
一チャネル音声分離へ応用する.スパース周期信号分解は,
混合信号をエンベロープ変化を伴う少ない数の周期信号へ
提案法
7.76 4.73
分解する方法である.音声分離法は一般に,混合音声を適
当な信号群へ分解し,その信号群を各話者へ振り分ける.
MaxVQ 6.27 3.92
提案する音声分離法は,スパース周期信号分解により混合
音声を少ない数の信号へ分解する.したがって,信号分解
に DFT を用いる方法 [2] よりも,分解結果に現れる信号
を各話者へ容易に振り分けることができる.
の推定信号 fS1 , fS2 は,fC1 , fC2 を fS1 , fS2 に振り分ける
ことで得られる.振り分け方は 4 通り考えられるが,この
中から最大化問題
2 スパース周期信号分解
振幅時変 p 周期信号 fp (n) を,振幅が周期毎に変化する
p 周期の信号として,
⌊N −1⌋/p
fp (n) =
∑
ap,k tp (n − kp)
T
T
maxi fS1
· c1,i /∥c1,i ∥2 + maxj fS2
· c2,j /∥c2,j ∥2
∥fS1 ∥2 + ∥fS2 ∥2
(4)
の解を音声分離結果とする.{c1,i }, {c2,j } は各話者のコー
(1) ドブックである.
k=0
と定義する.ただし,テンプレート tp (n) は平均が 0 の数
列で,n ∈ [0, p − 1] で非零要素,それ以外で零を持つ.ま
た,振幅系数列 ap,k は k ∈ [0, ⌊N − 1⌋/p] で定義される
非負の数列である.スパース周期信号分解では,入力信号
f (n) を
∑
f (n) =
fp (n)
(2)
p∈P
と表す信号モデルを用いる.P は周期の集合である.以
下では,f (n), fp (n) をベクトル表示し,それぞれ f , fp と
表す.入力信号 f に対して,周期信号群 {fp }p∈P は一意に
決めることができない.そこで,周期信号の発生源が少な
いと仮定し,スパース信号分解の方法として知られている
BPDN[1] を応用して,スパース性に関するペナルティを
含んだコスト関数
E=
∑
∑
1
∥f −
fp ∥22 +
λp ∥fp ∥2
2
p∈P
(3)
p∈P
を導入する.λp は近似精度とスパース性を調整するパラ
メータである.このコスト関数の値を減少させながら,周
期信号群への信号分解を実現する.コスト関数の値は,緩
和法により減少させる.すなわち,注目する変数の値以外
を固定してテンプレートと振幅係数を更新する操作を反復
し,解を求める.スパース周期信号分解は,混合信号を少
ない数の周期信号へ分解し,源信号のエンベロープ変化を
推定できる.
3
単一チャネル音声分離への応用
4
音声分離実験
提案する音声分離法を,DFT に基づく音声分離法であ
る MaxVQ[2] の性能と比較するために,8kHz サンプリン
グで録音された男女各 8 人,各人 2 個の 8 秒程度の音声を
用意し,各 2 人組の瞬時混合音声に対して各方法を適用し
た.各源音声は,混合音声の源音声に対する SNR が 0dB
になるように振幅を調整した.8kHz サンプリングで 10 文
程度の文章を読み上げた音声から,非音声部分を除去した
ものを,参照信号として用いた.分離結果の SNR の平均
を,混合音声の話者が同性か異性で分けて,表 1 に示す.
表 1 から,提案法の分離結果が MaxVQ の分離結果よりも
高い SNR を示していることがわかる.
また,MaxVQ の振り分けの計算量が O(Nc Ns ) である
のに対し,提案法の振り分けの計算量は O(Ns Ns +1 Nc ) で
ある.ここで,Ns は話者の数,Nc はコードブックの代
表ベクトルの数である.Ns ≪ Nc であるので,提案法の
振り分けの計算量は,MaxVQ の振り分けの計算量よりも
小さい.実際,Ns = 2, Nc = 256 として 8 秒の混合音声
の振り分けの計算時間を測定したところ,MaxVQ が 1 分
10 秒程度であったのに対し,提案法は 4 秒程度であった.
コードブックを作成する時間を除いた音声分離全体の計算
時間は,MaxVQ が 1 分 10 秒程度,提案法は 1 分 50 秒程
度であった.
5
まとめ
本報告では,スパース周期信号分解を提案し,それを
単一チャネル音声分離へ応用した.スパース周期信号分解
は,混合信号をエンベロープ変化を伴う少ない数の周期信
号へ分解できる.スパース周期信号分解に基づく音声分離
法は,分解結果に現れる信号を各話者へ容易に振り分けら
れる.信号の振り分け法を改良することで,分離性能を向
上させることが今後の課題である.
スパース周期信号分解を,音声分離へ応用する.話者が
2 人の場合について述べるが,それ以上の場合も同様の音
声分離法を考えることができる.まず,混合音声をフレー
ムに分割し,各フレームに対してスパース周期信号分解を
適用する.得られた周期信号を k 平均法で,2 つのクラス 参考文献
にクラスタリングする.これにより得られた 2 つの信号
fC1 , fC2 を各話者へ振り分ければ音声分離が実現される. [1] S. S. Chen, D. L. Donoho and M. A. Saunders, “Atomic
decomposition by basis pursuit,” SIAM Jounal on scien振り分けには,各話者のコードブックを利用する.コード
tific computing, Vol.20, No.1, pp.33-61, 1998
ブックは,次のように作成する.事前に各話者の音声から
非音声区間を除去した信号を参照信号として用意し,これ [2] S. T. Roweis, “Factorial models and re-filtering for
をフレームに分割して各フレームでスペクトルを求める.
speech separation and denoising,” Eurospeech, Vol.7,
No.6, pp.1009-1012, 2003
このスペクトル群に LBG アルゴリズム適用し,類似した
スペクトルをまとめたものをコードブックとする.各話者