NMFとVQ手法による音楽重量音声の音楽除去と音声認識

2-P-14(b)
NMF と VQ 手法による音楽重畳音声の音楽除去と音声認識∗
☆仲野翔一, 山本一公, 中川聖一 (豊橋技術科学大)
1
はじめに
背景雑音のある音声を認識する際には,雑音の影
響を軽減する処理を行う必要がある.一般的な雑音
除去の手法としては,スペクトルサブトラクション法
や Wiener フィルタが挙げられる.しかし,これらの
手法は定常的な雑音に対しては有効であるが,非定
常な雑音では有効でない.そこで本稿では非定常な
信号である音楽が背景雑音として重畳された音楽重
畳音声の音楽除去を検討する.
背景音楽を除去する手法としては,ベイジアンネッ
トワークを用いてマスクパターンを生成し,バイナ
リマスキングをかけることで分離する方法 [1] が提案
されている.複数話者の混合音声に対する音声認識
の研究も行われている [2].また,マルチマイクロホ
ンによる複数チャネル入力が利用できる場合の音源
分離手法としては,独立成分分析に基づく手法が広
く用いられている [3].
本稿では,シングルマイクロホンによる背景音
楽を含む入力音声に対して,ベクトル量子化 (Vector Quantization:VQ) 手法 [4] と非負値行列因子分解
(Nonnegative Matrix Factorization: NMF) 法 [5] の
2 つの手法で背景音楽の除去を行い,それらの手法が
音声認識率へ与える影響について検討する.NMF を
用いる背景音楽抑圧手法として,複数フレームを考
慮した複素 NMFD により求めた振幅スペクトルから
Wiener フィルタを構成する手法 [6] が提案されてい
るが,本稿では一般的な NMF の枠組みで直接音声ス
ペクトルを復元する手法を採用する.
2
ベクトル量子化手法による音楽除去
本手法は統計的な手法による雑音重畳音声の分離
法 [7] をベクトル量子化手法で簡易的に実現する方法
である.
Fig. 1 に VQ コードブックマッピングによるスペク
トル置換を用いた音楽除去の概略図を示す.手法の手
順を以下に示す.以下の処理は振幅スペクトル領域で
行う.
1. クリーン音声 (音楽が重畳されていない音声) S(i)
に音楽 M (i) を重畳して,音楽重畳音声 Y (i) =
S(i) + M (i) を作成する.i はフレーム番号を
表す.
2. 音楽重畳音声とそれに対応する音楽の振幅スペ
クトルのペアを作成する.
∗
Fig. 1
VQ 手法の概略図
{Y (i) = S(i) + M (i), M (i)}
3. スペクトルペアを特徴量として VQ コードブッ
ˆ (k)}
クを作成する.{Yˆ (k), M
4. 入力音声 (音楽重畳音声) Y (j) と VQ コードブッ
クのコードベクトルの音楽重畳音声部分の振幅
スペクトルでスペクトル間の距離を計算する.
D(j, k) = ||Y (j) − Yˆ (k)||
5. 最も距離が近い VQ コードベクトルから音楽部
分の振幅スペクトルを取り出し,入力音声の振
幅スペクトルから差し引く.
ˆ
ˆ
ˆ (k),
S(j)
= Y (j) − M
kˆ = arg min D(j, k)
k
6. 減算結果が負になる場合は,0 の値にフロアリン
グする.
7. 音声成分だけが残ったスペクトルから音声波形
を復元する.位相は Y (j) の値を用いる.
学習データを用いて手順 1 ∼ 3 を予め行っておいて,
各入力音声に対して手順 4 ∼ 7 を行う.
本稿では,疑似的にパターン数を増やすために,ス
ペクトル帯域を 4 分割してベクトル量子化を行った.
3
非負値行列因子分解法による分離
近年,歌声を含む音楽を歌声と楽器音に分離したり
[8],音楽重畳音声を音楽と音声に分離する [9] といっ
た音源分離課題に対して,NMF 法の利用が研究され
ている.
NMF 法は,n × m 行列 V を n × r 行列 W と r × m
行列 H に分解する手法である.
V ≈ WH
(1)
Music removal from mixed sound and speech recognition by methods of vector quantization and nonnegative matrix factorization. by NAKANO, Shoichi, YAMAMOTO, Kazumasa, NAKAGAWA, Seiichi
(Toyohashi University of Technology)
日本音響学会講演論文集
- 159 -
2011年3月
Table 1
音楽除去の実験結果
入力・手法
音楽重畳音声
VQ 手法で音楽除去
NMF 法で音楽除去
−5dB
−4.36
5.97
5.83
SNR[dB]
SNR
0dB
0.82
8.64
7.94
10dB
11.28
15.35
10.45
NMF 法による音声と音楽の分離の手順をまとめる
と以下のようになる.
Fig. 2
1. 音声と音楽の代表スペクトル Ws ,Wm を求め,
結合し行列 W とする.
2. 入力音声の振幅スペクトログラムを求め行列 V
とする.
3. Eq.(3) の反復により重み行列 H を求める.
4. Ws Hs と Wm Hm を求め音声と音楽へ分離する.
NMF による分離
行列 V ,W ,H のすべての要素は非負であるという
制約の下で,コスト関数を定義し,これを最小化する
W と H を分解結果とする.ここでは,V と W H と
の距離であるカルバック・ライブラー・ダイバージェ
ンス DKL をコスト関数とする.DKL は次のように
定義される.
)
∑(
Vij
DKL =
− Vij + (W H)ij
Vij log
(W H)ij
i,j
(2)
以下の更新式で DKL が増加しないように V と W H
を更新することができる.
∑
Wki Vkj /(W H)kj
Hij ← Hij k ∑
(3)
k Wkj
∑
Hjk Vik /(W H)ik
Wij ← Wij k ∑
(4)
k Wjk
DKL が収束するまで更新を繰り返して,得られた W
と H を分解結果とする.
本稿では,文献 [10] の NMF 法を用いた音素認識法
の考えを参考にして音楽重畳音声を音声と音楽に分
離する.行列 V を入力音声の各フレームの振幅スペ
クトルを列ベクトルとして時系列に m 個 (発声時間
長) 並べた振幅スペクトログラムとして,これが,音
声と音楽の代表スペクトルを列ベクトルとして r 個
並べた行列 W と,各代表スペクトルに対するフレー
ムごとの重みを行ベクトルとして r 個並べた行列 H
に分解されると考える.ここで,あらかじめ音声の代
表スペクトル行列 Ws と音楽の代表スペクトル行列
Wm を求めておいて,W = [Ws Wm ] とする.この W
を使って Eq.(3) の更新式で H を求める (W は固定).
Ws に対する重みを Hs ,Wm に対する重みを Hm と
すると,
V ≈ Ws Hs + Wm Hm
(5)
となり,Ws Hs が音声,Wm Hm が音楽となるように
分離できる.Fig. 2 に NMF 法の概略図を示す.
日本音響学会講演論文集
4
4.1
音楽除去の評価
実験条件
本実験では,JNAS データベースの音素バランス文
から男女 103 名ずつ,各話者 5 文の計 1, 030 文を学
習,JNAS データベースの新聞記事文から,学習に含
まれていない男女 5 名ずつ,各話者 1 文の計 10 文を
テストに使用した.背景音楽はピアノ音だけの 1 曲
(「パッヘルベルのカノン」) を用いた.音声データは
サンプリング周波数 8kHz,サンプリング精度 16bit
のモノラル音声である.
VQ 手法のコードブックは 1, 030 文に SNR が 40dB,
20dB,10dB,0dB になるように音楽を重畳したもの
で作成した.コードブックサイズは 8, 192 で,スペ
クトル領域において均等帯域で 4 分割したコードベ
クトル (64 次元) となっている.特徴抽出は窓長 512
点 (256 次元のスペクトル),フレームシフト 256 点で
ある.
NMF 法の行列 W の代表スペクトルは VQ 手法に
より音声,音楽ともに 512 個ずつ選んだ.特徴抽出
は窓長 256 点,フレームシフト 128 点である.
テストデータは 10 文に SNR が 10dB,0dB,−5dB
となるように音楽を重畳したものを用いた.
評価指標としては以下の式で表されるスペクトル
領域での SNR を用いた.
∑
2
t,f St,f
SN R = 10 log10 ∑ (
)2 [dB] (6)
St,f − Sˆt,f
t,f
ここで,St,f はクリーン音声のスペクトル,Sˆt,f は音
楽除去後の推定音声スペクトルである.
4.2
実験結果
実験結果を Table 1 に示す.テストデータの平均
SNR が −5dB の場合,音楽重畳音声では −4.36dB
であった評価指標は,VQ 手法で音楽除去を行うと
- 160 -
2011年3月
5
5.1
Fig. 3 SNR= 0dB の場合のスペクトログラムの例
(発話内容 “前回北京アジア大会では 0 対 5 と大敗し
ている”).上から順にクリーン音声,音楽重畳音声,
VQ 手法で音楽除去,NMF 法で音楽除去
日本音響学会講演論文集
実験条件
本実験では,東北大–松下単語音声データベースか
ら 200 単語,20 話者分について,15 話者分を学習,5
話者分をテストに使用した.音声データはサンプリン
グ周波数 12kHz,サンプリング精度 16bit のモノラル
音声である.背景音楽はピアノ音だけの 1 曲 (「パッ
ヘルベルのカノン」) を用いた.単語区間は目視によ
り手動で切り出した.
VQ 手法のコードブックは,15 話者分の学習デー
タに SNR が 10dB,0dB,−5dB,−10dB となるよ
うに音楽を重畳したもので作成した.コードブックサ
イズは 8, 192,特徴抽出は窓長 512 点,フレームシ
フト 256 点である.
NMF 法の行列 W の代表スペクトルは VQ 手法に
より音声,音楽ともに 512 個ずつ選んだ.特徴抽出
は窓長 256 点,フレームシフト 128 点である.
音声認識の音響モデルは,状態数 14,ガウス分布の
混合数 8 (対角共分散行列) の単語 HMM である.特
徴パラメータは MFCC 38 次元 (MFCC + ∆MFCC +
∆∆MFCC + ∆パワー + ∆∆パワー) で,窓長 25ms,
フレームシフト 10ms で抽出した.
テストデータは,5 話者分の音声に SNR が 10dB,
0dB,−5dB になるように音楽を重畳して用いた.ま
た,VQ 手法と NMF 法の併用として, VQ 手法で音
楽除去してから認識した尤度と NMF 法で音楽除去し
てから認識した尤度を以下の式のように重み付きの
線形結合でリスコアリングを行った (α を 0.0 ∼ 1.0
まで 0.1 刻みで変化させ最大値を結果とした).
P = (1 − α)PV Q + αPN M F
5.2
5.97dB に,NMF 法で音楽除去を行った場合は 5.83dB
になり,両手法で 10dB 前後の改善が得られた.同様
にテストデータの平均 SNR が 0dB の場合は,両手法
で 8dB 前後の改善が得られた.10dB の場合は,VQ
手法で音楽除去した場合は約 4dB 改善が得られたの
に対して,NMF 法で音楽除去した場合は約 1dB 悪
くなってしまった.これは,VQ 手法での音楽除去は
音楽が少し残ってしまうものの音声は元のまま保存
されるのに対して,NMF 法での音楽除去では音楽は
ほぼ除去できるが音声が少し歪んでしまうことが原
因であると考えられる.
発話 “前回北京アジア大会では 0 対 5 と大敗してい
る” に対するスペクトログラムを Fig. 3 に示す.視
覚的には NMF 法よりも VQ 手法の方が音声を復元
できていることがわかる.
孤立単語認識実験
(7)
実験結果
クリーン音声で学習した HMM で認識した場合の
結果を Table 2 に示す.テストデータとしてクリーン
音声を認識する場合の認識率は 98.8% であるが,テス
トデータに音楽が重畳されると 10dB で 60.4%,0dB
で 7.2%,−5dB で 1.8% と認識率は大きく低下した.
ここで,VQ 手法で音楽除去を行ってから認識すると,
10dB で 68.4%,0dB で 33.1%,−5dB で 15.8% と改
善が得られた.一方,NMF 法で音楽除去を行ってか
ら認識した場合は,10dB で 51.8%,0dB で 20.9%,
−5dB で 9.54% となり 10dB では逆に認識性能が悪
くなってしまった.これは,VQ 手法での音楽除去は
音楽が少し残ってしまうものの音声は元のままである
のに対して,NMF 法での音楽除去は音楽はほぼ除去
できるが一方で音声が少し歪んでしまうことが原因
であると考えられる.尤度結合による両手法の併用で
は,10dB で 75.1%,0dB で 35.9%,−5dB で 17.4%
となり,VQ 手法で音楽除去した場合よりさらに改善
- 161 -
2011年3月
Table 2
クリーン音声のモデルでの認識率 [%]
入力・手法
音楽重畳音声 (未処理)
VQ 手法で音楽除去
NMF 法で音楽除去
両手法の併用
クリーン音声
Table 3
−5dB
1.8
15.8
9.5
17.4
SNR
0dB
7.2
33.1
20.9
35.9
98.8
音楽重畳音声 (未処理)
クリーン音声
−5dB
35.4
SNR
0dB
76.3
60.9
10dB
96.3
が得られた.10dB の場合では音楽除去を行わない場
合から比べて約 15% の改善が得られた.
次に,10dB と 0dB の音楽重畳音声を混合して学
習した HMM で認識した場合の結果を Table 3 に示
す.音楽重畳音声の認識率は 10dB で 96.3%,0dB で
76.3%,−5dB で 35.4% となった.10dB の場合では
96.6% となり,クリーン音声のモデルでクリーン音声
を認識した場合の 98.8% に近い結果となった.一方,
クリーン音声の認識率は 60.9% と大幅に下がった (ク
リーン音声も含めた学習が必要であることがわかる).
続いて,10dB と 0dB の音楽重畳音声に対して VQ
手法で音楽除去を行った後の音声で学習した HMM
で認識した場合の結果を Table 4 に示す.VQ 手法で
音楽除去を行ってから認識した場合の認識率は 10dB
で 97.4%,0dB で 89.7%,−5dB で 69.3% となった.
10dB の場合でクリーン音声のモデルでクリーン音声
を認識した場合と同程度,0dB の場合でも約 90% と高
い認識率が得られた.また,クリーン音声でも 98.2%
となり,クリーン音声のモデルでクリーン音声を認識
した場合とほぼ同じ認識率が得られた.
Table 3 と Table 4 を比較すると,マッチド条件で
ある音楽重畳音声のモデルによる音楽重畳音声の認
識率よりも,本手法による音楽除去後のマッチド条件
の方が認識率が大幅に向上し,誤り率が半減してい
ることが分かる.
6
まとめ
本稿では非定常な信号である音楽を背景雑音とし
て,音楽重畳音声から音楽除去することが音声認識
率に与える影響について 2 つの手法で比較・検討を
行った.
クリーン音声のモデルで孤立単語認識した場合,音
楽除去を行うことで除去を行わない場合に比べて単
語認識率で約 15% の改善が得られた.また,VQ 手
法で音楽除去を行った後の音声でモデルを作ること
で,0dB でも約 90% と高い認識率が得られた.
日本音響学会講演論文集
音楽除去後の音声のモデルでの認識率 [%]
入力・手法
10dB
60.4
68.4
51.8
75.1
音楽重畳音声のモデルでの認識率 [%]
入力・手法
Table 4
VQ 手法で音楽除去
音楽重畳音声 (未処理)
クリーン音声
−5dB
69.3
4.2
SNR
0dB
89.7
23.6
98.2
10dB
97.4
88.8
今後の課題としては,NMF 法は,入力音声ごとに,
行列分解を行う必要があり,計算量が多いため実用
的でないことを解決することが挙げられる.1 案とし
て,学習データの混合音声から VQ コードブックを
作成し,この VQ コードベクトル集合を行列分解し
ておき,入力音声をベクトル量子化して,対応する分
解結果を用いる方法が有効だと考えている.これは,
VQ 手法と NMF 法の融合法と考えられる.また,今
回の評価実験では,背景音楽としてピアノ曲 1 曲だ
けを使用したが,多種の音楽を重畳した評価実験も
行う必要がある.そのほかには,単語区間の切り出し
を自動で行うことなども今後の課題である.
参考文献
[1] 伊藤 他, “ベイジアンネットワークを用いたバイ
ナリマスキングに基づく音源分離,” 情報処理学会
研究報告, vol.2008, no.72, pp.51–56, 2008.
[2] M. Cooke, J. R. Hershey, S. J. Rennie, “Monaural speech separation and recognition challenge,”
Computer Speech and Language, vol.24, no.1,
pp.1–15, 2010.
[3] 猿渡 洋, “独立成分分析による音源分離技術,” 電
気学会誌, vol.127, no.7, pp.413–416, 2007.
[4] K. Yamamoto, S. Nakagawa, “Evaluation of privacy protection techniques for speech signals,”
Proc. IPMU 2010, pp.653–662, 2010.
[5] D. D. Lee, H. S. Seung, “Algorithms for Nonnegative Matirix Factorization,” Proc. NIPS
2000, pp.556–562, 2000.
[6] 北野 他, “複素 NMFD による音声抽出マスクの設
計と背景音楽抑圧への応用,” 日本音響学会 2009
年春季研究発表会講演論文集, 3-9-6, pp.719–720,
2009.
[7] R. Blouet et al., “Evaluation of several strategies
for single sensor speech/music separation,” Proc.
ICASSP 2008, pp.37–40, 2008.
[8] A. Mesaros, T. Virtanen, “Recognition of
phonemes and words in singing,” Proc. ICASSP
2010, pp.2146–2149, 2010.
[9] B. Raj et al., “Non-Negative Matrix Factorization Based Compensation of Music for Automatic Speech Recognition,” Proc. INTERSPEECH 2010, pp.717–720, 2010.
[10] B. Schuller, F. Weninger, “Discrimination of
speech and non-linguistic vocalizations by nonnegative matrix factorization,” Proc. ICASSP
2010, pp.5054–5057, 2010.
- 162 -
2011年3月