2-P-14(b) NMF と VQ 手法による音楽重畳音声の音楽除去と音声認識∗ ☆仲野翔一, 山本一公, 中川聖一 (豊橋技術科学大) 1 はじめに 背景雑音のある音声を認識する際には,雑音の影 響を軽減する処理を行う必要がある.一般的な雑音 除去の手法としては,スペクトルサブトラクション法 や Wiener フィルタが挙げられる.しかし,これらの 手法は定常的な雑音に対しては有効であるが,非定 常な雑音では有効でない.そこで本稿では非定常な 信号である音楽が背景雑音として重畳された音楽重 畳音声の音楽除去を検討する. 背景音楽を除去する手法としては,ベイジアンネッ トワークを用いてマスクパターンを生成し,バイナ リマスキングをかけることで分離する方法 [1] が提案 されている.複数話者の混合音声に対する音声認識 の研究も行われている [2].また,マルチマイクロホ ンによる複数チャネル入力が利用できる場合の音源 分離手法としては,独立成分分析に基づく手法が広 く用いられている [3]. 本稿では,シングルマイクロホンによる背景音 楽を含む入力音声に対して,ベクトル量子化 (Vector Quantization:VQ) 手法 [4] と非負値行列因子分解 (Nonnegative Matrix Factorization: NMF) 法 [5] の 2 つの手法で背景音楽の除去を行い,それらの手法が 音声認識率へ与える影響について検討する.NMF を 用いる背景音楽抑圧手法として,複数フレームを考 慮した複素 NMFD により求めた振幅スペクトルから Wiener フィルタを構成する手法 [6] が提案されてい るが,本稿では一般的な NMF の枠組みで直接音声ス ペクトルを復元する手法を採用する. 2 ベクトル量子化手法による音楽除去 本手法は統計的な手法による雑音重畳音声の分離 法 [7] をベクトル量子化手法で簡易的に実現する方法 である. Fig. 1 に VQ コードブックマッピングによるスペク トル置換を用いた音楽除去の概略図を示す.手法の手 順を以下に示す.以下の処理は振幅スペクトル領域で 行う. 1. クリーン音声 (音楽が重畳されていない音声) S(i) に音楽 M (i) を重畳して,音楽重畳音声 Y (i) = S(i) + M (i) を作成する.i はフレーム番号を 表す. 2. 音楽重畳音声とそれに対応する音楽の振幅スペ クトルのペアを作成する. ∗ Fig. 1 VQ 手法の概略図 {Y (i) = S(i) + M (i), M (i)} 3. スペクトルペアを特徴量として VQ コードブッ ˆ (k)} クを作成する.{Yˆ (k), M 4. 入力音声 (音楽重畳音声) Y (j) と VQ コードブッ クのコードベクトルの音楽重畳音声部分の振幅 スペクトルでスペクトル間の距離を計算する. D(j, k) = ||Y (j) − Yˆ (k)|| 5. 最も距離が近い VQ コードベクトルから音楽部 分の振幅スペクトルを取り出し,入力音声の振 幅スペクトルから差し引く. ˆ ˆ ˆ (k), S(j) = Y (j) − M kˆ = arg min D(j, k) k 6. 減算結果が負になる場合は,0 の値にフロアリン グする. 7. 音声成分だけが残ったスペクトルから音声波形 を復元する.位相は Y (j) の値を用いる. 学習データを用いて手順 1 ∼ 3 を予め行っておいて, 各入力音声に対して手順 4 ∼ 7 を行う. 本稿では,疑似的にパターン数を増やすために,ス ペクトル帯域を 4 分割してベクトル量子化を行った. 3 非負値行列因子分解法による分離 近年,歌声を含む音楽を歌声と楽器音に分離したり [8],音楽重畳音声を音楽と音声に分離する [9] といっ た音源分離課題に対して,NMF 法の利用が研究され ている. NMF 法は,n × m 行列 V を n × r 行列 W と r × m 行列 H に分解する手法である. V ≈ WH (1) Music removal from mixed sound and speech recognition by methods of vector quantization and nonnegative matrix factorization. by NAKANO, Shoichi, YAMAMOTO, Kazumasa, NAKAGAWA, Seiichi (Toyohashi University of Technology) 日本音響学会講演論文集 - 159 - 2011年3月 Table 1 音楽除去の実験結果 入力・手法 音楽重畳音声 VQ 手法で音楽除去 NMF 法で音楽除去 −5dB −4.36 5.97 5.83 SNR[dB] SNR 0dB 0.82 8.64 7.94 10dB 11.28 15.35 10.45 NMF 法による音声と音楽の分離の手順をまとめる と以下のようになる. Fig. 2 1. 音声と音楽の代表スペクトル Ws ,Wm を求め, 結合し行列 W とする. 2. 入力音声の振幅スペクトログラムを求め行列 V とする. 3. Eq.(3) の反復により重み行列 H を求める. 4. Ws Hs と Wm Hm を求め音声と音楽へ分離する. NMF による分離 行列 V ,W ,H のすべての要素は非負であるという 制約の下で,コスト関数を定義し,これを最小化する W と H を分解結果とする.ここでは,V と W H と の距離であるカルバック・ライブラー・ダイバージェ ンス DKL をコスト関数とする.DKL は次のように 定義される. ) ∑( Vij DKL = − Vij + (W H)ij Vij log (W H)ij i,j (2) 以下の更新式で DKL が増加しないように V と W H を更新することができる. ∑ Wki Vkj /(W H)kj Hij ← Hij k ∑ (3) k Wkj ∑ Hjk Vik /(W H)ik Wij ← Wij k ∑ (4) k Wjk DKL が収束するまで更新を繰り返して,得られた W と H を分解結果とする. 本稿では,文献 [10] の NMF 法を用いた音素認識法 の考えを参考にして音楽重畳音声を音声と音楽に分 離する.行列 V を入力音声の各フレームの振幅スペ クトルを列ベクトルとして時系列に m 個 (発声時間 長) 並べた振幅スペクトログラムとして,これが,音 声と音楽の代表スペクトルを列ベクトルとして r 個 並べた行列 W と,各代表スペクトルに対するフレー ムごとの重みを行ベクトルとして r 個並べた行列 H に分解されると考える.ここで,あらかじめ音声の代 表スペクトル行列 Ws と音楽の代表スペクトル行列 Wm を求めておいて,W = [Ws Wm ] とする.この W を使って Eq.(3) の更新式で H を求める (W は固定). Ws に対する重みを Hs ,Wm に対する重みを Hm と すると, V ≈ Ws Hs + Wm Hm (5) となり,Ws Hs が音声,Wm Hm が音楽となるように 分離できる.Fig. 2 に NMF 法の概略図を示す. 日本音響学会講演論文集 4 4.1 音楽除去の評価 実験条件 本実験では,JNAS データベースの音素バランス文 から男女 103 名ずつ,各話者 5 文の計 1, 030 文を学 習,JNAS データベースの新聞記事文から,学習に含 まれていない男女 5 名ずつ,各話者 1 文の計 10 文を テストに使用した.背景音楽はピアノ音だけの 1 曲 (「パッヘルベルのカノン」) を用いた.音声データは サンプリング周波数 8kHz,サンプリング精度 16bit のモノラル音声である. VQ 手法のコードブックは 1, 030 文に SNR が 40dB, 20dB,10dB,0dB になるように音楽を重畳したもの で作成した.コードブックサイズは 8, 192 で,スペ クトル領域において均等帯域で 4 分割したコードベ クトル (64 次元) となっている.特徴抽出は窓長 512 点 (256 次元のスペクトル),フレームシフト 256 点で ある. NMF 法の行列 W の代表スペクトルは VQ 手法に より音声,音楽ともに 512 個ずつ選んだ.特徴抽出 は窓長 256 点,フレームシフト 128 点である. テストデータは 10 文に SNR が 10dB,0dB,−5dB となるように音楽を重畳したものを用いた. 評価指標としては以下の式で表されるスペクトル 領域での SNR を用いた. ∑ 2 t,f St,f SN R = 10 log10 ∑ ( )2 [dB] (6) St,f − Sˆt,f t,f ここで,St,f はクリーン音声のスペクトル,Sˆt,f は音 楽除去後の推定音声スペクトルである. 4.2 実験結果 実験結果を Table 1 に示す.テストデータの平均 SNR が −5dB の場合,音楽重畳音声では −4.36dB であった評価指標は,VQ 手法で音楽除去を行うと - 160 - 2011年3月 5 5.1 Fig. 3 SNR= 0dB の場合のスペクトログラムの例 (発話内容 “前回北京アジア大会では 0 対 5 と大敗し ている”).上から順にクリーン音声,音楽重畳音声, VQ 手法で音楽除去,NMF 法で音楽除去 日本音響学会講演論文集 実験条件 本実験では,東北大–松下単語音声データベースか ら 200 単語,20 話者分について,15 話者分を学習,5 話者分をテストに使用した.音声データはサンプリン グ周波数 12kHz,サンプリング精度 16bit のモノラル 音声である.背景音楽はピアノ音だけの 1 曲 (「パッ ヘルベルのカノン」) を用いた.単語区間は目視によ り手動で切り出した. VQ 手法のコードブックは,15 話者分の学習デー タに SNR が 10dB,0dB,−5dB,−10dB となるよ うに音楽を重畳したもので作成した.コードブックサ イズは 8, 192,特徴抽出は窓長 512 点,フレームシ フト 256 点である. NMF 法の行列 W の代表スペクトルは VQ 手法に より音声,音楽ともに 512 個ずつ選んだ.特徴抽出 は窓長 256 点,フレームシフト 128 点である. 音声認識の音響モデルは,状態数 14,ガウス分布の 混合数 8 (対角共分散行列) の単語 HMM である.特 徴パラメータは MFCC 38 次元 (MFCC + ∆MFCC + ∆∆MFCC + ∆パワー + ∆∆パワー) で,窓長 25ms, フレームシフト 10ms で抽出した. テストデータは,5 話者分の音声に SNR が 10dB, 0dB,−5dB になるように音楽を重畳して用いた.ま た,VQ 手法と NMF 法の併用として, VQ 手法で音 楽除去してから認識した尤度と NMF 法で音楽除去し てから認識した尤度を以下の式のように重み付きの 線形結合でリスコアリングを行った (α を 0.0 ∼ 1.0 まで 0.1 刻みで変化させ最大値を結果とした). P = (1 − α)PV Q + αPN M F 5.2 5.97dB に,NMF 法で音楽除去を行った場合は 5.83dB になり,両手法で 10dB 前後の改善が得られた.同様 にテストデータの平均 SNR が 0dB の場合は,両手法 で 8dB 前後の改善が得られた.10dB の場合は,VQ 手法で音楽除去した場合は約 4dB 改善が得られたの に対して,NMF 法で音楽除去した場合は約 1dB 悪 くなってしまった.これは,VQ 手法での音楽除去は 音楽が少し残ってしまうものの音声は元のまま保存 されるのに対して,NMF 法での音楽除去では音楽は ほぼ除去できるが音声が少し歪んでしまうことが原 因であると考えられる. 発話 “前回北京アジア大会では 0 対 5 と大敗してい る” に対するスペクトログラムを Fig. 3 に示す.視 覚的には NMF 法よりも VQ 手法の方が音声を復元 できていることがわかる. 孤立単語認識実験 (7) 実験結果 クリーン音声で学習した HMM で認識した場合の 結果を Table 2 に示す.テストデータとしてクリーン 音声を認識する場合の認識率は 98.8% であるが,テス トデータに音楽が重畳されると 10dB で 60.4%,0dB で 7.2%,−5dB で 1.8% と認識率は大きく低下した. ここで,VQ 手法で音楽除去を行ってから認識すると, 10dB で 68.4%,0dB で 33.1%,−5dB で 15.8% と改 善が得られた.一方,NMF 法で音楽除去を行ってか ら認識した場合は,10dB で 51.8%,0dB で 20.9%, −5dB で 9.54% となり 10dB では逆に認識性能が悪 くなってしまった.これは,VQ 手法での音楽除去は 音楽が少し残ってしまうものの音声は元のままである のに対して,NMF 法での音楽除去は音楽はほぼ除去 できるが一方で音声が少し歪んでしまうことが原因 であると考えられる.尤度結合による両手法の併用で は,10dB で 75.1%,0dB で 35.9%,−5dB で 17.4% となり,VQ 手法で音楽除去した場合よりさらに改善 - 161 - 2011年3月 Table 2 クリーン音声のモデルでの認識率 [%] 入力・手法 音楽重畳音声 (未処理) VQ 手法で音楽除去 NMF 法で音楽除去 両手法の併用 クリーン音声 Table 3 −5dB 1.8 15.8 9.5 17.4 SNR 0dB 7.2 33.1 20.9 35.9 98.8 音楽重畳音声 (未処理) クリーン音声 −5dB 35.4 SNR 0dB 76.3 60.9 10dB 96.3 が得られた.10dB の場合では音楽除去を行わない場 合から比べて約 15% の改善が得られた. 次に,10dB と 0dB の音楽重畳音声を混合して学 習した HMM で認識した場合の結果を Table 3 に示 す.音楽重畳音声の認識率は 10dB で 96.3%,0dB で 76.3%,−5dB で 35.4% となった.10dB の場合では 96.6% となり,クリーン音声のモデルでクリーン音声 を認識した場合の 98.8% に近い結果となった.一方, クリーン音声の認識率は 60.9% と大幅に下がった (ク リーン音声も含めた学習が必要であることがわかる). 続いて,10dB と 0dB の音楽重畳音声に対して VQ 手法で音楽除去を行った後の音声で学習した HMM で認識した場合の結果を Table 4 に示す.VQ 手法で 音楽除去を行ってから認識した場合の認識率は 10dB で 97.4%,0dB で 89.7%,−5dB で 69.3% となった. 10dB の場合でクリーン音声のモデルでクリーン音声 を認識した場合と同程度,0dB の場合でも約 90% と高 い認識率が得られた.また,クリーン音声でも 98.2% となり,クリーン音声のモデルでクリーン音声を認識 した場合とほぼ同じ認識率が得られた. Table 3 と Table 4 を比較すると,マッチド条件で ある音楽重畳音声のモデルによる音楽重畳音声の認 識率よりも,本手法による音楽除去後のマッチド条件 の方が認識率が大幅に向上し,誤り率が半減してい ることが分かる. 6 まとめ 本稿では非定常な信号である音楽を背景雑音とし て,音楽重畳音声から音楽除去することが音声認識 率に与える影響について 2 つの手法で比較・検討を 行った. クリーン音声のモデルで孤立単語認識した場合,音 楽除去を行うことで除去を行わない場合に比べて単 語認識率で約 15% の改善が得られた.また,VQ 手 法で音楽除去を行った後の音声でモデルを作ること で,0dB でも約 90% と高い認識率が得られた. 日本音響学会講演論文集 音楽除去後の音声のモデルでの認識率 [%] 入力・手法 10dB 60.4 68.4 51.8 75.1 音楽重畳音声のモデルでの認識率 [%] 入力・手法 Table 4 VQ 手法で音楽除去 音楽重畳音声 (未処理) クリーン音声 −5dB 69.3 4.2 SNR 0dB 89.7 23.6 98.2 10dB 97.4 88.8 今後の課題としては,NMF 法は,入力音声ごとに, 行列分解を行う必要があり,計算量が多いため実用 的でないことを解決することが挙げられる.1 案とし て,学習データの混合音声から VQ コードブックを 作成し,この VQ コードベクトル集合を行列分解し ておき,入力音声をベクトル量子化して,対応する分 解結果を用いる方法が有効だと考えている.これは, VQ 手法と NMF 法の融合法と考えられる.また,今 回の評価実験では,背景音楽としてピアノ曲 1 曲だ けを使用したが,多種の音楽を重畳した評価実験も 行う必要がある.そのほかには,単語区間の切り出し を自動で行うことなども今後の課題である. 参考文献 [1] 伊藤 他, “ベイジアンネットワークを用いたバイ ナリマスキングに基づく音源分離,” 情報処理学会 研究報告, vol.2008, no.72, pp.51–56, 2008. [2] M. Cooke, J. R. Hershey, S. J. Rennie, “Monaural speech separation and recognition challenge,” Computer Speech and Language, vol.24, no.1, pp.1–15, 2010. [3] 猿渡 洋, “独立成分分析による音源分離技術,” 電 気学会誌, vol.127, no.7, pp.413–416, 2007. [4] K. Yamamoto, S. Nakagawa, “Evaluation of privacy protection techniques for speech signals,” Proc. IPMU 2010, pp.653–662, 2010. [5] D. D. Lee, H. S. Seung, “Algorithms for Nonnegative Matirix Factorization,” Proc. NIPS 2000, pp.556–562, 2000. [6] 北野 他, “複素 NMFD による音声抽出マスクの設 計と背景音楽抑圧への応用,” 日本音響学会 2009 年春季研究発表会講演論文集, 3-9-6, pp.719–720, 2009. [7] R. Blouet et al., “Evaluation of several strategies for single sensor speech/music separation,” Proc. ICASSP 2008, pp.37–40, 2008. [8] A. Mesaros, T. Virtanen, “Recognition of phonemes and words in singing,” Proc. ICASSP 2010, pp.2146–2149, 2010. [9] B. Raj et al., “Non-Negative Matrix Factorization Based Compensation of Music for Automatic Speech Recognition,” Proc. INTERSPEECH 2010, pp.717–720, 2010. [10] B. Schuller, F. Weninger, “Discrimination of speech and non-linguistic vocalizations by nonnegative matrix factorization,” Proc. ICASSP 2010, pp.5054–5057, 2010. - 162 - 2011年3月
© Copyright 2024 ExpyDoc