アレー信号処理を用いた ブラインド音源分離の基礎 奈良先端科学技術大学院大学 情報科学研究科 音情報処理学講座 猿渡 洋 本日の内容 マイクロホンアレー処理の概説 ブラインド音源分離研究の背景・解説 • 独立成分分析とブラインド音源分離 • 独立成分分析における問題点 独立成分分析とビームフォーミングの統合 • 反復学習内・学習後ダイバーシチ • 音声認識への応用例 今後の展開 マイクロホンアレー研究の背景 マイクロホンアレーとその応用 • 高性能な hands-free 通信 • 雑音にロバストな音声認識 古典的アプローチ: ビームフォーミング • 遅延和型: 低サイドローブの実現が困難 • 適応型:目的音の方位・無音区間情報が必要 さらに自由度の大きい技術の開発が必要 マイクロホンアレーの問題点 遅延和型:素子係数により指向特性を制御 目的音 雑音も同時に 拾ってしまう θ 適応型:雑音の到来方向に指向特性を適応 目的音 を指定 雑音のみを観測 する時間が必要 死角 θ ブラインド音源分離の登場 Blind Source Separation (BSS) • 複数の音源信号が混合されて観測された場合、 観測信号のみから音源信号を推定する技術 • 目的音の方位・無音区間情報が不要 独立成分分析(ICA)に基づくBSS J. Cardoso, 1989 C. Jutten, 1990 (高次無相関化) P. Common, 1994 (ICAという言葉を定義) A. Bell et al., 1995 (infomaxによる定式化) ICAに基づくBSS とは? 既知 おはよう Human 1 Source 1 Microphone 1 互いに独立 Microphone 2 こんにちは Source 2 Human 2 音源信号を推定 Observed signal 1 Observed signal 2 ICAに基づくBSSの定式化 線形混合過程 A11 AL1 A1K s1 (t ) x1 (t ) ALK s K (t ) xL (t ) 混合行列 分離過程 コスト関数 独立? 音源信号 分離信号 観測信号 分離行列 y1 (t ) W11 y K (t ) WK 1 W1L x1 (t ) WKL xL (t ) 最適化 ICAにおける様々なコスト関数 分離信号ベクトル: 無相関化 y (t ) y1 (t ),..., y2 (t ) T Ey (t ) y (t ) diag T • 信号間相関を最小化 非線形関数1 Ey (t ) y (t ) diag 3 T • 高次相関をも最小化 非線形関数2 EΦ y (t ) y (t ) diag • 源信号確率密度関数を仮定 Φ : シグモイド 関数等 T ICAに基づくBSSの問題点 ICAは本質的に非線形最適化問題を含む → 局所最適解への落ち込み → 収束性能の悪化 そもそも音声ってどのくらい独立なのか? → 周波数帯域によって独立な場合とそうでな い場合があるのではないか? → ICAで分離できる性能の限界はどの程度か ICAとビームフォーミングの統合 指向特性を介してICA-based BSSと古典 的ビームフォーミングを統合化 非独立な帯域における分離性能を向上 情報幾何学と音響信号処理とを 融合した高精度なBSS 本アプローチの概念図 独立成分分析 ビームフォーミング 統一感のある情報源 音源のある方位に を脳の内部で分類化 聞き耳を立てる Aさんの声 両者間の対応付け・繰り返し処理を用いるこ とにより、より高精度な分離音を取得する 具体的な手法例 ICAとビームフォーマの切り替えを反復学習処理 の最後に行う(反復学習後ダイバーシチ) ICAとビームフォーマの切り替えを反復学習過程 中において周期的に行う (反復学習内周期的ダイバーシチ) ICAとビームフォーマの切り替えを反復学習過程 中において適宜行う (反復学習内ダイバーシチ) 反復学習後ダイバーシチ (1)帯域分割型ICAによるBSS → 形成される指向特性より音源方位を陽に推定 (2)音源方位を利用して死角制御型ビームフォーミング (3)アルゴリズムダイバーシチによる(1),(2)の統合 (1)帯域分割型ICAによる音源分離 周波数変換 時間遅れを含む混合問題を単純化 (1)学習アルゴリズム Iterative off-line learning algorithm : ( ICA) H H (ICA) Wi (ICA) W diag Φ ( Y ) Y Φ ( Y ) Y W 1 i i where 1 1 ΦY j (R) 1 exp Y 1 exp Y (I) Y (R) (I) : real part of Y , Y : im aginarypart of Y (2)死角制御型ビームフォーマ 指向特性・・・空間に対してアレーが形成する利得の分布 逆混合行列 W ( BF による指向特性: ) ( BF ) ˆ 1 に目的方位 ˆ 2 に死角 2) W W ( f ( f ) 11 12 (BF) W 1. F (ICAで推定されたWより指向特性を算出し、音源方 fl () f , ) Wlk exp[ j2fdk sin / c] ( BF ) k 1 ( BF ) N /2 ˆ 位を求める。 ( f ) W21 ( f ) W 2 2 に目的方位 ˆ 1 に死角 22 l 番目の音源の DOA : ˆl l ( fm) N m 1 2.推定された音源方位より死角制御型ビームフォー マを構成する。 ˆ 1 に目的方位 ˆ 2 に死角 ˆ 2 に目的方位 ˆ 1 に死角 Source 1 Source 2 (3)アルゴリズムダイバーシチによる統合 帯域毎に以下のルールでICAと ビームフォーマを切り替える 周波数 f での音源方位推定値が l ( f ) である場合、 ( ICA ) W lk , | l ( f ) ˆl | h l Wlk ( BF ) W lk , | l ( f ) ˆl | h l l : l ( f ) の偏差 h : 閾値パラメータ 収束性が悪い・独立性が低い帯域での分離性能を向上 実験条件 素子間隔 4 cm の 2 素子アレー 音源 : • 方位 -30°, 方位 40°の 2 音源(36通り) 音響条件 : • 残響時間 RT= 0, 0.15, 0.30 sec 逆混合行列の学習 : • 1, 3, 5 秒間の観測信号を利用 評価基準 : • Noise reduction rate (NRR) = 出力SNR [dB] – 入力SNR [dB] 比較対象: • Murata法(in ICA’99; 狭帯域波形包絡間の類似性利用) Noise Reduction Rate [dB] 実験結果:ダイバーシチの効果 RT=0.15 sec の場合 9 8 7 6 5 4 3 2 学習区間 5 sec 3 sec 1 sec h=0 (Null beamformer) h=1 h=2 h=∞ (ICAbased BSS) ビームフォーマ, ICA-based BSSよりもSNR向上 Word Recognition Rate [%] 実験結果:音声認識による評価 100 93.9 89.4 80 60 学習区間=5 sec 85.6 72 53.8 58.3 53 40 49.3 34.8 Mixed Proposed Murata's 20 0 RT=0 sec RT=0.15 sec RT=0.30 sec すべての場合において提案法により認識率改善 分離音声デモ 無残響実験 • • • • 混合音 分離音 (女性,村田・池田の手法) 分離音 (女性, 提案手法) 分離音 (男性, 提案手法) 残響付与実験 (残響時間 300 ms) • • • • 混合音 分離音 (女性,村田・池田の手法) 分離音 (女性, 提案手法) 分離音 (男性, 提案手法) (逆混合行列の学習には 3 秒間の観測信号を利用) 反復学習内周期的ダイバーシチ ) ( BF ) ˆ 1 に目的方位 ˆ 2 に死角 W11( BFInit W H H W (12f ) H Φ Y Y H WjP i WjP i W jP i 1 diag Φ Y Y jP i jP i WjPjP i 1 ( BF) ( BF ) ˆ 2 に目的方位 ˆ 1 に死角 W W W (f) ( i 210, 1, , 22P 1, ( j 1j,20, , ) BF 1, ) ICA W (f) N /2 Direction of Arrival 2 ˆl l ( fm) else Estimation m 1 if Nfinal ˆl W (f) Ordering & Scaling ˆl 反復学習における 指向特性のアニメーション - 従来のICAの場合 - 反復学習における 指向特性のアニメーション - 提案法の場合 - 無残響下での実験結果 26 NRR[dB] 24 22 Proposed Method Conventional Method 20 18 16 14 100 200 300 400 The Number of Iterations 500 RT=150msecの場合の実験結果 8.5 NRR[dB] 8 7.5 Proposed Method Conventional Method 7 6.5 6 5.5 100 200 300 400 The Number of Iterations 500 考察 無残響下ではNRR値の大幅な向上が見られた • ICAとビームフォーミング間の射影反復は有効に機能 残響下においてもNRR値の向上が見られた • 残響下でのビームフォーミングは必ずしも性能をあげ る保証はないが適切な反復回数で切り替えることは 収束を高める上で有効である 問題点:全帯域を同時にBFに切り替える必要があるのか BFに切り替えるタイミングはいつが最適か 改善法:反復学習内ダイバーシチ Init W 0 ( f ) 指向特性・・・空間に対してアレーが形成する利得の分布 ( BF ) ( BF ) ˆ 1 に目的方位 ˆ 2 に死角 W ( f ) W ( f ) ˆ 11 による指向特性: l12 (BF) 逆混合行列 ONE TIME W W (f) 2 W i 1( f ) WICA i (f ) BF ( BF ) ( BF ) ˆ (ICA) W ( f ) W ( f ) Fl (f W,21i )1 ( W lk exp[ j 2 fdk sin /Hˆc1]に死角 f ) 22H (BF)2 に目的方位 diag Φ(Y ( f , t ))Yk(f1, t ) t Φ (Y N((f/f2,)t ))Y ( f , t ) t W i ( f ) W2 Direction of Arrival l 番目の音源の DOA : Estimation ˆ l (f N l m ) m 1 W i 1 (ICA) ( f ) Diversity with Cost Function W (f) Wi( f ) i i 1 else Source 1 if final W (f) Source 2 コスト関数(2出力間Cosine距離) J( f ) J (ICA) が小さい (f) 2出力が無相関(≒独立) Y1 Y1 (ICA) (ICA) ( f , t) Y 2 ( f , t) 2 t 1 2 Y2 J (f) ( f , t) (ICA) Y 1 ( f , t) (BF) (BF) 2 t 1 2 * ( f , t) Y 1 ( f , t) Y 2 ( f , t) (BF) (BF) (ICA) * Y 2 ( f , t) (BF) t 2 t 1 2 t 2 t 1 2 コスト関数(Cont’d) J ICA BF が ( f ) J ( f ) より大きいときは 死角制御型ビームフォーミングを選択 ICAでは収束しない帯域の分離を行う 収束の遅い帯域の学習を加速する J ICA BF ( f ) が J ( f ) 以下のときは ICAを選択 反射成分や残響成分を考慮して独立に分離する 残響時間 150 msec の場合の分離性能 ビームフォーミングの選択状況例(残響時間 ICAの収束が遅い反復初期は 150 msec) ビームフォーミングによって ビームフォーミングを選択 最適解近傍へ早く近づくことが可能 ICAでは収束しない帯域は 全反復においてビームフォ ーミングが選択される ある程度学習の進んだ反復後期では 反射成分や残響成分も考慮して独立 に分離するICAが選択される 残響時間 300 msec の場合の分離性能 考察 提案法による分離性能は従来法を上回る (RT150 msec : 4.6 dB, RT 300 msec : 1.5 dB) 演算量を考慮しても提案法は収束が速い 反復学習内において • 反復初期では学習の遅いICAよりも死角制御型 ビームフォーミングが選ばれて学習が加速される • 学習の進んだ反復後期ではICA が選択されて 反射成分や残響成分も考慮して分離が行われる • ICAでは収束しない帯域では反復全般において 死角制御型ビームフォーミングが選ばれる 分離音声の一例 残響時間 150 msec • 混合音声(男性、女性) • 従来法による分離音声(女性) • 提案法による分離音声(女性) 残響時間 300 msec • 混合音声(男性、女性) • 従来法による分離音声(女性) • 提案法による分離音声(女性) 今後の展開 ICAによるBSSはどこへ行くのか? • 数理解析上での進展はほぼ飽和ぎみ • 実際の音環境を取り扱えるには未だに至っていない • 共通の音源分離用データベースによる相互比較 現在: 解ける問題のみ机上で解いていた 今後: 実環境においていかにしてICAの実力を発揮させるか 独立成分分析とビームフォーミングを融合した高性能 BSSシステムに関しては • 2素子以上のシステムへの拡張 • オンライン学習化(動く音源の分離) 今後の展開2 時間-周波数領域ICAに関する限界 • 周波数分割数を増加 ⇒ 残響には対応可能 しかし分離性能は劣化 • 分割数増加により狭帯域信号間の独立性評価が 困難に (荒木,西川 他,2001) • Permutationの影響? 周波数領域ICAにこだわらない より残響に強い手法の提案が望まれる 帯域分割数 vs. 分離精度 分離性能劣化! 14 RT=150msec NRR [dB] 12 RT=300msec 10 11.896 9.944 9.569 9.527 8.637 8.018 8 7.356 6.122 6 12.736 12.132 5.059 7.581 6.906 5.729 4 2 0 32 64 128 256 512 Number of Subbands 1024 2048 Noise Reduction Rate [dB] 実験結果:従来BSS法との比較1 20 15 17.6 学習区間=5 sec 14.9 10 8.2 7.6 6.4 5.8 5 0 RT=0 sec RT=0.15 sec RT=0.30 sec Proposed Murata's Noise Reduction Rate [dB] 実験結果:従来BSS法との比較2 20 15 17.5 学習区間=3 sec 12.5 10 7.8 6.8 Proposed Murata's 5.8 4.2 5 0 RT=0 sec RT=0.15 sec RT=0.30 sec 5及び3秒で学習した場合どの残響下でも提案法が有効 Noise Reduction Rate [dB] 実験結果:従来BSS法との比較3 20 15 学習区間=1 sec 13.5 Proposed Murata's 10 5 5.2 3.7 3.7 2.1 2 0 RT=0 sec RT=0.15 sec RT=0.30 sec 学習区間が短い場合Murata法では劣化大 提案法では指向特性のみを使用するため劣化小
© Copyright 2024 ExpyDoc