音情報処理論Ⅱ 独立成分分析によるブラインド音源分離と その音声処理への応用 奈良先端科学技術大学院大学 情報科学研究科 音情報処理学講座 猿渡 洋 (2002年2月8日) 猿渡担当分の講義資料について 講義資料は以下から各自入手すること /mandara/lecture/sawatari/OTO2/lecture*.ppt (注)PowerPointとプリンタの相性により、配布資料形式 では一部数式が文字化けしていることがあるので、必 ず上記から資料を入手し「1ページ1枚のモード」でプリ ントアウトしてみてください。 本日の講義内容 研究背景の概説 独立成分分析とブラインド音源分離 • 独立成分分析の基礎 • 独立成分分析によるブラインド音源分離 • 実際の音場への応用 独立成分分析における問題点 • 周波数帯域分割数と独立性の関係 • 反復学習の収束性改善法 マイクロホンアレー研究の背景 マイクロホンアレーとその応用 • 高性能な hands-free 通信 • 雑音にロバストな音声認識 古典的アプローチ: ビームフォーミング • 遅延和型: 低サイドローブの実現が困難 • 適応型:目的音の方位・無音区間情報が必要 さらに自由度の大きい技術の開発が必要 マイクロホンアレーの問題点 遅延和型:素子係数により指向特性を制御 目的音 雑音も同時に 拾ってしまう θ 適応型:雑音の到来方向に指向特性を適応 目的音 を指定 雑音のみを観測 する時間が必要 死角 θ ブラインド音源分離の登場 Blind Source Separation (BSS) • 複数の音源信号が混合されて観測された場合、 観測信号のみから音源信号を推定する技術 • 目的音の方位・無音区間情報が不要 独立成分分析(ICA)に基づくBSS J. Cardoso, 1989 C. Jutten, 1990 (高次無相関化) P. Common, 1994 (ICAという言葉を定義) A. Bell et al., 1995 (infomaxによる定式化) 「独立」とは何か? 数学における「独立」の定義: • 2つの確率事象に関する同時確率密度分布 p( x1 , x2 ) が,それぞれの事象における周辺密度分布 p( x1 ), p( x2 ) の積で書ける場合を「(統計的に)独立」と呼 ぶ.つまり 独立 p( x1 , x2 ) p( x1 ) p( x2 ) 独立である場合の例 x2 x2 p( x1 , x2 ) p( x1 ) p( x2 ) 同時確率密度 p( x2 ) x1 周辺確率密度 周辺確率密度 p( x1 ) x1 独立ではない場合の例 x2 x2 p( x1 , x2 ) p( x1 ) p( x2 ) 同時確率密度 p( x2 ) x1 と x2 に 強い関連がある x1 周辺確率密度 周辺確率密度 p( x1 ) x1 独立成分分析(ICA)とは何か? 独立な成分の抽出: • 複数の確率信号が混合された観測系列から, 統計的に独立な個々の確率過程を分解抽出 する. 特徴: • 独立性は「無相関性」よりも厳しい尺度であり, 確率信号同士の確率密度構造が問われる. →情報幾何学と呼ばれる →「独立⇒無相関」であるが、 「無相関⇒独立」は必ずしも成り立たない. 独立成分分析と主成分分析 主成分分析(PCA): • 複数要因の混合で表現されるものの中から,分 散の大きなものの順に成分を取り出す. • エネルギーの大きな因子を優先した成分分解法 → エネルギーが大=影響が大と見なす 一方,独立成分分析は… • エネルギーの大小とは無関係に,「独立」なもの 同士に分解する.小さな成分でも他と独立性が 高ければそれを抽出することが可能. • 取り出される因子の順番は問わない. ICAに基づくBSS とは? 既知 おはよう Human 1 Source 1 Microphone 1 互いに独立 Microphone 2 こんにちは Source 2 Human 2 音源信号を推定 Observed signal 1 Observed signal 2 ICAに基づくBSSの定式化 線形混合過程 A11 AL1 A1K s1 (t ) x1 (t ) ALK s K (t ) xL (t ) 混合行列 分離過程 コスト関数 独立? 音源信号 分離信号 観測信号 分離行列 y1 (t ) W11 y K (t ) WK 1 W1L x1 (t ) WKL xL (t ) 最適化 ICAにおける様々なコスト関数 分離信号ベクトル: 無相関化 y (t ) y1 (t ),..., y2 (t ) T Ey (t ) y (t ) diag T • 信号間相関を最小化(複数時間区間利用) 非線形関数1 Ey (t ) y (t ) diag 3 T • 高次相関をも最小化 非線形関数2 EΦ y (t ) y (t ) diag • 源信号確率密度関数を仮定 Φ : シグモイド 関数等 T 非線型関数2の導出 独立⇒Kullback Leibler Divergenceの最小化問題 • 一般にKullback Leibler Divergenceとは2分布間の距離 p( z ) KL (v , z ) p ( z ) log dz p (v ) 上式において… p( z) p( y1 ,, yK ) K p(v) k 1 p( yk ) 分離信号 y(t ) の同時分布密度関数 周辺分布密度関数の積 とおき,これらのKLを分離行列Wに関して最小化すれば独立 p( y) KL (W ) p ( y ) log K dy k 1 p ( yk ) 最小化 非線型関数2の導出(cont’d) p( y) KL (W ) p ( y ) log K dy k 1 p ( yk ) K H (Y ;W ) H (Yk ;W ) k 1 1. 結合エントロピー 2. 周辺エントロピー和 H (Y ;W ) p( y ) log p( y )dy p( x )(log p( x ) log W )dx H ( X ) log W ( p( y) p( x) / | W |) H (Yk ;W ) p( y ) log p( yk )dy p( x ) log p( yk )dx ( p( x)dx p( y)dy) 非線型関数2の導出(cont’d) KL(W ) の W に関する勾配を求め,その逆方向に W を更新学習 KL (W ) W (W T ) 1 p( x) ( y ) x T dx W (W T ) 1 E x ( y ) x T I E y ( y ) y T W T 1 非線型関数2 ⇒ 0に至れば更新終了・収束 ただしここでは log p( y1 ) log p( y K ) ( y) , ..., y y 1 K T 音声の場合 はSigmoid 関数で近似 可能 ICAに基づく BSSの応用先は? 時間差を扱わない混合過程のみに限定 → 混合行列は実定数の場合のみ. → 複数信号が単に定数で混合されて観測される というシチュエーションは実在するのか? 数学上の「トイモデル」を解いているだけであり, なんら実際に生じる混合問題を解決していない 実環境音場への応用 マイクロホンアレーへの適用 → 到来信号は各受音点(マイク)間にて時間差 を持つ. → 混合行列Aは,単純な実定数ではなく,畳み 込みの形で表現される. 実環境での線形混合過程 A11 (t ) AL1 (t ) 混合行列 A1K (t ) s1 (t ) x1 (t ) ALK (t ) s K (t ) xL (t ) 音源信号 観測信号 実環境音場への応用(cont’d) 時間差のある畳み込み混合の2解法: • 時間領域ICA:畳み込みフィルタを直接推定 ⇒複雑な音場には対応困難 • 周波数領域ICA:周波数変換により問題単純化 周波数変換後の線形混合過程 A11 ( f ) AL1 ( f ) A1K ( f ) S1 ( f ) X 1 ( f ) ALK ( f ) S K ( f ) X L ( f ) 混合行列 音源信号 観測信号 複素定数による線形混合問題を各周波数別に解けばよい 周波数領域ICAの拡張 周波数領域ICAの問題: ①統計量(期待値)をどのように算出するか? ②音源の入れ替わり・利得不定問題 ①の解決方法: 時間‐周波数分解 • 信号全体を一括してDFTするのではなく,短い 窓を掛けた部分のみを短時間DFT分析し,その 処理を時間方向に窓をシフトして繰り返す. ⇒ ある周波数成分を複素時系列として抽出 ICAにおいてサンプルに関する期待値を算出することが可能 時間‐周波数分解によるICA 周波数変換 時間遅れを含む混合問題を単純化 source 1 st-DFT st-DFT source 2 Y1 ( f , t ) と Y2 ( f , t ) が 互いに独立になるように W(f ) を最適化 音源入れ替わり・利得不定問題 周波数帯域別にICAを行うと… ICAでは因子の順番は不問 ICAでは因子の大きさは不問 周波数帯域毎に分離信号 が入れ替わってしまう 周波数帯域毎に分離信号 の利得がバラバラに… 解決方法: 1. 分離信号の包絡線を求めてその相関によりマージ 2. 分離行列からアレーの指向特性を算出して,その 方位情報よりマージ 分離音声例 無残響実験 • • • • 混合音 分離音 (女性;信号包絡マージ) 分離音 (女性;指向特性マージ) 分離音 (男性;指向特性マージ) 残響付与実験 (残響時間 0.3 s) • • • • 混合音 分離音 (女性;信号包絡マージ) 分離音 (女性;指向特性マージ) 分離音 (男性;指向特性マージ) 音声1 音声2 -30° 40° 2素子,4 cm間隔 ICAに基づくBSSの問題点 そもそも音声ってどのくらい独立なの → 狭帯域分割信号は独立なのか? → ICAで分離できる性能の限界はどの程度か ICAは本質的に非線形最適化問題を含む → 局所最適解への落ち込み → 収束性能の悪化 狭帯域信号(実部,1 kHz) Male 1 Male 1 Male 2 Male 2 32分割 相関大 2048分割 周波数帯域分割数と分離性能 分離性能劣化 14 RT=150msec SNR [dB] 12 RT=300msec 10 11.896 9.944 9.569 9.527 8.637 8.018 8 7.356 6.122 6 12.736 12.132 7.581 6.906 5.729 5.059 4 2 0 32 64 128 256 512 Number of Subbands 1024 2048 帯域分割数と独立性の関係 一般に,複雑な音場(長い残響等)に対応す るには周波数帯域分割数を増やす必要あり. しかし周波数領域ICAでは… 分割数を過度に増やすと狭帯域信号間の 独立性が低くなるため,分離性能が劣化する. 帯域分割数を増やすことが決して分離性能向 上にはつながらない. 周波数領域ICAの性能限界を与える重大な問題 ICAに基づくBSSの問題点 そもそも音声ってどのくらい独立なの → 狭帯域分割信号は独立なのか? → ICAで分離できる性能の限界はどの程度か ICAは本質的に非線形最適化問題を含む → 局所最適解への落ち込み → 収束性能の悪化 収束改善法:ICAとBFを統合したBSS 独立成分分析(ICA) ビームフォーミング(BF) 統一感のある情報源 音源のある方位に を脳の内部で分類化 聞き耳を立てる Aさんの声 音源間の質に着目 音源の位置に着目 両者間の対応付け・反復射影処理を用いる ことにより、非独立または収束性の低い周 波数帯域における分離性能を向上させる。 反復学習内ダイバーシチ Init W ( f ) ˆ l ICA ONE TIME W ( f ): BF W BF (f) DOA Estimation W ICA (f) Diversity with Cost Function W (f) else if final W (f) Ordering & Scaling W (f) ˆ l 各周波数帯域 での音源分離 フィルタ 実験条件 素子間隔 4 cm の 2 素子アレー 音源 : • 方位 -30°, 方位 40°の 2 音源 • 男性2名,女性2名による総当り組合せ • 2種類の短文(3秒)を発声 音響条件 : • 残響時間 RT= 0.15, 0.3 sec 評価基準 : • 出力SNR [dB] – 入力SNR [dB] • 各音源組合せ(12通り)の平均値を図示 実験結果:残響時間0.15 secの場合 改善法は高速・高分離性能 実験結果:残響時間0.3 secの場合 実験結果:ICAとBFの選択状況 性能向上の鍵は… ×: BFが選択されたことを示す 1. 反復初期におけるBF利用 →最適解近傍へ早く近づく 2. 反復後期ではICAによる最適化 →残響系逆フィルタをブラインド推定 3. 非独立な帯域はBFで近似 今後の展開 ICAによるBSSはどこへ行くのか? • 数理解析上での進展 • 実際の音環境を取り扱えるには未だに至っていな い. • 共通の音源分離用データベースによる相互比較 • オンライン学習の高精度化(動く音源の分離) 現在: 解ける問題のみ机上で解いていた 今後: 実環境においていかにしてICAの実力を発揮させるか
© Copyright 2024 ExpyDoc