Blind Signal Separation Using Directivity Pattern

アレー信号処理を用いた
ブラインド音源分離の基礎
奈良先端科学技術大学院大学
情報科学研究科 音情報処理学講座
猿渡 洋
本日の内容
マイクロホンアレー処理の概説
ブラインド音源分離研究の背景・解説
• 独立成分分析とブラインド音源分離
• 独立成分分析における問題点
独立成分分析とビームフォーミングの統合
• 反復学習内・学習後ダイバーシチ
• 音声認識への応用例
今後の展開
マイクロホンアレー研究の背景
マイクロホンアレーとその応用
• 高性能な hands-free 通信
• 雑音にロバストな音声認識
古典的アプローチ: ビームフォーミング
• 遅延和型: 低サイドローブの実現が困難
• 適応型:目的音の方位・無音区間情報が必要
さらに自由度の大きい技術の開発が必要
マイクロホンアレーの問題点
遅延和型:素子係数により指向特性を制御
目的音
雑音も同時に
拾ってしまう
θ
適応型:雑音の到来方向に指向特性を適応
目的音
を指定
雑音のみを観測
する時間が必要
死角
θ
ブラインド音源分離の登場
Blind Source Separation (BSS)
• 複数の音源信号が混合されて観測された場合、
観測信号のみから音源信号を推定する技術
• 目的音の方位・無音区間情報が不要
独立成分分析(ICA)に基づくBSS
J. Cardoso, 1989
C. Jutten, 1990
(高次無相関化)
P. Common, 1994 (ICAという言葉を定義)
A. Bell et al., 1995 (infomaxによる定式化)
ICAに基づくBSS とは?
既知
おはよう
Human 1
Source 1
Microphone 1
互いに独立
Microphone 2
こんにちは Source 2
Human 2
音源信号を推定
Observed signal 1
Observed signal 2
ICAに基づくBSSの定式化
線形混合過程
 A11
 

 AL1



A1K   s1 (t )   x1 (t ) 
        
 

 
ALK   s K (t )  xL (t ) 
混合行列
分離過程
コスト関数
独立?
音源信号
分離信号
観測信号
分離行列
 y1 (t )   W11
   

 
 y K (t ) WK 1
 W1L   x1 (t ) 

    

 
 WKL   xL (t )
最適化
ICAにおける様々なコスト関数
分離信号ベクトル:
無相関化
y (t )   y1 (t ),..., y2 (t )
T
Ey (t ) y (t )  diag
T
• 信号間相関を最小化
非線形関数1
Ey (t ) y (t )  diag
3
T
• 高次相関をも最小化
非線形関数2 EΦ  y (t )  y (t )  diag
• 源信号確率密度関数を仮定 Φ : シグモイド
関数等
T
ICAに基づくBSSの問題点
ICAは本質的に非線形最適化問題を含む
→ 局所最適解への落ち込み
→ 収束性能の悪化
そもそも音声ってどのくらい独立なのか?
→ 周波数帯域によって独立な場合とそうでな
い場合があるのではないか?
→ ICAで分離できる性能の限界はどの程度か
ICAとビームフォーミングの統合
指向特性を介してICA-based BSSと古典
的ビームフォーミングを統合化
非独立な帯域における分離性能を向上
情報幾何学と音響信号処理とを
融合した高精度なBSS
本アプローチの概念図
独立成分分析
ビームフォーミング
統一感のある情報源
音源のある方位に
を脳の内部で分類化
聞き耳を立てる
Aさんの声
両者間の対応付け・繰り返し処理を用いるこ
とにより、より高精度な分離音を取得する
具体的な手法例
ICAとビームフォーマの切り替えを反復学習処理
の最後に行う(反復学習後ダイバーシチ)
ICAとビームフォーマの切り替えを反復学習過程
中において周期的に行う
(反復学習内周期的ダイバーシチ)
ICAとビームフォーマの切り替えを反復学習過程
中において適宜行う
(反復学習内ダイバーシチ)
反復学習後ダイバーシチ
(1)帯域分割型ICAによるBSS
→ 形成される指向特性より音源方位を陽に推定
(2)音源方位を利用して死角制御型ビームフォーミング
(3)アルゴリズムダイバーシチによる(1),(2)の統合
(1)帯域分割型ICAによる音源分離
周波数変換
時間遅れを含む混合問題を単純化
(1)学習アルゴリズム
Iterative off-line learning algorithm :




( ICA)
H
H
(ICA)
Wi (ICA)

W



diag

Φ
(
Y
)
Y



Φ
(
Y
)
Y


W
1
i
i
where
1
1
ΦY  
 j
(R)
1  exp  Y
1  exp  Y (I)

Y
(R)


(I)

: real part of Y , Y : im aginarypart of Y
(2)死角制御型ビームフォーマ
指向特性・・・空間に対してアレーが形成する利得の分布
逆混合行列 W ( BF
による指向特性:
)
( BF )
ˆ 1 に目的方位 ˆ 2 に死角


2) W
W
(
f
(
f
)

11
12
(BF)
W 1. F
(ICAで推定されたWより指向特性を算出し、音源方
fl () f , )  Wlk exp[ j2fdk sin  / c]
( BF ) k 1
( BF )
N
/2 ˆ
位を求める。
(
f
)
W21 ( f ) W

2

2 に目的方位 ˆ 1 に死角
22

l 番目の音源の DOA : ˆl 
l ( fm)

N
m 1
2.推定された音源方位より死角制御型ビームフォー
マを構成する。
ˆ 1 に目的方位 ˆ 2 に死角
ˆ 2 に目的方位 ˆ 1 に死角
Source 1
Source 2
(3)アルゴリズムダイバーシチによる統合
帯域毎に以下のルールでICAと
ビームフォーマを切り替える
周波数 f での音源方位推定値が
 l ( f ) である場合、
( ICA )
W
 lk , |  l ( f )  ˆl | h l
Wlk  
( BF )
W
 lk , |  l ( f )  ˆl | h l
 l :  l ( f ) の偏差
h : 閾値パラメータ
収束性が悪い・独立性が低い帯域での分離性能を向上
実験条件
素子間隔 4 cm の 2 素子アレー
音源 :
• 方位 -30°, 方位 40°の 2 音源(36通り)
音響条件 :
• 残響時間 RT= 0, 0.15, 0.30 sec
逆混合行列の学習 :
• 1, 3, 5 秒間の観測信号を利用
評価基準 :
• Noise reduction rate (NRR)
= 出力SNR [dB] – 入力SNR [dB]
比較対象:
• Murata法(in ICA’99; 狭帯域波形包絡間の類似性利用)
Noise Reduction Rate [dB]
実験結果:ダイバーシチの効果
RT=0.15 sec の場合
9
8
7
6
5
4
3
2
学習区間
5 sec
3 sec
1 sec
h=0 (Null
beamformer)
h=1
h=2
h=∞ (ICAbased BSS)
ビームフォーマ, ICA-based BSSよりもSNR向上
Word Recognition Rate [%]
実験結果:音声認識による評価
100
93.9
89.4
80
60
学習区間=5 sec
85.6
72
53.8
58.3
53
40
49.3
34.8
Mixed
Proposed
Murata's
20
0
RT=0 sec
RT=0.15
sec
RT=0.30
sec
すべての場合において提案法により認識率改善
分離音声デモ
無残響実験
•
•
•
•
混合音
分離音 (女性,村田・池田の手法)
分離音 (女性, 提案手法)
分離音 (男性, 提案手法)
残響付与実験 (残響時間 300 ms)
•
•
•
•
混合音
分離音 (女性,村田・池田の手法)
分離音 (女性, 提案手法)
分離音 (男性, 提案手法)
(逆混合行列の学習には 3 秒間の観測信号を利用)
反復学習内周期的ダイバーシチ
 


)
( BF )
ˆ 1 に目的方位
ˆ 2 に死角
W11( BFInit


W
H
H
W (12f ) 
H  Φ Y Y H WjP  i  WjP  i


W
jP

i

1


diag
Φ
Y
Y
jP  i
jP  i
WjPjP i 1 ( BF)

( BF )
ˆ 2 に目的方位 ˆ 1 に死角
W
W



W (f)
( i  210, 1, , 22P 1,
( j  1j,20, ,
)
BF
1, ) ICA
W (f)
N /2
Direction
of Arrival
2
ˆl  l ( fm) else
Estimation
m 1
if Nfinal
ˆl
W (f)
Ordering & Scaling
ˆl
反復学習における
指向特性のアニメーション
- 従来のICAの場合 -
反復学習における
指向特性のアニメーション
- 提案法の場合 -
無残響下での実験結果
26
NRR[dB]
24
22
Proposed
Method
Conventional
Method
20
18
16
14
100
200
300
400
The Number of Iterations
500
RT=150msecの場合の実験結果
8.5
NRR[dB]
8
7.5
Proposed
Method
Conventional
Method
7
6.5
6
5.5
100
200
300
400
The Number of Iterations
500
考察
無残響下ではNRR値の大幅な向上が見られた
• ICAとビームフォーミング間の射影反復は有効に機能
残響下においてもNRR値の向上が見られた
• 残響下でのビームフォーミングは必ずしも性能をあげ
る保証はないが適切な反復回数で切り替えることは
収束を高める上で有効である
問題点:全帯域を同時にBFに切り替える必要があるのか
BFに切り替えるタイミングはいつが最適か
改善法:反復学習内ダイバーシチ
Init W 0 ( f )
指向特性・・・空間に対してアレーが形成する利得の分布
( BF )
( BF )
ˆ 1 に目的方位 ˆ 2 に死角


W
(
f
)
W
(
f
)

ˆ
11 による指向特性:
 l12
(BF)
逆混合行列
ONE TIME
W
W
(f)
2
W i  1( f ) WICA
i (f )
BF 
( BF )
( BF )
ˆ
(ICA)
W
(
f
)
W
(
f
)
Fl (f W,21i  )1 (
W
lk
exp[
j
2
fdk sin  /Hˆc1]に死角


f ) 22H
 (BF)2 に目的方位
  diag Φ(Y ( f , t ))Yk(f1, t ) t  Φ
(Y N((f/f2,)t ))Y ( f , t ) t W i ( f )
W2
 
Direction of Arrival
l 番目の音源の
DOA :
Estimation
ˆ
l 
(f

N
l
m

)
m 1
W i  1 (ICA) ( f )
Diversity with Cost Function
W (f)
Wi( f )
i  i 1
else
Source 1
if final
W (f)
Source 2
コスト関数(2出力間Cosine距離)
J( f )
J
(ICA)
が小さい
(f)
2出力が無相関(≒独立)
Y1
Y1
(ICA)
(ICA)
( f , t) Y 2
( f , t)
2
t
1
2
 Y2
J
(f)
( f , t)
(ICA)
Y 1 ( f , t)
(BF)
(BF)
2
t
1
2
*
( f , t)
Y 1 ( f , t) Y 2 ( f , t)
(BF)
(BF)
(ICA)
*
 Y 2 ( f , t)
(BF)
t
2
t
1
2
t
2
t
1
2
コスト関数(Cont’d)
J
ICA
BF
が
( f ) J ( f ) より大きいときは
死角制御型ビームフォーミングを選択
ICAでは収束しない帯域の分離を行う
収束の遅い帯域の学習を加速する
J
ICA
BF
( f ) が J ( f ) 以下のときは
ICAを選択
反射成分や残響成分を考慮して独立に分離する
残響時間 150 msec の場合の分離性能
ビームフォーミングの選択状況例(残響時間
ICAの収束が遅い反復初期は 150 msec)
ビームフォーミングによって
ビームフォーミングを選択
最適解近傍へ早く近づくことが可能
ICAでは収束しない帯域は
全反復においてビームフォ
ーミングが選択される
ある程度学習の進んだ反復後期では
反射成分や残響成分も考慮して独立
に分離するICAが選択される
残響時間 300 msec の場合の分離性能
考察
提案法による分離性能は従来法を上回る
(RT150 msec : 4.6 dB, RT 300 msec : 1.5 dB)
演算量を考慮しても提案法は収束が速い
反復学習内において
• 反復初期では学習の遅いICAよりも死角制御型
ビームフォーミングが選ばれて学習が加速される
• 学習の進んだ反復後期ではICA が選択されて
反射成分や残響成分も考慮して分離が行われる
• ICAでは収束しない帯域では反復全般において
死角制御型ビームフォーミングが選ばれる
分離音声の一例
残響時間 150 msec
• 混合音声(男性、女性)
• 従来法による分離音声(女性)
• 提案法による分離音声(女性)
残響時間 300 msec
• 混合音声(男性、女性)
• 従来法による分離音声(女性)
• 提案法による分離音声(女性)
今後の展開
ICAによるBSSはどこへ行くのか?
• 数理解析上での進展はほぼ飽和ぎみ
• 実際の音環境を取り扱えるには未だに至っていない
• 共通の音源分離用データベースによる相互比較
現在: 解ける問題のみ机上で解いていた
今後: 実環境においていかにしてICAの実力を発揮させるか
独立成分分析とビームフォーミングを融合した高性能
BSSシステムに関しては
• 2素子以上のシステムへの拡張
• オンライン学習化(動く音源の分離)
今後の展開2
時間-周波数領域ICAに関する限界
• 周波数分割数を増加 ⇒ 残響には対応可能
しかし分離性能は劣化
• 分割数増加により狭帯域信号間の独立性評価が
困難に
(荒木,西川 他,2001)
• Permutationの影響?
周波数領域ICAにこだわらない
より残響に強い手法の提案が望まれる
帯域分割数 vs. 分離精度
分離性能劣化!
14
RT=150msec
NRR [dB]
12
RT=300msec
10
11.896
9.944
9.569
9.527
8.637
8.018
8
7.356
6.122
6
12.736
12.132
5.059
7.581
6.906
5.729
4
2
0
32
64
128
256
512
Number of Subbands
1024
2048
Noise Reduction Rate [dB]
実験結果:従来BSS法との比較1
20
15
17.6
学習区間=5 sec
14.9
10
8.2
7.6
6.4
5.8
5
0
RT=0 sec
RT=0.15
sec
RT=0.30
sec
Proposed
Murata's
Noise Reduction Rate [dB]
実験結果:従来BSS法との比較2
20
15
17.5
学習区間=3 sec
12.5
10
7.8
6.8
Proposed
Murata's
5.8
4.2
5
0
RT=0 sec
RT=0.15
sec
RT=0.30
sec
5及び3秒で学習した場合どの残響下でも提案法が有効
Noise Reduction Rate [dB]
実験結果:従来BSS法との比較3
20
15
学習区間=1 sec
13.5
Proposed
Murata's
10
5
5.2
3.7
3.7
2.1
2
0
RT=0 sec
RT=0.15
sec
RT=0.30
sec
学習区間が短い場合Murata法では劣化大
提案法では指向特性のみを使用するため劣化小