スライド 1

3-Q-20 音響モデルを利用したシングルチャネルによる音源方向推定の検討
住田雄司, 滝口哲也, 有木康雄(神戸大)
研究の背景
実環境では,雑音の影響により音声認識率が著しく低下する.
・発話者の方向を推定することにより,その方向にマイクロホンの指向特性を形成して発話音声を強調する.
・雑音の方向を推定することにより,その方向にマイクロホンの死角を形成して雑音を抑圧する.
従来の方法では,複数のマイクロホンによる到来信号の時間差から方向を推定していた.
→ 単一マイクロホンで方向を推定することはできないのだろうか?
単一マイクロホンによる方向推定の利点
本研究の目的
・コスト削減
・設置の容易さ
・モジュール間の整合性
単一マイクロホンによる音源方向推定
提案手法
単一マイクロホンで方向を推定するにはどのようにすればよいのか?
提案手法のフローチャート
Train
Test
クリーン音声
GMM
推定したい方向
からの入力音声
各方向からの
入力音声
(数単語)
その方向における
音響伝達特性
信号の時間差の代わりに,音響伝達特性による比較を行う!
音響伝達特性はどのようにして推定するのか?
Acoustical
Clean speech transfer function Observed speech
S
H
O
logO(; t )  log S (; t )  log H ( )
OとSが既知であればHを求めることができるが,Sは実際に
観測することができない.そこで,Sの代わりに予め学習可能な
クリーン音声GMM(Gaussian Mixture Model)を用いて,
尤度最大基準に基づきHを推定する.

H cep


Ot ,i  H t,i   n,m,i 
Q(H, Η)    t (n, m)  
2
2 n,m,i
t 1 n 1 m 1
 i 1
 t (n, m) 
H t,i 
M
M

n,m
N S t ; μ n ,m ,  n,m 
M
  t (n, m)
Ot ,i   n ,m ,i
n 1 m 1

2
n , m ,i
 t (n, m)

2
n 1 m 1  n , m ,i
N
2
D
 n ,m N S t ; μ n,m ,  n,m 
m 1
N
N
M
各方向における
音響伝達特性
GMM



 : モデルパラメータの集 合
 : 分布の重み
D : 次元数
T :フレーム数
N : 状態数
M : 混合数
具体的には,推定したい方向から数単語の音声を観測し,
クリーン音声GMMとEMアルゴリズムを用いてHを推定する.
100
90
80
70
60
50
40
30
20
10
0
2方向における識別率
1mix
2mix
30°
実験環境
クリーン音声の音響モデル
音響伝達特性の音響モデル
クリーン音声の学習データ
音響伝達特性推定の学習データ
テストデータ
GMM(64混合)
GMM(1,2,4混合)
2620単語
10単語
1000単語
90°
130°
30°
2m
部屋の残響 : 300 [ms]
方向識別率[%]
特定話者(男性1名)
MFCC(16次元)
100
90
80
70
60
50
40
30
20
10
0
100
90
80
70
60
50
40
30
20
10
0
1mix
30°
2mix
90°
30°の方向から音声到来
1mix
30°
90°
90°の方向から音声到来
音声データ・音響モデル
話者
特徴量
4mix
4mix
130°
2mix
90°
4mix
130°
130°の方向から音声到来
方向識別率[%]
評価実験
入力音声の音響伝達
特性と,各方向に
おける音響伝達特性
モデルを比較
↓
最も尤度が大きい
方向を到来方向として
出力
H t,i
方向識別率[%]

Hˆ cep  arg max P O Scep , H cep
各方向における
音響伝達特性
方向識別率[%]
O(; t )  S (; t )  H ()
T
H t,i
100
90
80
70
60
50
40
30
20
10
0
1mix
30°
2mix
90°
4mix
130°