スライド 1

3-P-59(c) 音響伝達特性の判別に基づく単一チャネル音源位置推定における
MKL-SVMを用いた特徴量重みの自動学習
高島遼一,滝口哲也,有木康雄 (神戸大院)
単一マイクによる音源位置推定のためのアプローチ
研究の背景
クリーン音声に畳み込まれる音響伝達特性は音源位置毎に異なる値を持つ
Cepstral coefficient (MFCC 10th order)
従来の音源位置推定法
固定されたマイクロフォンアレーによって各マイクロフォンにおける
観測信号の位相差から音源位置を推定
 c
 d sin 

s(t   )
周波数領域
d
s (t )
 : 到来時間差
c : 音速
O()  H ()  S ()
ケプストラム領域
Ocep (d )  Hcep (d )  Scep (d )
32-channel arrays
単一マイクの利点
低コスト化やシステムの縮小化などが期待できる
音源位置30°と90°における
音響伝達特性のMFCC
音源位置ごとに異なる
音響伝達特性
研究の目的
マイク一つで音源位置推定が行えないだろうか?
Cepstral coefficient (MFCC 7th order)
音源位置毎に音響伝達特性を学習しておけば,学習済みの場所から到来する
音声はその音響伝達特性を判別することで音源位置を推定することができる
提案手法
提案手法の流れ
1. 音源位置毎に発話された音声信号を収録し、音響伝達特性を推定する
2. 推定した音響伝達特性を用いて、その位置を学習する
3. ある位置で発話されたテスト音声についても音響伝達特性を推定し、
音響伝達特性を識別することで、音源位置を推定する
音響伝達特性の推定方法
クリーン音声の生成確率をあらかじめHMMでモデル化しておき、
観測信号から最尤推定法により音響伝達特性を推定する。

 
 
ˆ
H  arg max Pr O | H , S
H
音源位置

単一マイク
O
認識結果(ラベル)
/a/ /i/ /t/ /e/
2
認識結果を元に
音素HMMを連結
…
K H, H    n  kn H, H
3
n
・MKLは本来、識別に有効なカーネルを重み付けで評価する手法
・カーネル関数を次元毎に定義すると、識別に有効な次元を評価することができる。
O
S
 
/a/
/e/
(/a/ /i/ /t/ /e/ と連結されたHMM)
連結HMMを用いて、観測信号に対する尤度が
最大となるようにHを推定(最尤推定法)
K H, H    d  kd H d , H d 


91.2
SVM
 
 
ˆ
H  arg max Pr O | H , S
H
Localization accuracy [%]
d
今後の課題
・雑音環境下での実験
・音源位置の候補が増えた場合の実験
S
 
音素認識
・MKL (Multiple Kernel Learning)
複数のサブカーネルの線形結合により新たなカーネルを作成する手法
重みβは、SVM (Support Vector Machine)によって自動で学習される。
92
90.0
90
88
86
SVM with feature weighted by
AdaBoost
87.0
MKL-SVM with an identical
kernel dimensionally
85.7
84
MKL-SVM with different
kernels dimensionally
82
音源位置の推定精度
30°
90°
130°
Cepstral coefficient
まとめ
・音響伝達特性を判別することで、単一マイクによる音源位置推定を行った.
・音響伝達特性の特徴次元重みをMKL-SVMにより学習させることで、精度の
向上が得られた。
クリーン音声の
音素HMM
1
クラス(音源位置)毎に異なる次元重みの学習
実験条件
・特徴量:MFCC 16次元
・サンプリング周波数:12kHz
・テストデータ数:1000単語
・クリーン音声HMMの学習
音素数:54 状態数:3 混合数:32
学習データ数:2620単語
・位置の学習
学習データ数:50単語
SVMのカーネル関数:ガウシアンカーネル
マージン最大と最小誤りとのトレードオフ: C = 1
/e/
…
観測信号
MKL-SVMの応用による次元重みの学習
・音響伝達特性の特徴量(MFCC)の各次元の中には、インパルス応答の
影響を強く受ける次元と、そうでない次元が含まれるのでは?
・識別に重要な次元は、音源の位置によって異なるのでは?
•ATRデータベースの単語データにインパルス応答(RWCPデータベース、
残響長:300ms)を畳み込んでシミュレーション実験を行った.
/a/
…
音源 学習データ 
i
位置ラベルの学習
i
H
O
train
train
位置
i
次元重みの学習
Otrain
音響伝達
観測信号Oから
(MKL-SVM)

特性を識別
音響伝達特性H
(SVM)

を推定する

評価データ Otest
Htest
単一

Otest
マイク
識別結果
(位置ラベル)ˆ
評価実験

次 位 30°
元 置 90°
重毎
み の 130°
0.00
0.00
0.01
Cepstral order
0.07
0.07
0.07
0.06
0.10
0.07
0.07
0.06
0.11
0.08
0.07
0.07
音源位置毎の音響伝達特性の分布と、次元重み
実環境における実験
収録風景
実験データ
ATRデータベースより、音素バランス単語 216単語のうち
位置の学習:50単語
テスト:166単語
4-fold クロスバリデーションにより評価
収録環境
3200 × 6200 × 2800 [mm] の部屋
残響長:349.2 msec
SNR:41.49 dB
130
Speaker
3170 mm
Microphones
1000 mm
90
300 mm
1500 mm
40
6260 mm
テスト時のスピーカーの位置が、学習時の位置からずれた場合や、音源の向いている方向が変わった場合について評価
比較手法として、CSP法 (2ch マイク)を用いた
CSP法は、算出した音源方向が、40°、90°、130°のどれに近いかを当てる、3クラス分類問題として正解率を求めた
0 deg
45 deg
100
78.7
80
100.0
70.8
テスト時の音源の位置がずれた場合
Localization accuracy [%]
Localization accuracy [%]
テスト時の音源の向いてる方向が変わった場合
100.0
87.7
66.4
60
Proposed Method
(Single mic.)
40
CSP (Two of mic.)
0 cm
20
15 cm
0
0 deg
45 deg
100.0
100.0
78.7
80
58.9
60
Proposed Method
(Single mic.)
54.4
40
CSP (Two of mic.)
20
0
0 cm
15 cm
30 cm
30 cm
音響伝達特性の推定手法
MKL-SVM
① 観測信号に対して音素認識を行い、音素ラベルを得る
通常のSVMは、一つのベクトルに対して1種類のカーネル関数が割り
当てられる
K H, H  kn H, H
② 音素ラベルを元に、音素HMMを連結する
H 1
PrS , b, c | S    ab(t 1),b(t ) PrS , c | b(t ), S 
H 2
t
PrS , b, c | S    ab(t 1),b(t ) wb(t ),c (t )  N S (t ); b(t ),c (t ) , b(t ),c (t ) 
Hˆ  arg max PrO | H , S 




K H, H    n  kn H, H
PrO, b, c | H , S 
 b c
 log Pr O, b, c | Hˆ , S
PrO | H , S 




 Pr On  | bn , cn ; Hˆ , S
H 2


   n

b
d
H 1
クリーン音声HMM
の平均値にHを加算
H 2
O(d ; n)  b ( n ),c ( n ) d 
b ,c
c
c
 b2( n ),c ( n ) d 
 b,c n 
2
b ( n ),c ( n )
b : 状態
c : 混合要素
n : フレーム番号
d 


 b,c n  Pr O, bn, cn | Hˆ , S
a : 状態遷移確率

w : 混合重み
S  
 : 平均値ベクトル
 : (対角) 共分散行列

k2 Η, H
k H, H
k N Η, H
K H, H    d  kd H d , H d 



提案手法では、ベクトルの次元毎に、1種類のカーネル関数が割り当
てられる
Pr On | bn, cn; Hˆ , S  N O(n); b( n),c ( n)  H (n), b( n),c ( n) 

N
k1 Η,H
通常のMKL-SVM
ケプストラム領域でのO=S+Hという仮定より
これらをQ関数に代入し、 Q Hˆ | H / Hˆ  0 を解く
1
2
H D 
Pr O, b, c | Hˆ , S  n ab n 1,b n wb n ,c n 

n
H 1
同時確率は以下のように展開される

従来の単一カーネルSVM
MKL-SVMは、一つのベクトルに対して、複数のカーネル関数が割り当
てられる
H
Q Hˆ | H  E[logPr O, b, c | Hˆ , S | H , S ]
k H, H
H D 
③ 連結したクリーン音声HMMを用いて、観測信号Oに対して、尤度が最大と
なるように、Hを推定する
解はEMアルゴリズムによって求められる


t
Hˆ (d ; n) 
100.0
100
90 deg
90 deg
b
Desk
Table
1500 mm

H D 
1
2
k1 H 1, H 1
k2 H 2, H 2

k H, H
D
kD H D, H D
提案手法におけるMKL-SVM
各サブカーネルの重みβは、SVMの枠組み(マージン最大化)によって
識別境界と一緒に学習される。
通常のSVM
MKL-SVM
1
max  i    i j yi y j k xi , x j 


2 i, j
i
1
max  i    i j yi y j   l kl x i , x j 


2 i, j
i
l
i yi i  0
s.t. 
0   i  C
i yi i  0, 

1

l
l
s.t. 
0   i  C , l  0