中間報告

音響伝達特性を用いた単一チャネル
音源位置推定における特徴量選択の検討
電子情報通信学会 音声研究会
2011年1月27, 28日
高島遼一,滝口哲也,有木康雄
神戸大学大学院
研究背景
音源位置推定技術の役割
 音声強調・雑音抑圧のための前処理
 対話ロボット,会議システム,etc.
従来の音源位置推定法
 複数のマイクを用いて観測される信号間の位相差を利用
 c

 d sin 
 :時間差
c :音速
d
 c
マイクロホンアレー(マイク数32)
www.***.com
研究目的
単一マイクで音源位置推定は行えるか?
 システムの縮小化,複数マイクの手法との複合
研究目的:
位相差などのマイク間の情報を用いない,単一マイクで
も行える音源位置推定の実現
提案手法
 音響伝達特性を用いた単一チャネル音源位置推定法
www.***.com
アプローチ
音響伝達特性
HB
S
HA
S
位置B
O
Microphone
音響伝達特性
位置A
•音声Sは,マイクで観測されるまでに,音声の減衰や残響等の影響を受ける
音響伝達特性
•音響伝達特性は,音源の位置ごとに異なる特性をもつ
あらかじめ音源位置毎の音響伝達特性を学習しておけば,評価音声につい
てもその音響伝達特性を識別することで音源位置を推定できる
www.***.com
提案手法の流れ
1
2
3
ステップ2
ステップ1
音
源
位
置
i
H train
学習データ Oi
train
i
Otrain
単一マイク
学習
(SVM)
観測信号Oから
音響伝達特性H
を推定する


評価データ Otest

Otest
音響伝達
特性を識別
(SVM)

Htest
識別結果
ˆ
STEP1:音響伝達特性の推定
観測信号Oから音響伝達特性Hを推定する
STEP2:音響伝達特性の識別
推定された音響伝達特性をSVM (Support Vector Machine)で学習
識別する
www.***.com
音響伝達特性の推定
www.***.com
観測信号の定式化
時間領域
o(t )  s(t )  h(t )
 : 周波数
短時間フーリエ変換
周波数領域
O(; n)  S (; n)  H (; n)
t : 時刻
n : フレーム
d : ケプストラムの次元
対数変換
logO(; n)  log S (; n)  log H (; n)
離散コサイン変換
ケプストラム領域
Ocep d ; n  Hcep d ; n  Scep d ; n
統計モデル化
モデル領域
On   Hcep n  S
未知
 : モデルパラメータ
処理は全てMFCC領域で行われる
実際の環境ではSは未知であるため,Sの代わりにSの統計モデルを用いて最尤
推定法でHを推定する.
www.***.com
SはHMM (Hidden Markov Model)でモデル化する
音響伝達特性の推定(1/2)
観測信号に対する尤度が最大になるように、Hを推定する(最尤推定法)
Hˆ  arg max PrO | H , S 
S : クリーン音声HMMのパラメータ
H
解はEMアルゴリズムによって求められる




Q Hˆ | H  E[logPr O, b, c | Hˆ , S | H , S ]
PrO, b, c | H , S 
 b c
 log Pr O, b, c | Hˆ , S
PrO | H , S 

Q関数の同時確率 Pr O, b, c | Hˆ , S




は、以下のように展開される
Pr O, b, c | Hˆ , S  n ab n 1,b n wb n ,c n 


 Pr On  | bn , cn ; Hˆ , S
a : 状態遷移確率

b : 状態
c : 混合要素
w : 混合重み
www.***.com
n : フレーム番号
音響伝達特性の推定(2/2)


a : 状態遷移確率
Pr O, b, c | Hˆ , S  n ab n 1,b n wb n ,c n 

 Pr On  | bn , cn ; Hˆ , S
b : 状態

c : 混合要素
w : 混合重み
n : フレーム番号
ケプストラム領域での O = S + H という仮定より


Pr On | bn, cn; Hˆ , S  N O(n); b( n),c ( n)  H (n), b( n),c ( n) 
状態b(n),混合要素c(n)
におけるOの確率分布
クリーン音声の正規分布が
Hだけシフトされた


これらをQ関数に代入し、Q Hˆ | H / Hˆ  0 を解く
Hˆ (d ; n) 
b c  b,c n
O(d ; n)  b ( n ),c ( n ) d 

b
c
 b2( n ),c ( n ) d 
 b,c n 
2
b ( n ),c ( n )
d 

 b,c n  Pr O, bn, cn | Hˆ , S
www.***.com

音響伝達特性推定の流れ
観測信号
Od ; n 

音素認識
クリーン音声の
音素HMM
S
(a)
(i)
認識結果(ラベル)
i, k, i, o, i
音響伝達特性を推定
Hˆ  arg max Pr(O | H , S )
H
音素HMMを連結
連結HMM
・・・
(i)
(u)
Hˆ
(k)
(i)
(o) (i)
・・・
1.あらかじめクリーン音声の音素HMMを用意しておく
2.観測信号の音素認識を行う
3.音素認識の結果を元に音素HMMを連結する
4.連結されたHMMを用いて音響伝達特性を推定する
www.***.com
音響伝達特性の識別
www.***.com
クラスごとに異なる特徴量重みの決定
MFCC各次元の中には、その位置のインパルス応答
の影響を強く受ける次元と、そうでない次元が存在す
る
影響の大小は、音源の位置によって多少異なる
クラス(音源位置)毎に異なる特徴次元の重み付け
クラスごとの次元重みをMKL (Multiple Kernel Learning)
を用いて学習し、SVM (Support Vector Machine) で識別
を行う
www.***.com
SVMによるクラス識別とカーネル関数
 SVMは通常、カーネル関数を用いて非線形な識別関数を生成する。
x  x1 , x2 ,, xD 
 :写像関数
D次元特徴ベクトル
 x
高次元特徴ベクトル
 高次元空間での内積を様々な種類のカーネル関数、パラメータで表現
(カーネルトリック)
x,x  K x, x
内積
カーネル関数
 カーネル関数の例
 x  x 2 

K x, x  exp 
2





ガウシアンカーネル
K x, x  x  x 1
多項式カーネル
p
www.***.com
MKL (Multiple Kernel Learning) (1/3)
複数のサブカーネルを線形結合し、新たなカーネル
関数を作成する手法
 : n番目のカーネルの重み
K x, x    n  kn x,x
n
n
各サブカーネルの重みβは,一般的にSVMの枠組
み(マージン最大化)で学習される.
MKL-SVM
通常のSVM
max  i 

i
1
 i j yi y j k xi , x j 
2 i, j
i yi i  0
s.t. 
0   i  C
max i 

i
1
  i j yi y j l l kl xi , x j 
2 i, j
i yi i  0, l l  1
s.t. 
0   i  C , l  0
www.***.com
MKL (Multiple Kernel Learning) (2/3)
基本的な使い方
通常のSVM・・・最適なカーネルを実験的に見つける
MKL・・・様々なカーネルを用意しておけば、識別に有効なカーネルを
自動的に重み付けしてくれる
K x, x    k x,x

n
n
n
H 1
H 2

H 1

k H, H
H D 
従来の単一カーネルSVM
H 2
1
2

H D 
N
k1 Η,H
k2 Η, H

k H, H
k N Η, H
MKL-SVM
www.***.com
MKL (Multiple Kernel Learning) (3/3)
応用・・・特徴量統合における特徴量重みの学習
M. Varma, et al., ICCV 2007
x=
特徴ベクトルa
特徴ベクトルb
特徴ベクトルc
・・・
K x, x  1  k1 a,a +  2  k2 b, b + 3  k3 c, c + ・・・
提案法・・・音響伝達特性MFCCの次元重み付けへの利用
K H, H    d  kd H d , H d 
d
H 1
H 2
1
2

H D 
N
音響伝達特性の特定の次元
k1 Η,H
k2 Η, H
k N Η, H
通常のMKL-SVM

k H, H
H 1
H 2

H D 
1
2
D
k1 H 1, H 1
k2 H 2, H 2

k H, H
kD H D, H D
www.***.com
提案手法におけるMKL-SVM
実験環境
 音声データ
 ATR研究用音声データベースより男声話者1名
3,120 mm
 RWCP実環境音声・音響データベースで収録されたインパルス応答を
クリーン音声に畳み込んで作成(特定話者実験)
6,660 mm
 残響時間:300 msec (残響可変室)
 音源方向:30, 90, 130°
:sound source
:microphone
(3クラス識別)
 音源距離:一律約2m
4,330 mm
www.***.com
4,180 mm
 観測信号データ
分析条件
 特徴量
 MFCC:16次元
 サンプリング周波数:12kHz 窓幅:32 msec フレームシフト:8 msec
 音響伝達特性の推定
 クリーン音声の学習データ数: 2620単語
 音素数:54 HMMの状態数:3 混合数:32
 位置の識別




学習データ数:50単語 テストデータ数:1000単語
SVMのカーネル関数: ガウシアンカーネル
SVMの学習誤りに対する重み係数C:1
カーネル関数のパラメータ:実験的に決定
www.***.com
比較手法
 GMM(混合数8)による識別と、従来のSVM、提案手法で比較
H 1
H 2

H 1

k H, H
H D 
従来の単一カーネルSVM
H 2

H D 
1
2
D
k1 H 1, H 1
k2 H 2, H 2

k H, H
kD H D, H D
提案手法
 提案手法については、
次元毎に同じカーネルのパラメータを設定 1  2    D
次元毎に異なるカーネルのパラメータを設定 1  2    D
の2種類の場合で比較
www.***.com
実験結果
 提案手法による識別手法が従来のSVM、GMMを上回った
 カーネル関数のパラメータを次元ごとに変化させることで、若
干精度が向上
Localization accuracy [%]
95
91.2
92
GMM
90.0
従来の単一カーネルSVM
89
85.7
86
84.2
83
次元毎に同一のカーネルを設
定した提案手法
次元毎に異なるカーネルを設
定した提案手法
80
www.***.com
位置毎の次元重みと音響伝達特性の分布
90°
130°
Cepstral coefficient
30°
Cepstral order
次位
元置
重毎
みの
30°
0.00
0.07
0.07
0.07
0.08
90°
0.00
0.06
0.10
0.07
0.07
130°
0.01
0.07
0.06
0.11
0.07 www.***.com
マイクの位置のずれに対する頑健性の評価
Localization accuracy [%]
 テスト時に、マイクの位置を学習時の位置からずらして収録して識別精度
を測定
 マイクの位置が10cmずれた時点で15~20%精度が低下
100
90
80
70
60
50
40
91.2
90.0
85.7
84.2
67.9
67.1
65.9
64.0
64.0
62.0
0
10
学習時のマイクの位置
(0cm)
54.5
20
Gap of position of mic. [cm]
テスト時のマイクの位置
(10cm, 20cm)
GMM
従来の単一カーネルSVM
次元毎に同一のカーネルを設定した提案手法
次元毎に異なるカーネルを設定した提案手法
www.***.com
まとめ
次元ごとにサブカーネルを定義し、MKLで統合させる
ことで、音響伝達特性MFCCの次元重みを自動的に
学習させた
以前用いていたGMMによる識別や従来のSVMに比
べて高い識別精度が得られた
今後の課題
 収録環境が変化した場合、精度が大幅に低下
収録環境の適応
 音響伝達特性の正確な推定
www.***.com
ご清聴ありがとうございました
www.***.com
位置毎の次元重みと音響伝達特性の分布
30°
90° and
30°
and 130°
90°
130°
Cepstral coefficient
30°
90°
130°
Cepstral order
次 位 30° 0.00 0.06 0.07 0.07 0.07 0.06 0.07 0.07 0.06 0.08 0.06 0.06 0.06 0.07 0.07 0.07
元 置 90° 0.00 0.06 0.06 0.06 0.07 0.08 0.10 0.07 0.06 0.07 0.07 0.06 0.06 0.06 0.07 0.06
重毎
み の 130° 0.01 0.05 0.09 0.07 0.05 0.11 0.06 0.11 0.05 0.07 0.06 0.05 0.05 0.06 www.***.com
0.05 0.07
200cm
10cm
マイクロホンアレー
音源位置
実験に使用するマイク
www.***.com
RWCPデータベースより参照
 インパルス応答収録風景
www.***.com
音響伝達特性を分離せずに、観測信号だけで位置を
学習した場合との比較
Localization accuracy [%]
 観測信号は、位置と無関係なテキスト情報の影響を受けて
しまう
92
90.0 91.2
88
83.7
84
80.1
80
MKL-SVM with an identical
kernel dimensionally
MKL-SVM with different
kernels dimensionally
76
Acoustic
transfer function
Observed
speech
www.***.com
実環境での実験
 識別方法は、MKL-SVMではなく、GMMを使用
 残響時間 約350 ms
 SN比 約42 dB
 音源距離 1.5 m
 音源方向 40, 90, 130°
 提案法(単一マイク):87.6 %
 CSP法(2chマイク):100%
 マイク間隔 30 cm
www.***.com
実環境実験の収録環境
3170 mm
130
1000 mm
1500 mm
Table
Desk
90
300 mm
1500 mm
40
6260 mm
www.***.com
0 cm
0 deg
15 cm
45 deg
www.***.com
30 cm
90 deg
 スピーカーの位置が、学習時の位置からずれた場合
 ずれ幅15cm
 提案法: 87.6 % ⇒ 59.4 % (-28.2 %)
 CSP法: 100 % ⇒ 100%
 ずれ幅 30cm
 提案法: 87.6 % ⇒ 54.1 % (-33.5 %)
 CSP法: 100 % ⇒ 100%
 スピーカーの位置は同じで、発話方向が異なる場合
 45°
 提案法: 87.6 % ⇒ 80.3 % (-7.3 %)
 CSP法: 100 % ⇒ 100%
 90°
 提案法: 87.6 % ⇒ 65.1 % (-22.5 %)
 CSP法: 100 % ⇒ 87.7% (-12.3 %)
www.***.com
MKL (Multiple Kernel Learning) (2/3)
基本的な使い方
通常のSVM・・・最適なカーネルを実験的に見つける
MKL・・・様々なカーネルを用意しておけば、識別に有効なカーネルを
自動的に重み付けしてくれる
K x, x    k x,x

n
n
n
応用・・・特徴量統合における重み付け
βがそれぞれの特徴ベクトルの重みを表すことになる
M. Varma, et al., ICCV 2007
x=
色特徴ベクトルa 形特徴ベクトルb 勾配特徴ベクトルc
・・・
K x, x  1  k1 a,a +  2  k2 b, b + 3  k3 c, c + ・・・
提案法・・・音響伝達特性MFCCの次元重み付けへの利用
K H, H    d  kd H d , H d 
d
音響伝達特性の特定の次元
www.***.com