中間報告

音響伝達特性を用いた単一チャネル
音源位置推定における特徴量選択の検討
高島遼一,滝口哲也,有木康雄
神戸大学大学院
研究背景
音源位置推定技術の役割
 音声強調・雑音抑圧のための前処理
 対話ロボット,会議システム,etc.
従来の音源位置推定法
 複数のマイクを用いて観測される信号間の位相差を利用
 c

 d sin 
 :時間差
c :音速
d
 c
マイクロホンアレー(マイク数32)
www.***.com
研究目的
単一マイクで音源位置推定は行えるか?
 システムの縮小化,複数マイクの手法との複合
研究目的:
位相差などの相互情報を用いない,単一マイクでも行え
る音源位置推定の実現
提案手法
 音響伝達特性を用いた単一チャネル音源位置推定法
www.***.com
アプローチ
音響伝達特性
HB
S
HA
S
位置B
O
Microphone
音響伝達特性
位置A
•音声Sは,マイクで観測されるまでに,音声の減衰や残響等の影響を受ける
音響伝達特性
•音響伝達特性は,音源の位置ごとに異なる特性をもつ
あらかじめ音源位置毎の音響伝達特性を学習しておけば,評価音声につい
てもその音響伝達特性を識別することで音源位置を推定できる
www.***.com
提案手法の流れ
1
2
3
ステップ2
ステップ1
音
源
位
置
i
H train
学習データ Oi
train
i
Otrain
単一マイク
学習
(SVM)
観測信号Oから
音響伝達特性H
を推定する


評価データ Otest

Otest
音響伝達
特性を識別
(SVM)

Htest
識別結果
ˆ
STEP1:音響伝達特性の推定
観測信号Oから音響伝達特性Hを推定する
STEP2:音響伝達特性の識別
推定された音響伝達特性をSVM (Support Vector Machine)で学習
識別する
www.***.com
音響伝達特性の推定
www.***.com
観測信号の定式化
時間領域
o(t )  s(t )  h(t )
 : 周波数
短時間フーリエ変換
周波数領域
O(; n)  S (; n)  H (; n)
t : 時刻
n : フレーム
d : ケプストラムの次元
対数変換
logO(; n)  log S (; n)  log H (; n)
離散コサイン変換
ケプストラム領域
Ocep d ; n  Hcep d ; n  Scep d ; n
統計モデル化
モデル領域
On   Hcep n  S
未知
 : モデルパラメータ
処理は全てMFCC領域で行われる
実際の環境ではSは未知であるため,Sの代わりにSの統計モデルを
用いて最尤推定法でHを推定する.
www.***.com
音響伝達特性の推定
クリーン音声Sの生成確率をHMM (Hidden Markov Model) であらかじめ学習
PrS , b, c | S    ab( n1),b( n) wb( n),c( n)  N S (n); b( n),c( n) , b( n),c( n) 
n
観測信号Oの事後確率をクリーン音声HMMを用いて表す
a : 状態遷移確率
b : 状態
c : 混合要素
w : 混合重み
(O = S + H の仮定を用いて)
PrO, b, c | H , S    ab( n1),b( n) wb( n),c ( n)  N O(n); b( n),c( n)  H (n), b( n),c ( n) 
n
観測信号に対するHの尤度が最大となるようにHを推定する
Hˆ  arg max PrO | H , S 
H
 arg max PrO, b, c | H , S 
H
b
c
(解はEMアルゴリズムによって推定される)
www.***.com
音響伝達特性推定の流れ
観測信号
Od ; n 

音素認識
クリーン音声の
音素HMM
S
(a)
(i)
認識結果(ラベル)
i, k, i, o, i
音響伝達特性を推定
Hˆ  arg max Pr(O | H , S )
H
音素HMMを連結
連結HMM
・・・
(i)
(u)
Hˆ
(k)
(i)
(o) (i)
・・・
1.あらかじめクリーン音声の音素HMMを用意しておく
2.観測信号の音素認識を行う
3.音素認識の結果を元に音素HMMを連結する
4.連結されたHMMを用いて音響伝達特性を推定する
www.***.com
音響伝達特性の識別
www.***.com
クラスごとに異なる特徴量重みの決定
MFCC各次元の中でも、クラスによって識別に有効な
次元とそうでない次元が含まれる
 クラスごとに異なる、次元重みの設定
クラスごとの次元重みをMKL (Multiple Kernel Learning)
を用いて学習し、SVM (Support Vector Machine) で識別
を行う
www.***.com
SVMによるクラス識別とカーネル関数
 SVMは通常、カーネル関数を用いて非線形な識別関数を生成する。
x  x1 , x2 ,, xD 
 :写像関数
D次元特徴ベクトル
 x
高次元特徴ベクトル
 高次元空間での内積を様々な種類のカーネル関数、パラメータで表現
(カーネルトリック)
x,x  K x, x
内積
カーネル関数
 カーネル関数の例
 x  x 2 

K x, x  exp 
2





ガウシアンカーネル
K x, x  x  x 1
多項式カーネル
p
www.***.com
MKL (Multiple Kernel Learning)
 複数のサブカーネルを線形結合し、新たなカーネル関数を作
成する手法
K x, x    n  kn x,x
n : n番目のカーネルの重み
n
 各サブカーネルの重みβは,一般的にSVMの枠組み(マージ
ン最大化)で学習される.
MKL-SVM
通常のSVM
max  i 

i
1
 i j yi y j k xi , x j 
2 i, j
i yi i  0
s.t. 
0   i  C
max i 

i
1
  i j yi y j l l kl xi , x j 
2 i, j
i yi i  0, l l  1
s.t. 
0   i  C , l  0
 次元毎にサブカーネルを定義することで,特徴次元の重みを
学習する
K x, x    d  kd xd , xd 
d
特定の次元
www.***.com
実験環境
 音声データ
 ATR研究用音声データベースより男声話者1名
3,120 mm
 RWCP実環境音声・音響データベースで収録されたインパルス応答を
クリーン音声に畳み込んで作成(特定話者実験)
6,660 mm
 残響時間:300 msec (残響可変室)
 音源方向:30, 90, 130°
:sound source
:microphone
(3クラス識別)
 音源距離:一律約2m
4,330 mm
www.***.com
4,180 mm
 観測信号データ
分析条件
 特徴量
 MFCC:16次元
 サンプリング周波数:12kHz 窓幅:32 msec フレームシフト:8 msec
 音響伝達特性の推定
 クリーン音声の学習データ数: 2620単語
 音素数:54 HMMの状態数:3 混合数:32
 位置の識別




学習データ数:50単語 テストデータ数:1000単語
SVMのカーネル関数: ガウシアンカーネル
SVMのスラック変数C:1
カーネル関数のパラメータ:実験的に決定
www.***.com
比較手法
GMM(混合数8)による識別と、以下3種類のSVMの
手法を比較
各カーネルの関数は
同じだが、パラメータ
は異なる
各カーネルの種類も
パラメータも等しい
x1
x1
x2
x2

xD

k x,x
従来の
単一カーネルSVM

xD


k x1 , x1 
K x,x

k x , x 
2

2
k xD , xD 
同一のカーネルを
次元ごと独立に計算
してMKL統合
x2
1
2

xD
D
x1
k1 x1 , x1 
k2 x2 , x2 
 K x,x
k D xD , xD 
カーネルのパラメータ
を次元ごとに変えてMKL統合
www.***.com
実験結果
 MKL-SVMによる識別手法が従来のSVM、GMMを上回った
 カーネル関数のパラメータを次元ごとに変化させることで、若
干精度が向上
Localization accuracy [%]
95
91.2
92
90.0
GMM
従来の単一カーネルSVM
89
85.7
MKL-SVM
86
84.2
83
カーネルパラメータを次元毎に
変えたMKL-SVM
80
www.***.com
位置毎の次元重みと音響伝達特性の分布
30°
90° and
30°
and 130°
90°
130°
Cepstral coefficient
30°
90°
130°
Cepstral order
次 位 30° 0.00 0.06 0.07 0.07 0.07 0.06 0.07 0.07 0.06 0.08 0.06 0.06 0.06 0.07 0.07 0.07
元 置 90° 0.00 0.06 0.06 0.06 0.07 0.08 0.10 0.07 0.06 0.07 0.07 0.06 0.06 0.06 0.07 0.06
重毎
み の 130° 0.01 0.05 0.09 0.07 0.05 0.11 0.06 0.11 0.05 0.07 0.06 0.05 0.05 0.06 www.***.com
0.05 0.07
マイクの位置のずれに対する頑健性の評価
Localization accuracy [%]
 テスト時に、マイクの位置を学習時の位置からずらして収録し
て識別精度を測定
 マイクの位置が10cmずれた時点で15~20%精度低下
100
91.2
90.0
85.7
84.2
90
GMM
80
従来の単一カーネルSVM
70
67.9
64.0
62.0
60
67.1
65.9
64.0
54.5
50
MKL-SVM
カーネルパラメータを次元毎
に変えたMKL-SVM
40
0
10
20
Gap of position of mic. [cm]
www.***.com
まとめ
次元ごとにサブカーネルを定義し、MKLで統合させる
ことで、音響伝達特性MFCCの次元重みを自動的に
学習させた
以前用いていたGMMによる識別や従来のSVMに比
べて高い識別精度が得られた
今後の課題
 収録環境が変化した場合、精度が大幅に低下
 音響伝達特性の正確な推定
www.***.com
ご清聴ありがとうございました
www.***.com
200cm
10cm
マイクロホンアレー
音源位置
実験に使用するマイク
www.***.com