Document

1-P-25 3次キュムラントバイスペクトラム特徴と
Real AdaBoostによる音声区間検出
松田博義,滝口哲也,有木康雄(神戸大)
音声特徴
キュムラント
目的

音声
k

G ( )  E[ x ]  
x
VAD
キュ
指
ムラ
標
ント
尤度比(信頼値)計算
d logG( )
n 
n
d
n
1 平
次 均
平滑化及び閾値処理
dc( )
1 
d
 0
d 2c( )
2 
d 2
2 分
次 散  M
非音声区間
3次キュムラントをフレーム間での
相関をとるように拡張.
x
N 1
x p( x)dx
1
Cxk x l  E[ x0 xk xl ] 
d c( )

n
d
n
 0
1 dG( )

G ( ) d
 0
 0
 0
 M1
d 1 dG( )

d G( ) d
-目的音声に重畳する各種の
雑音による認識性能の劣化
-音声区間のみを検出(VAD:
Voice Activity Detection)することが必要
i
k
i
l
M
現在
処理している
音声フレーム
時間
k離れた
フレーム
M
 C
k  M l  M
x k xl
w(k , l ) exp( j (n k  ml ))
2次元離散フーリエ変換されたも
のから,PCA(主成分分析)を行
い有意な情報だけを用いて次元
圧縮することにより,3次元キュ
ムラントによる音声特徴とする.
2

M
2
1
4 
4 尖M
次 度
音声
x | y=1
2
2
4

4
M
M

3
M

12
M
M

6
M
4
3
1
2
2
1
1
複数クラスAdaBoost
弱識別器
学習データ
弱識別器
AdaBoostの学習を行う際、
非音声を複数のクラスに分割
非音声
x | y=-1
1
弱識別器
・・
-1
強識別器
-非音声の分散が小さくなり、
より適切なモデルが得られる
ようになる
Boostingと は弱識別器の線形結合により .強識別器を構成し,
道路
AdaBoost
音声データ
男声
GMM
女性
GMM
道路
GMM
食堂
GMM
非音声データ
食堂
AdaBoost
実験条件
より高い識別精度を得 る手法である.
1.学習データに重み w1i  1 / N , (i  1,2,..., N )を与える .
学習データ
-非音声:CENSREC-1-Cより実験に使わなかった
評価尺度
データの非音声部分を切り出したもの(約20分).
-性能評価はフレームベースで行ない,
-音声:AURORA-2Jの学習用クリーン音声に上記の FRR (False Rejection Rate)と,
非音声を重畳させたものを用いた(8440発話).
FAR (False Acceptance Rate)を
テストデータ
用いる.
・CENSREC-1-Cより実環境データ
N FR
FRR 
 100 %
-食堂(高SNR)、食堂(低SNR)、
Ns
道路(高SNR)、道路(低SNR)の4環境。
N FA
-男性4名、女性5名。各話者9~10発話のデータ×4.
FAR


100
%
比較対象
N ns
・Energy-based VAD
N s : 音声フレームの総数
・MFCC, GMM
・MFCC + Cumulant, AdaBoost
N FR :非音声と検出された音 声フレームの数
-Cumulant
N ns :非音声フレームの総数
・フレーム幅:64[ms],シフト幅:1[ms],
最大30フレーム遅延までを計算,32次元.
N FA : 音声と検出された非音 声フレームの数
-AdaBoost
・M=1000
(Nは学習データの総数 )
2.以下を M回繰り返す (m  1,2,...,M ) :
(a) wmiを用いて,クラス尤度 を得るための識別器を 学習
p x   Pˆ  y  1 x   [0,1],
m
i
-K, lは現在処理しているフレームからの距離
ただし,-M ≦ k, l ≦ Mである.
-各フレームから,kを横軸, lを縦軸として,
下図のような2次元のデータが得られる.
 0
Real AdaBoost
弱識別器
i 0
0
x j (t )  y j (t )  M1[ x j ]
l離れた
音声
フレーム
•J. Friedman, J. Hastie, R. Tibshirani, “Additive Logistic Regression:
•A Statistical View of Boosting”
テストデータ
xt
x (t ) x (t ) x (t )

N
得られた3次キュムラントに対し,
データ解析の為2次元離散フー
リエ変換を行う.
Cˆ xk xl (n, m) 
3 歪 3  M3  3M 2 M1  2M13
次 度
・実環境における問題点
識別器


音声特徴抽出
音声区間
3次キュムラントの拡張
M k  E[ x ]   x p( x)dx
k
3次キュムラントの
バイスペクトラム
 
w
(b) p mから実数値を返す弱識 別器f mを得る
 
p m x 
1
f m x   log
 R.
2
1  p m x 
(c) f mの識別結果を用いて, 学習データに対する重 みを更新
w( m 1)i  wmi exp y i f m  xi , i  1,2,..., N .
w
i
( m 1) i
 1.
M
3. f m (m  1,...M )より強識別器 Fを得る : F ( xt )   f m xt 
m 1
考察
実験結果
R-1 (MFCC - GMM)
R-2 (MFCC+Cumulant - AdaBoost)
R-3 (Baseline)
R-1 (MFCC - GMM)
R-2 (MFCC+Cumulant - AdaBoost)
R-3 (Baseline)
100
100
食堂環境において大きな改善が見られる.
R-1 (MFCC - GMM)
R-2 (MFCC+Cumulant - AdaBoost)
R-3 (Baseline)
-キュムラント特徴は,相関,ピッチ,波形の強さ等
を反映した特徴となっており,MFCCでは音声との
分離が困難な雑音(雑談等)でも分離することが可能.
94.6 , 95.5 100
92.1, 96
91.8 , 89.5
100-FRR (%)
88.4, 79.4
80
100-FRR (%)
100-FRR (%)
83.5 , 88.2
80
60
60
60
80
100-FAR (%)
食堂環境での結果
100
87.05, 89.1
80
60
60
80
100-FAR (%)
道路環境での結果
100
60
80
100-FAR (%)
各環境での平均結果
100
平均結果においてMFCC + Cumulant,
AdaBoost の実験結果がGMMを上回った.
-特徴量を統合することにより,MFCCのもつフレーム
内での情報,キュムラントの持つフレーム間での
情報を補完しあった.
-GMMが学習においてすべてのデータを均等に
用いるのに比べ,AdaBoost は識別が難しい
データに対して重点的な学習を行なうため.
-AdaBoost は音声・非音声の分離に特化した
識別器を構成する.
・音声・非音声の分離に必要な情報だけを見て,
より正確な規則を構築している.