Document

1-Q-9 SVMとCARTの組み合わせによる
AdaBoostを用いた音声区間検出
目的
松田博義,滝口哲也,有木康雄(神戸大)
提案手法
SVMと,弱識別器にCARTを用いたAdaBoost
(CART-AdaBoost)の二つの識別器を連結する.
通常通り作成したSVMで,学習データの評価を
行い,識別の正否によってAdaBoost規準の重み
を与える.
SVMから得られたデータ重みを用いてReal
AdaBoostの学習を行う.
SVMとReal AdaBoostの線形和をとることにより
提案手法による識別機とする.
音声
VAD
音声特徴抽出
F x  
識別機による信頼値計算


  yi si K xi , x   b      cm f m x 
m 1
 i 1

SVM のノルム
:
CART  AdaBoostのノルム
f : CART
L
平滑化及び閾値処理
音声区間
非音声区間
学習データ
重み付き
学習
SVM
n
SVMによる識別境界
 1  errm 

 m  log
 errm 
w( m1)i  wmi exp m I { f m ( xi )  yi }, i  1,2,..., N .
w
( m 1) i
 1.
0
x1
とする時,SVMの分離関数は次式で与えられる.
(b) 誤り率 errm,及び弱識別器への重 み mを計算
K  xi , x   exp   xi  x
f m  x    1,1,

n
errm   wmi I { f m ( xi )  y i }
i 1
 1  errm 

 m  log
 errm 
(c) f mの識別結果を用いて, 学習データに対する重 みを更新
w( m 1)i  wmi exp m I { f m ( xi )  y i }, i  1,2,..., N .
w
i
( m 1) i
 1.
M
3. f m (m  1,...M )より強識別器 Fを得る : F ( xt )    m f m  xt 
m 1
弱学習機
・・・
評価尺度
1
-1
FRR  FAR
GER 
 100%
2
CART (Classification And Regression Trees)
最もよくデータを分割でき
data
る次元から順に閾値を設
定し分割を行なう.
r 次元
続いて分割の結果生じた
各サブグループを分割し
ていく.このプロセスは,こ data
れ以上分割しても分割の
正確性が改善されないと
ころ,あるいは他の停止基
準を満たすところまで繰り
data
返される.
15
SVM
CART-AdaBoost
Proposed
提案手法による識別境界 x1
学習データ
-非音声:CENSREC-1-Cより実験に使わなかった
データの非音声部分を切り出したもの(約20分).
-音声:AURORA-2Jの学習用クリーン音声に上記
の非音声を重畳させたものを用いた(8440発話).
テストデータ
・CENSREC-1-Cより実環境データ
-食堂(高SNR),食堂(低SNR),
道路(高SNR),道路(低SNR)の4環境.
-男性4名,女性5名.各話者9~10発話のデータ
×4.
音声特徴量
・MFCC
-窓幅32 ms,シフト幅8 ms,ΔMFCC,32次元.
比較対象
・SVM
-RBFカーネル,γ=5.
・AdaBoost
-最大繰り返し数100.
・提案手法
r2次元
data
考察,及び今後の予定
30
14.5
13.4
13.5
13.6
13
87.5 ,
87.5
90
12
80
70
70
80
90
100-FAR (%)
12.2
12.5
N FR :非音声と検出された音 声フレームの数
N FA : 音声と検出された非音 声フレームの数
識別
data
14
100
N s : 音声フレームの総数
N ns :非音声フレームの総数

SVMの分離平面は,カーネルトリックによる高次空間
上で,サポートベクトル(最も他クラスに近い位置にある
ベクトル)のマージン最大化により決定される.
ここではカーネル関数にはRBFカーネルを用いた.
評価実験
100-FRR (%)
N FA
FAR 
 100%
N ns
弱学習機
<θ
性能評価はフレームベースで行い,
FRR (False Rejection Rate)と,
FAR (False Acceptance Rate),
GER (Generalization Error Rate)を
用いる.
N FR
FRR 
 100%
Ns
・・・
∑
≧θ
2
1
テスト
データ
データ集合
精度に応じて
重みを決定
-1
実験条件
N
(a) wmiを用いて,弱識別器を 学習
精度に応じて
重みを決定
0
x1
CART-AdaBoostによる識別境界
 L

y  sgn   yi i K  xi , x   b 
 i 1

弱学習機
1
学習
(x1, y1 ),(xN , yN ) xi  R , yi {1,1}
2.以下を M回繰り返す (m  1,2,...,M ) :
弱学習機
<θ
x2
学習データのベクトル集合を,
(Nは学習データの総数 )
弱学習機
≧θ
i 1
SVM (Support Vector Machine)
AdaBoost
データに
重み付き
対する
学習
重みの更新
SVM
+
1.学習データに重み w1i  1 / N , (i  1,2,..., N )を与える .
重み付き
学習
CARTAdaBoost
∑
errm   wmi I { f m ( xi )  yi }
x2
0
識別器
・CART-AdaBoost
を学習
・ノルム及びβの計
算
SVM学習終了時のデータに
対する重みの更新式
M
x2
テスト
データ
CARTAdaBoost
・識別境界の作成
・学習データの評価
及び重み付け
・学習データのノルム
計算(スコアの2次平
均)
i
実環境における問題点
目的音声に重畳する各種の雑音
による認識性能の劣化
音声区間のみを検出(VAD:Voice
Activity Detection)することが必要
ここでは識別機に関する提案を行っ
た
データに
対する
重みの更新
重み付き
学習
100
Baseline
SVM
CART- Proposed
AdaBoost
左図はFAR,FRRのROC (Receiver
Operating Characteristic)曲線を表したも
の.
右図の実験結果におけるBaselineと
は,CENSREC-1-Cに付されているEnergybased VADの実験結果.
考察
•提案手法が最も小さ
い識別誤差
•SVMとCARTAdaBoostによって
作られる領域の違い
•CART-AdaBoostに
よりSVMを補完する
ことが可能
今後の予定
•マルチクラスに拡張
•異なる特徴量の使用