Document

(19) 弱識別器にSVMを用いたAdaBoostの検討
目的
松田博義,滝口哲也,有木康雄(神戸大)
識別器
SVM (Support Vector Machine)
AdaBoost
正例,負例の二つのクラスに属する学習データのベクトル集
合を,
(x1, y1 ),(xN , yN ) xi  R N , yi {1,1}
とする時,SVMの分離関数は次式で与えられる.
 L

y  sgn   yi i K xi , x   b 
 i 1

K : カーネル関数
•J. Friedman, J. Hastie, R. Tibshirani, “Additive Logistic Regression:
•A Statistical View of Boosting”
音声
音声
x | y=1
VAD
テストデータ
xt
音声特徴抽出
学習データ
非音声
x | y=-1
1
弱識別器
弱識別器
弱識別器
・・
弱識別器
-1
強識別器
SVMの分離平面は,カーネルトリックによる高次空間上で,
サポートベクトル(最も他クラスに近い位置にあるベクトル)の
マージン最大化により決定される.
ここではカーネル関数にはRBFカーネルを用いた.
1.学習データに重み w1i  1 / N , (i  1,2,..., N )を与える .
尤度比(信頼値)計算
(Nは学習データの総数 )
2.以下を M回繰り返す (m  1,2,...,M ) :
平滑化及び閾値処理
(a) wmiを用いて,弱識別器を 学習
CART (Classification And Regression Trees)
f m  x    1,1,
音声区間
ある基準をひとつ設定した際,どの
次元が最も良く分離できるかを決定
し,その次元の値を基準に対象の
データを分割する.
続いて,分割の結果生じた各サブグ
ループを同様に分割する.このプロ
セスは,これ以上分割しても分割の
正確性が改善されないところ,ある
いは他の停止基準を満たすところま
で繰り返される.
最後に,剪定により誤分類率が最小
となるように部分木を選択する.
(b) 誤り率 errm,及び弱識別器への重 み mを計算
非音声区間
n
errm   wmi I { f m ( xi )  y i }
i 1
 1  errm 

 m  log
 errm 
(c) f mの識別結果を用いて, 学習データに対する重 みを更新
・実環境における問題点
-目的音声に重畳する各種の
雑音による認識性能の劣化
-音声区間のみを検出(VAD:
Voice Activity Detection)することが必要
w( m 1)i  wmi exp m I { f m ( xi )  y i }, i  1,2,..., N .
w
i
( m 1) i
 1.
M
3. f m (m  1,...M )より強識別器 Fを得る : F ( xt )    m f m  xt 
data
r1次元
data
data
r2次元
data
data
m 1
実験条件
提案手法
SVMと,弱識別器にCARTを用いた
AdaBoost (CART-AdaBoost)の二つの
識別器を,AdaBoostを用いて連結する.
SVM,CART-AdaBoostに,精度に応じて
重み付けを行い,それぞれを線形結合し,
強識別器とする.
テストデータ
xt
音声
x | y=1
非音声
x | y=-1
学習データ
強識別器
1
CART
AdaBoost
SVM
精度に応じて
重み付け
-1
精度に応じて
重み付け
x2
x2
0
学習データ
-非音声:CENSREC-1-Cより実験に使わなかった 評価尺度
-性能評価はフレームベースで行い,
データの非音声部分を切り出したもの(約20分).
-音声:AURORA-2Jの学習用クリーン音声に上記の FRR (False Rejection Rate)と,
FAR (False Acceptance Rate)を
非音声を重畳させたものを用いた(8440発話).
用いる.
テストデータ
・CENSREC-1-Cより実環境データ
N
-食堂(高SNR),食堂(低SNR),
FRR  FR  100 %
Ns
道路(高SNR),道路(低SNR)の4環境.
-男性4名,女性5名.各話者9~10発話のデータ×4.
N FA
音声特徴量
FAR 
 100 %
N ns
・MFCC
-窓幅32 ms,シフト幅8 ms,Δ,32次元.
N s : 音声フレームの総数
比較対象
N FR :非音声と検出された音 声フレームの数
・SVM
-RBFカーネル,γ=5.
N ns :非音声フレームの総数
・AdaBoost
N FA : 音声と検出された非音 声フレームの数
-最大繰り返し数2500.
・提案手法
 
 
x1
SVMによる識別境界
0
学習データに対する識別率
x1
提案手法による識別境界
x2
横軸:CART-AdaBoostにおける最大繰り返し数
縦軸:識別率
F x  


1   yi si K  xi , x   b    2    cm f m  x 
m 1
 i 1

:正規化変数
f : CART
L
0
x1
CARTによる識別境界
M
青:提案手法
赤:SVM
緑:CART-AdaBoost
考察,及び今後の予定
評価実験
Real
Data
FRR (False Rejection Rate) [%]
Remote Microphone
Restaurant
FRR
[%]
6.9
13.4
10.2
Low SNR
15.8
24.5
20.2
19.0
15.2
11.4
Real
Data
FAR (False Acceptance Rate) [%]
Remote Microphone
Restaurant
FAR
[%]
19.3
4.1
11.7
Low SNR
29.1
7.7
18.4
SVM
24.2
Remote Microphone
5.9
15.1
Real
Data
FRR (False Rejection Rate) [%]
Remote Microphone
Restaurant Street Average
FRR
[%]
High SNR
7.0
11.3
9.2
Low SNR
16.5
19.6
18.1
11.5
13.6
Average
Real
Data
11.8
FAR (False Acceptance Rate) [%]
Remote Microphone
Street Average
High SNR
Average
FRR (False Rejection Rate) [%]
Street Average
High SNR
Average
Real
Data
Restaurant
FRR
[%]
High SNR
6.7
10.5
8.6
Low SNR
15.7
20.6
18.1
15.5
13.3
11.2
Average
Real
Data
FAR (False Acceptance Rate) [%]
Remote Microphone
Restaurant Street Average
FAR
[%]
High SNR
15.9
4.0
10.0
Low SNR
27.8
7.6
17.7
5.8
13.8
Average
21.9
CART-AdaBoost
Restaurant
FAR
[%]
Street Average
Street Average
High SNR
16.6
4.0
10.3
Low SNR
26.1
5.5
15.8
Average
21.3
提案手法
4.7
13.0
考察
-提案手法が最も小さい識別誤差
・汎化能力を保ったまま識別率を
向上させることができた.
今後の予定
・3次キュムラントバイスペクトラム
特徴との併用
・マルチクラスに拡張