(19) 弱識別器にSVMを用いたAdaBoostの検討 目的 松田博義,滝口哲也,有木康雄(神戸大) 識別器 SVM (Support Vector Machine) AdaBoost 正例,負例の二つのクラスに属する学習データのベクトル集 合を, (x1, y1 ),(xN , yN ) xi R N , yi {1,1} とする時,SVMの分離関数は次式で与えられる. L y sgn yi i K xi , x b i 1 K : カーネル関数 •J. Friedman, J. Hastie, R. Tibshirani, “Additive Logistic Regression: •A Statistical View of Boosting” 音声 音声 x | y=1 VAD テストデータ xt 音声特徴抽出 学習データ 非音声 x | y=-1 1 弱識別器 弱識別器 弱識別器 ・・ 弱識別器 -1 強識別器 SVMの分離平面は,カーネルトリックによる高次空間上で, サポートベクトル(最も他クラスに近い位置にあるベクトル)の マージン最大化により決定される. ここではカーネル関数にはRBFカーネルを用いた. 1.学習データに重み w1i 1 / N , (i 1,2,..., N )を与える . 尤度比(信頼値)計算 (Nは学習データの総数 ) 2.以下を M回繰り返す (m 1,2,...,M ) : 平滑化及び閾値処理 (a) wmiを用いて,弱識別器を 学習 CART (Classification And Regression Trees) f m x 1,1, 音声区間 ある基準をひとつ設定した際,どの 次元が最も良く分離できるかを決定 し,その次元の値を基準に対象の データを分割する. 続いて,分割の結果生じた各サブグ ループを同様に分割する.このプロ セスは,これ以上分割しても分割の 正確性が改善されないところ,ある いは他の停止基準を満たすところま で繰り返される. 最後に,剪定により誤分類率が最小 となるように部分木を選択する. (b) 誤り率 errm,及び弱識別器への重 み mを計算 非音声区間 n errm wmi I { f m ( xi ) y i } i 1 1 errm m log errm (c) f mの識別結果を用いて, 学習データに対する重 みを更新 ・実環境における問題点 -目的音声に重畳する各種の 雑音による認識性能の劣化 -音声区間のみを検出(VAD: Voice Activity Detection)することが必要 w( m 1)i wmi exp m I { f m ( xi ) y i }, i 1,2,..., N . w i ( m 1) i 1. M 3. f m (m 1,...M )より強識別器 Fを得る : F ( xt ) m f m xt data r1次元 data data r2次元 data data m 1 実験条件 提案手法 SVMと,弱識別器にCARTを用いた AdaBoost (CART-AdaBoost)の二つの 識別器を,AdaBoostを用いて連結する. SVM,CART-AdaBoostに,精度に応じて 重み付けを行い,それぞれを線形結合し, 強識別器とする. テストデータ xt 音声 x | y=1 非音声 x | y=-1 学習データ 強識別器 1 CART AdaBoost SVM 精度に応じて 重み付け -1 精度に応じて 重み付け x2 x2 0 学習データ -非音声:CENSREC-1-Cより実験に使わなかった 評価尺度 -性能評価はフレームベースで行い, データの非音声部分を切り出したもの(約20分). -音声:AURORA-2Jの学習用クリーン音声に上記の FRR (False Rejection Rate)と, FAR (False Acceptance Rate)を 非音声を重畳させたものを用いた(8440発話). 用いる. テストデータ ・CENSREC-1-Cより実環境データ N -食堂(高SNR),食堂(低SNR), FRR FR 100 % Ns 道路(高SNR),道路(低SNR)の4環境. -男性4名,女性5名.各話者9~10発話のデータ×4. N FA 音声特徴量 FAR 100 % N ns ・MFCC -窓幅32 ms,シフト幅8 ms,Δ,32次元. N s : 音声フレームの総数 比較対象 N FR :非音声と検出された音 声フレームの数 ・SVM -RBFカーネル,γ=5. N ns :非音声フレームの総数 ・AdaBoost N FA : 音声と検出された非音 声フレームの数 -最大繰り返し数2500. ・提案手法 x1 SVMによる識別境界 0 学習データに対する識別率 x1 提案手法による識別境界 x2 横軸:CART-AdaBoostにおける最大繰り返し数 縦軸:識別率 F x 1 yi si K xi , x b 2 cm f m x m 1 i 1 :正規化変数 f : CART L 0 x1 CARTによる識別境界 M 青:提案手法 赤:SVM 緑:CART-AdaBoost 考察,及び今後の予定 評価実験 Real Data FRR (False Rejection Rate) [%] Remote Microphone Restaurant FRR [%] 6.9 13.4 10.2 Low SNR 15.8 24.5 20.2 19.0 15.2 11.4 Real Data FAR (False Acceptance Rate) [%] Remote Microphone Restaurant FAR [%] 19.3 4.1 11.7 Low SNR 29.1 7.7 18.4 SVM 24.2 Remote Microphone 5.9 15.1 Real Data FRR (False Rejection Rate) [%] Remote Microphone Restaurant Street Average FRR [%] High SNR 7.0 11.3 9.2 Low SNR 16.5 19.6 18.1 11.5 13.6 Average Real Data 11.8 FAR (False Acceptance Rate) [%] Remote Microphone Street Average High SNR Average FRR (False Rejection Rate) [%] Street Average High SNR Average Real Data Restaurant FRR [%] High SNR 6.7 10.5 8.6 Low SNR 15.7 20.6 18.1 15.5 13.3 11.2 Average Real Data FAR (False Acceptance Rate) [%] Remote Microphone Restaurant Street Average FAR [%] High SNR 15.9 4.0 10.0 Low SNR 27.8 7.6 17.7 5.8 13.8 Average 21.9 CART-AdaBoost Restaurant FAR [%] Street Average Street Average High SNR 16.6 4.0 10.3 Low SNR 26.1 5.5 15.8 Average 21.3 提案手法 4.7 13.0 考察 -提案手法が最も小さい識別誤差 ・汎化能力を保ったまま識別率を 向上させることができた. 今後の予定 ・3次キュムラントバイスペクトラム 特徴との併用 ・マルチクラスに拡張
© Copyright 2024 ExpyDoc