1-P-25 3次キュムラントバイスペクトラム特徴と Real AdaBoostによる音声区間検出 松田博義,滝口哲也,有木康雄(神戸大) 音声特徴 キュムラント 目的 音声 k G ( ) E[ x ] x VAD キュ 指 ムラ 標 ント 尤度比(信頼値)計算 d logG( ) n n d n 1 平 次 均 平滑化及び閾値処理 dc( ) 1 d 0 d 2c( ) 2 d 2 2 分 次 散 M 非音声区間 3次キュムラントをフレーム間での 相関をとるように拡張. x N 1 x p( x)dx 1 Cxk x l E[ x0 xk xl ] d c( ) n d n 0 1 dG( ) G ( ) d 0 0 0 M1 d 1 dG( ) d G( ) d -目的音声に重畳する各種の 雑音による認識性能の劣化 -音声区間のみを検出(VAD: Voice Activity Detection)することが必要 i k i l M 現在 処理している 音声フレーム 時間 k離れた フレーム M C k M l M x k xl w(k , l ) exp( j (n k ml )) 2次元離散フーリエ変換されたも のから,PCA(主成分分析)を行 い有意な情報だけを用いて次元 圧縮することにより,3次元キュ ムラントによる音声特徴とする. 2 M 2 1 4 4 尖M 次 度 音声 x | y=1 2 2 4 4 M M 3 M 12 M M 6 M 4 3 1 2 2 1 1 複数クラスAdaBoost 弱識別器 学習データ 弱識別器 AdaBoostの学習を行う際、 非音声を複数のクラスに分割 非音声 x | y=-1 1 弱識別器 ・・ -1 強識別器 -非音声の分散が小さくなり、 より適切なモデルが得られる ようになる Boostingと は弱識別器の線形結合により .強識別器を構成し, 道路 AdaBoost 音声データ 男声 GMM 女性 GMM 道路 GMM 食堂 GMM 非音声データ 食堂 AdaBoost 実験条件 より高い識別精度を得 る手法である. 1.学習データに重み w1i 1 / N , (i 1,2,..., N )を与える . 学習データ -非音声:CENSREC-1-Cより実験に使わなかった 評価尺度 データの非音声部分を切り出したもの(約20分). -性能評価はフレームベースで行ない, -音声:AURORA-2Jの学習用クリーン音声に上記の FRR (False Rejection Rate)と, 非音声を重畳させたものを用いた(8440発話). FAR (False Acceptance Rate)を テストデータ 用いる. ・CENSREC-1-Cより実環境データ N FR FRR 100 % -食堂(高SNR)、食堂(低SNR)、 Ns 道路(高SNR)、道路(低SNR)の4環境。 N FA -男性4名、女性5名。各話者9~10発話のデータ×4. FAR 100 % 比較対象 N ns ・Energy-based VAD N s : 音声フレームの総数 ・MFCC, GMM ・MFCC + Cumulant, AdaBoost N FR :非音声と検出された音 声フレームの数 -Cumulant N ns :非音声フレームの総数 ・フレーム幅:64[ms],シフト幅:1[ms], 最大30フレーム遅延までを計算,32次元. N FA : 音声と検出された非音 声フレームの数 -AdaBoost ・M=1000 (Nは学習データの総数 ) 2.以下を M回繰り返す (m 1,2,...,M ) : (a) wmiを用いて,クラス尤度 を得るための識別器を 学習 p x Pˆ y 1 x [0,1], m i -K, lは現在処理しているフレームからの距離 ただし,-M ≦ k, l ≦ Mである. -各フレームから,kを横軸, lを縦軸として, 下図のような2次元のデータが得られる. 0 Real AdaBoost 弱識別器 i 0 0 x j (t ) y j (t ) M1[ x j ] l離れた 音声 フレーム •J. Friedman, J. Hastie, R. Tibshirani, “Additive Logistic Regression: •A Statistical View of Boosting” テストデータ xt x (t ) x (t ) x (t ) N 得られた3次キュムラントに対し, データ解析の為2次元離散フー リエ変換を行う. Cˆ xk xl (n, m) 3 歪 3 M3 3M 2 M1 2M13 次 度 ・実環境における問題点 識別器 音声特徴抽出 音声区間 3次キュムラントの拡張 M k E[ x ] x p( x)dx k 3次キュムラントの バイスペクトラム w (b) p mから実数値を返す弱識 別器f mを得る p m x 1 f m x log R. 2 1 p m x (c) f mの識別結果を用いて, 学習データに対する重 みを更新 w( m 1)i wmi exp y i f m xi , i 1,2,..., N . w i ( m 1) i 1. M 3. f m (m 1,...M )より強識別器 Fを得る : F ( xt ) f m xt m 1 考察 実験結果 R-1 (MFCC - GMM) R-2 (MFCC+Cumulant - AdaBoost) R-3 (Baseline) R-1 (MFCC - GMM) R-2 (MFCC+Cumulant - AdaBoost) R-3 (Baseline) 100 100 食堂環境において大きな改善が見られる. R-1 (MFCC - GMM) R-2 (MFCC+Cumulant - AdaBoost) R-3 (Baseline) -キュムラント特徴は,相関,ピッチ,波形の強さ等 を反映した特徴となっており,MFCCでは音声との 分離が困難な雑音(雑談等)でも分離することが可能. 94.6 , 95.5 100 92.1, 96 91.8 , 89.5 100-FRR (%) 88.4, 79.4 80 100-FRR (%) 100-FRR (%) 83.5 , 88.2 80 60 60 60 80 100-FAR (%) 食堂環境での結果 100 87.05, 89.1 80 60 60 80 100-FAR (%) 道路環境での結果 100 60 80 100-FAR (%) 各環境での平均結果 100 平均結果においてMFCC + Cumulant, AdaBoost の実験結果がGMMを上回った. -特徴量を統合することにより,MFCCのもつフレーム 内での情報,キュムラントの持つフレーム間での 情報を補完しあった. -GMMが学習においてすべてのデータを均等に 用いるのに比べ,AdaBoost は識別が難しい データに対して重点的な学習を行なうため. -AdaBoost は音声・非音声の分離に特化した 識別器を構成する. ・音声・非音声の分離に必要な情報だけを見て, より正確な規則を構築している.
© Copyright 2025 ExpyDoc