Document

Adaboostと音声・
唇GMMによる
発話区間検出
神戸大学工学部情報知能工学科
松田博義・増田健・
有木康雄・滝口哲也(神戸大)・
神谷昌宏(富士通テン)
はじめに

研究背景
目的話者
以外の
発話区間
目的話者の
発話区間
音声

雑音
本研究の目的

目的話者の
発話区間
目的話者
以外の
発話区間
時間
音声区間検出と唇開閉判断を統合することにより目的話者の発話区
間のみを検出する

目的話者の発話,目的話者以外の発話,雑音が入ってくる中で目的話
者の発話区間だけを検出
音声による発話区間検出(VAD)


VAD : Voice Activity Detection
音声特徴抽出
 MFCC

尤度計算手法
 GMM

(Mel Frequency Cepstrum Coefficient)
判定法
(Gaussian Mixture Model)
Lxi   log
Ps xi | Modelspeech 
Pn xi | Modelnoise 
L(x)≧θ:音声
L(x)<θ:非音声
θ:閾値
VAD (Voice Activity Detection)

VAD流れ図
男声
GMM
音声モデル
女性
GMM
音声
判定
対数尤度比計算
MFCC
x
L(x)を計算
非音声
走行音
GMM
ウィンカー音
GMM
etc…
非音声モデル
唇画像情報による目的話者判定
・目的話者発話
・目的話者以外の発話
・発話を伴わない唇の動き
・雑音
領域抽出
開閉判定
発話区間集合
統合
目的話者発話
音声区間検出
領域追跡
動静判定
発話区間集合
GMMによる唇領域の開閉判定


AdaBoostにより抽出された唇領域に適用する
あらかじめ作成したおいた2つのGMM(混合正規分布)を
用いて,唇領域の開閉尤度比を求める
 f open (x)
 f close (x)
ブロック分割
nフレームの出力領域
尤度比: Val ( x
特徴ベクトル
xn
n
)
f open (x n )
〔
f close ( x n )
・ Val    Close
・ Val    Open
〕
AdaBoost

入力画像から目的領域を検出する検出器を,学習データか
ら作成する手法

複数の弱判別器を組み合わせて作られた強判別器をカスケード状
に接続することで最終的な検出器を得る
入力画像
弱判別器 f 1
a1
弱判別器 f 2
学習
データ
a2
強判別器 Fi
F
am
弱判別器 f m
F1
a :弱判別器
に対する重み
T
F2
F
T
Fn
F
非目的領域
T
目的領域
正規化相関法による唇領域の追跡

直前フレームで追跡,抽出された唇領域をテンプレートとし
て利用し,探索領域から正規化相関値が最大となる領域を
抽出する
探索領域:(AdaBoost法によって抽出された唇領域の周辺領域)
テンプレート
( a, b)
(a, b)
V ( a, b)
V (a, b)  max[V (a, b)]
V ( a, b) 
追跡,抽出された唇領域
  {t (i, j )  t }{s(a  i, b  j )  s}
  {t (i, j )  t }   {s(a  i, b  j )  s}
iw
j h
2
iw
j h
2
iw
j h
差分和による動静判定

正規化相関法より追跡,抽出された唇領域を利用


唇の位置合わせが達成されたとみなす
抽出した領域と参照領域の差分和から,唇領域におけ
る明度値分布の変化量を求める
i  w j h
Val  | {s(i, j )  t (i, j )}|
i 0 j 0
参照領域
s(i, j ):抽出領域
t (i, j ) :参照領域
抽出領域
Val  
Move
Val  
Stop
音声区間検出と唇開閉検出の統合

統合は音声から得られた発話区間を,唇画像から
得られた情報とAndをとることにより得られる
唇領域検出
(AdaBoost)
開閉判断
(GMM)
静動判断
And
目的話者の
発話区間検出
発話データ
And
GMMによる音声区間検出
統合例
目的話者以外の発話

実際の統合の様子
音声データから
得られた発話区間
唇画像から
得られた情報
検出された
区間
検出された
区間
発話
発話
あくびなど
統合結果
検出された
区間
検出された
区間
検出された
区間
発話
Andをとる
検出された
区間
時間
実験条件

テストデータ
 車内でドライバーを目的話者とする
 アイドリング時,昼間,車内での発話データ100発話
 ドライバー以外の人がしゃべった音声として,各発話区間
の間に音声を埋め込んでおく
ドライバー
以外の
発話区間
ドライバーの
発話区間
音声
ドライバーの
発話区間
ドライバー
以外の
発話区間
時間

正答率,および適合率は以下の式で計算される
正答率 
発話区間であると正し く検出された区間の数
発話区間の総数
適合率 
発話区間であると正し く検出された区間の数
検出された区間の総数
実験結果
100
90
80
70
60
50
40
30
20
10
0
音声のみ
GMMによる唇開
閉判断+音声
提案手法(開閉判
断+動静判定+音
声区間検出)
正答率
適合率
まとめ


音声区間検出と唇画像から得られた情報を統合することに
より,目的話者の発話区間のみを検出した
唇画像判定で,GMMのみを用いて開閉判断を行うと適合率
はほとんど向上しなかった



動静判定を取り入れた
結果は正答率94%,適合率90%程度
今後の課題



音声のSN比を変えての実験
動画像のぶれに対する対応
あくびの検出
付録
走行時の音声区間検出結果

一般道路を走行中に発
話したデータ
 ウィンカー音など有
 SN比は5~15[dB]程度
96
95
94
93
音声区間検出結果
92
91
90
正答率
適合率