局所特徴量によるフィッシャー重みマップに基づく音素認識

局所特徴量によるフィッシャー重み
マップに基づく音素認識
加藤俊祐* 、滝口哲也**、有木康雄**
*神戸大学 自然科学研究科
** 神戸大学 工学部
電子情報通信学会 音声研究会 2006年12月22日 名古屋大学
発表内容
研究の背景
局所特徴量
フィッシャー重みマップ
実験結果
・提案手法とMFCCの比較
・提案手法とMFCCを組み合わせた特徴量
考察、今後の課題
関連研究
研究の背景
音声特徴量の問題点
MFCCは時間的な動的特徴量を表現していない
Δ、ΔΔMFCCが用いられているが、周波数の時
間変化 (ホルマント)を表現するには間接的
この問題を解決するには
時間-周波数平面上で、より直接的に
周波数の時間変化を表現した特徴量が望ましい
研究の背景
提案内容
時間-周波数平面上で、局所的なパターンを検出
その局所的な特徴量に対して、LDAにより重み
付けした特徴量を動的特徴として提案
⇒音素認識により特徴量の有効性を確認
Democrats
波形
1
1
1
ソナグラム
周
波
数
時間方向
の連続性
時間
局所特徴
局所特徴・・・・各点に各局所パターンを適用したもの
下図の1の点の値の和
□局所パターンの例 (3×3近傍では35種類)
時間-スペクトル
平面
1 1 1
1
1
1
1
1 1
横に連続する
縦に連続する
カーブの
値の大きさ
値の大きさ
値の大きさ
局所パターンの全部の例
点(3,3)での10番目の局所パターン
(10)
h33
 S32  S33  S34
局所特徴
□局所特徴の例
周
波 S11S12 S13S14 S15 S16
数
S 21S 22 S 23S 24 S 25 S 26
S 41S 42 S 43S 44 S 45 S 46
S51S52 S53S54 S55 S56
S61S62 S63S64 S65 S66
S71S72 S73S74 S75 S76
S81S82 S83S84 S85 S86
S91S92 S93S94 S95 S96
時間
の時
各間
点周
波
数
局 平
所 面
35種類の
局所パターン
-
S31S32 S33S34 S35 S36
点(7,2)での15番目の局所パターン
(15)
h72
 S71  S 72  S 63
(1)
h22
 (1)
h32
 
 (1)
特
h82

徴 H  h (1)
の
 23
(1)
行
h33
 
列

(1)
h85
( 2)
h22
( 2)
h32


( 2)
h82
( 2)
h23
( 2)
h33





( 35)

h22
( 2) 
h32

 
( 35) 
h82 
( 35) 
h23

( 35)
h33 
 

( 35)
h85 
フィッシャー重みマップ
局所特徴 H ⇒次元が大きすぎる
⇒次元を圧縮する
w3
x  H w
w2
H1
x12
H2 H3
H N 1
HN
w1
x 22
wC
x
x13
2
N
x11
x12
x1N 1
x1N
w1 ,  , wC をフィッシャー
重みマップという
フィッシャー重みマップ
クラス2 H1( 2)
H
クラス1
H
~
trΣ B
分離度J  ~ trΣW
クラス3
( 2)
2
H1(3)
H 3( 2 )
H 2(3)
w
(1)
4
x1(3)
x 3( 2 )
H 1(1)
( 2)
1
x
x
x (22 )
x(23)
を最大化
クラス内共分散 1
~
ΣW 
N
  x
c
j 1 i
i
xj

1
~
Σ B 
N
x
j
 N x
c
j 1
j
j

2
x 最終的に  B w  W w の一般化固有値問題

クラス間共分散 (1)
4
(1)
1

2






1 c
1 c
ΣW    H i H j H i H j ΣB   N j H j H H j H
N j 1 i j
N j 1
フィッシャー重みマップ
局所特徴量H と固有ベクトル w nを並べた行
列Wの積をとる

[ x1  x c ]  H [ w 1  w c ]
X  HW
局所パターン
の数(35個)

H

局所パターン
の数(35個)
時
面間
の周
各波
点数
平
-
X
固
の有
数ベ
ク
ル

W
固
の有
数ベ
ク
ル
時間-周波数平面
の各点
w n:固有ベクトル (n  1,, C )
c:固有ベクトルの数
音声認識への適用
-
音
時
声 ハシフ 間
信 ミフレ 周
号 ントー 波
グ幅ム
窓 10 幅 数
で 25 平
面
[ms]
[ms]
FFT
シフ時
フレ間
トー軸
幅ム方
s幅向
フf
レフに
ーレ切
ムー出
ムし
切
出
し
た
時
間
周
波
数
平
面
局
所
縮
特
徴
の
行
列
音
声
特
徴
行
列
音
声
特
徴
ベ
ク
ト
ル
ベ音
重
35
ク声
み
種
ト特
マ
の
ル徴
ッ
局
プ
xi 行
所
W Xi
列
パ
に
を
タ Hi
変 X i xi
求
ー
換
め
を
ン
を
一
で
適
列
次
用
に
元
並
圧
べ
認
識
G 結
M
M 果
で
識
別
実験条件
音声を音素別に切出し、音素認識を実行
音声データ
10人の話者が発声したラベル付き音声データ
ベース
(ATR音素バランス文Bセット)
データ数
各話者、学習データに計2308フレーム(各音素
約100フレーム)
評価データに学習に使用していないデータ計
2308フレーム(各音素約100フレーム)
音素数
25音素
特徴量
提案手法、MFCC、ΔMFCC
識別手法
GMM
フレーム数、周波数平面の実験
時間-周波数平面から切出し幅
⇒事前実験により
・フレーム幅・・・5フレーム
・シフト幅・・・1フレーム
が一番効果的
切
出
し
時間-周波数平面より、時間-メル周波数平面
の方が3%程結果が良い
⇒以後メル周波数(64次元)で実験
重みマップWの数の変化による音素認識率
90.0%
識別率
85.0%
混合数12
混合数16
80.0%
75.0%
70.0%
15
20
25
30
重みWの数(固有ベクトルの数)
35
Wは21~30あたりまで識別率がほぼ同じ
⇒以後の実験は、Wの数は中間の25本(25×35=875次元)
で実験、またWが24~26本の間での累積寄与率は0.99
PCA圧縮をしたときの音素認識率
90.0%
85.0%
78.6%
識別率
80.0%
75.0%
74.2%
70.0%
65.0%
60.0%
10 13 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100150200
次元数
PCA圧縮あり
PCA圧縮なし(875次元=35×25)
混合数は8 or 12
MFCC、ΔMFCCとの比較
90.0%
85.0%
79.5%
識別率
80.0%
75.0%
74.5%
75.8%
74.2%
71.6%
70.0%
65.0%
60.0%
MFCC
パワなし
12次元
MFCC
パワあり
13次元
ΔMFCC
パワあり
13次元
提案手法
PCAなし
875次元
提案手法
PCAあり
150次元
提案手法とMFCCを組合わせた特徴量
提案手法、MFCC、ΔMFCCを組合わせた特
徴量にストリーム別に重みをつけて実験
音声データ
以前の実験と同じ
データ数
以前の実験と同じ
音素数
以前の実験と同じ
特徴量
識別手法
・提案手法(PCA、55次元)+MFCC
・提案手法(PCA、55次元) +ΔMFCC
・提案手法(PCA、55次元) +MFCC+ΔMFCC
GMM
提案手法とMFCCを組合わせた特徴量
提案手法、MFCC、ΔMFCCを組合わせた特
徴量にストリーム別に重みをつけて実験
音声データ
以前の実験と同じ
データ数
以前の実験と同じ
音素数
以前の実験と同じ
特徴量
識別手法
・提案手法(PCA、55次元)+MFCC
・提案手法(PCA、55次元) +ΔMFCC
・提案手法(PCA、55次元) +MFCC+ΔMFCC
GMM
提案手法+MFCC
90.0%
85.0%
81.5%
識別率
80.0%
75.0%
78.2%
72.7%
70.0%
65.0%
60.0%
MFCC
ストリーム重みの比率
0.0 : 1.0
(提案手法:MFCC)
提案手法+MFCC
提案手法
0.6 : 0.4
1.0 : 0.0
提案手法とMFCCを組合わせた特徴量
提案手法、MFCC、ΔMFCCを組合わせた特
徴量にストリーム別に重みをつけて実験
音声データ
以前の実験と同じ
データ数
以前の実験と同じ
音素数
以前の実験と同じ
特徴量
識別手法
・提案手法(PCA、55次元)+MFCC
・提案手法(PCA、55次元) +ΔMFCC
・提案手法(PCA、55次元) +MFCC+ΔMFCC
GMM
提案手法+ΔMFCC
90.0%
84.3%
85.0%
78.2%
識別率
80.0%
75.0%
73.8%
70.0%
65.0%
60.0%
ΔMFCC
ストリーム重みの比率
0.0:1.0
(提案手法:ΔMFCC)
提案手法+ΔMFCC
提案手法
0.3:0.7
1.0:0.0
提案手法とMFCCを組合わせた特徴量
提案手法、MFCC、ΔMFCCを組合わせた特
徴量にストリーム別に重みをつけて実験
音声データ
以前の実験と同じ
データ数
以前の実験と同じ
音素数
以前の実験と同じ
特徴量
識別手法
・提案手法(PCA、55次元)+MFCC
・提案手法(PCA、55次元) +ΔMFCC
・提案手法(PCA、55次元) +MFCC+ΔMFCC
GMM
提案手法+MFCC+ΔMFCC
90.0%
85.3%
85.0%
82.4%
78.2%
識別率
80.0%
75.0%
70.0%
65.0%
60.0%
MFCC+ΔMFCC
0.0:0.5:0.5
MFCC+ΔMFCC
+提案手法
0.2:0.4:0.4
提案手法
1.0:0.0:0.0
ストリーム重みの比率
(提案手法:MFCC:ΔMFCC)
考察、まとめ
MFCC < ΔMFCC < 提案手法(PCA)
MFCC < MFCC + 提案手法(PCA)
ΔMFCC < ΔMFCC + 提案手法(PCA)
MFCC+ΔMFCC
< MFCC+ΔMFCC + 提案手法(PCA)
今後の課題
時間-メル周波数平面以外にも局所パターン
を適応
局所パターンの考察
連続音声認識への適応
関連研究
 複合音響特徴平面に基づく音声認識のための局所特徴抽出法 [新田00]
 3×3局所領域に対する主成分分析により、複数の構造的特徴を得
る
 主成分分析によって、平均、1次・2次微分などフィルタ(時間-周波数
空間演算子)を求め、複合音響特徴平面を抽出する(特徴量抽出)
 各音響特徴平面上でLDA(KLT)を行い、時限圧縮をする
 時間-周波数パタンを用いた無声破裂音の認識 [井出82]
 スペクトルの時間変化パタン(TSP)を利用
 破裂音などスペクトルの時間変化過程を考慮することによって認識が可
能になる
 TSPの数フレーム分をPCAで次元圧縮し正規分布によるベイズで認識
 フィッシャー重みマップを用いた顔画像からの表情認識 [篠原03]
 顔画像の各点の局所特徴量の積和による高次局所自己相関関数
 高次局所自己相関関数に重み付けを利用した表情認識
 重み付けにより重要な点の値を強調できる