スライド 1 - CS17 Ariki Laboratory, Kobe

対判別フィッシャー重みマップを利用した局所特徴量による音素認識
加藤 俊祐, 滝口 哲也, 有木 康雄 (神戸大・工)
研究概要
実験結果
シフ時
フレ間
トー軸
幅ム方
S幅向
フTに
レフ
ーレ切
ムー出
ムし
-
現在の音声認識システムではMFCC特徴量などが使用されてい
るが、まだ音声の特徴を完璧に捉えた特徴量とはいえない
[ms]
[ms]
FFT
⇒そこで、フィッシャー重みマップを利用した局所特徴量による手
法を提案
切
出
し
た
時
間
周
波
数
平
面
・局所特徴量・・・幾何学的特長を捉えた特徴量
・フィッシャー重みマップ・・・どの部分の幾何学的特長が重要か
局
所
特
徴
の
行
列
行
列
の
特
徴
量
35
種
の
局
所
Xi
パ
タ Hi で
重
ー
み
ン
付
け
G
M
M
で
識
別
認
識
結
果
実験条件
同一の話者が発声したラベル付き音声データベース
□5母音・・・学習用、評価用に各音素100個ずつのデータ
(学習データと評価データは別)
□全音素・・・学習用、評価用に計2448個のデータ
(学習データと評価データは別)
群判別の実験結果
5母音の認識率(wの本数5)
フレーム幅5、シフト幅2
wの本数4のとき
これを短時間フーリエ変換後の時間‐周波数平面で適用
提案手法
MFCC
⇒これによって、時間‐周波数平面の認識に重要な幾何学的特徴
のある場所が強調された特徴量が得られる
局所特徴行列Hに重みベクトルwをかけ、次元を圧縮する
時間-スペクトル平面の各点に各局所パターンを適用したもの
□局所パターンの例 (3×3近傍では35種類)
時間方向に
1 1 1 連続する
値の大きさ
時間-スペクトル平面
□局所特徴の例
1 周波数の
周波数方向
に連続する 1 1
時間遷移
の大きさ
値の大きさ
1
1
1
点(7,2)での15番目の局所パターン
(15)
h72  S71  S72  S63
S31S32 S33 S34 S35 S36
S41S42 S43 S44 S45 S46
S51S52 S53 S54 S55 S56
S61S62 S63 S64 S65 S66
S71S72 S73 S74 S75 S76
S81S82 S83 S84 S85 S86
S91S92 S93 S94 S95 S96
時間
時間-スペクトル平面
35種類の
局所パターン
( 2)
( 35 )

h22
 h22
( 2)
( 2) 
h32  h32 
 
( 2)
( 35 ) 
h82  h82 
( 2)
( 35 ) 
h23  h23

( 2)
( 35 )
h33  h33 
 

( 35 )
  h85 
平時
面間
(1)

h
の周
22
各 波  (1)
点 数 h32


局

(1)
所
h

82
特 H  (1)

h23
徴

(1)
行
h33
列
 

(1)
h85
-
周 S11S12 S13 S14 S15 S16
波
S21S22 S23 S24 S25 S26
数
 x
1
w,
x   H  w
w 
D : 重みwの軸の数
D
, w をフィッシャー重みマップという
C : クラス数
クラス3

1
各クラス対ijの各クラスごと
(クラスiとj )のGMMを求める
H
クラス1
D
xH w
H1(3) H (3)
2
H 2( 2) H3( 2)
w
(1)
4
x
(1)
1
H
( 2)
1
x
x
( 2)
3
( 3)
1
x
N j : クラスjのデータ総数
( 2)
2
x1(1)





~
trΣ B
フィッシャーの判別基
準 J w   ~ を最大化
trΣW




c


1
1
( j)
( j)
( j)
( j)
W   Hi  H
Hi  H  B   N j H ( j)  H H ( j)  H
N j 1 i j
N j 1


GMMの事後確率の比、
Pij(i ) (I )、Pij( j ) (I )をクラス対ijごとに求める
A
0.3
arg max{min{Pij( j ) (I)}}が識別されたクラス 0.7
j
D
0.4
0.3
0.6
A
:
min(
0
.
1
,
0
.
4
,
0
.
3
)

0
.
1
B
0.7
0.8 B : min(0.9, 0.8, 0.7)  0.7
C : min(0.6, 0.2, 0.4)  0.2
D : min(0.7, 0.3, 0.6)  0.3
0.7, 0.2, 0.3)}  B
0.2 arg{max(0.1, 0.6
C
0.4
0.9
シフト幅
3
フレーム幅 1 2 3
5
7
12345
1234567
普通の周波数
92.7% 89.9%
81.4%
1
4
7
10
重みWの数
群判別
13
MFCC
98.6%
95.8%
100%
90%
80%
70%
60%
50%
40%
30%
1
対判別
2
95.8%
3
4
5
6
重みWの数
群判別
MFCC
考察、まとめ
□対判別の4クラスでの例
0.1
100%
90%
80%
70%
60%
50%
40%
30%
対判別
最終的に  B w  W w の一般化固有値問題
c
90%
81.4% 81.5% 81.4% 80.7%
78.5%
85%
73.4%
80%
75%
70%
65%
60%
実験結果(フレーム幅5、シフト幅2、 実験結果(フレーム幅5、シフト幅2、
メル周波数64次元、6子音(pbtdkg))
メル周波数64次元、5母音)
N : 全クラスのデータ総数

81.0(%)
84.6(%)
対判別の実験結果
クラス内共分散行列
T
1 c
~
ΣW    x i  x j x i  x j N j 1 i j
クラス間共分散行列 T
1 c
~
Σ B   N j x j  x x j  x N j 1
x (23)
x (41)
□識別
i
1
H1( 2)
入力パターン
I
の音声特徴量
X
(
I
)
を求める
ij
各クラスの対ijごとに重みWijを求める
Wijより特徴量X ijを求める

D
クラス2
対判別
□学習
提案手法
MFCC
認識率(%)
局所特徴量
98.6(%)
95.8(%)
全音素の認識率(wの本数5)
フレーム幅5、シフト幅3
wの本数4のとき
フィッシャー重みマップ
局所特徴量
全音素の認識率(wの本数25)
64次元のメル周波数
認識率(%)
研究背景
音
時
声 ハシフ 間
信 ミフレ 周
号 ントー 波
グ幅ム 数
窓 10 幅 平
で 25 面
認識率(%)
概要
・メル周波数
通常の周波数と同様の認識率 ⇒通常の周波数でも良いのは重みの効果
・対判別
p,b,t,d,k,gの6音素では群判別より認識率が良いが、母音の認識率は
群判別と同じ ⇒似たような音素のグループでは効果はあるが、それ以外
だと効果が薄い
今後の課題
・全音素での群判別
⇒音素をクラスタに分けて、クラスタの中で対判別を行なうなど
・学習データとは違う話者での認識の検討
・連続音声認識