スライド 1

フィッシャー重みマップに基づく不特定話者音素認識の検討
1-P-2
加藤 俊祐, 滝口 哲也, 有木 康雄 (神戸大・工)
研究概要
概要
研究背景
音
時
声 ハシフ 間
信 ミフレ 周
号 ントー 波
グ幅ム 数
窓 10 幅 平
で 25 面
シフ時
フレ間
トー軸
幅ム方
S幅向
フTに
レフ
ーレ切
ムー出
ムし
-
現在の音声認識システムではMFCC特徴量などが使用
されているが、フォルマント遷移などを捉えた特徴量とはい
えない
⇒そこで、本研究ではフィッシャー重みマップを利用した局
所特徴量による手法を提案
[ms]
[ms]
FFT
・局所特徴量
幾何学的特長を捉えた特徴量
切
出
し
た
時
間
周
波
数
平
面
局
所
特
徴
の
行
列
行
列
の
特
徴
量
G
M
M
で
識
別
35
種
の
局
所
Xi
パ
タ Hi で
重
ー
み
ン
付
け
・フィッシャー重みマップ
どの部分の幾何学的特長が重要か
認
識
結
果
これを短時間フーリエ変換後の時間‐周波数平面で適用
⇒これによって、時間‐周波数平面の認識に重要な幾何学
的特徴のある場所が強調された特徴量が得られる
局所特徴量
局所特徴量
局所特徴の例
点(3,3)での10番目の局所パターン
(10 )
33
h
時間-スペクトル平面の各点に各局所パターンを適用し
たもの
周
波
数 S11S12 S13 S14 S15 S16
局所パターンの例
点(7,2)での15番目の局所パターン
(15)
h72  S71  S72  S63
平時
面間
の周
各波
点数
S21S22 S23 S24 S25 S26
時間方向に連続する
値の大きさ
1 1 1
1
1
1
S31S32 S33 S34 S35 S36
S41S42 S43 S44 S45 S46
1
S81S82 S83 S84 S85 S86
S91S92 S93 S94 S95 S96
周波数の時間遷移の大
きさ
1 1
時間-スペクトル平面
h

h
 
 (1)
h82

H  (1)
h
 23
(1)
h33
 

(1)
h85
局
所
特
徴
の
行
列
S51S52 S53 S54 S55 S56
S61S62 S63 S64 S65 S66
S71S72 S73 S74 S75 S76
周波数方向に連続す
る値の大きさ
35種類の
局所パターン
-
3×3近傍では35種類
 S32  S33  S34
時間
(1)
22
(1)
32


h 
 
( 35 ) 
h82 
( 35 ) 
h23

( 35 )
h33 



( 35 )
h85 
( 2)
22
( 2)
32
( 35 )
22
( 2)
32
h
 h
h

( 2)
82
( 2)
23
( 2)
33
h

h

h



フィッシャー重みマップ
最終的に  B w  W w の一般化固有値問題
局所特徴量行列Hに重みベクトルwをかけ

次元を圧縮する x  H w
C : クラス数


クラス3
クラス2
H
H
H
クラス1
N : 全クラスのデータ総数
( 2)
1
( 2)
2
H
(3)
1
H
( 2)
3
H
(3)
2
w
(1)
4
x
H
( 2)
1
x
x (41)
x1(1)
x
( 2)
2
( 3)
1
x
N j : クラスjのデータ総数



~
trΣ B
フィッシャーの判別基
準 J w   ~ を最大化
trΣW


w n:固有ベクトル
( n  1,  , C )

c:固有ベクトルの数
[x1 xc ]  H [w1 wc ]
クラス内共分散行列
c
T
1
~
ΣW    x i  x j x i  x j N j 1 i j
クラス間共分散行列 c
T
1
~
Σ B   N j x j  x x j  x N j 1


XH W


X
局所パターン
の数(35個)
固
の有
数ベ
ク
ル
 
時
平間
面周
の波
各
点数
-
(1)
1
( 2)
3
x
( 3)
2

1 c
ΣW    H i H j H i H j
N j 1 i j

1 c
ΣB   N j H j H H j H
N j 1

H

局所パターン
の数(35個)

W
固
有
ベ
ク
ル
の
数
時間-周波数平面の
各点
実験結果
実験条件
・10人の話者が発声したラベル付き音声データベース
・音素別に切り出し音素認識を実行、25音素、GMMで識別
予備実験
・時間-周波数平面からのフレーム化処理は、フレーム幅5、シフト幅1
・時間-メル周波数平面を使用(時間-周波数平面より3%程結果が良い)
・フィッシャー重みマップWの本数25本(20~30辺りが一番認識率がよい)
90.0%
90.0%
85.0%
85.0%
80.0%
75.0%
79.5%
74.5% 75.8% 74.2%
65.0%
65.0%
60.0%
60.0%
+(提
P
MC案
FA手
Cあ法
C
り
)
+(
提
P案
C
MA手
Fあ法
Cり
C)
+M
F
C
MC
F
C
C
++(提
P
MC案
MFA手
FCあ法
CCり
C )
Δ
(
提
P案
C
A手
あ法
り
)
Δ
M
F
C
C
82.1%
Δ
Δ
70.0%
提
(
P案
C
A手
な法
し
)
85.5%
75.0%
70.0%
M
F
C
C
86.7%
88.3%
80.0%
識別率
識別率
特定話者モデルの実験結果
90.0%
85.0%
80.0%
75.0%
70.0%
65.0%
60.0%
90.0%
84.2%
85.0%
80.7%
識別利
識別率
不特定話者モデルでの実験結果
75.0%
73.2%
87.1% 85.6% 87.1%
89.0%
80.0%
75.0%
70.0%
65.0%
60.0%
Δ
+(
提
P
MC案
FA手
Cあ法
Cり
)
提
+(
P案
C
MA手
Fあ法
Cり
C)
まとめ・今後の課題
・特定、不特定話者モデル両方において MFCC 、ΔMFCC < 提案手法(PCA)
・単体の特徴量より組合わせた特徴量の方が認識結果が良い
特に、3つの特徴量を組合わせた 提案手法(PCA)+MFCC+ΔMFCC が一番良い
今後の課題
・単語識別
・局所パターンの考察
・メル周波数の考察
+M
F
C
MC
F
C
C
++(
提
P
MC案
MFA手
FCあ法
CCり
C )
Δ
(
提
P案
C
A手
あ法
り
)
Δ
M
F
C
C
(
提
P案
C
A手
な法
し
)
Δ
M
F
C
C