対判別フィッシャー重みマップを利用した局所特徴量による音素認識 加藤 俊祐, 滝口 哲也, 有木 康雄 (神戸大・工) 研究概要 実験結果 シフ時 フレ間 トー軸 幅ム方 S幅向 フTに レフ ーレ切 ムー出 ムし - 現在の音声認識システムではMFCC特徴量などが使用されてい るが、まだ音声の特徴を完璧に捉えた特徴量とはいえない [ms] [ms] FFT ⇒そこで、フィッシャー重みマップを利用した局所特徴量による手 法を提案 切 出 し た 時 間 周 波 数 平 面 ・局所特徴量・・・幾何学的特長を捉えた特徴量 ・フィッシャー重みマップ・・・どの部分の幾何学的特長が重要か 局 所 特 徴 の 行 列 行 列 の 特 徴 量 35 種 の 局 所 Xi パ タ Hi で 重 ー み ン 付 け G M M で 識 別 認 識 結 果 実験条件 同一の話者が発声したラベル付き音声データベース □5母音・・・学習用、評価用に各音素100個ずつのデータ (学習データと評価データは別) □全音素・・・学習用、評価用に計2448個のデータ (学習データと評価データは別) 群判別の実験結果 5母音の認識率(wの本数5) フレーム幅5、シフト幅2 wの本数4のとき これを短時間フーリエ変換後の時間‐周波数平面で適用 提案手法 MFCC ⇒これによって、時間‐周波数平面の認識に重要な幾何学的特徴 のある場所が強調された特徴量が得られる 局所特徴行列Hに重みベクトルwをかけ、次元を圧縮する 時間-スペクトル平面の各点に各局所パターンを適用したもの □局所パターンの例 (3×3近傍では35種類) 時間方向に 1 1 1 連続する 値の大きさ 時間-スペクトル平面 □局所特徴の例 1 周波数の 周波数方向 に連続する 1 1 時間遷移 の大きさ 値の大きさ 1 1 1 点(7,2)での15番目の局所パターン (15) h72 S71 S72 S63 S31S32 S33 S34 S35 S36 S41S42 S43 S44 S45 S46 S51S52 S53 S54 S55 S56 S61S62 S63 S64 S65 S66 S71S72 S73 S74 S75 S76 S81S82 S83 S84 S85 S86 S91S92 S93 S94 S95 S96 時間 時間-スペクトル平面 35種類の 局所パターン ( 2) ( 35 ) h22 h22 ( 2) ( 2) h32 h32 ( 2) ( 35 ) h82 h82 ( 2) ( 35 ) h23 h23 ( 2) ( 35 ) h33 h33 ( 35 ) h85 平時 面間 (1) h の周 22 各 波 (1) 点 数 h32 局 (1) 所 h 82 特 H (1) h23 徴 (1) 行 h33 列 (1) h85 - 周 S11S12 S13 S14 S15 S16 波 S21S22 S23 S24 S25 S26 数 x 1 w, x H w w D : 重みwの軸の数 D , w をフィッシャー重みマップという C : クラス数 クラス3 1 各クラス対ijの各クラスごと (クラスiとj )のGMMを求める H クラス1 D xH w H1(3) H (3) 2 H 2( 2) H3( 2) w (1) 4 x (1) 1 H ( 2) 1 x x ( 2) 3 ( 3) 1 x N j : クラスjのデータ総数 ( 2) 2 x1(1) ~ trΣ B フィッシャーの判別基 準 J w ~ を最大化 trΣW c 1 1 ( j) ( j) ( j) ( j) W Hi H Hi H B N j H ( j) H H ( j) H N j 1 i j N j 1 GMMの事後確率の比、 Pij(i ) (I )、Pij( j ) (I )をクラス対ijごとに求める A 0.3 arg max{min{Pij( j ) (I)}}が識別されたクラス 0.7 j D 0.4 0.3 0.6 A : min( 0 . 1 , 0 . 4 , 0 . 3 ) 0 . 1 B 0.7 0.8 B : min(0.9, 0.8, 0.7) 0.7 C : min(0.6, 0.2, 0.4) 0.2 D : min(0.7, 0.3, 0.6) 0.3 0.7, 0.2, 0.3)} B 0.2 arg{max(0.1, 0.6 C 0.4 0.9 シフト幅 3 フレーム幅 1 2 3 5 7 12345 1234567 普通の周波数 92.7% 89.9% 81.4% 1 4 7 10 重みWの数 群判別 13 MFCC 98.6% 95.8% 100% 90% 80% 70% 60% 50% 40% 30% 1 対判別 2 95.8% 3 4 5 6 重みWの数 群判別 MFCC 考察、まとめ □対判別の4クラスでの例 0.1 100% 90% 80% 70% 60% 50% 40% 30% 対判別 最終的に B w W w の一般化固有値問題 c 90% 81.4% 81.5% 81.4% 80.7% 78.5% 85% 73.4% 80% 75% 70% 65% 60% 実験結果(フレーム幅5、シフト幅2、 実験結果(フレーム幅5、シフト幅2、 メル周波数64次元、6子音(pbtdkg)) メル周波数64次元、5母音) N : 全クラスのデータ総数 81.0(%) 84.6(%) 対判別の実験結果 クラス内共分散行列 T 1 c ~ ΣW x i x j x i x j N j 1 i j クラス間共分散行列 T 1 c ~ Σ B N j x j x x j x N j 1 x (23) x (41) □識別 i 1 H1( 2) 入力パターン I の音声特徴量 X ( I ) を求める ij 各クラスの対ijごとに重みWijを求める Wijより特徴量X ijを求める D クラス2 対判別 □学習 提案手法 MFCC 認識率(%) 局所特徴量 98.6(%) 95.8(%) 全音素の認識率(wの本数5) フレーム幅5、シフト幅3 wの本数4のとき フィッシャー重みマップ 局所特徴量 全音素の認識率(wの本数25) 64次元のメル周波数 認識率(%) 研究背景 音 時 声 ハシフ 間 信 ミフレ 周 号 ントー 波 グ幅ム 数 窓 10 幅 平 で 25 面 認識率(%) 概要 ・メル周波数 通常の周波数と同様の認識率 ⇒通常の周波数でも良いのは重みの効果 ・対判別 p,b,t,d,k,gの6音素では群判別より認識率が良いが、母音の認識率は 群判別と同じ ⇒似たような音素のグループでは効果はあるが、それ以外 だと効果が薄い 今後の課題 ・全音素での群判別 ⇒音素をクラスタに分けて、クラスタの中で対判別を行なうなど ・学習データとは違う話者での認識の検討 ・連続音声認識
© Copyright 2025 ExpyDoc