フィッシャー重みマップに基づく不特定話者音素認識の検討 1-P-2 加藤 俊祐, 滝口 哲也, 有木 康雄 (神戸大・工) 研究概要 概要 研究背景 音 時 声 ハシフ 間 信 ミフレ 周 号 ントー 波 グ幅ム 数 窓 10 幅 平 で 25 面 シフ時 フレ間 トー軸 幅ム方 S幅向 フTに レフ ーレ切 ムー出 ムし - 現在の音声認識システムではMFCC特徴量などが使用 されているが、フォルマント遷移などを捉えた特徴量とはい えない ⇒そこで、本研究ではフィッシャー重みマップを利用した局 所特徴量による手法を提案 [ms] [ms] FFT ・局所特徴量 幾何学的特長を捉えた特徴量 切 出 し た 時 間 周 波 数 平 面 局 所 特 徴 の 行 列 行 列 の 特 徴 量 G M M で 識 別 35 種 の 局 所 Xi パ タ Hi で 重 ー み ン 付 け ・フィッシャー重みマップ どの部分の幾何学的特長が重要か 認 識 結 果 これを短時間フーリエ変換後の時間‐周波数平面で適用 ⇒これによって、時間‐周波数平面の認識に重要な幾何学 的特徴のある場所が強調された特徴量が得られる 局所特徴量 局所特徴量 局所特徴の例 点(3,3)での10番目の局所パターン (10 ) 33 h 時間-スペクトル平面の各点に各局所パターンを適用し たもの 周 波 数 S11S12 S13 S14 S15 S16 局所パターンの例 点(7,2)での15番目の局所パターン (15) h72 S71 S72 S63 平時 面間 の周 各波 点数 S21S22 S23 S24 S25 S26 時間方向に連続する 値の大きさ 1 1 1 1 1 1 S31S32 S33 S34 S35 S36 S41S42 S43 S44 S45 S46 1 S81S82 S83 S84 S85 S86 S91S92 S93 S94 S95 S96 周波数の時間遷移の大 きさ 1 1 時間-スペクトル平面 h h (1) h82 H (1) h 23 (1) h33 (1) h85 局 所 特 徴 の 行 列 S51S52 S53 S54 S55 S56 S61S62 S63 S64 S65 S66 S71S72 S73 S74 S75 S76 周波数方向に連続す る値の大きさ 35種類の 局所パターン - 3×3近傍では35種類 S32 S33 S34 時間 (1) 22 (1) 32 h ( 35 ) h82 ( 35 ) h23 ( 35 ) h33 ( 35 ) h85 ( 2) 22 ( 2) 32 ( 35 ) 22 ( 2) 32 h h h ( 2) 82 ( 2) 23 ( 2) 33 h h h フィッシャー重みマップ 最終的に B w W w の一般化固有値問題 局所特徴量行列Hに重みベクトルwをかけ 次元を圧縮する x H w C : クラス数 クラス3 クラス2 H H H クラス1 N : 全クラスのデータ総数 ( 2) 1 ( 2) 2 H (3) 1 H ( 2) 3 H (3) 2 w (1) 4 x H ( 2) 1 x x (41) x1(1) x ( 2) 2 ( 3) 1 x N j : クラスjのデータ総数 ~ trΣ B フィッシャーの判別基 準 J w ~ を最大化 trΣW w n:固有ベクトル ( n 1, , C ) c:固有ベクトルの数 [x1 xc ] H [w1 wc ] クラス内共分散行列 c T 1 ~ ΣW x i x j x i x j N j 1 i j クラス間共分散行列 c T 1 ~ Σ B N j x j x x j x N j 1 XH W X 局所パターン の数(35個) 固 の有 数ベ ク ル 時 平間 面周 の波 各 点数 - (1) 1 ( 2) 3 x ( 3) 2 1 c ΣW H i H j H i H j N j 1 i j 1 c ΣB N j H j H H j H N j 1 H 局所パターン の数(35個) W 固 有 ベ ク ル の 数 時間-周波数平面の 各点 実験結果 実験条件 ・10人の話者が発声したラベル付き音声データベース ・音素別に切り出し音素認識を実行、25音素、GMMで識別 予備実験 ・時間-周波数平面からのフレーム化処理は、フレーム幅5、シフト幅1 ・時間-メル周波数平面を使用(時間-周波数平面より3%程結果が良い) ・フィッシャー重みマップWの本数25本(20~30辺りが一番認識率がよい) 90.0% 90.0% 85.0% 85.0% 80.0% 75.0% 79.5% 74.5% 75.8% 74.2% 65.0% 65.0% 60.0% 60.0% +(提 P MC案 FA手 Cあ法 C り ) +( 提 P案 C MA手 Fあ法 Cり C) +M F C MC F C C ++(提 P MC案 MFA手 FCあ法 CCり C ) Δ ( 提 P案 C A手 あ法 り ) Δ M F C C 82.1% Δ Δ 70.0% 提 ( P案 C A手 な法 し ) 85.5% 75.0% 70.0% M F C C 86.7% 88.3% 80.0% 識別率 識別率 特定話者モデルの実験結果 90.0% 85.0% 80.0% 75.0% 70.0% 65.0% 60.0% 90.0% 84.2% 85.0% 80.7% 識別利 識別率 不特定話者モデルでの実験結果 75.0% 73.2% 87.1% 85.6% 87.1% 89.0% 80.0% 75.0% 70.0% 65.0% 60.0% Δ +( 提 P MC案 FA手 Cあ法 Cり ) 提 +( P案 C MA手 Fあ法 Cり C) まとめ・今後の課題 ・特定、不特定話者モデル両方において MFCC 、ΔMFCC < 提案手法(PCA) ・単体の特徴量より組合わせた特徴量の方が認識結果が良い 特に、3つの特徴量を組合わせた 提案手法(PCA)+MFCC+ΔMFCC が一番良い 今後の課題 ・単語識別 ・局所パターンの考察 ・メル周波数の考察 +M F C MC F C C ++( 提 P MC案 MFA手 FCあ法 CCり C ) Δ ( 提 P案 C A手 あ法 り ) Δ M F C C ( 提 P案 C A手 な法 し ) Δ M F C C
© Copyright 2024 ExpyDoc