フィッシャー重みマップに基づく不特定話者音素認識の検討 1-P-2 加藤俊祐, 滝口哲也, 有木康雄（神戸大・工）研究概要概要研究背景音時声ハシフ間信ミフレ周号ントー波グ幅ム数窓 10 幅平で 25 面シフ時フレ間トー軸幅ム方Ｓ幅向フＴにレフーレ切ムー出ムし - 現在の音声認識システムではＭＦＣＣ特徴量などが使用されているが、フォルマント遷移などを捉えた特徴量とはいえない ⇒そこで、本研究ではフィッシャー重みマップを利用した局所特徴量による手法を提案 [ms] [ms] FFT ・局所特徴量幾何学的特長を捉えた特徴量切出した時間周波数平面局所特徴の行列行列の特徴量ＧＭＭで識別 35 種の局所 Xi パタ Hi で重ーみン付け・フィッシャー重みマップどの部分の幾何学的特長が重要か認識結果これを短時間フーリエ変換後の時間‐周波数平面で適用 ⇒これによって、時間‐周波数平面の認識に重要な幾何学的特徴のある場所が強調された特徴量が得られる局所特徴量局所特徴量局所特徴の例点(3,3)での10番目の局所パターン (10 ) 33 h 時間-スペクトル平面の各点に各局所パターンを適用したもの周波数 S11S12 S13 S14 S15 S16 局所パターンの例点(7,2)での15番目の局所パターン (15) h72  S71  S72  S63 平時面間の周各波点数 S21S22 S23 S24 S25 S26 時間方向に連続する値の大きさ 1 1 1 1 1 1 S31S32 S33 S34 S35 S36 S41S42 S43 S44 S45 S46 1 S81S82 S83 S84 S85 S86 S91S92 S93 S94 S95 S96 周波数の時間遷移の大きさ 1 1 時間-スペクトル平面 h  h    (1) h82  H  (1) h  23 (1) h33    (1) h85 局所特徴の行列 S51S52 S53 S54 S55 S56 S61S62 S63 S64 S65 S66 S71S72 S73 S74 S75 S76 周波数方向に連続する値の大きさ 35種類の局所パターン - 3×3近傍では35種類  S32  S33  S34 時間 (1) 22 (1) 32   h    ( 35 )  h82  ( 35 )  h23  ( 35 ) h33     ( 35 ) h85  ( 2) 22 ( 2) 32 ( 35 ) 22 ( 2) 32 h  h h  ( 2) 82 ( 2) 23 ( 2) 33 h  h  h    フィッシャー重みマップ最終的に　 B w  W w　の一般化固有値問題局所特徴量行列Hに重みベクトルwをかけ  次元を圧縮する　x  H w C : クラス数   クラス3 クラス2 H H H クラス1 N : 全クラスのデータ総数 ( 2) 1 ( 2) 2 H (3) 1 H ( 2) 3 H (3) 2 w (1) 4 x H ( 2) 1 x x (41) x1(1) x ( 2) 2 ( 3) 1 x N j : クラスjのデータ総数    ~ trΣ B フィッシャーの判別基準　J w 　 ~ を最大化 trΣW   w n：固有ベクトル ( n  1,  , C )  c：固有ベクトルの数 [x1 xc ]  H [w1 wc ] クラス内共分散行列 c T 1 ~ ΣW    x i  x j x i  x j N j 1 i j クラス間共分散行列　c T 1 ~ Σ B   N j x j  x x j  x N j 1   XH W   X 局所パターンの数(35個) 固の有数ベクル 　 時平間面周の波各点数 - (1) 1 ( 2) 3 x ( 3) 2  1 c ΣW    H i H j H i H j N j 1 i j  1 c ΣB　  N j H j H H j H N j 1  H  局所パターンの数(35個)  W 固有ベクルの数時間-周波数平面の各点実験結果実験条件・１０人の話者が発声したラベル付き音声データベース・音素別に切り出し音素認識を実行、２５音素、GMMで識別予備実験・時間-周波数平面からのフレーム化処理は、フレーム幅５、シフト幅１・時間-メル周波数平面を使用（時間-周波数平面より3%程結果が良い）・フィッシャー重みマップWの本数25本（20～30辺りが一番認識率がよい） 90.0% 90.0% 85.0% 85.0% 80.0% 75.0% 79.5% 74.5% 75.8% 74.2% 65.0% 65.0% 60.0% 60.0% ＋（提ＰＭＣ案ＦＡ手Ｃあ法Ｃり）＋（提Ｐ案ＣＭＡ手Ｆあ法ＣりＣ）＋ＭＦＣＭＣＦＣＣ＋＋（提ＰＭＣ案ＭＦＡ手ＦＣあ法ＣＣりＣ） Δ （提Ｐ案ＣＡ手あ法り） Δ ＭＦＣＣ 82.1% Δ Δ 70.0% 提（Ｐ案ＣＡ手な法し） 85.5% 75.0% 70.0% ＭＦＣＣ 86.7% 88.3% 80.0% 識別率識別率特定話者モデルの実験結果 90.0% 85.0% 80.0% 75.0% 70.0% 65.0% 60.0% 90.0% 84.2% 85.0% 80.7% 識別利識別率不特定話者モデルでの実験結果 75.0% 73.2% 87.1% 85.6% 87.1% 89.0% 80.0% 75.0% 70.0% 65.0% 60.0% Δ ＋（提ＰＭＣ案ＦＡ手Ｃあ法Ｃり）提＋（Ｐ案ＣＭＡ手Ｆあ法ＣりＣ）まとめ・今後の課題・特定、不特定話者モデル両方において MFCC 、ΔMFCC ＜提案手法（PCA）・単体の特徴量より組合わせた特徴量の方が認識結果が良い特に、３つの特徴量を組合わせた提案手法(PCA)＋MFCC+ΔMFCC が一番良い今後の課題・単語識別・局所パターンの考察・メル周波数の考察＋ＭＦＣＭＣＦＣＣ＋＋（提ＰＭＣ案ＭＦＡ手ＦＣあ法ＣＣりＣ） Δ （提Ｐ案ＣＡ手あ法り） Δ ＭＦＣＣ（提Ｐ案ＣＡ手な法し） Δ ＭＦＣＣ