時期差に頑健な 話者認識に関する研究 A1グループ M1 福田 背景と目的 話者認識技術 – バンキングやショッピング、情報提供サービスに おける本人確認手段 – HMMやGMMなど、統計的にモデル化 – 時期的特徴変動による認識率低下 時期差のない特徴パラメータを学習 することにより、認識率低下を抑える 研究の概要 【仮定】 時期的特徴変動は、同方向に起こっている 1. 線形判別分析を用いて、時期差による変動 を差し引いた特徴量を得る 2. 得られた新しい特徴量を用いて各話者の GMMを学習 GMMを用いた話者識別 • GMM(Gaussian Mixture Model) – 音声から抽出した特徴を統計的にモデル化 話者Aの GMM 話者Bの 話者Zの ・・・ GMM GMM 入力音声 音響分析 類似度 比較 特徴ベクトル 識 別 結 果 線形判別分析(LDA) 手順① LDAにより軸 w を 求める 手順② 求まった軸 w を用い 特徴量の更新 更新式 (w x)w y x 2 |w| 話者識別実験 ① 予備実験 ② LDAを用いた話者識別実験 ③ セグメントを用いた話者識別実験 ④ 基本のパワーを軸算出に用いない実験 実験条件 • 学習及び評価データ – 男性21名、約19ヶ月にわたる7時期 – 学習:1990年8月の105文(=21名×5文) – 評価:全時期の1470文(=21名×10文×7時 期) サンプリング間隔 16kHz フレーム周期 10ms フレーム長 25ms 窓タイプ ハミング窓 フィルタバンク数 24 エネルギー正規化 無し 予備実験(時期別比較実験) 評価時期 90年 8月 90年 9月 90年12月 91年 3月 91年 6月 91年 9月 92年 3月 計 発話内容クローズ 発話内容オープン 100%(105/105) 100%(105/105) 100%(105/105) 93%( 98/105) 98%(103/105) 95%(100/105) 99%(104/105) 98%(103/105) 99%(104/105) 98%(103/105) 100%(105/105) 99%(104/105) 99%(104/105) 95%(100/105) 99.2%(625/630) 96.5%(608/630) LDAを用いた話者識別実験① • LDAにより軸を求め、それに直交する軸で更新 した特徴量を学習し、話者識別実験を行った • 線形判別分析により求める軸 – 発話者:mhay – 発話時期:90年8月、12月 – 発話内容:「銀鮭の卵を輸入して孵化させ 海中で育てる養殖も始まっている」 LDAを用いた話者識別実験② 評価時期 90年 8月 90年 9月 90年12月 91年 3月 91年 6月 91年 9月 92年 3月 計 発話内容クローズ 発話内容オープン 100%(105/105) 100%(105/105) 100%(105/105) 92%( 97/105) 99%(104/105) 97%(102/105) 100%(105/105) 98%(103/105) 100%(105/105) 99%(104/105) 100%(105/105) 98%(103/105) 98%(103/105) 95%(100/105) 99.7%(627/630) 96.7%(609/630) セグメントを用いた識別実験① • 時期差による変動をより顕著にとらえる 元の特徴量 ① ② ③ ④ ・・・ セグメント後 ① ② ③ ④ ・・・ ② ③ ④ ⑤ LDA後、上半分 ① ② ③ ④ ・・・ ② ③ ④ ⑤ • 2フレームでのセグメントを用いた時期別実験 • セグメント後にLDAによる軸適用実験 • セグメント、LDAの軸適用後、その特徴量の 次元数を元に戻した実験 – 使用した軸:LDAのみの時と同じ セグメントを用いた識別実験② 基本のパワーを用いない識別実験 まとめ • LDA、セグメントの識別実験を行った • 時期差をなくす提案手法の有効性を、時期的 特徴変動がよく現れている特徴量での検討 が十分ではない • 学習・評価データ数が少ない 今後の課題 • LDAにより求めた軸の分析 – 各次元の重みを考慮した実験 – 話者認識に有効な次元を求める • 学習時期を増やす – 時期差を含めた学習・認識→LDA実験との比較 • フレーム毎の尤度比較 – 話者認識に有効な音素の判別 付録:LDAにより求めた軸 時期性を表す軸 各次元の重み
© Copyright 2025 ExpyDoc