スライド

時期差に頑健な
話者認識に関する研究
A1グループ
M1 福田
背景と目的
話者認識技術
– バンキングやショッピング、情報提供サービスに
おける本人確認手段
– HMMやGMMなど、統計的にモデル化
– 時期的特徴変動による認識率低下
時期差のない特徴パラメータを学習
することにより、認識率低下を抑える
研究の概要
【仮定】
時期的特徴変動は、同方向に起こっている
1. 線形判別分析を用いて、時期差による変動
を差し引いた特徴量を得る
2. 得られた新しい特徴量を用いて各話者の
GMMを学習
GMMを用いた話者識別
• GMM(Gaussian Mixture Model)
– 音声から抽出した特徴を統計的にモデル化
話者Aの
GMM
話者Bの
話者Zの
・・・
GMM
GMM
入力音声
音響分析
類似度
比較
特徴ベクトル
識
別
結
果
線形判別分析(LDA)
手順①
LDAにより軸 w を
求める
手順②
求まった軸 w を用い
特徴量の更新
更新式
(w  x)w
y x
2
|w|
話者識別実験
① 予備実験
② LDAを用いた話者識別実験
③ セグメントを用いた話者識別実験
④ 基本のパワーを軸算出に用いない実験
実験条件
• 学習及び評価データ
– 男性21名、約19ヶ月にわたる7時期
– 学習:1990年8月の105文(=21名×5文)
– 評価:全時期の1470文(=21名×10文×7時
期)
サンプリング間隔
16kHz
フレーム周期
10ms
フレーム長
25ms
窓タイプ
ハミング窓
フィルタバンク数
24
エネルギー正規化
無し
予備実験(時期別比較実験)
評価時期
90年 8月
90年 9月
90年12月
91年 3月
91年 6月
91年 9月
92年 3月
計
発話内容クローズ 発話内容オープン
100%(105/105) 100%(105/105)
100%(105/105)
93%( 98/105)
98%(103/105)
95%(100/105)
99%(104/105)
98%(103/105)
99%(104/105)
98%(103/105)
100%(105/105)
99%(104/105)
99%(104/105)
95%(100/105)
99.2%(625/630) 96.5%(608/630)
LDAを用いた話者識別実験①
• LDAにより軸を求め、それに直交する軸で更新
した特徴量を学習し、話者識別実験を行った
• 線形判別分析により求める軸
– 発話者:mhay
– 発話時期:90年8月、12月
– 発話内容:「銀鮭の卵を輸入して孵化させ
海中で育てる養殖も始まっている」
LDAを用いた話者識別実験②
評価時期
90年 8月
90年 9月
90年12月
91年 3月
91年 6月
91年 9月
92年 3月
計
発話内容クローズ 発話内容オープン
100%(105/105) 100%(105/105)
100%(105/105)
92%( 97/105)
99%(104/105)
97%(102/105)
100%(105/105)
98%(103/105)
100%(105/105)
99%(104/105)
100%(105/105)
98%(103/105)
98%(103/105)
95%(100/105)
99.7%(627/630) 96.7%(609/630)
セグメントを用いた識別実験①
• 時期差による変動をより顕著にとらえる
元の特徴量
① ② ③ ④ ・・・
セグメント後
① ② ③ ④
・・・
② ③ ④ ⑤
LDA後、上半分
① ② ③ ④ ・・・
② ③ ④ ⑤
• 2フレームでのセグメントを用いた時期別実験
• セグメント後にLDAによる軸適用実験
• セグメント、LDAの軸適用後、その特徴量の
次元数を元に戻した実験
– 使用した軸:LDAのみの時と同じ
セグメントを用いた識別実験②
基本のパワーを用いない識別実験
まとめ
• LDA、セグメントの識別実験を行った
• 時期差をなくす提案手法の有効性を、時期的
特徴変動がよく現れている特徴量での検討
が十分ではない
• 学習・評価データ数が少ない
今後の課題
• LDAにより求めた軸の分析
– 各次元の重みを考慮した実験
– 話者認識に有効な次元を求める
• 学習時期を増やす
– 時期差を含めた学習・認識→LDA実験との比較
• フレーム毎の尤度比較
– 話者認識に有効な音素の判別
付録:LDAにより求めた軸
時期性を表す軸
各次元の重み