スライド

時期差に頑健な
話者認識に関する研究
A1グループ
M1 福田
背景と目的
話者認識技術
– バンキングやショッピング、情報提供サービスに
おける本人確認手段
– HMMやGMMなど、統計的にモデル化
– 時期的特徴変動による認識率低下
時期差のない特徴パラメータを学習
することにより、認識率低下を抑える
研究の概要
【仮定】
時期的特徴変動は、同方向に起こっている
1. 線形判別分析を用いて、時期差による変動
を差し引いた特徴量を得る
2. 得られた新しい特徴量を用いて各話者の
GMMを学習
GMMを用いた話者識別
• GMM（Gaussian Mixture Model）
– 音声から抽出した特徴を統計的にモデル化
話者Aの
GMM
話者Bの
話者Zの
・・・
GMM
GMM
入力音声
音響分析
類似度
比較
特徴ベクトル
識
別
結
果
線形判別分析（LDA）
手順①
LDAにより軸 w を
求める
手順②
求まった軸 w を用い
特徴量の更新
更新式
(w  x)w
y x
2
|w|
話者識別実験
① 予備実験
② LDAを用いた話者識別実験
③ セグメントを用いた話者識別実験
④ 基本のパワーを軸算出に用いない実験
実験条件
• 学習及び評価データ
– 男性２１名、約１９ヶ月にわたる７時期
– 学習：１９９０年８月の１０５文（=２１名×５文）
– 評価：全時期の１４７０文（=２１名×１０文×７時
期）
サンプリング間隔
１６ｋHz
フレーム周期
１０ｍｓ
フレーム長
２５ｍｓ
窓タイプ
ハミング窓
フィルタバンク数
２４
エネルギー正規化
無し
予備実験（時期別比較実験）
評価時期
９０年８月
９０年９月
９０年１２月
９１年３月
９１年６月
９１年９月
９２年３月
計
発話内容クローズ発話内容オープン
１００％（１０５/１０５）１００％（１０５/１０５）
１００％（１０５/１０５）
９３％（９８/１０５）
９８％（１０３/１０５）
９５％（１００/１０５）
９９％（１０４/１０５）
９８％（１０３/１０５）
９９％（１０４/１０５）
９８％（１０３/１０５）
１００％（１０５/１０５）
９９％（１０４/１０５）
９９％（１０４/１０５）
９５％（１００/１０５）
９９.２％（６２５/６３０）９６.５％（６０８/６３０）
LDAを用いた話者識別実験①
• LDAにより軸を求め、それに直交する軸で更新
した特徴量を学習し、話者識別実験を行った
• 線形判別分析により求める軸
– 発話者：ｍｈａｙ
– 発話時期：９０年８月、１２月
– 発話内容：「銀鮭の卵を輸入して孵化させ
海中で育てる養殖も始まっている」
LDAを用いた話者識別実験②
評価時期
９０年８月
９０年９月
９０年１２月
９１年３月
９１年６月
９１年９月
９２年３月
計
発話内容クローズ発話内容オープン
１００％（１０５/１０５）１００％（１０５/１０５）
１００％（１０５/１０５）
９２％（９７/１０５）
９９％（１０４/１０５）
９７％（１０２/１０５）
１００％（１０５/１０５）
９８％（１０３/１０５）
１００％（１０５/１０５）
９９％（１０４/１０５）
１００％（１０５/１０５）
９８％（１０３/１０５）
９８％（１０３/１０５）
９５％（１００/１０５）
９９.７％（６２７/６３０）９６.７％（６０９/６３０）
セグメントを用いた識別実験①
• 時期差による変動をより顕著にとらえる
元の特徴量
① ② ③ ④ ･･･
セグメント後
① ② ③ ④
･･･
② ③ ④ ⑤
LDA後、上半分
① ② ③ ④ ･･･
② ③ ④ ⑤
• ２フレームでのセグメントを用いた時期別実験
• セグメント後にLDAによる軸適用実験
• セグメント、LDAの軸適用後、その特徴量の
次元数を元に戻した実験
– 使用した軸：LDAのみの時と同じ
セグメントを用いた識別実験②
基本のパワーを用いない識別実験
まとめ
• LDA、セグメントの識別実験を行った
• 時期差をなくす提案手法の有効性を、時期的
特徴変動がよく現れている特徴量での検討
が十分ではない
• 学習・評価データ数が少ない
今後の課題
• LDAにより求めた軸の分析
– 各次元の重みを考慮した実験
– 話者認識に有効な次元を求める
• 学習時期を増やす
– 時期差を含めた学習・認識→LDA実験との比較
• フレーム毎の尤度比較
– 話者認識に有効な音素の判別
付録：LDAにより求めた軸
時期性を表す軸
各次元の重み

Download Report