スライド - 徳島大学・任研究室

Earth Mover’s Distance の
話者認識への適用
徳島大学工学部知能情報工学科
A-1研究室 学部4年 梅田 良幸
目次






研究の背景
話者認識の必要性
提案手法
Earth Mover’s Distanceについて
実験概要
考察とまとめ
はじめに

携帯電話やインターネットの普及



さまざまな情報サービスが展開
音声通信の急速なIP化
ユビキタス社会の到来


あらゆる機器が情報ネットワークに接続
セキュリティ確保は重要な課題
話者認識の必要性

音声を用いた個人認証



従来型のパスワードは、忘れる、他人に推定
される等の問題がある
音声の場合、非接触なので遠隔地でも認証を
行える
音声や映像の検索

特定話者の音声のアーカイブ検索
信頼性の高い話者認識手法が求められる
提案手法

一般的に用いられる話者認識手法



GMM(Gaussian Mixture Model)
VQ(Vector Quantization)
画像検索の分野で有効性が示されている
Earth Mover’s Distance(EMD)を話者認識
に適用
Earth Mover’s Distance

2つの分布間の距離尺度


距離尺度の例:ユークリッド距離
一方の分布を他方の分布に変換するため
の最小のコストにより距離を定義する手法
色情報で用いられる従来の距離尺度
ユークリッド距離  同じビン同士の差分の和を計算
>
1
1
0
0
0
コスト4
0
1
1
0
1
0
0
0
0
1
0
コスト2
ユークリッド距離を用いると人間の認識感覚と一致しない
Earth Mover’s Distanceに基づく検索
Earth Mover’s Distance: 線形計画問題である輸送問題
の解に基づいて計算される
近い色同士(輸送コストが小さい)のビン間で距離計算
<
EMDを用いると人間の認識感覚と一致
Earth Mover’s Distanceに基づく検索
Earth Mover’s Distance: 線形計画問題である輸送問題
の解に基づいて計算される
近い色同士(輸送コストが小さい)のビン間で距離計算
1
1
5
<
コスト2
コスト5
EMDを用いると人間の認識感覚と一致
話者識別実験(実験条件その1)

話者モデル及び評価データ



男性21名、1990年8月
話者モデル:上時期の105文(=21名×5
文)
評価データ:上時期の105文
(話者モデルに含まれない音素バランス文)
話者識別実験(実験条件その2)
用いた特徴量:MFCC_E_D_N_Z
(HTKのHcopyを使用)
サンプリング間隔
16kHz
フレーム周期
フレーム長
窓タイプ
10ms
25ms
ハミング窓
フィルタバンク数
エネルギー正規化
24
無し
今後の予定

1990年8月~1992年3月の約19ヶ月
にわたる7時期において実験を行う


EMDの話者認識への適用が有効かどうか検
討する
ETSI標準DSRフロントエンドを用いて上記
と同様の実験を行う