Earth Mover’s Distance の 話者認識への適用 徳島大学工学部知能情報工学科 A-1研究室 学部4年 梅田 良幸 目次 研究の背景 話者認識の必要性 提案手法 Earth Mover’s Distanceについて 実験概要 考察とまとめ はじめに 携帯電話やインターネットの普及 さまざまな情報サービスが展開 音声通信の急速なIP化 ユビキタス社会の到来 あらゆる機器が情報ネットワークに接続 セキュリティ確保は重要な課題 話者認識の必要性 音声を用いた個人認証 従来型のパスワードは、忘れる、他人に推定 される等の問題がある 音声の場合、非接触なので遠隔地でも認証を 行える 音声や映像の検索 特定話者の音声のアーカイブ検索 信頼性の高い話者認識手法が求められる 提案手法 一般的に用いられる話者認識手法 GMM(Gaussian Mixture Model) VQ(Vector Quantization) 画像検索の分野で有効性が示されている Earth Mover’s Distance(EMD)を話者認識 に適用 Earth Mover’s Distance 2つの分布間の距離尺度 距離尺度の例:ユークリッド距離 一方の分布を他方の分布に変換するため の最小のコストにより距離を定義する手法 色情報で用いられる従来の距離尺度 ユークリッド距離 同じビン同士の差分の和を計算 > 1 1 0 0 0 コスト4 0 1 1 0 1 0 0 0 0 1 0 コスト2 ユークリッド距離を用いると人間の認識感覚と一致しない Earth Mover’s Distanceに基づく検索 Earth Mover’s Distance: 線形計画問題である輸送問題 の解に基づいて計算される 近い色同士(輸送コストが小さい)のビン間で距離計算 < EMDを用いると人間の認識感覚と一致 Earth Mover’s Distanceに基づく検索 Earth Mover’s Distance: 線形計画問題である輸送問題 の解に基づいて計算される 近い色同士(輸送コストが小さい)のビン間で距離計算 1 1 5 < コスト2 コスト5 EMDを用いると人間の認識感覚と一致 話者識別実験(実験条件その1) 話者モデル及び評価データ 男性21名、1990年8月 話者モデル:上時期の105文(=21名×5 文) 評価データ:上時期の105文 (話者モデルに含まれない音素バランス文) 話者識別実験(実験条件その2) 用いた特徴量:MFCC_E_D_N_Z (HTKのHcopyを使用) サンプリング間隔 16kHz フレーム周期 フレーム長 窓タイプ 10ms 25ms ハミング窓 フィルタバンク数 エネルギー正規化 24 無し 今後の予定 1990年8月~1992年3月の約19ヶ月 にわたる7時期において実験を行う EMDの話者認識への適用が有効かどうか検 討する ETSI標準DSRフロントエンドを用いて上記 と同様の実験を行う
© Copyright 2024 ExpyDoc