HMM音声合成を用いた 音響モデル適応法 An acoustic model adaptation using HMM-based speech synthesis A1グループ M2 田中康司 背景と目的 数千語彙の音声認識 ⇒ ほぼ実用化 実環境下における音声認識システム ⇒ 入力音声の歪みによる認識性能の低下 任意環境に適応した音響モデル生成の必要性 音響モデルの環境適応 利用環境の音声で音響モデルを学習 入力音声の歪みを統計的に表現できる 環境に依存した雑音などに対して頑健 単純で精度の高いモデルが生成可能 音響モデルの環境適応化 従来、雑音に用いられてきた手法 認識音声と同じ符号化音声でモデルを学習 学習音声 学習 ベースライン 音響モデル 符号化 G.723.1 符号化 学習音声 学習 符号化音声 音響モデル 従来 環境適応 既存適応手法の問題点 環境が既知 十分な量の環境適応データが必要 環境毎にモデル化を行う必要 環境毎の大量の音声データ入手は困難 HMM音声合成を用いた適応法 HMM(Hidden Markov Model)音声合成を用いて 音声を音響モデルから生成 生成した音声を当該環境で再生・録音し、 適応データとすることで環境適応を行う ⇒ 音響モデルの学習に必要なデータが不要 ⇒ 音声波形の入出力さえわかれば適応可能 HMM音声合成を用いた適応法の流れ 環境 学習音声 学習 環境 学習音声 学習 ベースライン 音響モデル 適応 環境適応 音響モデル 音声合成 環境 音声 適応音声 従来適応 提案手法 出力分布の平均のみを用いた手法 音響モデルの出力確率分布 M bi (o) cim N (o; μ im , Σ im ) 1 i N m 1 における各状態の μ imを用いて単音を合成、 環境適応しそのメルケプストラム (c1 , c2 ,, cL )の L 平均 cL 1 / L (l 1 cl )を適応データとする (μ im cL ) cim 状態 i における混合数 m のときの重み N (μ, Σ) 平均 μ 、共分散行列 Σ をもつ混合ガウス分布 音声合成の流れ 1. 2. 音素HMMから出力確率分布の平均を抽出 抽出した平均にメル対数スペクトル近似 (MLSA)フィルタを用いてピッチ(150Hz一 定)で0.3秒の単音を合成 評価実験 次の条件でG.723.1符号化音声の認識結果を 比較 1. ベースラインモデル(符号化無し音声学習) 2. 提案手法 3. 符号化音声適応モデル(符号化音声学習) (提案手法の上限値と考えられる) 実験条件 音響モデル学習(JNAS音声データ、男性話者103人、 5,168文、ATR音素バランス文) 認識音声(JNAS音声データ、男性話者23人、100文、 新聞記事読み上げ文、G723.1により符号化) 特徴パラメータ(メルケプストラム0~12次+Δ+ΔΔ 計39次) 音響分析・音声合成SPTK、音響モデル学習HTK 大語彙連続認識エンジンJulius 日本語ディクテーション基本ソフトウェア 言語モデ ル、辞書(2万語彙) 音声合成時の音源 音声合成時の音源は以下の2つを比較 有声音はパルス音源、無声音はノイズ音源 有声音・無声音ともにパルス音源で合成 (符号化が無声区間に影響を与えるため) 評価実験結果 G.723.1 6.3kbps 84 G.723.1 5.3kbps 単語正解精度(%) 82 80 78 76 74 72 70 ベースライン 提案手法 提案手法 符号化音声学習 (パルス音源) 分散の適応実験 平均に加え、分散の適応を行うことでより精 度の高い適応ができる 分散値の推定は次式のように行った | (μ im Σ im ) cL | | (μ im Σ im ) cL | Σim 2 分散適応実験結果 G.723.1 6.3kbps 単語正解精度(%) 85 G.723.1 5.3kbps 80 75 70 65 60 ベースライン 提案手法 分散適応 符号化音声学習 (パルス音源) まとめ HMM音声合成を用いた環境適応法の提案 出力分布の平均のみを用いた手法の検討 音声符号化による評価実験より、符号化音声 の認識精度を改善 分散の適応は線形的手法では失敗 今後の課題 モンテカルロ法を用いた実験 乱数を用いたシミュレーションを十分多くの回数 繰り返すことにより近似解を求める 現在、平均・分散から正規分布の乱数を返す プログラムが完成 今後、シミュレーション実験を行う
© Copyright 2024 ExpyDoc