スライド

HMM音声合成を用いた
音響モデル適応法
An acoustic model adaptation using
HMM-based speech synthesis
A1グループ M2
田中康司
背景と目的
数千語彙の音声認識
⇒ ほぼ実用化
 実環境下における音声認識システム
⇒ 入力音声の歪みによる認識性能の低下

任意環境に適応した音響モデル生成の必要性
音響モデルの環境適応

利用環境の音声で音響モデルを学習
 入力音声の歪みを統計的に表現できる
 環境に依存した雑音などに対して頑健
 単純で精度の高いモデルが生成可能
音響モデルの環境適応化
従来、雑音に用いられてきた手法
 認識音声と同じ符号化音声でモデルを学習

学習音声
学習
ベースライン
音響モデル
符号化
G.723.1
符号化
学習音声
学習
符号化音声
音響モデル
従来
環境適応
既存適応手法の問題点
環境が既知
 十分な量の環境適応データが必要
 環境毎にモデル化を行う必要

環境毎の大量の音声データ入手は困難
HMM音声合成を用いた適応法
HMM(Hidden Markov Model)音声合成を用いて
音声を音響モデルから生成
 生成した音声を当該環境で再生・録音し、
適応データとすることで環境適応を行う

⇒ 音響モデルの学習に必要なデータが不要
⇒ 音声波形の入出力さえわかれば適応可能
HMM音声合成を用いた適応法の流れ
環境
学習音声
学習
環境
学習音声
学習
ベースライン
音響モデル
適応
環境適応
音響モデル
音声合成
環境
音声
適応音声
従来適応
提案手法
出力分布の平均のみを用いた手法
音響モデルの出力確率分布
M
bi (o)   cim N (o; μ im , Σ im ) 1  i  N
m 1
における各状態の μ imを用いて単音を合成、
環境適応しそのメルケプストラム (c1 , c2 ,, cL )の
L
平均 cL  1 / L  (l 1 cl )を適応データとする
(μ im  cL )
cim  状態 i における混合数 m のときの重み
N (μ, Σ)  平均 μ 、共分散行列 Σ をもつ混合ガウス分布
音声合成の流れ
1.
2.
音素HMMから出力確率分布の平均を抽出
抽出した平均にメル対数スペクトル近似
(MLSA)フィルタを用いてピッチ(150Hz一
定)で0.3秒の単音を合成
評価実験
次の条件でG.723.1符号化音声の認識結果を
比較
1. ベースラインモデル(符号化無し音声学習)
2. 提案手法
3. 符号化音声適応モデル(符号化音声学習)
(提案手法の上限値と考えられる)
実験条件






音響モデル学習(JNAS音声データ、男性話者103人、
5,168文、ATR音素バランス文)
認識音声(JNAS音声データ、男性話者23人、100文、
新聞記事読み上げ文、G723.1により符号化)
特徴パラメータ(メルケプストラム0~12次+Δ+ΔΔ
計39次)
音響分析・音声合成SPTK、音響モデル学習HTK
大語彙連続認識エンジンJulius
日本語ディクテーション基本ソフトウェア 言語モデ
ル、辞書(2万語彙)
音声合成時の音源
音声合成時の音源は以下の2つを比較


有声音はパルス音源、無声音はノイズ音源
有声音・無声音ともにパルス音源で合成
(符号化が無声区間に影響を与えるため)
評価実験結果
G.723.1 6.3kbps
84
G.723.1 5.3kbps
単語正解精度(%)
82
80
78
76
74
72
70
ベースライン 提案手法 提案手法 符号化音声学習
(パルス音源)
分散の適応実験
平均に加え、分散の適応を行うことでより精
度の高い適応ができる
 分散値の推定は次式のように行った

| (μ im  Σ im )  cL |  | (μ im  Σ im )  cL |
Σim 
2
分散適応実験結果
G.723.1 6.3kbps
単語正解精度(%)
85
G.723.1 5.3kbps
80
75
70
65
60
ベースライン 提案手法
分散適応 符号化音声学習
(パルス音源)
まとめ
HMM音声合成を用いた環境適応法の提案
 出力分布の平均のみを用いた手法の検討
 音声符号化による評価実験より、符号化音声
の認識精度を改善
 分散の適応は線形的手法では失敗

今後の課題

モンテカルロ法を用いた実験
 乱数を用いたシミュレーションを十分多くの回数
繰り返すことにより近似解を求める

現在、平均・分散から正規分布の乱数を返す
プログラムが完成
今後、シミュレーション実験を行う