多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討 ○中鹿亘(神戸大)・立花隆輝・西村雅史(日本IBM)・滝口哲也・有木康雄(神戸大) 概要 システムの流れ 背景 Training Stage 従来の代表的な音声合成技術⇒Concatenative Synthesis Speech signal この手法では、膨大なデータサイズが必要となる Alignment なるべく計算機資源を抑えたい アプローチ 音声信号をパラメトリックにモデル化する 多重ベータ混合モデル (Multi Beta Mixture Model, MBMM) を用いて、 Text スペクトル形状 (各調波の強度時間変化) をモデル化 I am.. 学習部で音素ごとのパ ラメータを求める。合成 部で使用する音素パラ メータを選択し、音声を 合成する Spectrum modeling Parameters database Synthesis Stage Generated speech Text analysis Speech Synthesis モデル化の概念図 ピッチが一定な音素のモ デル化。ハーモニクスの 強度変化を、「関数」で フィッティングさせる Power Harmonics 評価実験 実験条件 Modeling Function Time Spectro-model function Spectrogram MBD*1 Condition Name Number of Mixtures 多重ベータ混合モデル 概要 複数のベータ混合モデルが周波数軸上に重なり合っているよ うな関数として定義 パラメータを変えることで多様な2次元形状を表現できる MBMM A1 G1 G2 B1 B2 - 2 4 2 4 実験に用いたデータ Number of Iterations - Number of Samples 200 5000 - 200 - 20 100 2000 対象音源: 対象音素: ピッチ: 5000 女性アナウンサー 長母音/e:/ 440Hz (*1) MBD : Multi Beta Distribution (*2) MGMM : Multi Gaussian Mixture Model それぞれベータ分布,GMMをハーモニクスのモデル化に使用したもの I [dB] 時間(連続)とハーモニク ス(離散)の 2 変数関数 n [harmonics] MGMM*2 関数のパラメータから音 素の音響信号を作り出す 評価実験。条件を変えて 出力信号の精度比較を 行う 実験結果 2 Original 1 t [s] 0 1 定義 ここで B( , ) : ベータ関数 (u ) : ディガンマ関数 オリジナルのスペクト ル形状(上図)と、そ れを多重ベータ混合 モデルでフィッティン グした結果(下図)。 手前方向に時間、横 方向にハーモニクス を表す。特に第2ハー モニクスのピーク(山) 情報が、うまく再現で きている MBMM model g n (t ) : n番目のハーモニクスの観測値 パラメータの推定 πの推定 Xi : 観測値からのサンプル ν,β,αの推定 EMアルゴリズムで繰り返し 更新することで、パラメータを 推定することが可能 強度ピーク時間やハーモニクス間の強度比率,強度減衰など、 MBMMを用いてスペクトル形状を表現できることが分かる 各実験条件の、パラメータ数 を示した(右表)。混合数が同 じであれば、MGMMとMBMM のパラメータ数は等しい ハーモニクス間の強度 比率として表現される Modeling Function MBD MGMM MBMM Condition Name A1 G1 G2 B1 B2 Number of parameters 60 140 260 140 260 モデルパラメータからの音声合成 DP距離による比較 音素信号の合成は、倍音加算方式を用いて行う 0.25 , 異なる実験条件でDP距離を 算出した結果(左図)。値が 小さいほどよく近似できてい ることを示す。B1はG2よりも パラメータ数が少なく、近似 精度が高い。B2はさらに精 度良くオリジナルの形状を フィッティングできている 0.2 0.15 : 合成される楽器音信号 :発音長 :音高 :n倍音の強度時間変化 0.1 ここで は 多重ベータ混合モデルのパラメータを用いて表現できる 0.05 0 A1 G1 G2 B1 B2 MBMM のパラメータを用いて : 多重ベータ混合モデルの部分関数 音声の合成が可能 多重ベータ混合モデルが最もよく音色形状を近似できている
© Copyright 2024 ExpyDoc