多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4 ○中鹿亘（神戸大）・立花隆輝・西村雅史（日本IBM）・滝口哲也・有木康雄（神戸大）概要システムの流れ背景 従来の代表的な音声合成技術⇒Concatenative Synthesis この手法では、膨大なデータサイズが必要となる なるべく計算機資源を抑えたいアプローチ 音声信号をパラメトリックにモデル化する 多重関数 (Multi Function) を用いて、スペクトル形状 (各調波の強度時間変化）を数式的に表現学習部で音素ごとのパラメータを求める。合成部で使用する音素パラメータを選択し、音声を合成する Training Stage Speech signal Spectrum modeling Alignment Parameters database Text Synthesis Stage Generated speech Text analysis I am.. Speech Synthesis モデル化の概念図ピッチが一定な音素のモデル化。ハーモニクスの強度変化を、「関数」でフィッティングさせる Power Harmonics 評価実験実験条件 Modeling Function Time Spectro-model function Spectrogram Condition Name 多重関数多重関数の定義 Number of Mixtures I [dB] Number of Iterations MBD*1 MGMM 関数のパラメータから音素の音響信号を作り出す評価実験。条件を変えて出力信号の精度比較を行う MBMM A1 G1 G2 B1 B2 - 2 4 2 4 実験に用いたデータ - 200 200 20 100 n [harmonics] 2  周波数軸に関して離散的  時間軸に関して連続的  全領域における積分値は1 Number of Samples 5000 - - 2000 対象音源: 対象音素：ピッチ： 5000 女性アナウンサー長母音/e:/ 440Hz 1 t [s] 0 1 時間（連続）とハーモニクス（離散）の 2 変数関数を満たすような時間-周波数の2変数関数 (*1) MBD : Multi Beta Distribution ベータ分布をハーモニクスのモデル化に使用したもの実験結果 t : 時刻変数 n : ハーモニクスのインデックス q(t ) : 多重関数オリジナルのスペクトル形状（上段）と、それを多重ガウス合分布でフィッティングした結果（中段）、多重ベータ分布でフィッティングした結果（下段）。手前方向に時間、横方向にハーモニクスを表す。これらのモデルでは、強度ピーク時間やハーモニクス間の強度比率、強度減衰など、おおまかなスペクトル形状を表現出来ていることが分かる。特に第2ハーモニクスのピーク（山）情報が、うまく再現できている p(t ) : 部分関数ここで、多重率πは  : 部分関数のパタメータ行列  : 多重率多重ガウス混合分布 (Multi Gaussian Mixture Model; MGMM) 部分関数にガウス混合分布を用いたもの  n,l : 混合率 l : 混合コンポーネントのインデックス多重ベータ混合モデル (Multi Beta Mixture model; MBMM) 部分関数にベータ混合モデルを用いたもの B( ,  ) : ベータ関数いずれのモデルもEMアルゴリズムでパラメータを推定できる多重関数パラメータから音声合成， :発音長 :音高 :n倍音の強度時間変化ここでは多重関数のパラメータを用いて表現できる : 部分関数 MBD MGMM MBMM Condition Name A1 G1 G2 B1 B2 Number of parameters 60 140 260 140 260 DP距離による比較 音素信号の合成は、倍音加算方式を用いて行う : 合成される楽器音信号各実験条件の、パラメータ数を示した（右表）。混合数が同じであれば、MGMMとMBMM のパラメータ数は等しい Modeling Function 多重関数のパラメータを用いて音声の合成が可能異なる実験条件でDP距離を算出した結果（左図）。値が小さいほどよく近似できていることを示す。B1はG2よりもパラメータ数が少なく、近似精度が高い。B2はさらに精度良くオリジナルの形状をフィッティングできている多重ベータ混合モデルが最もよく音色形状を近似できている