多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4 ○中鹿亘(神戸大)・立花隆輝・西村雅史(日本IBM)・滝口哲也・有木康雄(神戸大) 概要 システムの流れ 背景 従来の代表的な音声合成技術⇒Concatenative Synthesis この手法では、膨大なデータサイズが必要となる なるべく計算機資源を抑えたい アプローチ 音声信号をパラメトリックにモデル化する 多重関数 (Multi Function) を用いて、 スペクトル形状 (各調波の強度時間変化) を数式的に表現 学習部で音素ごとのパ ラメータを求める。合成 部で使用する音素パラ メータを選択し、音声を 合成する Training Stage Speech signal Spectrum modeling Alignment Parameters database Text Synthesis Stage Generated speech Text analysis I am.. Speech Synthesis モデル化の概念図 ピッチが一定な音素のモ デル化。ハーモニクスの 強度変化を、「関数」で フィッティングさせる Power Harmonics 評価実験 実験条件 Modeling Function Time Spectro-model function Spectrogram Condition Name 多重関数 多重関数の定義 Number of Mixtures I [dB] Number of Iterations MBD*1 MGMM 関数のパラメータから音 素の音響信号を作り出す 評価実験。条件を変えて 出力信号の精度比較を 行う MBMM A1 G1 G2 B1 B2 - 2 4 2 4 実験に用いたデータ - 200 200 20 100 n [harmonics] 2 周波数軸に関して離散的 時間軸に関して連続的 全領域における積分値は1 Number of Samples 5000 - - 2000 対象音源: 対象音素: ピッチ: 5000 女性アナウンサー 長母音/e:/ 440Hz 1 t [s] 0 1 時間(連続)とハーモニク ス(離散)の 2 変数関数 を満たすような時間-周波数の2変数関数 (*1) MBD : Multi Beta Distribution ベータ分布をハーモニクスのモデル化に使用したもの 実験結果 t : 時刻変数 n : ハーモニクスのインデックス q(t ) : 多重関数 オリジナルのスペクトル 形状(上段)と、それを 多重ガウス合分布で フィッティングした結果 (中段)、多重ベータ分 布でフィッティングした 結果(下段)。手前方向 に時間、横方向にハー モニクスを表す。これら のモデルでは、強度 ピーク時間やハーモニ クス間の強度比率、強 度減衰など、おおまか なスペクトル形状を表 現出来ていることが分 かる。特に第2ハーモニ クスのピーク(山)情報 が、うまく再現できてい る p(t ) : 部分関数 ここで、多重率πは : 部分関数のパタメータ行列 : 多重率 多重ガウス混合分布 (Multi Gaussian Mixture Model; MGMM) 部分関数にガウス混合分布を用いたもの n,l : 混合率 l : 混合コンポーネントのインデックス 多重ベータ混合モデル (Multi Beta Mixture model; MBMM) 部分関数にベータ混合モデルを用いたもの B( , ) : ベータ関数 いずれのモデルもEMアルゴリズムでパラメータを推定できる 多重関数パラメータから音声合成 , :発音長 :音高 :n倍音の強度時間変化 ここで は 多重関数のパラメータを用いて表現できる : 部分関数 MBD MGMM MBMM Condition Name A1 G1 G2 B1 B2 Number of parameters 60 140 260 140 260 DP距離による比較 音素信号の合成は、倍音加算方式を用いて行う : 合成される楽器音信号 各実験条件の、パラメータ数 を示した(右表)。混合数が同 じであれば、MGMMとMBMM のパラメータ数は等しい Modeling Function 多重関数のパラメータを用いて 音声の合成が可能 異なる実験条件でDP距離を 算出した結果(左図)。値が 小さいほどよく近似できてい ることを示す。B1はG2よりも パラメータ数が少なく、近似 精度が高い。B2はさらに精 度良くオリジナルの形状を フィッティングできている 多重ベータ混合モデルが最もよく音色形状を近似できている
© Copyright 2025 ExpyDoc