スライド 1

多重関数を用いた調波時間スペクトル形状のモデル化による音声合成
1-P-4
○中鹿亘(神戸大)・立花隆輝・西村雅史(日本IBM)・滝口哲也・有木康雄(神戸大)
概要
システムの流れ
背景
従来の代表的な音声合成技術⇒Concatenative Synthesis
この手法では、膨大なデータサイズが必要となる
なるべく計算機資源を抑えたい
アプローチ
音声信号をパラメトリックにモデル化する
多重関数 (Multi Function) を用いて、
スペクトル形状 (各調波の強度時間変化) を数式的に表現
学習部で音素ごとのパ
ラメータを求める。合成
部で使用する音素パラ
メータを選択し、音声を
合成する
Training Stage
Speech signal
Spectrum
modeling
Alignment
Parameters
database
Text
Synthesis Stage
Generated speech
Text
analysis
I am..
Speech
Synthesis
モデル化の概念図
ピッチが一定な音素のモ
デル化。ハーモニクスの
強度変化を、「関数」で
フィッティングさせる
Power
Harmonics
評価実験
実験条件
Modeling
Function
Time
Spectro-model function
Spectrogram
Condition Name
多重関数
多重関数の定義
Number of
Mixtures
I [dB]
Number of
Iterations
MBD*1
MGMM
関数のパラメータから音
素の音響信号を作り出す
評価実験。条件を変えて
出力信号の精度比較を
行う
MBMM
A1
G1
G2
B1
B2
-
2
4
2
4
実験に用いたデータ
-
200
200
20
100
n [harmonics]
2
 周波数軸に関して離散的
 時間軸に関して連続的
 全領域における積分値は1
Number of
Samples
5000
-
-
2000
対象音源:
対象音素:
ピッチ:
5000
女性アナウンサー
長母音/e:/
440Hz
1
t [s]
0
1
時間(連続)とハーモニク
ス(離散)の 2 変数関数
を満たすような時間-周波数の2変数関数
(*1) MBD : Multi Beta Distribution
ベータ分布をハーモニクスのモデル化に使用したもの
実験結果
t : 時刻変数
n : ハーモニクスのインデックス
q(t ) : 多重関数
オリジナルのスペクトル
形状(上段)と、それを
多重ガウス合分布で
フィッティングした結果
(中段)、多重ベータ分
布でフィッティングした
結果(下段)。手前方向
に時間、横方向にハー
モニクスを表す。これら
のモデルでは、強度
ピーク時間やハーモニ
クス間の強度比率、強
度減衰など、おおまか
なスペクトル形状を表
現出来ていることが分
かる。特に第2ハーモニ
クスのピーク(山)情報
が、うまく再現できてい
る
p(t ) : 部分関数
ここで、多重率πは
 : 部分関数のパタメータ行列
 : 多重率
多重ガウス混合分布 (Multi Gaussian Mixture Model; MGMM)
部分関数にガウス混合分布を用いたもの
 n,l : 混合率
l
: 混合コンポーネントのインデックス
多重ベータ混合モデル (Multi Beta Mixture model; MBMM)
部分関数にベータ混合モデルを用いたもの
B( ,  ) : ベータ関数
いずれのモデルもEMアルゴリズムでパラメータを推定できる
多重関数パラメータから音声合成
,
:発音長
:音高
:n倍音の強度時間変化
ここで
は
多重関数のパラメータを用いて表現できる
: 部分関数
MBD
MGMM
MBMM
Condition Name
A1
G1
G2
B1
B2
Number of
parameters
60
140
260
140
260
DP距離による比較
音素信号の合成は、倍音加算方式を用いて行う
: 合成される楽器音信号
各実験条件の、パラメータ数
を示した(右表)。混合数が同
じであれば、MGMMとMBMM
のパラメータ数は等しい
Modeling
Function
多重関数のパラメータを用いて
音声の合成が可能
異なる実験条件でDP距離を
算出した結果(左図)。値が
小さいほどよく近似できてい
ることを示す。B1はG2よりも
パラメータ数が少なく、近似
精度が高い。B2はさらに精
度良くオリジナルの形状を
フィッティングできている
多重ベータ混合モデルが最もよく音色形状を近似できている