スライド 1

多重ベータ混合モデルを用いた調波時間構造の
モデル化による音声合成の検討
○中鹿亘(神戸大)・立花隆輝・西村雅史(日本IBM)・滝口哲也・有木康雄(神戸大)
概要
システムの流れ
背景
Training Stage
従来の代表的な音声合成技術⇒Concatenative Synthesis
Speech signal
この手法では、膨大なデータサイズが必要となる
Alignment
なるべく計算機資源を抑えたい
アプローチ
音声信号をパラメトリックにモデル化する
多重ベータ混合モデル (Multi Beta Mixture Model, MBMM) を用いて、
Text
スペクトル形状 (各調波の強度時間変化) をモデル化
I am..
学習部で音素ごとのパ
ラメータを求める。合成
部で使用する音素パラ
メータを選択し、音声を
合成する
Spectrum
modeling
Parameters
database
Synthesis Stage
Generated speech
Text
analysis
Speech
Synthesis
モデル化の概念図
ピッチが一定な音素のモ
デル化。ハーモニクスの
強度変化を、「関数」で
フィッティングさせる
Power
Harmonics
評価実験
実験条件
Modeling
Function
Time
Spectro-model function
Spectrogram
MBD*1
Condition Name
Number of
Mixtures
多重ベータ混合モデル
概要
複数のベータ混合モデルが周波数軸上に重なり合っているよ
うな関数として定義
パラメータを変えることで多様な2次元形状を表現できる
MBMM
A1
G1
G2
B1
B2
-
2
4
2
4
実験に用いたデータ
Number of
Iterations
-
Number of
Samples
200
5000
-
200
-
20
100
2000
対象音源:
対象音素:
ピッチ:
5000
女性アナウンサー
長母音/e:/
440Hz
(*1) MBD : Multi Beta Distribution
(*2) MGMM : Multi Gaussian Mixture Model
それぞれベータ分布,GMMをハーモニクスのモデル化に使用したもの
I [dB]
時間(連続)とハーモニク
ス(離散)の 2 変数関数
n [harmonics]
MGMM*2
関数のパラメータから音
素の音響信号を作り出す
評価実験。条件を変えて
出力信号の精度比較を
行う
実験結果
2
Original
1
t [s]
0
1
定義
ここで
B( ,  ) : ベータ関数
 (u ) : ディガンマ関数
オリジナルのスペクト
ル形状(上図)と、そ
れを多重ベータ混合
モデルでフィッティン
グした結果(下図)。
手前方向に時間、横
方向にハーモニクス
を表す。特に第2ハー
モニクスのピーク(山)
情報が、うまく再現で
きている
MBMM model
g n (t ) : n番目のハーモニクスの観測値
パラメータの推定
πの推定
Xi
: 観測値からのサンプル
ν,β,αの推定
EMアルゴリズムで繰り返し
更新することで、パラメータを
推定することが可能
強度ピーク時間やハーモニクス間の強度比率,強度減衰など、
MBMMを用いてスペクトル形状を表現できることが分かる
各実験条件の、パラメータ数
を示した(右表)。混合数が同
じであれば、MGMMとMBMM
のパラメータ数は等しい
ハーモニクス間の強度
比率として表現される
Modeling
Function
MBD
MGMM
MBMM
Condition Name
A1
G1
G2
B1
B2
Number of
parameters
60
140
260
140
260
モデルパラメータからの音声合成
DP距離による比較
音素信号の合成は、倍音加算方式を用いて行う
0.25
,
異なる実験条件でDP距離を
算出した結果(左図)。値が
小さいほどよく近似できてい
ることを示す。B1はG2よりも
パラメータ数が少なく、近似
精度が高い。B2はさらに精
度良くオリジナルの形状を
フィッティングできている
0.2
0.15
: 合成される楽器音信号
:発音長
:音高
:n倍音の強度時間変化
0.1
ここで
は
多重ベータ混合モデルのパラメータを用いて表現できる
0.05
0
A1
G1
G2
B1
B2
MBMM のパラメータを用いて
: 多重ベータ混合モデルの部分関数
音声の合成が可能
多重ベータ混合モデルが最もよく音色形状を近似できている