F 0

Corpus-Based Prosodic Modeling
in Text-to-Speech Synthesis
コーパスに基づくテキスト音声変換用の韻律モデリング
電子情報工学専攻
広瀬・峯松研究室
博士課程3年
桜井 淳宏
概要
•
•
•
•
研究の背景・概要
Phase I: データベース作成(韻律情報のラベリング)
Phase II: 韻律情報の統計的モデル化
考察・まとめ
TTS(テキスト音声変換)
TTS(Text-to-Speech)
入力文
出力音声
TTS System
TTS技術の応用
現在
将来
•対話システム(音声認識システムとの
•E-mailの自動読み上げ
組合わせ)
•手足が忙しいときの自動読み上げ
•自動通訳システム
•WWWコンテンツの読み上げ
•文章作成の支援ツール
•言語教育
•お年寄りや障害者の支援ツール
•自動車環境内のヒューマンインタフェース
分節的特徴&韻律的特徴
分節的特徴(segmental features):
音韻記号(phonological symbol)に置き換えられる
韻律的特徴(prosodic features):
声の抑揚を表し、物理的には次の特徴量として表現される
基本周波数パターン(F0パターン)
音素の持続時間の推移
パワーパターン
(韻律的特徴は超分節的特徴ともいわれる)
TTSシステムの流れ
入力文
単語辞書
文法
テキスト解析
形態素解析
構文解析
音韻処理・韻律処理
アクセント辞書
韻律ルール
音韻記号列+
韻律記号列の生成
音声合成
音声データベース
読み
形態素情報
アクセント型
波形編集または
フォルマント合成
音声信号
音韻記号列
韻律記号列
統計的手法に基づく
イントネーションモデル
規則音声合成の問題点
•
•
•
イントネーションに関するルールにはヒューリスティックスによるものが
多い
ルールの作成が困難
ルール間の干渉
統計的な手法の導入
•
•
•
ヒューリスティックスを統計的手法で置き換える
規則化できない部分も学習可能
データベースの充実度が上昇中
統計的手法に基づく
イントネーションモデル
1) 学習
Prosodic Database
Text
Speech
Linguistic features
Prosodic features
Statistical Training
TTS intonation
model
2) 合成
Text
TTS System
TTS Intonation
Model
F0 contour (intonation)
Phase I: データベース作成
韻律データベース
1) Text data: text in electronic format
2) Speech data: digital recording, phonetic
transcription
3) Linguistic features: part-of-speech tags,
pronunciation, accent types, etc.
4) Prosodic features: F0 contours, duration
patterns, power contours, etc.
Q: How to represent prosodic features?
ToBI (Tones and
Break Indices)
• 定量的な記述は一切含
まれていない。したがっ
て、物理量への変換が
難しい
• ラベル付与にかかる労
力(=コスト)が高い
韻律データベースにおける韻律情報の記述
提案:F0モデルの利用
•
•
物理量と直接的な関係
統語構造をある程度反映
問題点:ToBIと同様、自動ラベリングが不可能
F0パターンモデル
I
J
lnF (t)  lnF
  A G (t  T0 i )   A {G (t  T )  Gaj(t  t )}
0
min
pi pi
aj aj
1j
2j
i1
j 1
 exp(  it ) ( t  0)
G pi ( t )   it
0
( t  0)

min[1  (1   jt ) exp(   jt ),  ] ( t  0)
Gaj ( t )  
0
( t  0)

F0パターンモデル(具体例)
title
FREQUENCY [Hz]
1000.0
100.0
0.0
1.0
2.0
3.0
1.0
2.0
3.0
TIME [s]
PROSODIC COMMAND
1.0
0.0
TIME [s]
「そちらの国際会議に論文を投稿したいとおもうんですが」
F0モデルパラメータの自動ラベリング
(アイデア:音声認識用に開発された統語境界検出法を適用
Phrase Bound.
Detection
F0
Contour
Parameter
Adjustment
Model
Assignment
Accent Bound.
Detection
Linguistic information
•
•
F0
Model
(partial AbS)
フレーズ境界検出にはローパ
スフィルタを用いる
[Sakurai/Hirose, ICSLP’96]
アクセント境界検出にはF0パ
ターンの微分パターンを利用
[Fujisaki et.al, ASJ, 92-3]
フレーズ指令検出
Phrase + accent
d(Phrase)
dt
10.0
0.0
1.0
2.0
3.0
4.0
5.0
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
10.0
11.0
12.0
TIME [s]
8.0
9.0
10.0
11.0
12.0
TIME [s]
8.0
9.0
10.0
11.0
12.0
TIME [s]
mausc103.i.f.F0
FREQUENCY [Hz]
1000.0
100.0
10.0
0.0
1.0
6.0
7.0
mausc103.i.f.d.F0
DERIVATIVE
0.1
-0.1
0.0
1.0
2.0
3.0
4.0
5.0
6.0
7.0
フレーズ境界検出
の具体例
0.0
1.0
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
10.0
11.0
TIME [s]
F0モデル
パラメータ推定の
具体例
評価実験
(a) Phrase commands (number of phrase commands: 104)
Accepted Detection rate (%)
Insertion rate (%)
range
Previous Proposed Previous Proposed
method method
method
method
±50 ms
29.8
48.1
52.9
44.2
±100 ms 54.8
67.3
27.9
25.0
81.7
8.7
10.6
±200 ms 74.0
(b) Accent commands (number of accent commands: 228)
Accepted range
Same mora
±1 mora
±2 morae
Detection rate (%)
Previous method
19.7
58.3
64.9
Proposed method
20.6
62.7
70.1
(25 sentences from ATR continuous speech database; comparison with hand-labeled data)
アクセント変形タイプ
複合名詞の第二要素による分類
• A型:第二要素の第一拍まで高い
(アソビア‘イテ=遊び相手)
• B型:第一要素の最終拍まで高い
(セイフ‘アン=政府案)
• B*型:第一要素の最終拍の前まで高い
(ゲンゼ‘イアン=減税案)
• F型:平板型
(アキタケン=秋田犬)
アクセント変形タイプ
推定システム
Phoneme Labels
and timing
Error = MSE
between extracted
and calculated
F0 contours
F0 Contour
Type A
Model A
Type B
Model B
Type B*
Model B*
Type F
Model F
Hypothesizer
Error A
Error B
Error B*
Error F
Partial Abs
複合名詞の近似モデル(初期値)
2つのフレーズ指令を利用すれば、
連続音声での複合名詞の位置として
考えられるすべての可能性を網羅できる
• 文の先頭または休止を伴うフレーズ境界の後
(Ap1=0,Ap2>0)
• 休止を伴わないフレーズ境界の後
(Ap1>0,Ap2>0)
• 非フレーズ境界
(Ap1>0,Ap2=0)
Command
Ap1
Ap2
Aa1
t01
t02 t1
1.0
0.08
t2
t (s)
評価実験
• Speech material:
ATR Continuous Speech Database
(MAU and MHT)
• Phoneme labeling by HTK speech recognizer in forced alignment mode
Accent Sandhi Detection Rate
Pattern
Type A
33/45
Type B
2/8
Type B*
2/9
Type F
6/9
14/17
Phase II: 統計的手法に基づく韻律情報のモデリング
•
韻律データベースを作成した後、次は統計的学習の手法が必要
•
第1手法:ニューラルネットワークとF0モデルに基づくF0パターン
のモデル化
•
第2手法:モーラ遷移離散隠れマルコフモデルに基づくF0パターン
のモデル化
方式1)ニューラルネットワークとF0モデルに基づく
F0パターンのモデリング
• F0モデルは次のような特徴を有する
– 物理量と直接的な関係
– 統語構造と対応
• 問題点
– パラメータ同士の非線形な関係
– 正解には曖昧性がある
ニューラルネットワークが適切
ニューラルネットワーク構造
(a) Elman network
Input
Layer
Hidden
Layer
(b) Jordan network
Output
Layer
Input
Layer
Hidden
Layer
Output
Layer
State
Layer
Context
Layer
ニューラルネットワーク構造(つづき)
(c) Multi-layer perceptron (MLP)
Input
Layer
Hidden
Layer
Output
Layer
入力特徴
入力特徴
韻律語の位置
韻律語のモーラ数
韻律語のアクセント型
韻律語の単語数
最初の単語の品詞・活用型・活用形
最後の単語の品詞・活用型・活用形
クラス数
18
15
9
8
37,7,7
37,7,7
入力特徴の例
Isshuukanbakari nyuuyookuo shuzaishita.
(一週間ばかりニューヨークを取材した)
“ニューヨークヲ”
韻律語の位置:
モーラ数:
アクセント型:
単語数:
最初の単語の品詞・活用型・活用形:
最後の単語の品詞・活用型・活用形:
2
6
3
2
名詞・0・0
格助詞・0・0
出力特徴
出力特徴
種類
Phrase command magnitude (Ap)
Accent command amplitude (Aa)
Phrase command delay (t0 off)
Accent command onset delay (t1 off)
Accent command reset delaty (t2 off)
Phrase command flag
Continuous
Continuous
Continuous
Continuous
Continuous
Binary
学習データベース
• 学習データ:388の例文(2803の韻律語)
• Validation data:50の例文(317の韻律語)
• テストデータ:48の例文(262の韻律語)
• 学習量:epoch(サイクル数)=15~30
• 文境界に擬似アイテムを挿入
フレーズ指令の有無の推定
Neural Number Detected Deletion
network
of
(Dt)
(Dl)
type
elements
in hidden
layer
MLP
10
83
28
MLP
20
81
30
MLP
50
80
31
Jordan
10
81
30
Jordan
20
79
32
Jordan
50
81
30
Elman
10
81
30
Elman
20
82
29
Elman
50
78
33
Phrase command prediction results
Insertion Dt/In
(In)
36
40
34
37
38
36
37
37
37
2.31
2.03
2.35
2.19
2.08
2.25
2.19
2.22
2.11
フレーズ指令パラメータの推定
Neural Number of
MSE for Ap
MSE for t0 off
-3
network elements in
(x 10 )
(x 10-3 s2)
type
hidden
layer
MLP
10
30
33
MLP
20
30
32
MLP
50
30
33
Jordan
10
31
34
Jordan
20
30
32
Jordan
50
31
33
Elman
10
31
32
Elman
20
29
32
Elman
50
29
33
Results of phrase command parameter prediction
1
MSE 
N
N
 ( pi  pi ) 2
i 1
'
(1)
アクセント指令パラメータの推定
Neural Number of MSE for MSE for MSE for
network elements in
Aa
t1 off
t2 off
-3
-3 2
type
hidden
(x 10 )
(x 10 s ) (x 10-3 s2)
layer
MLP
10
29
4.5
4.8
MLP
20
27
5.0
5.3
MLP
50
28
4.9
4.7
Jordan
10
28
4.7
5.1
Jordan
20
25
4.5
4.7
Jordan
50
28
4.2
5.1
Elman
10
28
4.8
4.7
Elman
20
28
4.7
4.8
Elman
50
28
4.4
4.6
Results of accent command parameter prediction
1
MSE 
N
N
2
(
p

p
)
 i i
i 1
'
(1)
自然音声から抽出した F0 パターンとの誤差
Neural Number of elements
F0 Contour MSE
network
in hidden layer
(log(Hz))2
type
MLP
10
0.219
MLP
20
0.224
MLP
50
0.225
Jordan
10
0.214
Jordan
20
0.213
Jordan
50
0.226
Elman
10
0.214
Elman
20
0.211
Elman
50
0.232
Table 6: F0 Model parameter prediction error (MSE)
1
MSE 
N
N
 [log( F
i 1
0i
)  log( F0'i )]2
(2)
WAVEFORM
mhtsdj01.syn
0.0
1.0
2.0
3.0
TIME [s]
「小さなうなぎ屋に熱気のようなものがみなぎる」
LABEL
a
i,i
ch
a
n
u
n
pau
n
s
0.0
e
n
i
y
a
i,y
a
g
o
n
i
a
n
o,u
m
i
o
n
o
a
g
a
n
m
r
1.0
kk
2.0
g
1.0
2.0
3.0
1.0
2.0
3.0
3.0
u
i
TIME [s]
FREQUENCY [Hz]
800.0
100.0
40.0
0.0
TIME [s]
PROSODIC COMMAND
1.0
0.0
TIME [s]
具体例
本手法に関する考察
• ニューラルネットワークによるモデリングの長所:
– 不完全なルールによる問題を回避
– 聴取実験による最終結果が良好
• 問題点
– 韻律情報のモデル化に関する真の知識が得られない
– ニューラルネットワークのパラメータの最適化が難しい
• 今後の課題
– 他の方式と比較(2分木など)
– 実際のTTSシステムに組み込む
– 出力特性によってニューラルネットワークを使い分ける手法を検
討
方式2:モーラ遷移HMMに基づく
F0パターンのモデル化
何故モーラ遷移HMM?
• 日本語のイントネーションはモーラ単位の時系列として近似的に表現できる
• 韻律境界検出という用途で同様のHMMが利用され、良好な結果が得られた
HMMを生成モードで利用すれば、F0パターンを生成できる
離散隠れマルコフモデル(HMM)
a11
a22
a33
a44
a13
a12
1
b(1|1)~b(K|1)
2
a23
b(1|2)~b(K|2)
3
a34
b(1|3)~b(K|3)
4
b(1|4)~b(K|4)
Symbols: 1,2, ..., K
モデルと出力記号列を繰り返し対応させることによって、モデルの
パラメータ(遷移確率及び出力確率)をそれらの記号列の特徴に
適応させることができる(学習)
モーラ遷移HMMに基づく
イントネーションモデル
HMM
shape:
韻律語(accentual phrase)
状態遷移
モーラ遷移
出力記号
(shape,deltaF0)
モーラ単位F0パターンのクラスタに対応するコード(32種類)
deltaF0: 先行モーラの平均値との差分(32の値)
モーラ遷移HMMに基づく
イントネーションモデル
Example: ‘watashino jinsei’
ta
no
shi
ji
N
wa
se, i
shi, no, ji
wa
ta
se
i
F0
N
t
ステップ1:データベース作成
•
•
•
•
•
•
ATRの連続音声データベースを使用(500文,話者MHT)
モーラ単位に分割
モーララベルの付与
F0パターンを抽出
LBG法によるクラスタリング
全データベースにクラスタクラスを付与
ステップ2:HMMの作成(1)
(a) 平板型、頭高型
(a) 中高型
ステップ2:HMMの作成(2)
• 単位:韻律語(intonational phrase)
• モデル化する情報
•
•
韻律語の位置
アクセント型
例:「あらゆる」=PH1_3
位置=1(先頭)
アクセント型=3
ステップ3:HMMの学習
•
•
•
•
通常のFBアルゴリズムを使用
Entropic社のHTK
ATRの連続音声データベース(話者MHT)
Pentium IIクラスの計算機で数秒間
ステップ4:HMMに基づく
F0パターンの生成
A) 認識
output sequence
Likelihood
Best path
B) 合成
Best output sequence
Best path
通常のViterbiアルゴリズム
for t=2,3,...,T
for it=1,2,...,S
Dmin(t, it) = min(it-1){Dmin(t-1, it-1) + [-log a(it| it-1)]
+[-log b(y(t)| it)]}
(t, it) =argmin(it-1){Dmin(t-1, it-1)+[-log a(it| it-1)]
+[-log b(y(t)| it)]}
next it
next t
最適出力符号の生成を目的
としたViterbiアルゴリズム
for t=2,3,...,T
for it=1,2,...,S
Dmin(t, it) = min(it-1){Dmin(t-1, it-1) + [-log a(it| it-1)]
+[-log b(ymax(t)| it)]}
(t, it) =argmin(it-1){Dmin(t-1, it-1)+[-log a(it| it-1)]
+[-log b(ymax(t)| it)]}
next it
next t
Bigramの導入
for t=2,3,...,T
for it=1,2,...,S
Dmin(t, it) = min(it-1){Dmin(t-1, it-1) + [-log a(it| it-1)]
+[-log b(ymax(t)| it)]+[-log bigram(y(t)|y(t-1))]}
(t, it) =argmin(it-1){Dmin(t-1, it-1)+[-log a(it| it-1)]
+[-log b(ymax(t)| it)]+[-log bigram(y(t)|y(t-1))]}
next it
next t
Accent Type Modeling Using
HMM
4.15
"Type0"
"Type1"
"Type2"
"Type3"
log(Hz)
4.1
4.05
4
3.95
3.9
3.85
3.8
3.75
3.7
Mora #
3.65
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
Phrase Boundary Level Modeling
Using HMM
4.08
"level1.graph"
"level2.graph"
"level3.graph"
log(Hz)
4.06
4.04
4.02
4
3.98
3.96
3.94
3.92
Mora #
3.9
0
J-TOBI
B.I.
3
3
2
Pause
Y/N
Y
N
N
Bound.
Level
1
2
3
0.5
1
1.5
2
2.5
3
3.5
4
"PH1_0"
0.4
"PH1_0"
0.4
0.2
logF0 [Hz]
logF0 [Hz]
0.2
0
0
-0.2
-0.2
-0.4
-0.4
0
50
100
150
200
250
t [msec]
300
350
400
450
500
0
50
100
150
200
250
t [msec]
300
350
400
450
500
Bigramの効果
logF0 [Hz]
0
0
50
100
150
200
250
t [msec]
300
350
400
0
50
100
150
200
250
t [msec]
300
350
400
450
500
PH1_0.bigram
"PH1_1"
0.4
0.2
logF0 [Hz]
PH1_0.original
"PH1_1"
0.4
0.2
-0.2
-0.4
0
-0.2
-0.4
0
PH1_1.original
50
100
150
200
250
t [msec]
300
350
400
450
500
300
350
PH1_1.bigram
"PH1_2"
logF0 [Hz]
0.2
0
-0.4
450
500
"PH1_2"
0.4
0.2
logF0 [Hz]
0.4
-0.2
0
-0.2
-0.4
0
PH1_2.original
50
100
150
200
250
t [msec]
400
450
500
PH1_2.bigram
本手法に関する考察
•
問題点
•
学習データが少ない
•
TTSシステムへの組込みにはさらなる工夫が必要
•
今後の課題
•
F0モデルの利用を検討
•
データ不足を克服するための工夫(クラスタリング等)
•
モデルの接続に関する検討
まとめ
• コーパスに基づく韻律情報のモデル化に関する手法の一連を提案
– Phase I: データベース作成(韻律情報のラベリング)
– Phase II: 韻律情報の統計的モデル化
• ニューラルネットワークに基づくF0パターンの生成
• モーラ遷移HMMに基づくF0パターンの生成
今後の課題
•
ニューラルネットワークと F0 モデルを用いたF0パターン生成手
法
•
他の手法との比較を行う
•
聴取実験を行う
•
他のネットワーク構造の利用を検討
•
出力特性によってニューラルネットワークを使い分ける手
法を検討
•
ルールの導入
•
モーラ遷移HMMを用いたF0 パターン生成手法
•
データ不足の問題を回避する手法を検討
•
モデルの接続に関する検討
•
F0モデルとの組み合わせ
規則音声合成
単語辞書
アクセント型辞書
読み
形態素
アクセント型
入力文
韻律結合
音韻結合
フレーズ境界決定
形態素解析
むかし
普通名詞
0型
「昔話」
はなし
普通名詞
0型
構文解析
音韻記号
韻律記号
音声
音声合成
P1 mu DH ka shi ba A0 na shi P0
P1, FL, A0: 韻律記号
mu, ka, shi, ba, na: 音韻記号
複合名詞のアクセント変形タイプの推定
•
•
•
言語情報(品詞クラス、アクセント型等)を有効に利用すれば自
動ラベリングが可能になる
ここでは、復号名詞におけるアクセント変形の現象を取り上げる
連続音声データベースから自動的にアクセント変形タイプを推定
するアルゴリズムを提案
アクセント変形
• 複数の名詞が複合名詞を構成するとき、もともとのアクセントがなく
なり、複合名詞のアクセント核が移動・消失する
• [NHK編日本語発音アクセント辞典]によれば、複合名詞のアクセン
ト型は(2つの名詞からできた複合名詞の場合)第二要素の性質に
よってほぼ決定される
• 複合名詞の第二要素は4種類に分類することができる
部分AbSによるパラメータ調整
タイミング
パラメータ
の初期値
広範囲の
調整
(大きさのみ)
微調整
(すべてのパラメータ)
実測F0パタ
ーンとの距
離を計算
3名詞以上からなる複合名詞の場合
• アクセント変形パターン = 韻律語の構成のしかた
• 長い復号名詞の場合、ルールによるアクセント変形の推定が難しい
• 本手法を3以上の名詞の複合名詞に一般化
3名詞以上からなる復号名詞の場合
H1:So’oru goriNkoohose’Nshu
H1’: SoorugoriN koohose’Nshu
S1
H2: ChuugokujiNuNte’Nshu
H2’: ChuugokujiN uNte’Nshu
S2
F0モデルパラメータの割当て
H1:
H1’:
H2:
H2’:
S o o r u g o r i N k o o h o s e N sh u
S o o r u g o r i N k o o h o s e N sh u
C h u u g o k u j i N u N t e N sh u
C h u u g o k u j i N u N t e N sh u
実験結果
AbS Error (x 10-2)
3.50
H2’
3.00
H2
H1’
2.50
2.00
H2
H1
Correct
Incorrect
1.50
H2’
1.00
H1’ H1
0.50
0.00
I1
I1’
I2
I2’