勉強会資料

TTS技術の概要
桜井 淳宏
06/30/2000
1. TTSとは
2. TTS技術の応用
3. TTSシステムの流れ
4. 基本概念
5. F0モデル
6. 韻律記号
7. 規則音声合成
8. 統計的手法に基づくイントネーションモデル
9. Tone Sequence Theory
10. ToBI及びJ-ToBI
11. 音声合成
12. 合成方式
13. 波形編集方式
14. PSOLA
15. フォルマント合成方式
16. TTS技術の評価
17. TTS技術の現在と未来
TTS(テキスト音声変換)
TTS(Text-to-Speech)
入力文
出力音声
TTS System
TTS技術の応用
現在
将来
•E-mailの自動読み上げ
•手足が忙しいときの自動読み上げ
•WWWコンテンツの読み上げ
•文章作成の支援ツール
•言語教育
•お年寄りや障害者の支援ツール
•自動車環境内のヒューマンインタフェース
•対話システム(音声認識システムとの
組合わせ)
•自動通訳システム
テキスト
概念
TTSシステムの流れ
入力文
単語辞書
文法
テキスト解析
形態素解析
構文解析
音韻処理・韻律処理
アクセント辞書
韻律ルール
音韻記号列+
韻律記号列の生成
音声合成
音声データベース
読み
形態素情報
アクセント型
波形編集または
フォルマント合成
音声信号
音韻記号列
韻律記号列
基本概念(1):モーラ、アクセント型
トモダチ
0型
フジサン
1型
イロガミ
2型
カガリビ
3型
オトート
4型
平板型
中高型
尾高型
基本概念(2):分節的特徴&韻律的特徴
分節的特徴(segmental features):
音韻記号(phonological symbol)に置き換えられる
韻律的特徴(prosodic features):
声の抑揚を表し、物理的には次の特徴量として表現される
基本周波数パターン(F0パターン)
音素の持続時間の推移
パワーパターン
(韻律的特徴は超分節適特徴ともいわれる)
マイクロプロソディ:
観測できるが、聴覚的には意味のない小さな変動
Easy Q&A
質問Q1:What is アクセント核(accent nucleus)?
質問Q2 :モーラ数がnのとき、アクセント型は何個あり得ますか?
F0 Contour Model
I
J
lnF (t)  lnF
  A G (t  T0 i )   A {G (t  T )  Gaj(t  t )}
0
min
pi pi
aj aj
1j
2j
i1
j 1
 exp(  it ) ( t  0)
G pi ( t )   it
0
( t  0)

min[1  (1   jt ) exp(   jt ),  ] ( t  0)
Gaj ( t )  
0
( t  0)

韻律記号
Type of Command
Phrase Command
Symbol
P1
P2
P3
P0 (reset)
Accent Command FH
(flat type)
FL
FLL
Accent Command DH
(rise-and-fall type) DL
DLL
A0 (reset)
Initial Value
0.35
0.25
0.15
0.5
0.25
0.10
0.5
0.35
0.15
規則音声合成
単語辞書
アクセント型辞書
読み
形態素
アクセント型
入力文
韻律結合
音韻結合
フレーズ境界決定
形態素解析
むかし
普通名詞
0型
「昔話」
はなし
普通名詞
0型
構文解析
音韻記号
韻律記号
音声
音声合成
P1 mu DH ka shi ba A0 na shi P0
P1, FL, A0: 韻律記号
mu, ka, shi, ba, na: 音韻記号
演習問題
長崎は今日も雨だった
統計的手法に基づく
イントネーションモデル
規則音声合成の問題点
•イントネーションに関するルールにはヒューリスティックな部分が大きい
•ルールの作成が困難
•新しいシステムの作成に伴うコストが高い
統計的な手法の導入
•ヒューリスティックスを統計的手法に置き換える
•規則化できない部分も学習可能
統計的手法に基づく
イントネーションモデル
1) Training
Prosodic Database
Text
Speech
Linguistic features
Prosodic features
Statistical Training
TTS intonation
model
2) Synthesis
Text
TTS System
TTS Intonation
Model
F0 contour (intonation)
Tone Sequence Theory
Initial boundary
tones
Pitch accent
tones
Phrase accent
tones
Final boundary
tones
H*
%H
L*
H-
H%
L-
L%
H*+L
%L
H+L*
L*+H
L+H*
Prosodic word (BI=2)
Intermediate phrase (BI=3)
Intonational phrase (BI=4)
ToBI及びJ-ToBI
韻律的特徴の記述法
記述はあくまでも定性的
4つの層
orthographic tier
tone tier
break index tier
miscellaneous tier
ToBIに基づくイントネーションモデル
まずデータベースを作成
統計的な手法でF0 rangeを求める
ToBIに基づく韻律イベントとF0 rangeをもとに、target pointを決定
Target pointを直線、スプラインなどで補完する
問題点
ラべリング作業が大変
F0パターンを生成できるが、物理的根拠がない
音声合成
韻律記号
音韻記号
合成器
歴史
1791年:von Kempelenによる機械式音声合成器
1939年:DudleyによるVoder
1970年:Klattによるフォルマント合成器
1984年:F0生成モデル(藤崎&広瀬)
1986年:PSOLA(Charpentier, F. and Moulines, E.)
1995年:CHATR(Black,A. and Campbell,N.)
音声
合成方式
フォルマント合成方式
音声信号の共振周波数を実現する方式
波形編集方式
波形データベースから音声を切り取ってつなぐ方式
その他
声道アナログ合成方式
パラメータ結合方式(LPC)
Sinusoidal Modeling
波形編集方式
音韻環境(前後の音素)
接続環境(F0,パワー)
韻律記号
音韻記号
音声単位選択
音声データベース
音声単位の加工、
接続(PSOLA等)
音声
PSOLA
Pitch-Synchronous Overlap-Add
a) Original
b) F0 increase
c) Duration increase
利点:
簡単
速い
欠点:
Pitch Markingが必要
合成単位の接続にクリップ音が生じる
フォルマント合成方式
F0
AN
GLOTTAL
GENERATOR
NASAL PATH
AG
+
VOWEL PATH
AA
+
FRICATIVE
GENERATOR
AF
FRICATIVE PATH
IMPULSE
GENERATOR
AS
STOP PATH
OUTPUT
TTS技術の評価
ガイドライン:
JEIDA Guideline for Speech Synthesizer Evaluation, 3/95
テキスト解析の評価
•漢字かな変換
•形態素解析の誤り
明瞭制
•音素・単語・文
自然性
•韻律的特徴
•分節的特徴
•好ましさ
TTS技術の現在と未来
入力文
単語辞書
文法
テキスト分析
形態素解析
構文解析
音韻処理・韻律処理
アクセント辞書
韻律ルール
音韻記号列や
韻律記号列の生成
音声合成
音声データベース
読み
形態素情報
アクセント型
波形編集または
フォルマント合成
音声信号
•形態素解析とテキスト分析
•コーパスを用いた音韻・韻律情報の生成
•合成単位の選択・接続方式
•音声分析と生成モデル(フォルマント方式)
•対話音声の韻律的特徴(感情、卓立など)
•アプリケーション(対話システム、音声認識技術との組合わせ)
•評価
•etc., etc.
音韻記号列
韻律記号列