音声情報処理工学 - メディア工学研究室

音声情報処理工学
-音声合成-
森元 逞
(http://izanami.tl.fukuoka-u.ac.jp/~morimoto/)
1
音声合成の歴史
 1791年にvon Kempelenが最初の機械式音声
合成機を作成
 1939年にダドレーが電気回路を用いた音声合
成器「Voder」を発明


多数の共振回路を使用
原理としては,ボコーダ(9章参照)と同じ)
ボコーダ:Voice Coder
音声符号化装置
2
1
初期の音声合成装置
von Kempelen の Speaking Machine
Voder(キーボードで操作,
手首で有声/無声,ペダ
ルでピッチ制御)
3
音声合成の手法
近年のコンピュータによる合成は,規則合成が
ほとんど



音素などの細かい単位を繋ぎ合わせて合成する.
自由な文を合成することが可能
構成はかなり複雑
結合方式




フォルマント生成方式
音素片結合方式
人工声道方式
HMM音声合成
4
2
テキストからの音声合成
(Text-To-Speech: TTS)
合成させたいテキスト
文法
単語( 形態素)
辞書
テキスト解析
音韻規則
音素記号列
韻律規則
ポーズ,アクセント,
イントネーション
音声信号合成
音声信号
5
テキスト解析と韻律制御
形態素解析
• 単語(形態素)辞書と,単語の連接規則を用いて,単語(形
態素)に分割する.
• 正しく分割できるかどうかが問題となる(特に漢字複合語や
ひらがな文).
畜産物価格安定法 (畜産物/価格/安定法 畜産/物価/格安/定法)
にわにはにわにわとりがいる( にわ-には,にわ-にわとり-が-いる)
すもももももももものうち (すもも-も-もも-も-もも-の-うち)
6
3
読みの補正
項目
連濁
内容
以下のように2つの単語を接続により濁音化させる
「大」+「会社」
/dai/
数字の読み
無声化
/kaisya/ → /daigaisya/
数字の読みは種々変化する.
「百」 → /hyaku/
「三百」 → /sanbyaku/
「六百」 → /roppyaku/
母音が発声されないことがある.
「明日」(途中の/i/が発声されない)
/ashita/ → /ashta/
「そうです」(最後の/u/が発声されない)
/soudesu/ → /soudes/
7
アクセントの変化
項目
内容
移動
ある┓く+ます → あるきま┓す
消失
け┓いざい+てき → けいざいてき
生起
でんしん+でんわ → でんしんで┓んわ
8
4
係り受け解析
文節に分割し,また文節間の係り受け関係を求め
る(後の韻律制御に必要)
きれいな
はなを
やまださんから
もらいました
9
韻律制御
文節ごとの基本アクセント型
単語+助詞など
0型:
やまださんから
1型:
きれいな
2型:
3型:
:
10
5
単語の基本アクセント型
11
自立語などを強調
遠方への係り受け
12
6
合成単位
音節単位(CV)
・日本語の場合100~130個
VCV(母音-子音-母音)
・音響パラメータの安定した母音で接続
・パワーが大きいため,不整合度が大きいと歪みが大
・約700個~800個
CVC(子音-母音-子音)
・VCVの問題を回避
・ただし全ての組み合わせでは数が多過ぎる(5000~6000個)
・高頻度のCVC, CV, VCのみを用意(約1000個)
13
クラスタリングによる合成単位の決定
・音素環境の類似したものを集める(クラスタリング)
複合合成単位
・種々の長さの音声単位を用意し,最適な連鎖を選択して接
続する.後述する「波形接続」と組み合わせて用いられる.
14
7
音声信号の生成
(有声音)
(破裂音)
音源信号
G(ω)
パルス列
調音フィルタ
H(ω)
音声信号
S(ω)
インパルス
(その他の子音)
ノイズ
15
調音フィルタの構成法
ホルマント合成(ターミナルアナログ)方式
・ホルマント周波数と帯域幅をフィルタ等によってシミュレートする.
→ 英語のMITalk(DEC Talk)が有名
・例えば,母音等は3つのフォルマントで表わすことにすれば,3個の
2次 IIRフィルタ(2.10参照)を接続すればよい.
z-1
z-1
z-1
z-1
z-1
z-1
z-1
は遅延回路
16
8
17
線形予測フィルタ
εt
a1
a2
ap
z-1
xt
z-1
z-1
1
H ( z) 
1
p
az
1
i
i 1
・IIR型のため量子化誤差などによって不安定になる場合がある.
・音声単位の接続部分をあまりスムースに補間できない.
18
9
格子型フィルタ
xt
εt
km
km-1
k1
-km
-km-1
-k1
z-1
z-1
z-1
kn 
kn: 反射係数(またはPARCOR係数)
An
Ap
An-1
An  An 1
An  An 1
A1
音源
k0=-1
19
HMM音声合成
20
10
波形接続
・あらかじめ多数の波形小片を用意しておき,これらを接続す
ることにより音声を合成する.うまく接続できれれば合成音
声の自然性は高い.
・小片間のゲインの整合,ピッチの整合,位相の整合などを
行なう必要がある.
→ PSOLA(Pitch Synchronous Overlap and Add)方式
21
音声合成ソフト
 CHATR


国際電気通信基礎技術研究所
外国語にも対応
 Open JTalk



名古屋工業大学徳田研究室
HMM音声合成
オープンソース
22
11
音声合成ソフトの例
23
さらに,難しい問題
 漢字の読みが多様(音、訓)

行(ギョウ、アン、コウ、いく、おこなう) : 「行った」?
 同字異音語


今日(こんにち,きょう),最中(さいちゅう,もなか),etc.
(逆に、同音異義語も多いので、了解しにくい。)
 文字から読みが決まらない

こうし(講師、子牛、格子)、えいり(絵入り、営利)
 句のアクセントの規則が複雑





音声+合成+技術+研究+会+定例+総会+準備+委員+選出+期間+中は
...
「ニワニワニワトリガイル」イントネーション→ 意味による
「庭には鶏が…」ニワニ:ワ/ニワトリガイル
「庭には二羽鳥が…」ニワニ:ワ/ニ:ワ/トリガイル
「二羽、庭には鳥が…」ニ:ワ/ニワニ:ワ/トリガイル
意味、文脈、状況、常識なども取り
入れる必要あり!
24
12
(おまけ)しゃべるパソコン
 1983 NEC PC-6001mkII


FM音源
音節の単純連結+α
1983年当時のTVCM
25
(おまけ)発話ロボット
26
13