音声情報処理工学 -音声合成- 森元 逞 (http://izanami.tl.fukuoka-u.ac.jp/~morimoto/) 1 音声合成の歴史 1791年にvon Kempelenが最初の機械式音声 合成機を作成 1939年にダドレーが電気回路を用いた音声合 成器「Voder」を発明 多数の共振回路を使用 原理としては,ボコーダ(9章参照)と同じ) ボコーダ:Voice Coder 音声符号化装置 2 1 初期の音声合成装置 von Kempelen の Speaking Machine Voder(キーボードで操作, 手首で有声/無声,ペダ ルでピッチ制御) 3 音声合成の手法 近年のコンピュータによる合成は,規則合成が ほとんど 音素などの細かい単位を繋ぎ合わせて合成する. 自由な文を合成することが可能 構成はかなり複雑 結合方式 フォルマント生成方式 音素片結合方式 人工声道方式 HMM音声合成 4 2 テキストからの音声合成 (Text-To-Speech: TTS) 合成させたいテキスト 文法 単語( 形態素) 辞書 テキスト解析 音韻規則 音素記号列 韻律規則 ポーズ,アクセント, イントネーション 音声信号合成 音声信号 5 テキスト解析と韻律制御 形態素解析 • 単語(形態素)辞書と,単語の連接規則を用いて,単語(形 態素)に分割する. • 正しく分割できるかどうかが問題となる(特に漢字複合語や ひらがな文). 畜産物価格安定法 (畜産物/価格/安定法 畜産/物価/格安/定法) にわにはにわにわとりがいる( にわ-には,にわ-にわとり-が-いる) すもももももももものうち (すもも-も-もも-も-もも-の-うち) 6 3 読みの補正 項目 連濁 内容 以下のように2つの単語を接続により濁音化させる 「大」+「会社」 /dai/ 数字の読み 無声化 /kaisya/ → /daigaisya/ 数字の読みは種々変化する. 「百」 → /hyaku/ 「三百」 → /sanbyaku/ 「六百」 → /roppyaku/ 母音が発声されないことがある. 「明日」(途中の/i/が発声されない) /ashita/ → /ashta/ 「そうです」(最後の/u/が発声されない) /soudesu/ → /soudes/ 7 アクセントの変化 項目 内容 移動 ある┓く+ます → あるきま┓す 消失 け┓いざい+てき → けいざいてき 生起 でんしん+でんわ → でんしんで┓んわ 8 4 係り受け解析 文節に分割し,また文節間の係り受け関係を求め る(後の韻律制御に必要) きれいな はなを やまださんから もらいました 9 韻律制御 文節ごとの基本アクセント型 単語+助詞など 0型: やまださんから 1型: きれいな 2型: 3型: : 10 5 単語の基本アクセント型 11 自立語などを強調 遠方への係り受け 12 6 合成単位 音節単位(CV) ・日本語の場合100~130個 VCV(母音-子音-母音) ・音響パラメータの安定した母音で接続 ・パワーが大きいため,不整合度が大きいと歪みが大 ・約700個~800個 CVC(子音-母音-子音) ・VCVの問題を回避 ・ただし全ての組み合わせでは数が多過ぎる(5000~6000個) ・高頻度のCVC, CV, VCのみを用意(約1000個) 13 クラスタリングによる合成単位の決定 ・音素環境の類似したものを集める(クラスタリング) 複合合成単位 ・種々の長さの音声単位を用意し,最適な連鎖を選択して接 続する.後述する「波形接続」と組み合わせて用いられる. 14 7 音声信号の生成 (有声音) (破裂音) 音源信号 G(ω) パルス列 調音フィルタ H(ω) 音声信号 S(ω) インパルス (その他の子音) ノイズ 15 調音フィルタの構成法 ホルマント合成(ターミナルアナログ)方式 ・ホルマント周波数と帯域幅をフィルタ等によってシミュレートする. → 英語のMITalk(DEC Talk)が有名 ・例えば,母音等は3つのフォルマントで表わすことにすれば,3個の 2次 IIRフィルタ(2.10参照)を接続すればよい. z-1 z-1 z-1 z-1 z-1 z-1 z-1 は遅延回路 16 8 17 線形予測フィルタ εt a1 a2 ap z-1 xt z-1 z-1 1 H ( z) 1 p az 1 i i 1 ・IIR型のため量子化誤差などによって不安定になる場合がある. ・音声単位の接続部分をあまりスムースに補間できない. 18 9 格子型フィルタ xt εt km km-1 k1 -km -km-1 -k1 z-1 z-1 z-1 kn kn: 反射係数(またはPARCOR係数) An Ap An-1 An An 1 An An 1 A1 音源 k0=-1 19 HMM音声合成 20 10 波形接続 ・あらかじめ多数の波形小片を用意しておき,これらを接続す ることにより音声を合成する.うまく接続できれれば合成音 声の自然性は高い. ・小片間のゲインの整合,ピッチの整合,位相の整合などを 行なう必要がある. → PSOLA(Pitch Synchronous Overlap and Add)方式 21 音声合成ソフト CHATR 国際電気通信基礎技術研究所 外国語にも対応 Open JTalk 名古屋工業大学徳田研究室 HMM音声合成 オープンソース 22 11 音声合成ソフトの例 23 さらに,難しい問題 漢字の読みが多様(音、訓) 行(ギョウ、アン、コウ、いく、おこなう) : 「行った」? 同字異音語 今日(こんにち,きょう),最中(さいちゅう,もなか),etc. (逆に、同音異義語も多いので、了解しにくい。) 文字から読みが決まらない こうし(講師、子牛、格子)、えいり(絵入り、営利) 句のアクセントの規則が複雑 音声+合成+技術+研究+会+定例+総会+準備+委員+選出+期間+中は ... 「ニワニワニワトリガイル」イントネーション→ 意味による 「庭には鶏が…」ニワニ:ワ/ニワトリガイル 「庭には二羽鳥が…」ニワニ:ワ/ニ:ワ/トリガイル 「二羽、庭には鳥が…」ニ:ワ/ニワニ:ワ/トリガイル 意味、文脈、状況、常識なども取り 入れる必要あり! 24 12 (おまけ)しゃべるパソコン 1983 NEC PC-6001mkII FM音源 音節の単純連結+α 1983年当時のTVCM 25 (おまけ)発話ロボット 26 13
© Copyright 2025 ExpyDoc