音声合成 音声合成技術の用途 •PHSや携帯電話での音声通信 •電話応答サービスの音声 •しゃべる玩具 音声合成の原理 音声合成の仕組みと人の発声の仕組み DudleyのVocoder(1931) 音源の生成 音声合成フィルタ 音声スペクトル /h/ /a/ /sh/ /i/ スペクトル包絡と微細構造 T T: ピッチ周期 スペクトル = スペクトル包絡 + F1 F2 f0=1/T 微細構造 F3 F4 Fi: ホルマント周波数 f0 : ピッチ周波数 有声音と無声音のスペクトル 有声音 無声音 周期性あり 周期性なし 調波構造あり 調波構造なし 音源信号 波形 自己相関係数 音声 パルス的な波形になる T 予測残差 T スペクトル 音声信号モデル S ( ) G( ) H ( ) スペクトル包絡 パルス音源スペクトル ノイズ音源スペクトル 音源パラメータ T 音声合成 フィルタ 音声スペクトル 音声の基本パラメータ 母音のスペクトル包絡 音声合成デジタルフィルタ xt -a1xt -1 - a2 xt -2 音声信号 音源信号 - ap xt - p et a1 , a2 , , a p 線形予測係数 (スペクトルパラメータ) 線形予測分析法 周波数領域 時間領域 1 A( z ) xn xn p 定式化 n x n 1 1 X ( z) E ( z) A( z ) p xn ai xn i en i 1 2 0 解法 1 p 1 r1 r0 rp 2 rp 1 rp 2 r0 ただし、自己相関関数 1 p 1 ai z i E ( z) 、 z e jT i 1 予測残差電力 en が最小 Fr G r G G G Hr 周波数 予測残差のスペクトルが平坦 IFa I Fr I J G aJ G rJ J G J GJ J G J J G J Ha J KG Hr J K KG 1 1 2 2 3 3 ri xn xn i n X ( z) A( z ) 周波数 音源分析 波形 自己相関係数 N r xt xt 音声 t 1 xt et xt a1xt -1 a2 xt -2 T 予測残差 ピーク値が大きい時 は有声、小さい時は 無声 ap xt - p ピッチ周期 et 予測残差の 平均振幅 T スペクトル 音声合成の特徴 •少ない数の音声パラメータから自然な音声を合成 •音韻(声の音色)と韻律(声の高さ)を別の音声パ ラメータで制御できる •人間の音声生成過程に対応した合成 •音声波形を再現するのではなく、音声スペクトルを 再現(人間の聴覚特性を利用) 原音声と合成音声の波形 音声波形 合成音声波形 音声分析合成系 7bit 40bit 5bit 1bit 分析フレームを20msとすると、ビットレートは (40+5+1+7)×50フレーム=2650bit/sec 音声波形をそのまま送ると64000bit/secで25倍となる 音声分析合成法の利点と問題点 少ない情報量で音声を伝達できる 音声波形をそのまま送る(PCM方式)と毎秒64000ビット の情報量が必要になるのに対して、音声のパラメータだけ を送る音声合成法では毎秒2650ビットの情報量ですむ 同じ通信回線で20人が話すことができる 音声に特化しすぎている 声以外の音を伝えることができない、 周囲騒音があると音声の品質が劣化する 人によって音声の品質がばらつく 通信用途にはそのまま使えない 分析合成系と波形符号化 PHS 携帯電話 ISDN 分析合成系と波形符号化 分析合成系 合成フィルタ パルス・ノイズ音源信号 PCM 音声信号 音声信号 4bit/sample 音声信号 量子化 16,12,8,6,4,2,1 bit/sample 予測符号化(ADPCM) 予測残差信号 量子化 合成フィルタ 2bit/sample 1bit/sample 音声信号 携帯電話の音声通信方法 パルス、雑音音源の 代わりに、予測残差 信号を音源に用いる 音源信号生成 音声合成 フィルタ
© Copyright 2024 ExpyDoc