駆動音源モデル • • • • 予測残差音源 コード励振音源 マルチパルス音源 位相等化音源 音声信号モデル S ( ) G( ) H ( ) スペクトル包絡 パルス音源スペクトル ノイズ音源スペクトル 音源パラメータ T 音声合成 フィルタ 音声スペクトル 予測残差信号 波形 自己相関係数 スペクトル X(z) 音声 E(z)=A(z)X(z) X(z)=E(z)/A(z) T 予測残差 T E(z) 分析合成系と波形符号化 分析合成系 合成フィルタ パルス・ノイズ音源信号 PCM 音声信号 音声信号 4bit/sample 音声信号 量子化 16,12,8,6,4,2,1 bit/sample 予測符号化(ADPCM) 予測残差信号 量子化 合成フィルタ 2bit/sample 1bit/sample 音声信号 分析合成系と波形符号化 PHS 携帯電話 ISDN 音声信号の線形予測 量子化誤差の電力は、入力信号 電力に比例する. したがって、音声信号より予測残 差信号の電力が小さくなるので、 量子化誤差が小さくなる 予測信号 予測残差信号 en xn xn 予測符号化の基本構成 予測次数と予測利得の関係 適応予測符号化(ADPCM) 左図の真中のタイプが、 聴覚のマスキング効果 によって量子化雑音が 最も聞こえにくい 量子化雑音のスペクトル成形 音声 量子化雑音 同時マスキング 純音より雑音の パワーが20dB 大きいため マスキーよりマスカー の周波数が低い方 がマスキングされや すい 20dB 80dBSPL 臨界帯域 耳による周波数分析 低い周波数ほど精密な 周波数分析を行っている 耳の生理的構造 耳の周波数分析特性 耳は、周波数の対数に比例した周波数分析精度(分解能)を持つ. 各ピークの周波数より高い周波数で急激に感度が低下する. ベクトル量子化 コードブック c1 c2 入力信号 cM Fx I G x J x GJ J G G Hx JK 1 2 コードベクトルの数が M 2 B のとき、1サンプル当りの量子化 ビット数は B / n となる. たとえば、n=20でB=10ならば、 0.5ビット/サンプルとなり1ビット 以下になる n x1 xn x2 距離d (x, ci ) が最小とな るコードベクトルを選択 ck コード励振形予測符号化(CELP) 予測残差信号の複数の サンプルをまとめて量子化 する(ベクトル量子化) マスキングの利用 符号化音声の誤差が 最小になるように音源 コードを決定する 聴覚重み付けマッチング 1 A( z ) A(rz) hn wn ewn 音源信号 聴覚重み付け二乗誤差 重み付けし ない二乗誤差 N 1 e sn sˆn 2 n N 1 2 wn 2 e n 0 N 1 sn hn vn n 0 最小距離選択 wn en 2 n 0 N 1 2 wn sn wn sˆn 2 n 0 N 1 swn wn hn vn n 0 N 1 swn hwn vn n 0 2 2 マルチパルス符号化 htを LPCフ ィ ルタ のイ ン パルス 応答と する と 、 マルチパルス 音源の信号モデルは次式で表さ れる m xt ht pi (t ti ) et i 1 各パルス の時点tiが与えら れる と 、 パルス 振幅piは最小二乗法によ り 決定さ れる x0 0 xt1 h0 h1 xti x N 1 x = 0 h0 h1 H p1 e0 pi p e m N 1 p + e 最小二乗解は次式で表さ れる p = (H t H)-1 H t x パルス 位置tiは、 全ての組み合わせを 全探索し 、 波形の二乗誤差が最小と なる 解を 求める 位相等化音源 残差信号( c) を en、 フ ィ ルタ のイ ン パルス 応答を f n et0 n / et0 n と し て、 位相等化( 零位相化) さ れた残差信号( d) を 次式で求める e pn f n en 位相等化さ れた残差信号はパルス 状の信号になる ま た、 位相等化残差信号を 用いて合成し た音声信号( b) は 最小位相化さ れる が、 位相に対し て聴覚が鈍感であ る こ と から 品質は原音声( a) と さ ほど 変わら ない 位相等化残差信号は少数のパルス 列( e) で表すこ と ができ 、 こ の音源を 用いて聴覚的に等価な音声( f ) を 合成する こ と ができ る
© Copyright 2024 ExpyDoc