音声分析・音声合成

駆動音源モデル
•
•
•
•
予測残差音源
コード励振音源
マルチパルス音源
位相等化音源
音声信号モデル
S ( )  G( ) H ( )
スペクトル包絡
パルス音源スペクトル
ノイズ音源スペクトル
音源パラメータ
T
音声合成
フィルタ
音声スペクトル
予測残差信号
波形
自己相関係数
スペクトル
X(z)
音声
E(z)=A(z)X(z)
X(z)=E(z)/A(z)
T
予測残差
T
E(z)
分析合成系と波形符号化
分析合成系
合成フィルタ
パルス・ノイズ音源信号
PCM
音声信号
音声信号
4bit/sample
音声信号
量子化
16,12,8,6,4,2,1 bit/sample
予測符号化(ADPCM)
予測残差信号
量子化
合成フィルタ
2bit/sample
1bit/sample
音声信号
分析合成系と波形符号化
PHS
携帯電話
ISDN
音声信号の線形予測
量子化誤差の電力は、入力信号
電力に比例する.
したがって、音声信号より予測残
差信号の電力が小さくなるので、
量子化誤差が小さくなる
予測信号
予測残差信号

en  xn  xn
予測符号化の基本構成
予測次数と予測利得の関係
適応予測符号化(ADPCM)
左図の真中のタイプが、
聴覚のマスキング効果
によって量子化雑音が
最も聞こえにくい
量子化雑音のスペクトル成形
音声
量子化雑音
同時マスキング
純音より雑音の
パワーが20dB
大きいため
マスキーよりマスカー
の周波数が低い方
がマスキングされや
すい
20dB
80dBSPL
臨界帯域
耳による周波数分析
低い周波数ほど精密な
周波数分析を行っている
耳の生理的構造
耳の周波数分析特性
耳は、周波数の対数に比例した周波数分析精度(分解能)を持つ.
各ピークの周波数より高い周波数で急激に感度が低下する.
ベクトル量子化
コードブック
c1
c2
入力信号
cM
Fx I
G
x J
x  GJ
J
G
G
Hx JK
1
2
コードベクトルの数が M  2 B
のとき、1サンプル当りの量子化
ビット数は B / n となる.
たとえば、n=20でB=10ならば、
0.5ビット/サンプルとなり1ビット
以下になる
n
x1
xn
x2
距離d (x, ci ) が最小とな
るコードベクトルを選択
ck
コード励振形予測符号化(CELP)
予測残差信号の複数の
サンプルをまとめて量子化
する(ベクトル量子化)
マスキングの利用
符号化音声の誤差が
最小になるように音源
コードを決定する
聴覚重み付けマッチング
1
A( z )
A(rz)
hn
wn
ewn
音源信号
聴覚重み付け二乗誤差
重み付けし ない二乗誤差
N 1
e    sn  sˆn 
2
n
N 1
2
wn
2
e
n 0
N 1
   sn  hn  vn 
n 0
最小距離選択
   wn  en 
2
n 0
N 1
2
   wn  sn  wn  sˆn 
2
n 0
N 1
   swn  wn  hn  vn 
n 0
N 1
   swn  hwn  vn 
n 0
2
2
マルチパルス符号化
htを LPCフ ィ ルタ のイ ン パルス 応答と する と 、 マルチパルス 音源の信号モデルは次式で表さ れる
m
xt   ht  pi (t  ti )  et
i 1
各パルス の時点tiが与えら れる と 、 パルス 振幅piは最小二乗法によ り 決定さ れる
 x0   0

 

 
 xt1   h0

 

   h1
 xti  

 

 
x  
 N 1  
x
=
0
h0
h1
H
  p1   e0 

  

  

  pi  

  

   

  

  

  
 p   e 
  m   N 1 
p + e
最小二乗解は次式で表さ れる
p = (H t H)-1 H t x
パルス 位置tiは、 全ての組み合わせを 全探索し 、 波形の二乗誤差が最小と なる 解を 求める
位相等化音源
残差信号( c) を en、 フ ィ ルタ のイ ン パルス 応答を f n  et0  n / et0  n と し て、 位相等化( 零位相化) さ れた残差信号( d) を 次式で求める
e pn  f n  en
位相等化さ れた残差信号はパルス 状の信号になる
ま た、 位相等化残差信号を 用いて合成し た音声信号( b) は
最小位相化さ れる が、 位相に対し て聴覚が鈍感であ る
こ と から 品質は原音声( a) と さ ほど 変わら ない
位相等化残差信号は少数のパルス 列( e) で表すこ と ができ 、
こ の音源を 用いて聴覚的に等価な音声( f ) を 合成する こ と ができ る