音情報処理I - NAIST 奈良先端科学技術大学院大学

音響信号処理特論
音声信号処理の基礎(その2)
奈良先端科学技術大学院大学
情報科学研究科 音情報処理学講座
猿渡 洋
(2013年5月24日)
猿渡担当分の講義資料について
講義資料は以下から各自入手すること
http://www.aist-nara.ac.jp/~sawatari/
(注)PowerPointとプリンタの相性により、配布資料形式
では一部数式が文字化けしていることがあるので、必
ず上記から資料を入手し「1ページ1枚のモード」でプリ
ントアウトしてみてください。
準備:Z変換
Z変換
• 離散的な時系列の特性を解析する1手法
• 準備: x(n) は離散時間波形
x(n)  { x(), ..., x(0), x(1), ..., x() }
←実数
• 定義1(正Z変換;時間領域からZ領域へ)

X ( z )   x ( n)  z
n
n 
ここで
←複素数
z 1 は1サンプル時間遅れを表す演算子
• 定義2(逆Z変換;Z領域から時間領域へ)
1
n 1
x ( n) 
c X ( z )  z dz
2j
準備:Z変換の諸性質
i
• 時間遅れ : x(n  i )  X ( z ) z
• 畳み込み演算は、Z領域で積演算になる。
y(n)  x(n)  h(n)  Y ( z )  X ( z )  H ( z )
• システムのインパルス応答 h(n) をZ変換したも
のをシステム伝達関数と呼ぶ。

H ( z )   h( n)  z
n
1
B( z )

1
A( z )
n
H (z ) において
z  e j 2 k / N or e j 2 f
とおけばDFT(or フーリエ変
換)のように考えることがで
き、周波数特性がわかる。
準備:Z変換とシステム伝達関数1
システム伝達関数の解析
1

B( z )
n
H ( z )   h( n)  z 
←Zの有理多項式
1
n  
A( z )
1
2
q
 0  1 z   2 z  ...   q z

1
2
p
 0  1 z   2 z  ...   p z
 1  z
( zero )
i
/ z
 1  z
( pole )
j
/ z
q

i 1
p
j 1
z
z
( zero )
:分子=0となるzの解
i
( pole )
:分母=0となるzの解
j
(零点)
(極)
準備:Z変換とシステム伝達関数2
極と零点の意味
• 極 : 分母=0の解 ⇒ H(z)の山
• 零点: 分子=0の解 ⇒ H(z)の谷
Im[ z ]

極

零点


1 Re[z ]
対
数
振
幅
特
性
H ( z  e j 2 f )
 f
準備:Z変換とシステム伝達関数3
極の配置とシステムの安定性
• 極の位置が単位円内 ⇒ システムは安定
単位円外 ⇒ システムは不安定
• 極が単位円に接近 ⇒ 周波数特性上に強いピーク
Im[ z ]

極


極

1 Re[z ]
対
数
振
幅
特
性
H ( z  e j 2 f )
 f
音声スペクトルからの情報抽出
音声信号スペクトル
1.スペクトル微細構造
• 周期成分 ⇒ 声帯の振動に対応
• その人個人が持つ「声の高さ」
2.スペクトル包絡構造
• 声道・鼻腔における共振・反共振特性
⇒ 各音韻ごとの違いに対応
• 音声認識処理などでは、この包絡情報に基づいて
識別を行う.
スペクトル包絡の代表的抽出法
ケプストラム法
• モデルを仮定しないノンパラメトリック法の一種
• 短時間スペクトル上において微細構造と包絡
構造とを分ける。
線形予測(Linear Prediction)法
• 自己回帰モデルに基づくパラメトリック法
• 声道における共振特性をモデリング
音声生成に適したモデルとは?
人間の音声生成モデル
• 声帯での基本振動を声道で音色付ける。
• 声道
• 位置によって太さの異なる音響管の連続と見なせる。
• 音響管における共振現象 ⇒ 自己回帰(AR)過程
声道を模擬した音響管
声帯信号
口から
の放射
各微小管毎に透過・反射が起きる
⇒ 複雑な共振特性が生じる
線形予測と共振モデル
線形予測の原理
• 過去の波形標本値の組合せで現在の標本値を予測する。
• 次の線形一次結合が成り立つと仮定:
x(n)  1 x(n  1)   2 x(n  2)  ...   p x(n  p)   (n)
ここで  (n) は平均値0、分散  の無相関な確率変数
• この  (n) を最小にするように  i を決める。
 i を線形予測係数とよび、 (n) を線形予測残差と呼ぶ。
2
• 上式のZ変換は以下で与えられる。
X ( z )  1 X ( z ) z 1  ...   p X ( z ) z  p  E ( z )
E( z)
 X ( z) 
(1)
1
p
1  1 z  ...   p z
線形予測と共振モデル(続き)
(1)式の意味
E( z)
X ( z) 
 E ( z ) A( z )
1
p
1  1 z  ...   p z
1
←極のみを持つ
where A( z ) 
1
p
 0  1 z  ...   p z
( 0  1)
予測残差 E (z )を伝達関数 A(z ) に通して音声を生成
E (z )
声帯信号
A(z )
X (z )
口から
の放射
線形予測と共振モデル(続き)
• (1)式で与えられる線形予測は、
「声帯信号のパワーを最小化するように声道特性をAR
モデルによって推定する」
ことを示している。
• 推定された A(z ) は全極モデル(零点を持たず極だけ
から構成される伝達関数)であり、その極の値によって
共振特性が変化する。
音声のスペクトル包絡の推定⇒ A(z ) の推定に帰着
(
i
の推定問題)
線形予測係数の推定1
予測残差の算出
• 区間 [n0, n1 ] における  (n) の2乗和 


    ( n)      i x ( n  i ) 

nn
n  n  i 0
n
p p
     i j x(n  i )x(n  j )
n1
2
n1
0
p
0
1
n  n0 i 0 j 0
p p
    i j ij
i 0 j 0
n1
where  ij   x(n  i ) x(n  j )
n  n0
自己相関関数
2
線形予測係数の推定2
予測残差の最小化
• 2乗残差和  を最小にする  j を求める
p

 2  i ij  0, ( j  1, 2, ..., p)
i 0
 j
p
  i ij   0 j , ( j  1, 2, ..., p) (2)
i 1
よって、線形予測係数  i を算出するには、上記のp個
の連立1次方程式を解けばよい。
⇒ 必ずしも解が存在するとは限らない?
線形予測係数の推定3
安定に解を求めるには…
• 自己相関関数  ij に制約を設ける
n0  , n1  
x(n)  0, if (n  0 or N  n)
このとき

 ij   x(n) x(n | i  j |)  r|i j|
n
の2変数に関する関数が1変数 | i 
のみの関数となる。
i, j
j|
線形予測係数の推定4
r|i  j| を使用して連立方程式(2)を解く
 r0 r1  rp1  1 
 r1 
r
  
r 
r


0
 1
   2    2 
    r1    

r
  
r 

r
r
1
0   p
 p1
 p
この行列はテプリッツ型 ⇒ 正定値行列
⇒ 必ず逆行列が存在する
利点1.線形予測係数  i が必ず求まる。
利点2.高速解法(Durbinの再帰的解法)が利用可能
利点3.求められた全極モデルは絶対安定(極が単位円内)
余談:日本人の貢献
日経産業新聞 1999年4月20日掲載
「音声認識の研究に金を出すことは価値ある投資だろうか。…
音声認識の研究とはまさに「錬金術」に等しい――。 」これは、
1969年に米国音響学会誌に掲載された寄書の一部である。
著者はジョン・ピアス、当時、ベル電話研究所情報通信部門の
責任者であった。これを機に、ピアス傘下にあった音声研究部
門では、音声認識の研究が全面的に中止された。
トップの確信に満ちた判断で中止された研究をボトムアップで
再開するのは容易な ことではない。この再開の主役として登場
したのは1人の日本人であった。線形予測理論で世界的脚光
を 浴びていた現NTTの板倉文忠(名古屋大名誉教授)を客員
研究員として招いた。これがベル研での音声認識研究の再始
動をうながしたのである。当時、ベル研の研究室長であり、板倉
を招いたジェームス・フラナガン(現米国ラトガース大学副学長)
は振り返る。「とても、正面切って音声認識の研究を行える状況
ではなかった 。部外者である客員研究員が自主的に研究を始
めるという苦肉の策を講じ、これが図に当った」
線形予測によるパワースペクトル
LPCパワースペクトルの定義
1
 ←予測残差のパワー
f ( z) 
2

1

2

p
2 1  1 z   2 z  ...   p z
2
線形予測によるスペクトル包絡
抽出されたスペクトル包絡
ケプストラムよりもピーク重視
であることに注目!
DFTスペクトル
(参考)ケプストラムによるスペクトル包絡
抽出されたスペクトル包絡
DFTスペクトル
線形予測によるホルマント抽出
線形予測分析のまとめ
長所
• 高速解法が存在するため比較的単純な操作でスペクトル
包絡抽出可能
• 抽出されたスペクトル包絡において、ホルマント共振がよ
り強調される(c.f. ケプストラム分析)
• より少ないパラメータ(たかだかp個の予測係数のみ)で
音声スペクトル包絡を表現可能 ⇒音声符号化に有利
問題点
• 線形予測係数  i を量子化して伝送をする場合、伝送誤
差の影響によってすぐに不安定なフィルタになってしまう。
(例)典型的な電話音声の場合11 bits以上の精度必要
• 線形予測係数とスペクトルの直観的な関連がないので、
スペクトルの補間を行う場合に予測係数補間が不可能。
線形予測分析の拡張1(PARCOR)
量子化誤差対策: PARCOR分析
• 線形予測による伝達関数⇒音響管の共振モデルに対応
• 線形予測係数を音響管の各管における反射係数へ一意に
変換可能
• 反射係数が1を超えることは無い⇒伝送エラーなどで歪ん
でしまった(1以上にバケてしまった)反射係数を近似回復
できる。つまり絶対安定な伝達関数を受信側で構成可能
しかしまだ改善点が…
• より情報圧縮を行いたい場合、とびとびの時間分析フレー
ムのデータのみを伝送し、受手側では時間補間をすること
によって復元を行いたい。しかし、LPC係数・PARCOR係数
とも、時間軸方向の連続性はあまり明確ではない。
線形予測分析の拡張2(LSP)
係数の時間補間対策: LSP(線スペクトル対)係数
• PARCOR係数をさらに周波数領域へマッピング
⇒ 絶対安定性を保ちつつスペクトルの時間補間が可能
スペクトル包絡
対応するLSPパラメータ
(線スペクトルのペアを縦棒で表現)
→f
強い共振ピーク付近に棒線が密集。共振の強さは密集度合で決まる。
伝送するのは線スペクトル(ペア)の周波数位置のみ。
LSP係数による時間補間
x(n)
t2
t1
…
→t
t3
→f
→f
時間t1とt3におけるLSP(線スペクトル対)の
推移より時間t2におけるLSP係数を推測・補間できる
例題:2次の線形予測モデル推定
音声波形の自己相関関数が以下のように与えられ
たとする。
2
2
r0  1, r1  , r2  
5
5
•
•
•
•
(a)
(b)
(c)
(d)
線形予測係数を求めよ。
2
LPCパワースペクトルを式で表せ(  は1とする)。
(b)より極を求めて、z平面に単位円とともに図示せよ。
LPCパワースペクトルの概略図を書け。
解答: (a)線形予測係数
• 線形予測係数  i は以下を解くことで求まる。
r0
r
1
r1  1 
 r1 
     

r0   2 
r2 
よって
 2 / 5  2 / 5 
1 
1
 1

   12  (2 / 5) 2  2 / 5


1

2
/
5

 

 2
 2 / 3


 2/3 
解答: (b)LPCパワースペクトル
• LPCパワースペクトル f (z ) は次式で与えられる。
1
1
f ( z) 
2

1

2
2 1  1 z   2 z
1
1

2
2
2 1 2 2
1 z  z
3
3
解答: (c)極とその配置
•
f (z )
の分母多項式の根が極である。よって、
2 1 2 2
1 z  z  0
3
3
を解くと
1 5 j
z
3
極
解答: (d)LPCパワースペクトル概略