音響信号処理特論 音声信号処理の基礎(その2) 奈良先端科学技術大学院大学 情報科学研究科 音情報処理学講座 猿渡 洋 (2013年5月24日) 猿渡担当分の講義資料について 講義資料は以下から各自入手すること http://www.aist-nara.ac.jp/~sawatari/ (注)PowerPointとプリンタの相性により、配布資料形式 では一部数式が文字化けしていることがあるので、必 ず上記から資料を入手し「1ページ1枚のモード」でプリ ントアウトしてみてください。 準備:Z変換 Z変換 • 離散的な時系列の特性を解析する1手法 • 準備: x(n) は離散時間波形 x(n) { x(), ..., x(0), x(1), ..., x() } ←実数 • 定義1(正Z変換;時間領域からZ領域へ) X ( z ) x ( n) z n n ここで ←複素数 z 1 は1サンプル時間遅れを表す演算子 • 定義2(逆Z変換;Z領域から時間領域へ) 1 n 1 x ( n) c X ( z ) z dz 2j 準備:Z変換の諸性質 i • 時間遅れ : x(n i ) X ( z ) z • 畳み込み演算は、Z領域で積演算になる。 y(n) x(n) h(n) Y ( z ) X ( z ) H ( z ) • システムのインパルス応答 h(n) をZ変換したも のをシステム伝達関数と呼ぶ。 H ( z ) h( n) z n 1 B( z ) 1 A( z ) n H (z ) において z e j 2 k / N or e j 2 f とおけばDFT(or フーリエ変 換)のように考えることがで き、周波数特性がわかる。 準備:Z変換とシステム伝達関数1 システム伝達関数の解析 1 B( z ) n H ( z ) h( n) z ←Zの有理多項式 1 n A( z ) 1 2 q 0 1 z 2 z ... q z 1 2 p 0 1 z 2 z ... p z 1 z ( zero ) i / z 1 z ( pole ) j / z q i 1 p j 1 z z ( zero ) :分子=0となるzの解 i ( pole ) :分母=0となるzの解 j (零点) (極) 準備:Z変換とシステム伝達関数2 極と零点の意味 • 極 : 分母=0の解 ⇒ H(z)の山 • 零点: 分子=0の解 ⇒ H(z)の谷 Im[ z ] 極 零点 1 Re[z ] 対 数 振 幅 特 性 H ( z e j 2 f ) f 準備:Z変換とシステム伝達関数3 極の配置とシステムの安定性 • 極の位置が単位円内 ⇒ システムは安定 単位円外 ⇒ システムは不安定 • 極が単位円に接近 ⇒ 周波数特性上に強いピーク Im[ z ] 極 極 1 Re[z ] 対 数 振 幅 特 性 H ( z e j 2 f ) f 音声スペクトルからの情報抽出 音声信号スペクトル 1.スペクトル微細構造 • 周期成分 ⇒ 声帯の振動に対応 • その人個人が持つ「声の高さ」 2.スペクトル包絡構造 • 声道・鼻腔における共振・反共振特性 ⇒ 各音韻ごとの違いに対応 • 音声認識処理などでは、この包絡情報に基づいて 識別を行う. スペクトル包絡の代表的抽出法 ケプストラム法 • モデルを仮定しないノンパラメトリック法の一種 • 短時間スペクトル上において微細構造と包絡 構造とを分ける。 線形予測(Linear Prediction)法 • 自己回帰モデルに基づくパラメトリック法 • 声道における共振特性をモデリング 音声生成に適したモデルとは? 人間の音声生成モデル • 声帯での基本振動を声道で音色付ける。 • 声道 • 位置によって太さの異なる音響管の連続と見なせる。 • 音響管における共振現象 ⇒ 自己回帰(AR)過程 声道を模擬した音響管 声帯信号 口から の放射 各微小管毎に透過・反射が起きる ⇒ 複雑な共振特性が生じる 線形予測と共振モデル 線形予測の原理 • 過去の波形標本値の組合せで現在の標本値を予測する。 • 次の線形一次結合が成り立つと仮定: x(n) 1 x(n 1) 2 x(n 2) ... p x(n p) (n) ここで (n) は平均値0、分散 の無相関な確率変数 • この (n) を最小にするように i を決める。 i を線形予測係数とよび、 (n) を線形予測残差と呼ぶ。 2 • 上式のZ変換は以下で与えられる。 X ( z ) 1 X ( z ) z 1 ... p X ( z ) z p E ( z ) E( z) X ( z) (1) 1 p 1 1 z ... p z 線形予測と共振モデル(続き) (1)式の意味 E( z) X ( z) E ( z ) A( z ) 1 p 1 1 z ... p z 1 ←極のみを持つ where A( z ) 1 p 0 1 z ... p z ( 0 1) 予測残差 E (z )を伝達関数 A(z ) に通して音声を生成 E (z ) 声帯信号 A(z ) X (z ) 口から の放射 線形予測と共振モデル(続き) • (1)式で与えられる線形予測は、 「声帯信号のパワーを最小化するように声道特性をAR モデルによって推定する」 ことを示している。 • 推定された A(z ) は全極モデル(零点を持たず極だけ から構成される伝達関数)であり、その極の値によって 共振特性が変化する。 音声のスペクトル包絡の推定⇒ A(z ) の推定に帰着 ( i の推定問題) 線形予測係数の推定1 予測残差の算出 • 区間 [n0, n1 ] における (n) の2乗和 ( n) i x ( n i ) nn n n i 0 n p p i j x(n i )x(n j ) n1 2 n1 0 p 0 1 n n0 i 0 j 0 p p i j ij i 0 j 0 n1 where ij x(n i ) x(n j ) n n0 自己相関関数 2 線形予測係数の推定2 予測残差の最小化 • 2乗残差和 を最小にする j を求める p 2 i ij 0, ( j 1, 2, ..., p) i 0 j p i ij 0 j , ( j 1, 2, ..., p) (2) i 1 よって、線形予測係数 i を算出するには、上記のp個 の連立1次方程式を解けばよい。 ⇒ 必ずしも解が存在するとは限らない? 線形予測係数の推定3 安定に解を求めるには… • 自己相関関数 ij に制約を設ける n0 , n1 x(n) 0, if (n 0 or N n) このとき ij x(n) x(n | i j |) r|i j| n の2変数に関する関数が1変数 | i のみの関数となる。 i, j j| 線形予測係数の推定4 r|i j| を使用して連立方程式(2)を解く r0 r1 rp1 1 r1 r r r 0 1 2 2 r1 r r r r 1 0 p p1 p この行列はテプリッツ型 ⇒ 正定値行列 ⇒ 必ず逆行列が存在する 利点1.線形予測係数 i が必ず求まる。 利点2.高速解法(Durbinの再帰的解法)が利用可能 利点3.求められた全極モデルは絶対安定(極が単位円内) 余談:日本人の貢献 日経産業新聞 1999年4月20日掲載 「音声認識の研究に金を出すことは価値ある投資だろうか。… 音声認識の研究とはまさに「錬金術」に等しい――。 」これは、 1969年に米国音響学会誌に掲載された寄書の一部である。 著者はジョン・ピアス、当時、ベル電話研究所情報通信部門の 責任者であった。これを機に、ピアス傘下にあった音声研究部 門では、音声認識の研究が全面的に中止された。 トップの確信に満ちた判断で中止された研究をボトムアップで 再開するのは容易な ことではない。この再開の主役として登場 したのは1人の日本人であった。線形予測理論で世界的脚光 を 浴びていた現NTTの板倉文忠(名古屋大名誉教授)を客員 研究員として招いた。これがベル研での音声認識研究の再始 動をうながしたのである。当時、ベル研の研究室長であり、板倉 を招いたジェームス・フラナガン(現米国ラトガース大学副学長) は振り返る。「とても、正面切って音声認識の研究を行える状況 ではなかった 。部外者である客員研究員が自主的に研究を始 めるという苦肉の策を講じ、これが図に当った」 線形予測によるパワースペクトル LPCパワースペクトルの定義 1 ←予測残差のパワー f ( z) 2 1 2 p 2 1 1 z 2 z ... p z 2 線形予測によるスペクトル包絡 抽出されたスペクトル包絡 ケプストラムよりもピーク重視 であることに注目! DFTスペクトル (参考)ケプストラムによるスペクトル包絡 抽出されたスペクトル包絡 DFTスペクトル 線形予測によるホルマント抽出 線形予測分析のまとめ 長所 • 高速解法が存在するため比較的単純な操作でスペクトル 包絡抽出可能 • 抽出されたスペクトル包絡において、ホルマント共振がよ り強調される(c.f. ケプストラム分析) • より少ないパラメータ(たかだかp個の予測係数のみ)で 音声スペクトル包絡を表現可能 ⇒音声符号化に有利 問題点 • 線形予測係数 i を量子化して伝送をする場合、伝送誤 差の影響によってすぐに不安定なフィルタになってしまう。 (例)典型的な電話音声の場合11 bits以上の精度必要 • 線形予測係数とスペクトルの直観的な関連がないので、 スペクトルの補間を行う場合に予測係数補間が不可能。 線形予測分析の拡張1(PARCOR) 量子化誤差対策: PARCOR分析 • 線形予測による伝達関数⇒音響管の共振モデルに対応 • 線形予測係数を音響管の各管における反射係数へ一意に 変換可能 • 反射係数が1を超えることは無い⇒伝送エラーなどで歪ん でしまった(1以上にバケてしまった)反射係数を近似回復 できる。つまり絶対安定な伝達関数を受信側で構成可能 しかしまだ改善点が… • より情報圧縮を行いたい場合、とびとびの時間分析フレー ムのデータのみを伝送し、受手側では時間補間をすること によって復元を行いたい。しかし、LPC係数・PARCOR係数 とも、時間軸方向の連続性はあまり明確ではない。 線形予測分析の拡張2(LSP) 係数の時間補間対策: LSP(線スペクトル対)係数 • PARCOR係数をさらに周波数領域へマッピング ⇒ 絶対安定性を保ちつつスペクトルの時間補間が可能 スペクトル包絡 対応するLSPパラメータ (線スペクトルのペアを縦棒で表現) →f 強い共振ピーク付近に棒線が密集。共振の強さは密集度合で決まる。 伝送するのは線スペクトル(ペア)の周波数位置のみ。 LSP係数による時間補間 x(n) t2 t1 … →t t3 →f →f 時間t1とt3におけるLSP(線スペクトル対)の 推移より時間t2におけるLSP係数を推測・補間できる 例題:2次の線形予測モデル推定 音声波形の自己相関関数が以下のように与えられ たとする。 2 2 r0 1, r1 , r2 5 5 • • • • (a) (b) (c) (d) 線形予測係数を求めよ。 2 LPCパワースペクトルを式で表せ( は1とする)。 (b)より極を求めて、z平面に単位円とともに図示せよ。 LPCパワースペクトルの概略図を書け。 解答: (a)線形予測係数 • 線形予測係数 i は以下を解くことで求まる。 r0 r 1 r1 1 r1 r0 2 r2 よって 2 / 5 2 / 5 1 1 1 12 (2 / 5) 2 2 / 5 1 2 / 5 2 2 / 3 2/3 解答: (b)LPCパワースペクトル • LPCパワースペクトル f (z ) は次式で与えられる。 1 1 f ( z) 2 1 2 2 1 1 z 2 z 1 1 2 2 2 1 2 2 1 z z 3 3 解答: (c)極とその配置 • f (z ) の分母多項式の根が極である。よって、 2 1 2 2 1 z z 0 3 3 を解くと 1 5 j z 3 極 解答: (d)LPCパワースペクトル概略
© Copyright 2024 ExpyDoc