音響信号処理特論 音響信号処理の基礎 -雑音抑圧など- 奈良先端科学技術大学院大学 情報科学研究科 音情報処理学講座 猿渡 洋 (2013年6月7日) 音声とは? 音声信号の特徴 • 人間の口から発せられる言語構造をもつ信号 • 基本周波数: • 男性平均125 Hz • 女性平均250 Hz • スペクトル構造: • 長時間平均的には800 Hzまではほぼ平坦, • 800 Hz以上は -10 dB/octの傾斜をもつ 比較的 低周波数帯域にエネルギーが集中する信号 実環境における音声処理 我々が耳にすることができる音声信号は… • 口から発せられた原音声信号は,空気を媒体とし て伝達され,耳(マイクロホン)に到達する. • 伝送の際に様々な変形が加わる. 実環境における変形要因 • 加法性変形: 環境騒音,妨害話者 • 乗法性変形: 室内残響(室内伝達関数), 受音系装置の音響歪 • その他の変形: 実環境における発話状態変化 (Lombard効果) 実環境における変形要因 加法性変形 雑音 雑音等の干渉 n(t ) 原音声 信号 s(t ) 乗法性変形 反射による残響歪 sˆ(t ) H( f ) 我々が実際に受け取ることのできる信号は… sˆ(t ) IFFTH ( f ) s(t ) n(t ) ? 加法性変形 雑音の特性 • 尺度: 信号対雑音電力比(SN比) 2 E[s (t )] SNR 10log10 2 E[n (t )] [dB] • 種類: 計算機雑音,自動車雑音,話し声,音楽… 実環境における雑音のレベル • • • • 静かなオフィス: 45~50 dBA 広いオフィス : 60~70 dBA 走行自動車内 : 65~75 dBA ジェット機コクピット: 90 dBA以上 加法性変形 (cont’d) 1 m離れた場所での音声信号のレベルは… • 普通の強さで発声される会話音声(男性): 66 dB • 普通の強さで発声される会話音声(女性): 63 dB 一般に75 dB以上のレベルで発声されることはまれ 実環境でのSNR • • • • 静かなオフィス: 30~25 dBA 広いオフィス : 15~5 dBA 走行自動車内 : 10~0 dBA ジェット機コクピット: -15 dBA以下 常に実環境では雑音を意識しておく必要あり 乗法性変形 残響による空間伝達特性 • 尺度1: 残響時間(音を停止してからエネルギーが-60 dB減少するまでの時間) • 尺度2: 波形歪(源波形からの変形を雑音とみなす SNR) • 尺度3: スペクトル歪(振幅スペクトル上でのSNR) 一般に、部屋の各壁の吸音率が小さく体積が大きい部屋 ほど残響時間が長く、音声への影響が大きい 実環境における残響時間例 • • • • 自動車内 : 通常室内(小) : 会議室 : コンサートホール: 80~100 msec 300 msec以上 700 msec以上 2000 msec以上 スペクトル変形 スペクトル変形 +波形変形 その他の変形(発話状態変化) Lombard効果 • ひどい雑音,過度の残響などにより,発話者か ら発声される音声自身が変形してしまう現象 具体的な変形例 • • • • 第一ホルマントの上昇 第二ホルマントの下降 スペクトルの傾きの変化 母音継続長が長くなる 実環境における変形音声例 原音声 加法性変形 • 白色雑音 SNR 20 dB • 白色雑音 SNR 0 dB • 有色雑音 SNR 0 dB 乗法性変形 • • • • 壁による一次反射のみ 残響時間 400 msec 残響時間 900 msec 残響時間 2500 msec 加法性&乗法性変形 • 白色雑音(SNR=20 dB)&残響時間900 msec 実環境における信号処理 加法性変形に対する処理 • • • • • スペクトルサブトラクション ウィーナーフィルタ 櫛形フィルタ ノイズキャンセラ マイクロホンアレー 1入力,装置規模小 多点入力,装置規模大 乗法性変形に対する処理 • • • • ケプストラム正規化 逆フィルタ 適応エコーキャンセラ MINT法 1入力,装置規模小 多点入力,装置規模大 スペクトルサブトラクション 基本原理: • 雑音が定常であることを利用して,非音声区間 の信号より雑音の特徴量を推定しておき,雑音 混じりの音声の特徴量から雑音成分を取り除く. Noisy Speech α St-DFT Silence Noise Analysis Detection Estimation Amplitude Phase St-IDFT Output Speech スペクトルサブトラクション (cont’d) 具体的な信号処理: 時刻t での雑音混じり信号を y(t ) , 真の音声信号を s(t ) , 雑音信号を n(t ) とする. その時観測される信号は以下で与えられる. y(t ) s(t ) n(t ) 窓の位置をmで表した短時間フーリエ分析により 上の関係は周波数領域にて以下のように書ける Y ( f , m) S ( f , m) N ( f , m) スペクトルサブトラクション (cont’d) 本方法では以下のようにして信号推定を行う. • 雑音信号を定常と仮定し,振幅スペクトルは入力 y(t ) から推定雑音を減算したものとする. • 位相に関しては,入力信号のものを使用する. この方法により推定される出力信号は… Sˆ ( f , m) | y( f , m) | Em | N ( f , m) | ここでは Em | N ( f , m) | , 1/ e j argY ( f ,m) : 非音声区間で推定した雑音 : 減算調節パラメータ 一般に は2程度, は1 or 2 スペクトルサブトラクション (cont’d) 本方法における利点は… • 構造が単純. • 定常雑音であれば抑圧効果大. 本方法における問題点・課題は… • • • • 雑音抑圧によりミュージカルトーンが発声 音声・非音声をどのように区別するか. 非定常な雑音にどのように対処するか. 減算調節パラメータをどのように決定するか. スペクトルサブトラクション例 原音声 雑音付加音声 (SNR=0 dB, 白色雑音) 回復処理音声 櫛形フィルタ 基本原理: • 音声が周期的な波形(周波数領域ではハーモ ニクス構造を持つ)であることを利用して,音声 の基本周波数F0を推定しておき,雑音混じりの 音声信号に対してnF0成分(nは整数)のみを 強調するハーモニクス構造フィルタを構成する. 観測信号周波数特性 櫛形フィルタ 出力信号 音声 雑音 F0 →f = × F0 →f F0 →f 櫛形フィルタ (cont’d) 本方法における利点は… • 音声のハーモニクス構造を陽に利用. • 非定常な雑音にもある程度対応可能. 本方法における問題点・課題は… • 基本周波数を雑音中にどう推定するか. • 「櫛の形」をどのように調節するか. • ハーモニクス構造を持たない子音の回復. ノイズキャンセラ 基本原理: • 2本のマイクロホン(主マイクと参照マイク)を用意 する.主マイクでは音声と雑音が観測され,参照 マイクでは雑音のみが観測できると仮定する.同 時刻の雑音を参照マイクで受音して,主マイクで の雑音混じり音声より差し引く. • この際に,参照マイクから主マイクへの伝達特性 を適応的に同定する適応フィルタが使用される. ノイズキャンセラ (cont’d) 構成図: Speech Primary Microphone s(t ) s(t ) n( p) (t ) n( p) (t ) nˆ ( p) (t ) sˆ(t ) Output Speech e(t ) Adaptive Noise n( r ) (t ) Filter Reference Microphone n( p) (t ) と n( r ) (t ) は伝達経路が異なることに注意 ノイズキャンセラ (cont’d) 具体的な信号処理: 主マイク信号を y(t ) ,音声信号成分を s(t ) , ( p) 雑音信号を n (t ) とすると以下が成り立つ. y(t ) s(t ) n (t ) ( p) 参照マイクでの雑音信号に適切なフィルタ h を かけ主マイク信号から減算し,誤差 e(t ) を算出. T e(t ) y(t ) nˆ (t i)h(i) y(t ) h n (r) T (r) i 0 where h h(0), h(1),..., h(T ) , T n nˆ (t ), nˆ (t 1),..., nˆ (t T ) (r) (r) (r) (r) T ノイズキャンセラ (cont’d) 音声信号 s(t ) と雑音信号 n( p) (t ) , n( r ) (t ) に おいて相関が無いと仮定すると,誤差のパワー J は以下で与えられる. J Ee(t )2 E{s(t ) n( p) (t ) hT n( r ) }2 Es(t ) En (t ) h Rh 2d h 2 ( p) 2 T T where R En (n ) , d En (t )n この J を h に関して最小化することにより, 最適フィルタ係数 h( opt) が以下のように得られる. (r) ( opt) h (r) T 1 R d ( p) (1) (r) ノイズキャンセラ (cont’d) 式(1)を用いて最適なフィルタ係数を求めるには, 音声信号が無い時間に n( p) (t ) のみを観測して d を推定しておく必要がある. → 実際上は困難である場合も多い そこで,LMS(Least Mean Square)法によって 準最適なフィルタ係数 h を逐次推定する.まず J の h に関する瞬時勾配は e(t )2 e(t ) 2e(t ) 2e(t )n( r ) (2) h h ノイズキャンセラ (cont’d) LMS法では式(2)の瞬時勾配を誤差期待値の 代用とする.よって最急降下法が適用でき,以下 の更新式を得る. hj1 hj 2e j (t )n (r) (3) ここで j は, j 回目の反復における値である ことを表し, はステップサイズパラメータである. 式(1)に比べて,式(3)で推定されるものは,多少 揺らぎながらも真値に収束することが知られている. ノイズキャンセラ (cont’d) 本方法における利点は… • 適応的に雑音をほぼ完全に消去できる. • 式(3)を使えば非定常・移動雑音にもある程 度対応可能. 本方法における問題点・課題は… • 式(1)を用いる場合は無音区間推定が必要 • 式(3)では収束性が問題となる • 参照マイクの配置に大きく依存 マイクロホンアレー 基本原理: • 2本のマイクロホンシステムをさらに拡張 → 多点受音処理系を構成 • 複数のマイクロホンを並べたものを マイクロホンアレーと呼ぶ。 • 空間選択性を持ち,音声源の方位から到来する 信号のみ強調し雑音源を抑圧することが可能 • 指向特性(空間に対してアレーが形成する利得 の分布)によって,その性能を評価・図示できる. マイクロホンアレーの歴史 両耳による音源方位の同定 (生物自身が持つアレー) 第一次大戦中フランス軍が 使用した音響アレー装置 音源のある方位に 聞き耳を立てる From “Array Signal Processing”, D. Johnson ディジタル信号処理技術の進歩とともに発展 マイクロホンアレーの構造 基本構造: ・多数のマイク素子を規則的に配列 ・各素子の後段にフィルタを接続 ・各素子でのフィルタ出力を総和 素子配列形態,フィルタ特性を 変化させることにより性能可変 Microphone Speech Filter Filter Noise Filter Array Output Σ マイクロホンアレーの種類 加算型アレー: • 目的信号の到来方位に鋭い指向特性を形成 • 例: Delay and Sum(遅延和)アレー Filter and Sum アレー 等 構造単純 減算型アレー: • 雑音の到来方位に指向特性の死角を形成 • 例: 死角制御型ビームフォーマ 適応型ビームフォーマ 性能対装置 サイドローブキャンセラ 等 規模が優秀 加算型アレー 基本原理: • 目的信号を同相化し,その到来方位(これを目的 方位; look directionという)に「メインローブ」と呼 ばれる鋭い指向性を形成する. • 目的方位以外には,できるだけ低い利得を形成 し,雑音の混入を防ぐ.この目的方位以外に形成 される利得パターンのことを「サイドローブ」という. メイン ローブ 目的音 サイドローブを低 くすれば雑音を抑 圧可能 θ 遅延和アレー設計例 設計条件: • 目的方位は0度,一様素子荷重係数を使用 • 素子数8,素子間隔5 cmの等間隔直線アレー 低い周波数ほど鋭い指向特性が形成困難になる グレーティングローブによる劣化 • 8 kHzにおける指向特性(8素子5 cm間隔アレー) メインローブ(0°方向)以外にも大きなローブが形成される. これは「波長に対して素子間隔が広すぎる」ために生じた折 り返し歪でありグレーティングローブと呼ばれる. 加算型アレーの性能限界 周波数とメインローブ幅 (一様荷重係数の場合) width 波長 50 アレー長 [°] 低周波数帯域にて狭い メインローブを構成する ことは困難 周波数とグレーティングローブ グレーティングローブを避 けるための素子間隔条件 素子間隔<波長/2 高周波数帯域において はグレーティングを避け ることは困難 高い・低いどちらの周波数帯域でも使用するには… マイク素子を密に(グレーティングローブ対策) かつ大量に(アレー長を増やすため)並べたアレーが必要 加算型アレーによる音声回復例 原音声 音声 雑音 残響が無い場合 • 単一マイクロホン • 遅延和アレー -50° … 8素子,5 cm間隔 残響がある場合(残響時間=400 msec) • 単一マイクロホン • 遅延和アレー 減算型アレー 基本原理: • 各素子出力を雑音方位に関してまず同相化し, その後,全素子の重み和が0になるように加算す る.つまり,素子間にて雑音成分を減算している ことになる. • 上記処理は,指向特性上おいて,雑音方位に鋭 い「死角」を形成していることを意味する. 目的音 雑音に死角をあてる θ 適応型アレー 基本原理: • 雑音の到来方位を事前に知ること無く,「アレー 出力を最小にする」という規範のもとで,指向特 性を最適化する.これにより,限られたマイク素 子においても,効率的に雑音を抑圧可能である. • 素子荷重係数の最適化には適応フィルタ理論が 用いられる.ここでは,目的方位を歪ませないた めに「目的方位の利得を一定に保つ」という拘束 条件のもとでフィルタの最適化を行う. 拘束条件付きの最適化問題に帰着 適応型アレーの構造 Microphone Speech Adaptive Filter Adaptive Filter Array Output Σ Noise Adaptive Filter 誤差信号→最小 目的方位の利得は一定に保つ 適応型アレーの指向特性例1 雑音数が少・残響少の場合 • 雑音に死角を形成することで雑音抑圧 →減算型アレーを自動形成 目的音 雑音に死角をあてる θ 適応型アレーの指向特性例2 雑音数が少・残響大の場合 • 必ずしも雑音に死角を形成せず,雑音の残響成 分と併せてそれらの総和が0になるような指向特 性を形成する. 雑音の 残響 + 目的音 - 雑音 + - θ 適応型アレーの指向特性例3 雑音数が大・残響大の場合 • 死角形成,残響との打ち消しあい,低サイドロー ブによる抑圧,などを組み合わせて雑音を除去. 雑音1 目的音 雑音2 - + θ 適応型アレーの特徴 利点 • 加算・減算型よりも少数のマイク素子にて, 効率的に雑音抑圧を行うことが出来る. • 目的音の存在しない時間が与えられれば, 雑音方位を与えなくても環境に応じて雑音を 最適に抑圧することが出来る. • 雑音の残響成分が存在しても,それらの総 和を最小化することにより雑音全体を除去. 環境にあわせて加算・減算型などの中から 最適なものが自動選択・組み合わされる. 適応型アレーの特徴(cont’d) 問題点・課題 • 素子数以上の死角を形成できない.つまり, 素子数以上の雑音は抑圧不可能. • 目的音の無音区間情報が必要. • 雑音方位が幅を持っている場合や,室内残響 の影響が大きい場合には,抑圧性能が劣化 する. • 拘束条件付の最小化問題に帰着 →LMSアルゴリズムが使用できないので動的 環境変化に対して逐次フィルタ更新不可能 Griffith-Jim型適応アレーを用いることにより解決 Griffith-Jim型適応アレーの構造 Phase Compensation 2 Array Output 主パス 1 Σ 0 + K K-Microphone + - 目的方位信号成分を 含まないK-1 ch信号 - 参照パス + - Σ K-1 ch Adaptive Filter 誤差信号→最小 Griffith-Jim型適応アレーの原理1 主パスは単純な加算型アレー • サイドローブ部分に雑音が混入する. 一方,参照パスは… • まず,隣あうアレー信号間で減算し,目的音 成分を除去しておく(K-1 chアレーに変換). • 次に,それらをK-1 ch適応フィルタに入力し, 主パスとの減算を行う. 主パス,参照パスの差を誤差信号と見な し,それを最小化するようにLMSアルゴリ ズムによってフィルタの最適化を行う. Griffith-Jim型適応アレーの原理2 なぜ拘束条件付き問題にLMSが使えるのか? 主パス メイン 目的音(適応中は無 ローブ 音) サイドローブが 雑音を受音する θ 参照パス 主パスと参照 パスの差を単 純に最小化 目的方位には死角 主パスとなるべく同じ サイドローブを構成 θ 目的方位は 無歪みのまま サイドローブ のみ最小化 適応型アレーによる音声回復例 雑音混合音声 GJ型適応アレーによる回復音声 音声 雑音 50° … 4素子,4.2 cm間隔 ブザー音 マイクロホンアレーの問題点 マイクロホンアレー処理の欠点 音源の到来方位推定が必要 適応のために無音区間の推定が必要 素子位置の変動に対応できない 素子誤差を事前に補正しておく必要がある ? マイクロホンアレーの問題点(続き) 遅延和型:素子係数により指向特性を制御 目的音 雑音も同時に 拾ってしまう θ 適応型:雑音の到来方向に指向特性を適応 目的音 を指定 雑音のみを観測 する時間が必要 死角 θ ブラインド音源分離の登場 Blind Source Separation (BSS) • 複数の音源信号が混合されて観測された場合、観測信号 のみから音源信号を推定する技術 • 目的音の方位・無音区間情報が不要 • マイク素子位置・特性情報も不要 • マイク特性誤差があっても頑健に動作する 独立成分分析(ICA)に基づくBSS J. Cardoso, 1989 C. Jutten, 1990 (高次無相関化) P. Comon, 1994 (ICAという言葉を定義) A. Bell et al., 1995 (infomaxによる定式化) 独立成分分析(ICA)とは何か? 独立な成分の抽出: • 複数の確率信号が混合された観測系列から, 統計的に独立な個々の確率過程を分解抽出 する. 特徴: • 独立性は「無相関性」よりも厳しい尺度であり, 確率信号同士の確率密度構造が問われる. →情報幾何学と呼ばれる →「独立⇒無相関」であるが、 「無相関⇒独立」は必ずしも成り立たない. ICAに基づくBSS とは? 既知 おはよう Human 1 Source 1 Microphone 1 互いに独立 Microphone 2 こんにちは Source 2 Human 2 音源信号を推定 Observed signal 1 Observed signal 2 ICAに基づくBSSの定式化 線形混合過程 A11 A1K s1 (t ) x1 (t ) AL1 ALK sK (t ) xL (t ) 混合行列 分離過程 コスト関数 独立? 音源信号 分離信号 観測信号 分離行列 y1 (t ) W11 W1L x1 (t ) yK (t ) WK1 WKL xL (t ) 最適化 ICA以外のBSS:Binary Masking (BM) 耳(マイクロホン)に接近している強い音源を,時間-周波数領域で抽出する手法 s1(t) X1(f,t) x1(t) ST-DFT f X2(f,t) x2(t) s2(t) f Y1(f,t) y2(t) ST-IDFT y1(t) f Y2(f,t) f パ ワ ー の 比 較 ICA以外のBSS:Binary Masking (BM) 耳(マイクロホン)に接近している強い音源を,時間-周波数領域で抽出する手法 s1(t) X1(f,t) x1(t) ST-DFT f X2(f,t) x2(t) s2(t) f Y1(f,t) パ ワ ー の 比 較 ST-IDFT (t) 利点y1パワーの比較のみで高速 f 欠点 音源信号間にスペクトルの重なりが無いという Y (f,t) 前提条件(スパース性)が必要 欠点 分離音に歪が生じる y2(t) 2 f 実験条件 Sampling frequency 8 kHz Filter length Binary mask: 512 taps ICA: 1024 taps Source DOA (1, 2) Initial filter Evaluation score (-60, 60), (-60, 0), (0, 60) NBF steered to (-15 , 15 ) 0.58 m 4.25 m Loudspeakers (Height: 1.17 m) s1(t) s2(t) 2 1.50 m 1 Microphones (Height: 1.17 m) Reverberation Signal to Noise Ratio [dB] Time: 200 ms 0.74 m Sources Speech/Stationary Noise (3 seconds) 2.04 m 4.25 m 200 ms 2.02 m Reverberation 音声&音声の分離結果 • 全て12通り話者組合せの平均値 Observed signal Signal to Noise Ratio [dB] HO-ICA Binary mask HO-ICA + Binary mask 25 25 25 20 20 20 15 15 15 10 10 10 5 5 5 0 0 0 Source: (-60゜, 60゜) Source: (-60゜, 0゜) SO-ICA Proposed Source: (0゜, 60゜) 音声認識による評価(音声&音声) 大語彙音声認識タスクによる評価(JNASデータベース、JULIUS (PTM)による認識、音響モデルはクリーンモデル) 本実験においては16 kHzサンプリングデータを取り扱った 85 Binary Mask ICA ICA + BM Proposed BSS 80 Word Accuracy [%] 75 各種従来法 提案法 提案法 70 各種従来法 65 60 55 50 45 40 音源方位=(-40, 30) 音源方位=(-40, 10) 今後のマイクロホンアレー技術は? そろそろアレーアンテナ理論からの脱却を! 音声の波長(数m~数cm)とアレーサイズ(<50cm)から考えて、 アンテナ理論と同じでうまくいくはずがない。 反射がほとんど無いアンテナと、残響だらけの音声 残響を無視した理論は淘汰される!? マイクロホンアレー研究における「死の谷」 よくあるパターン 1.残響無視で机上理論を立てる 「これは素晴らしい理論だ!残響成分は面倒だから誤差ってことにして おこう」 2.意図的に残響を無視してシミュレーション実験 「うむうむ、やっぱり従来法よりも優れているな。よし!」 3.実機で実験&公表 「(学会発表にて)残響がない環境では、理論通り従来より優れた性能が 出ました。実環境における残響対策は今後の課題です。」 4.「で今後はどうしよう…困った!最初から残響を理論に入れておくべきだ った。」 音声・音響処理では、特に残響を強く意識して理論を立てるべき 今後のマイクロホンアレー技術は? 装置誤差を考慮に入れない理論も淘汰される!? コンデンサマイクの素子誤差は予想以上に大きい(通常3 dB程度は ばらつき、かつ温度・湿度にも過敏)。 1素子の場合では問題なく動いていても、素子数が多くなると誤差を もったエレメントから成るシステムは弱い。 実際の環境では、手動キャリブレーションはほぼ不可能 万能な技術は無い。TPOに合わせた信号処理を! 音声通話系と音声認識系では要求されているものが異なる これからは2つのタイプに分かれていくのでは? 1.雑音除去重視、目的音の歪み軽視型(応用 音声認識) 2.雑音除去軽視、目的音の歪み重視型(応用 音声通話) 万能さを目指して演算量を増やすよりも、目的に特化して高精度化・ リアルタイム化を目指す
© Copyright 2024 ExpyDoc