音情報論II - NAIST 奈良先端科学技術大学院大学

音響信号処理特論
音響信号処理の基礎
-雑音抑圧など-
奈良先端科学技術大学院大学
情報科学研究科 音情報処理学講座
猿渡 洋
(2013年6月7日)
音声とは?
音声信号の特徴
• 人間の口から発せられる言語構造をもつ信号
• 基本周波数:
• 男性平均125 Hz
• 女性平均250 Hz
• スペクトル構造:
• 長時間平均的には800 Hzまではほぼ平坦,
• 800 Hz以上は -10 dB/octの傾斜をもつ
比較的 低周波数帯域にエネルギーが集中する信号
実環境における音声処理
我々が耳にすることができる音声信号は…
• 口から発せられた原音声信号は,空気を媒体とし
て伝達され,耳(マイクロホン)に到達する.
• 伝送の際に様々な変形が加わる.
実環境における変形要因
• 加法性変形: 環境騒音,妨害話者
• 乗法性変形: 室内残響(室内伝達関数),
受音系装置の音響歪
• その他の変形: 実環境における発話状態変化
(Lombard効果)
実環境における変形要因
加法性変形
雑音
雑音等の干渉
n(t )
原音声
信号
s(t )
乗法性変形
反射による残響歪
sˆ(t )
H( f )
我々が実際に受け取ることのできる信号は…
sˆ(t )  IFFTH ( f )  s(t )  n(t )
?
加法性変形
雑音の特性
• 尺度: 信号対雑音電力比(SN比)
2
E[s (t )]
SNR  10log10
2
E[n (t )]
[dB]
• 種類: 計算機雑音,自動車雑音,話し声,音楽…
実環境における雑音のレベル
•
•
•
•
静かなオフィス: 45~50 dBA
広いオフィス : 60~70 dBA
走行自動車内 : 65~75 dBA
ジェット機コクピット: 90 dBA以上
加法性変形 (cont’d)
1 m離れた場所での音声信号のレベルは…
• 普通の強さで発声される会話音声(男性): 66 dB
• 普通の強さで発声される会話音声(女性): 63 dB
一般に75 dB以上のレベルで発声されることはまれ
実環境でのSNR
•
•
•
•
静かなオフィス: 30~25 dBA
広いオフィス : 15~5 dBA
走行自動車内 : 10~0 dBA
ジェット機コクピット: -15 dBA以下
常に実環境では雑音を意識しておく必要あり
乗法性変形
残響による空間伝達特性
• 尺度1: 残響時間(音を停止してからエネルギーが-60
dB減少するまでの時間)
• 尺度2: 波形歪(源波形からの変形を雑音とみなす
SNR)
• 尺度3: スペクトル歪(振幅スペクトル上でのSNR)
一般に、部屋の各壁の吸音率が小さく体積が大きい部屋
ほど残響時間が長く、音声への影響が大きい
実環境における残響時間例
•
•
•
•
自動車内
:
通常室内(小) :
会議室
:
コンサートホール:
80~100 msec
300 msec以上
700 msec以上
2000 msec以上
スペクトル変形
スペクトル変形
+波形変形
その他の変形(発話状態変化)
Lombard効果
• ひどい雑音,過度の残響などにより,発話者か
ら発声される音声自身が変形してしまう現象
具体的な変形例
•
•
•
•
第一ホルマントの上昇
第二ホルマントの下降
スペクトルの傾きの変化
母音継続長が長くなる
実環境における変形音声例
原音声
加法性変形
• 白色雑音 SNR 20 dB
• 白色雑音 SNR 0 dB
• 有色雑音 SNR 0 dB
乗法性変形
•
•
•
•
壁による一次反射のみ
残響時間 400 msec
残響時間 900 msec
残響時間 2500 msec
加法性&乗法性変形
• 白色雑音(SNR=20 dB)&残響時間900 msec
実環境における信号処理
加法性変形に対する処理
•
•
•
•
•
スペクトルサブトラクション
ウィーナーフィルタ
櫛形フィルタ
ノイズキャンセラ
マイクロホンアレー
1入力,装置規模小
多点入力,装置規模大
乗法性変形に対する処理
•
•
•
•
ケプストラム正規化
逆フィルタ
適応エコーキャンセラ
MINT法
1入力,装置規模小
多点入力,装置規模大
スペクトルサブトラクション
基本原理:
• 雑音が定常であることを利用して,非音声区間
の信号より雑音の特徴量を推定しておき,雑音
混じりの音声の特徴量から雑音成分を取り除く.
Noisy Speech
α
St-DFT
Silence
Noise
Analysis
Detection
Estimation
Amplitude
Phase

St-IDFT

Output
Speech
スペクトルサブトラクション (cont’d)
具体的な信号処理:
時刻t での雑音混じり信号を y(t ) ,
真の音声信号を s(t ) ,
雑音信号を n(t ) とする.
その時観測される信号は以下で与えられる.
y(t )  s(t )  n(t )
窓の位置をmで表した短時間フーリエ分析により
上の関係は周波数領域にて以下のように書ける
Y ( f , m)  S ( f , m)  N ( f , m)
スペクトルサブトラクション (cont’d)
本方法では以下のようにして信号推定を行う.
• 雑音信号を定常と仮定し,振幅スペクトルは入力
y(t ) から推定雑音を減算したものとする.
• 位相に関しては,入力信号のものを使用する.
この方法により推定される出力信号は…
Sˆ ( f , m)  | y( f , m) |  Em | N ( f , m) |

ここでは
Em | N ( f , m) |


, 


1/ 
e
j argY ( f ,m) 
: 非音声区間で推定した雑音
: 減算調節パラメータ
一般に  は2程度,  は1 or 2
スペクトルサブトラクション (cont’d)
本方法における利点は…
• 構造が単純.
• 定常雑音であれば抑圧効果大.
本方法における問題点・課題は…
•
•
•
•
雑音抑圧によりミュージカルトーンが発声
音声・非音声をどのように区別するか.
非定常な雑音にどのように対処するか.
減算調節パラメータをどのように決定するか.
スペクトルサブトラクション例
原音声
雑音付加音声
(SNR=0 dB, 白色雑音)
回復処理音声
櫛形フィルタ
基本原理:
• 音声が周期的な波形(周波数領域ではハーモ
ニクス構造を持つ)であることを利用して,音声
の基本周波数F0を推定しておき,雑音混じりの
音声信号に対してnF0成分(nは整数)のみを
強調するハーモニクス構造フィルタを構成する.
観測信号周波数特性
櫛形フィルタ
出力信号
音声
雑音
F0
→f
=
×
F0
→f
F0
→f
櫛形フィルタ (cont’d)
本方法における利点は…
• 音声のハーモニクス構造を陽に利用.
• 非定常な雑音にもある程度対応可能.
本方法における問題点・課題は…
• 基本周波数を雑音中にどう推定するか.
• 「櫛の形」をどのように調節するか.
• ハーモニクス構造を持たない子音の回復.
ノイズキャンセラ
基本原理:
• 2本のマイクロホン(主マイクと参照マイク)を用意
する.主マイクでは音声と雑音が観測され,参照
マイクでは雑音のみが観測できると仮定する.同
時刻の雑音を参照マイクで受音して,主マイクで
の雑音混じり音声より差し引く.
• この際に,参照マイクから主マイクへの伝達特性
を適応的に同定する適応フィルタが使用される.
ノイズキャンセラ (cont’d)
構成図:
Speech
Primary Microphone
s(t )
s(t )  n( p) (t ) 
n( p) (t )
nˆ ( p) (t )
sˆ(t )

Output
Speech
e(t )
Adaptive
Noise
n( r ) (t )
Filter
Reference
Microphone
n( p) (t )
と
n( r ) (t ) は伝達経路が異なることに注意
ノイズキャンセラ (cont’d)
具体的な信号処理:
主マイク信号を y(t ) ,音声信号成分を s(t ) ,
( p)
雑音信号を n (t ) とすると以下が成り立つ.
y(t )  s(t )  n (t )
( p)
参照マイクでの雑音信号に適切なフィルタ h を
かけ主マイク信号から減算し,誤差 e(t ) を算出.
T
e(t )  y(t )   nˆ (t  i)h(i)  y(t )  h n
(r)
T
(r)
i 0
where h  h(0), h(1),..., h(T ) ,
T
n  nˆ (t ), nˆ (t  1),..., nˆ (t  T )
(r)
(r)
(r)
(r)
T
ノイズキャンセラ (cont’d)
音声信号 s(t ) と雑音信号 n( p) (t ) , n( r ) (t ) に
おいて相関が無いと仮定すると,誤差のパワー J
は以下で与えられる.
J  Ee(t )2   E{s(t )  n( p) (t )  hT n( r ) }2 
 Es(t )   En (t )   h Rh  2d h
2
( p)
2
T
T
where R  En (n )  , d  En (t )n 
この J を h に関して最小化することにより,
最適フィルタ係数 h( opt) が以下のように得られる.
(r)
( opt)
h
(r) T
1
R d
( p)
 (1)
(r)
ノイズキャンセラ (cont’d)
式(1)を用いて最適なフィルタ係数を求めるには,
音声信号が無い時間に n( p) (t ) のみを観測して
d を推定しておく必要がある.
→ 実際上は困難である場合も多い
そこで,LMS(Least Mean Square)法によって
準最適なフィルタ係数 h を逐次推定する.まず
J の h に関する瞬時勾配は
e(t )2
e(t )
 2e(t )
 2e(t )n( r ) (2)
h
h
ノイズキャンセラ (cont’d)
LMS法では式(2)の瞬時勾配を誤差期待値の
代用とする.よって最急降下法が適用でき,以下
の更新式を得る.
hj1  hj    2e j (t )n
(r)
(3)
ここで j は, j 回目の反復における値である
ことを表し,  はステップサイズパラメータである.
式(1)に比べて,式(3)で推定されるものは,多少
揺らぎながらも真値に収束することが知られている.
ノイズキャンセラ (cont’d)
本方法における利点は…
• 適応的に雑音をほぼ完全に消去できる.
• 式(3)を使えば非定常・移動雑音にもある程
度対応可能.
本方法における問題点・課題は…
• 式(1)を用いる場合は無音区間推定が必要
• 式(3)では収束性が問題となる
• 参照マイクの配置に大きく依存
マイクロホンアレー
基本原理:
• 2本のマイクロホンシステムをさらに拡張
→ 多点受音処理系を構成
• 複数のマイクロホンを並べたものを
マイクロホンアレーと呼ぶ。
• 空間選択性を持ち,音声源の方位から到来する
信号のみ強調し雑音源を抑圧することが可能
• 指向特性(空間に対してアレーが形成する利得
の分布)によって,その性能を評価・図示できる.
マイクロホンアレーの歴史
両耳による音源方位の同定
(生物自身が持つアレー)
第一次大戦中フランス軍が
使用した音響アレー装置
音源のある方位に
聞き耳を立てる
From “Array Signal Processing”, D. Johnson
ディジタル信号処理技術の進歩とともに発展
マイクロホンアレーの構造
基本構造:
・多数のマイク素子を規則的に配列
・各素子の後段にフィルタを接続
・各素子でのフィルタ出力を総和
素子配列形態,フィルタ特性を
変化させることにより性能可変
Microphone
Speech
Filter
Filter
Noise
Filter
Array
Output
Σ
マイクロホンアレーの種類
加算型アレー:
• 目的信号の到来方位に鋭い指向特性を形成
• 例: Delay and Sum(遅延和)アレー
Filter and Sum アレー 等
構造単純
減算型アレー:
• 雑音の到来方位に指向特性の死角を形成
• 例: 死角制御型ビームフォーマ
適応型ビームフォーマ
性能対装置
サイドローブキャンセラ 等
規模が優秀
加算型アレー
基本原理:
• 目的信号を同相化し,その到来方位(これを目的
方位; look directionという)に「メインローブ」と呼
ばれる鋭い指向性を形成する.
• 目的方位以外には,できるだけ低い利得を形成
し,雑音の混入を防ぐ.この目的方位以外に形成
される利得パターンのことを「サイドローブ」という.
メイン
ローブ
目的音
サイドローブを低
くすれば雑音を抑
圧可能
θ
遅延和アレー設計例
設計条件:
• 目的方位は0度,一様素子荷重係数を使用
• 素子数8,素子間隔5 cmの等間隔直線アレー
低い周波数ほど鋭い指向特性が形成困難になる
グレーティングローブによる劣化
• 8 kHzにおける指向特性(8素子5 cm間隔アレー)
メインローブ(0°方向)以外にも大きなローブが形成される.
これは「波長に対して素子間隔が広すぎる」ために生じた折
り返し歪でありグレーティングローブと呼ばれる.
加算型アレーの性能限界
周波数とメインローブ幅
(一様荷重係数の場合)
 width
波長
 50  アレー長 [°]
低周波数帯域にて狭い
メインローブを構成する
ことは困難
周波数とグレーティングローブ
グレーティングローブを避
けるための素子間隔条件
素子間隔<波長/2
高周波数帯域において
はグレーティングを避け
ることは困難
高い・低いどちらの周波数帯域でも使用するには…
マイク素子を密に(グレーティングローブ対策)
かつ大量に(アレー長を増やすため)並べたアレーが必要
加算型アレーによる音声回復例
原音声
音声
雑音
残響が無い場合
• 単一マイクロホン
• 遅延和アレー
-50°
…
8素子,5 cm間隔
残響がある場合(残響時間=400 msec)
• 単一マイクロホン
• 遅延和アレー
減算型アレー
基本原理:
• 各素子出力を雑音方位に関してまず同相化し,
その後,全素子の重み和が0になるように加算す
る.つまり,素子間にて雑音成分を減算している
ことになる.
• 上記処理は,指向特性上おいて,雑音方位に鋭
い「死角」を形成していることを意味する.
目的音
雑音に死角をあてる
θ
適応型アレー
基本原理:
• 雑音の到来方位を事前に知ること無く,「アレー
出力を最小にする」という規範のもとで,指向特
性を最適化する.これにより,限られたマイク素
子においても,効率的に雑音を抑圧可能である.
• 素子荷重係数の最適化には適応フィルタ理論が
用いられる.ここでは,目的方位を歪ませないた
めに「目的方位の利得を一定に保つ」という拘束
条件のもとでフィルタの最適化を行う.
拘束条件付きの最適化問題に帰着
適応型アレーの構造
Microphone
Speech
Adaptive
Filter
Adaptive
Filter
Array
Output
Σ
Noise
Adaptive
Filter
誤差信号→最小
目的方位の利得は一定に保つ
適応型アレーの指向特性例1
雑音数が少・残響少の場合
• 雑音に死角を形成することで雑音抑圧
→減算型アレーを自動形成
目的音
雑音に死角をあてる
θ
適応型アレーの指向特性例2
雑音数が少・残響大の場合
• 必ずしも雑音に死角を形成せず,雑音の残響成
分と併せてそれらの総和が0になるような指向特
性を形成する.
雑音の
残響
+
目的音
-
雑音
+ -
θ
適応型アレーの指向特性例3
雑音数が大・残響大の場合
• 死角形成,残響との打ち消しあい,低サイドロー
ブによる抑圧,などを組み合わせて雑音を除去.
雑音1
目的音
雑音2
-
+
θ
適応型アレーの特徴
利点
• 加算・減算型よりも少数のマイク素子にて,
効率的に雑音抑圧を行うことが出来る.
• 目的音の存在しない時間が与えられれば,
雑音方位を与えなくても環境に応じて雑音を
最適に抑圧することが出来る.
• 雑音の残響成分が存在しても,それらの総
和を最小化することにより雑音全体を除去.
環境にあわせて加算・減算型などの中から
最適なものが自動選択・組み合わされる.
適応型アレーの特徴(cont’d)
問題点・課題
• 素子数以上の死角を形成できない.つまり,
素子数以上の雑音は抑圧不可能.
• 目的音の無音区間情報が必要.
• 雑音方位が幅を持っている場合や,室内残響
の影響が大きい場合には,抑圧性能が劣化
する.
• 拘束条件付の最小化問題に帰着
→LMSアルゴリズムが使用できないので動的
環境変化に対して逐次フィルタ更新不可能
Griffith-Jim型適応アレーを用いることにより解決
Griffith-Jim型適応アレーの構造
Phase
Compensation
2
Array
Output
主パス
1
Σ
0
+
K
K-Microphone
+
-
目的方位信号成分を
含まないK-1 ch信号
-
参照パス
+
-
Σ
K-1 ch
Adaptive
Filter
誤差信号→最小
Griffith-Jim型適応アレーの原理1
主パスは単純な加算型アレー
• サイドローブ部分に雑音が混入する.
一方,参照パスは…
• まず,隣あうアレー信号間で減算し,目的音
成分を除去しておく(K-1 chアレーに変換).
• 次に,それらをK-1 ch適応フィルタに入力し,
主パスとの減算を行う.
主パス,参照パスの差を誤差信号と見な
し,それを最小化するようにLMSアルゴリ
ズムによってフィルタの最適化を行う.
Griffith-Jim型適応アレーの原理2
なぜ拘束条件付き問題にLMSが使えるのか?
主パス
メイン 目的音(適応中は無
ローブ 音)
サイドローブが
雑音を受音する
θ
参照パス
主パスと参照
パスの差を単
純に最小化
目的方位には死角
主パスとなるべく同じ
サイドローブを構成
θ
目的方位は
無歪みのまま
サイドローブ
のみ最小化
適応型アレーによる音声回復例
雑音混合音声
GJ型適応アレーによる回復音声
音声
雑音
50°
…
4素子,4.2 cm間隔
ブザー音
マイクロホンアレーの問題点
 マイクロホンアレー処理の欠点
 音源の到来方位推定が必要
 適応のために無音区間の推定が必要
 素子位置の変動に対応できない
 素子誤差を事前に補正しておく必要がある
?
マイクロホンアレーの問題点(続き)
遅延和型:素子係数により指向特性を制御
目的音
雑音も同時に
拾ってしまう
θ
適応型:雑音の到来方向に指向特性を適応
目的音
を指定
雑音のみを観測
する時間が必要
死角
θ
ブラインド音源分離の登場
Blind Source Separation (BSS)
• 複数の音源信号が混合されて観測された場合、観測信号
のみから音源信号を推定する技術
• 目的音の方位・無音区間情報が不要
• マイク素子位置・特性情報も不要
• マイク特性誤差があっても頑健に動作する
独立成分分析(ICA)に基づくBSS
J. Cardoso, 1989
C. Jutten, 1990
(高次無相関化)
P. Comon, 1994 (ICAという言葉を定義)
A. Bell et al., 1995 (infomaxによる定式化)
独立成分分析(ICA)とは何か?
独立な成分の抽出:
• 複数の確率信号が混合された観測系列から,
統計的に独立な個々の確率過程を分解抽出
する.
特徴:
• 独立性は「無相関性」よりも厳しい尺度であり,
確率信号同士の確率密度構造が問われる.
→情報幾何学と呼ばれる
→「独立⇒無相関」であるが、
「無相関⇒独立」は必ずしも成り立たない.
ICAに基づくBSS とは?
既知
おはよう
Human 1
Source 1
Microphone 1
互いに独立
Microphone 2
こんにちは Source 2
Human 2
音源信号を推定
Observed signal 1
Observed signal 2
ICAに基づくBSSの定式化
線形混合過程
 A11  A1K  s1 (t )   x1 (t ) 
           
 


 
 AL1  ALK  sK (t )  xL (t )
混合行列
分離過程
コスト関数
独立?
音源信号
分離信号
観測信号
分離行列
 y1 (t )  W11  W1L   x1 (t ) 
   
     

 

 
 yK (t ) WK1  WKL   xL (t )
最適化
ICA以外のBSS:Binary Masking (BM)
耳(マイクロホン)に接近している強い音源を,時間-周波数領域で抽出する手法
s1(t)
X1(f,t)
x1(t)
ST-DFT
f
X2(f,t)
x2(t)
s2(t)
f
Y1(f,t)
y2(t)
ST-IDFT
y1(t)
f
Y2(f,t)
f
パ
ワ
ー
の
比
較
ICA以外のBSS:Binary Masking (BM)
耳(マイクロホン)に接近している強い音源を,時間-周波数領域で抽出する手法
s1(t)
X1(f,t)
x1(t)
ST-DFT
f
X2(f,t)
x2(t)
s2(t)
f
Y1(f,t)
パ
ワ
ー
の
比
較
ST-IDFT
(t)
利点y1パワーの比較のみで高速
f
欠点 音源信号間にスペクトルの重なりが無いという
Y (f,t)
前提条件(スパース性)が必要
欠点 分離音に歪が生じる
y2(t)
2
f
実験条件
Sampling
frequency
8 kHz
Filter
length
Binary mask: 512 taps
ICA: 1024 taps
Source DOA
(1, 2)
Initial filter
Evaluation
score
(-60,
60),
(-60,
0),
(0, 60)
NBF steered to
(-15 , 15 )
0.58 m
4.25 m
Loudspeakers
(Height: 1.17 m)
s1(t)
s2(t)
2 1.50 m
1
Microphones
(Height: 1.17 m)
Reverberation
Signal to Noise Ratio [dB] Time: 200 ms
0.74 m
Sources
Speech/Stationary Noise
(3 seconds)
2.04 m
4.25 m
200 ms
2.02 m
Reverberation
音声&音声の分離結果
• 全て12通り話者組合せの平均値
Observed signal
Signal to Noise Ratio [dB]
HO-ICA
Binary mask
HO-ICA + Binary mask
25
25
25
20
20
20
15
15
15
10
10
10
5
5
5
0
0
0
Source: (-60゜, 60゜)
Source: (-60゜, 0゜)
SO-ICA
Proposed
Source: (0゜, 60゜)
音声認識による評価(音声&音声)
大語彙音声認識タスクによる評価(JNASデータベース、JULIUS
(PTM)による認識、音響モデルはクリーンモデル)
本実験においては16 kHzサンプリングデータを取り扱った
85
Binary Mask
ICA
ICA + BM
Proposed BSS
80
Word Accuracy [%]
75
各種従来法
提案法
提案法
70
各種従来法
65
60
55
50
45
40
音源方位=(-40, 30)
音源方位=(-40, 10)
今後のマイクロホンアレー技術は?

そろそろアレーアンテナ理論からの脱却を!



音声の波長(数m~数cm)とアレーサイズ(<50cm)から考えて、
アンテナ理論と同じでうまくいくはずがない。
反射がほとんど無いアンテナと、残響だらけの音声
残響を無視した理論は淘汰される!?


マイクロホンアレー研究における「死の谷」
よくあるパターン
1.残響無視で机上理論を立てる
「これは素晴らしい理論だ!残響成分は面倒だから誤差ってことにして
おこう」
2.意図的に残響を無視してシミュレーション実験
「うむうむ、やっぱり従来法よりも優れているな。よし!」
3.実機で実験&公表
「(学会発表にて)残響がない環境では、理論通り従来より優れた性能が
出ました。実環境における残響対策は今後の課題です。」
4.「で今後はどうしよう…困った!最初から残響を理論に入れておくべきだ
った。」

音声・音響処理では、特に残響を強く意識して理論を立てるべき
今後のマイクロホンアレー技術は?

装置誤差を考慮に入れない理論も淘汰される!?




コンデンサマイクの素子誤差は予想以上に大きい(通常3 dB程度は
ばらつき、かつ温度・湿度にも過敏)。
1素子の場合では問題なく動いていても、素子数が多くなると誤差を
もったエレメントから成るシステムは弱い。
実際の環境では、手動キャリブレーションはほぼ不可能
万能な技術は無い。TPOに合わせた信号処理を!



音声通話系と音声認識系では要求されているものが異なる
これからは2つのタイプに分かれていくのでは?
1.雑音除去重視、目的音の歪み軽視型(応用 音声認識)
2.雑音除去軽視、目的音の歪み重視型(応用 音声通話)
万能さを目指して演算量を増やすよりも、目的に特化して高精度化・
リアルタイム化を目指す