授業資料

音情報処理論
音響信号処理の基礎
~独立成分分析、スパース表現など~
東京大学大学院情報理工学系研究科/奈良先端大
猿渡 洋
音を聞き分ける耳:マイクロホンアレー
実際、人間も2つの耳で聞くことによって、
複数の異なる入力情報群から必要な要素
を抽出する ⇒ 計測情報処理の基礎
音の方向や複数音の聞き分けを行っている
音声処理での一例:マイクロホンアレー
• 複数のマイクによって得られた複数の受音信号
のなかから、必要な情報(目的音声)のみを取り
出す装置
期待される応用
• 高性能な hands-free 通信
• 雑音にロバストな音声認識
⇒ではどういうアルゴリズム
(ソフト)が必要なのか?
ブラインド音源分離の登場
Blind Source Separation (BSS)
• 複数の音源信号が混合されて観測された場合、観測信号
のみから音源信号を自律的に推定する技術
• 目的音の方位・無音区間情報が不要
• マイク素子位置・特性情報も不要
独立成分分析(ICA)に基づくBSS
1989 J. Cardoso
第一世代
1990 C. Jutten (高次無相関化)
1994 P. Comon (ICAという言葉を定義)
1995 A. Bell (infomaxによる定式化)
1998 P. Smaragdis, S. Ikeda, H. Saruwatari …
(音響信号へICAを導入)
第二世代
3
「独立」とは何か?
数学における「独立」の定義:
• 2つの確率事象に関する同時確率密度分布 p( x1 , x2 )
が,それぞれの事象における周辺密度分布 p( x1 ), p( x2 )
の積で書ける場合を「(統計的に)独立」と呼ぶ.
• つまり
独立  p( x1 , x2 )  p( x1 )  p( x2 )
4
独立である場合の例
x2
x2
p( x1 , x2 )  p( x1 )  p( x2 )
同時確率密度
p( x2 )
x1
周辺確率密度
周辺確率密度
p( x1 )
x1
5
独立ではない場合の例
x2
x2
p( x1 , x2 )  p( x1 )  p( x2 )
同時確率密度
p( x2 )
x1 と x2 に
強い関連がある
x1
周辺確率密度
周辺確率密度
p( x1 )
x1
6
独立成分分析(ICA)とは何か?
独立な成分の抽出:
• 複数の確率信号が混合された観測系列から,統計
的に独立な個々の確率過程を分解する.
特徴:
• 独立性は「無相関性」よりも厳しい尺度であり,確率
信号同士の確率密度構造の幾何が問われる.よって
「情報幾何学」とも呼ばれる.
• 確率密度の構造を測るために,3次以上の統計量が
必要とされる.よって統計の分野では,「高次統計量
数理」の一種でもある.
• 決定論的な目標値を与えずに最適化を行うことより,
学習理論の分野では「教師無し学習」とも呼ばれる.
7
独立成分分析と主成分分析
主成分分析(PCA):
• 複数要因の混合で表現されるものの中から,分
散の大きなものの順に成分を取り出す.
• エネルギーの大きな因子を優先した成分分解法
→ エネルギーが大=影響が大と見なす
一方,独立成分分析は…
• エネルギーの大小とは無関係に,「独立」なもの
同士に分解する.小さな成分でも他と独立性が
高ければそれを抽出することが可能.
• 取り出される因子の順番は問わない.
8
独立成分分析と主成分分析の違い
信号1の散布図
信号2の散布図
9
主成分分析の場合
第二主成分
第一主成分
真の成分軸を
求められない
10
独立成分分析の場合
第二成分
第一成分
真の成分軸を
抽出可能
11
ICAに基づくBSS とは?
既知
おはよう
目的ユーザ
マイク 1
互いに独立
音源分離
マイク 2
#&%¥
妨害音
観測信号 1 ICAによる
観測信号 2
我々が知り得るのは 出力同士が最も関係
なくなるように最適化
これだけ
ICAに基づくBSSの定式化
線形混合過程
 A11
 

 AL1



A1K   s1 (t )   x1 (t ) 
        
 

 
ALK   s K (t )   xL (t )
混合行列
分離過程
コスト関数
独立?
音源信号
分離信号
観測信号
分離行列
 y1 (t )   W11
   

 
 y K (t ) WK 1
 W1L   x1 (t ) 

    

 
 WKL   xL (t ) 
最適化
ICAにおける様々なコスト関数
分離信号ベクトル:
y (t )   y1 (t ),..., y2 (t )
T
Ey (t ) y (t )  diag
T
2次統計量
• 信号間相関を最小化(複数時間区間利用)
高次統計量1
Ey (t ) y (t )  diag
3
T
• 高次相関をも最小化


高次統計量2 E Φ y (t )  y (t )  diag
• 源信号確率密度関数を仮定 Φ : tanh関数など
T
非線型関数2の導出
独立⇒Kullback Leibler Divergenceの最小化問題
• 一般にKullback Leibler Divergenceとは2分布間の距離
p( z )
KL (v , z )   p ( z ) log
dz
p (v )
上式において…
p( z )  p( y1 ,, yK )
K
p(v)  k 1 p( yk )
分離信号 y (t ) の同時分布密度関数
周辺分布密度関数の積
とおき,これらのKLを分離行列Wに関して最小化すれば独立
p( y )
KL (W )   p ( y ) log K
dy
k 1 p ( yk )
最小化
非線型関数2の導出(cont’d)
p( y)
KL (W )   p ( y ) log K
dy
k 1 p ( yk )
K
  H (Y ;W )   H (Yk ;W )
k 1
1. 結合エントロピー
2. 周辺エントロピー和
H (Y ;W )    p ( y ) log p ( y )dy
   p ( x )(log p ( x )  log W )dx
 H ( X )  log W
( p( y )  p( x ) / | W |)
H (Yk ;W )    p( y ) log p( yk )dy
   p( x ) log p ( yk )dx
( p( x )dx  p( y )dy )
非線型関数2の導出(cont’d)
p( y)
KL (W )   p ( y ) log K
dy
k 1 p ( yk )
K
  H (Y ;W )   H (Yk ;W )
k 1
1. 結合エントロピー
2. 周辺エントロピー和
H (Y ;W )  この値を最大化
 p ( y ) log p ( y )dy
  ⇒p (音源間の関連を無くす
x )(log p ( x )  log W )dx
 H ( X )  log W
( p( y )  p( x ) / | W |)
H (Yk ;W )  この値を最小化
 p( y ) log p( yk )dy
  ⇒p(個々の音を非ガウス化
x ) log p ( yk )dx
( p( x )dx  p( y )dy )
非線型関数2の導出(cont’d)
分離信号の同時確率密度と周辺確率密度積のKL擬距離 KL(W )
の W に関する勾配を求め,その逆方向に W を更新学習


KL( W)
W  
 ( W T ) 1   p ( x) (y )x T dx
W
T
T 1
T



log
p
(
y
)

log
p
(
y
)
1
K
 ( W )  E x  (y )x
 ( y)  
, ...,




 I  E  (y )y  W 
T
T 1
y

y1
y K

音声の場合はSigmoid
関数で近似可能
様々なバリエーション
 EMアルゴリズムによるp(y)の同時推定
 二次統計量によるp(y)の推定+高次統計量ICA [Saruwatari, ICASSP2009]
 ICAと音響信号処理の類似点を明らかにし、相補性を生かした高速
収束アルゴリズム [Saruwatari, IEEE Trans. SAP 2003 & 2006]
教師無し最適化としてのICA
従来の教師有り最適化:目標値が与えられる
• 子育てで言えば「医者にするにはどうするか?」
• 最小化関数=∫ (医者 ー 子供の現在)2
• コスト関数が可計算、その微分勾配も可計算
ICA等の教師無し最適化:目標値が無い!
•
•
•
•
子育てで言えば「良い大人になりなさい!(でも具体的には?)」
最小化関数=div(???||子供の現在) ⇒陽に計算不可
コスト関数は可計算ではないが、その勾配は可計算
独立性自体をデータから測ることは困難であるが、どの方向に
動けば独立性が高まるかは計算可能
• 「勉強しよう」、「運動しよう」、「約束は守る」、「友達は大切に」…
スパース信号解析としてのICA(1)
スパース(疎)信号解析とICAの密接な関係
Amplitude
Frequency
Frequency
• スパースな生起を有する信号の確率密度は非ガウス
• より非ガウス分布に従う確率信号へ分解するのがスパース解析
• ICAによって分解される信号は、実際、より「疎」なものになる
Time
観測スペクトログラム
Time
Amplitude
アクティベーション行列
基底スペクトル行列
Ω: 周波数ビン数
𝑇: 時間フレーム数
𝐾: 基底数
スパース信号解析としてのICA(2)
スパース(疎)信号解析とICAの密接な関係
• 「スパースさ」を測る尺度として「高次統計量」がある
• 高次統計量を眺めて非ガウス性を測り、全ての分解信号を可能
な限り「ガウス分布から離れたものにする」のがICA
• 音声信号は元来、非常に非ガウス(優ガウス)なので相性が良い
1
0.8
優ガウス
0.6
0.4
0.2
0
優ガウス
-0.2
-0.4
1
0.8
-0.6
0.6
0.4
0.2
-0.8
0
-0.2
-0.4
-1
-0.6
ガウス
ハンズフリー音声対話ロボシステムの構築
・各種モジュールを統合した実環境動作可能な音声対話システム
典型的な駅騒音の中で
遠隔発話した場合でも
ディスプレー
キタちゃんロボ
90%以上
の単語認識率を達成
8チャンネル
マイクアレー
リアルタイム
ブラインド空間
サブトラクションアレー
音声発話検出&
音声認識デコーダ
対話管理処理
応答音声生成
各種情報提示処理
(今後)
ロボット動作
との連携
ハンズフリー音声対話ロボシステムの構築
ICA利用したアプリケーション
 世界で初めてリアルタイム
BSSモジュールが商用化さ
れ、2008年には警察備品と
して採用された。
 ドコモモバイルサイエンス賞
 京大NAIST-CRESTプロジ
ェクトにて「場の雰囲気を読
むポスタセッションアーカイ
ブシステム」に導入された。
ポスタ会場
発表者
質問者
スパース表現信号処理について
~非負値行列因子分解~
25
研究背景
• 複数の楽器音が多重に混合された音楽信号
から,楽器音を分離・抽出
音楽信号分解
• 応用例
– ユーザが好み応じて各楽器音を編集
– 音楽信号の自動採譜
– 音の拡張現実 (AR) 等
26
研究背景
• 非負値行列因子分解 [Lee, et al., 1999]
• データのスパース性,重ね合わせ表現を考慮
• 効率的な乗法型更新式
• 画像処理,信号処理等様々な分野への応用
27
…
Frequency [Hz]
Nonnegative Matrix Factorization (NMF)
…
Time [sec]
頻出スペクトル
…
…
各スペクトルの
タイミングと音量
28
…
Frequency [Hz]
Nonnegative Matrix Factorization (NMF)
…
スペクトル基底行列
Time [sec]
…
…
アクティベーション行列
29
NMF の目的関数
• NMF では,分解行列因子の と を最適
化するための目的関数が距離関数として与
えられる
: 任意の距離関数
• この距離関数はデータや分解する目的に応
じて使い分けられる
ex.)
– 音源分離: 一般化KLダイバージェンス
– 自動採譜: 板倉-斉藤擬距離
30
-divergence について
• 一般化距離関数 -divergence [Eguchi, et al., 2001]
: ユークリッド距離
: 一般化KLダイバージェンス
: 板倉-斉藤擬距離
スパース性が重視
された距離尺度に
31
-divergence について
•
における
2
25
4
3
2
1
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
が正
=1)
20
15
10
5
=2)
12
EUC-distance
=0)
KL-divergence
IS-divergence
5x10
のグラフ
10
8
6
4
2
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
y-x
入力変数 がデータ より大きい
板倉-斉藤擬距離やKL-divergenceでは大きな距離値に
が負
入力変数 がデータ より小さい
板倉-斉藤擬距離やKL-divergenceでは小さな距離値に
32
-divergence について
•
における
2
25
4
3
2
1
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
=2)
12
20
15
10
5
10
8
6
4
2
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
y-x
0
-2
-4
-6
-8
-10
0
Amplitude [dB]
Amplitude [dB]
0
-2
-4
-6
-8
-10
0
=1)
EUC-distance
=0)
KL-divergence
IS-divergence
5x10
のグラフ
1
2
3
4
Frequency [kHz]
5
スパース性: 強
1
2
3
4
Frequency [kHz]
スパース性: 弱
5
33
-divergence について
•
における
のグラフ
97
2
-divergence
-divergence
-divergence
5x10
9x10
100
=100)
=3)
=4)
8
7
80
6
60
5
4
40
3
2
20
1
0
0
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
-5 -4 -3 -2 -1 0 1 2 3 4 5
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
y-x
y-x
さらに を大きくすると,入力変数 とデータ を
入れ替えたような性質になる
34
-divergence規範NMF [Nakano, et al., 2010]
•
-divergence の全ての において収束性が
保障された更新式の導出
はそれぞれ
の要素
35
Penalized Supervised NMF (PSNMF)
[Kitamura, et al., 2013]
• 分離する楽器の教師音を用いる手法
学習プロセス
目的の楽器の教師音を
用いて学習した基底
分離プロセス
教師基底
は
を固定して
を構成
となるべく無相関となるように求める
36
Penalized Supervised NMF (PSNMF)
[Kitamura, et al., 2013]
• 分離する楽器の教師音を用いる手法
学習プロセス
目的の楽器の教師音を
用いて学習した基底
分離プロセス
教師基底
を固定して
を構成
から再構成した
スペクトログラムが分離結果
37
多チャネル音楽信号分離デモ
4楽器から成るステレオ曲を実際に分解してみた。
原曲
分離音1
分離音2
全てのメロディが聞き取れた
ら、君もプロミュージシャン!
分離音3
分離音4
簡単
フルート
聞き取
れた?
難しい