音情報処理論 音響信号処理の基礎 ~独立成分分析、スパース表現など~ 東京大学大学院情報理工学系研究科/奈良先端大 猿渡 洋 音を聞き分ける耳:マイクロホンアレー 実際、人間も2つの耳で聞くことによって、 複数の異なる入力情報群から必要な要素 を抽出する ⇒ 計測情報処理の基礎 音の方向や複数音の聞き分けを行っている 音声処理での一例:マイクロホンアレー • 複数のマイクによって得られた複数の受音信号 のなかから、必要な情報(目的音声)のみを取り 出す装置 期待される応用 • 高性能な hands-free 通信 • 雑音にロバストな音声認識 ⇒ではどういうアルゴリズム (ソフト)が必要なのか? ブラインド音源分離の登場 Blind Source Separation (BSS) • 複数の音源信号が混合されて観測された場合、観測信号 のみから音源信号を自律的に推定する技術 • 目的音の方位・無音区間情報が不要 • マイク素子位置・特性情報も不要 独立成分分析(ICA)に基づくBSS 1989 J. Cardoso 第一世代 1990 C. Jutten (高次無相関化) 1994 P. Comon (ICAという言葉を定義) 1995 A. Bell (infomaxによる定式化) 1998 P. Smaragdis, S. Ikeda, H. Saruwatari … (音響信号へICAを導入) 第二世代 3 「独立」とは何か? 数学における「独立」の定義: • 2つの確率事象に関する同時確率密度分布 p( x1 , x2 ) が,それぞれの事象における周辺密度分布 p( x1 ), p( x2 ) の積で書ける場合を「(統計的に)独立」と呼ぶ. • つまり 独立 p( x1 , x2 ) p( x1 ) p( x2 ) 4 独立である場合の例 x2 x2 p( x1 , x2 ) p( x1 ) p( x2 ) 同時確率密度 p( x2 ) x1 周辺確率密度 周辺確率密度 p( x1 ) x1 5 独立ではない場合の例 x2 x2 p( x1 , x2 ) p( x1 ) p( x2 ) 同時確率密度 p( x2 ) x1 と x2 に 強い関連がある x1 周辺確率密度 周辺確率密度 p( x1 ) x1 6 独立成分分析(ICA)とは何か? 独立な成分の抽出: • 複数の確率信号が混合された観測系列から,統計 的に独立な個々の確率過程を分解する. 特徴: • 独立性は「無相関性」よりも厳しい尺度であり,確率 信号同士の確率密度構造の幾何が問われる.よって 「情報幾何学」とも呼ばれる. • 確率密度の構造を測るために,3次以上の統計量が 必要とされる.よって統計の分野では,「高次統計量 数理」の一種でもある. • 決定論的な目標値を与えずに最適化を行うことより, 学習理論の分野では「教師無し学習」とも呼ばれる. 7 独立成分分析と主成分分析 主成分分析(PCA): • 複数要因の混合で表現されるものの中から,分 散の大きなものの順に成分を取り出す. • エネルギーの大きな因子を優先した成分分解法 → エネルギーが大=影響が大と見なす 一方,独立成分分析は… • エネルギーの大小とは無関係に,「独立」なもの 同士に分解する.小さな成分でも他と独立性が 高ければそれを抽出することが可能. • 取り出される因子の順番は問わない. 8 独立成分分析と主成分分析の違い 信号1の散布図 信号2の散布図 9 主成分分析の場合 第二主成分 第一主成分 真の成分軸を 求められない 10 独立成分分析の場合 第二成分 第一成分 真の成分軸を 抽出可能 11 ICAに基づくBSS とは? 既知 おはよう 目的ユーザ マイク 1 互いに独立 音源分離 マイク 2 #&%¥ 妨害音 観測信号 1 ICAによる 観測信号 2 我々が知り得るのは 出力同士が最も関係 なくなるように最適化 これだけ ICAに基づくBSSの定式化 線形混合過程 A11 AL1 A1K s1 (t ) x1 (t ) ALK s K (t ) xL (t ) 混合行列 分離過程 コスト関数 独立? 音源信号 分離信号 観測信号 分離行列 y1 (t ) W11 y K (t ) WK 1 W1L x1 (t ) WKL xL (t ) 最適化 ICAにおける様々なコスト関数 分離信号ベクトル: y (t ) y1 (t ),..., y2 (t ) T Ey (t ) y (t ) diag T 2次統計量 • 信号間相関を最小化(複数時間区間利用) 高次統計量1 Ey (t ) y (t ) diag 3 T • 高次相関をも最小化 高次統計量2 E Φ y (t ) y (t ) diag • 源信号確率密度関数を仮定 Φ : tanh関数など T 非線型関数2の導出 独立⇒Kullback Leibler Divergenceの最小化問題 • 一般にKullback Leibler Divergenceとは2分布間の距離 p( z ) KL (v , z ) p ( z ) log dz p (v ) 上式において… p( z ) p( y1 ,, yK ) K p(v) k 1 p( yk ) 分離信号 y (t ) の同時分布密度関数 周辺分布密度関数の積 とおき,これらのKLを分離行列Wに関して最小化すれば独立 p( y ) KL (W ) p ( y ) log K dy k 1 p ( yk ) 最小化 非線型関数2の導出(cont’d) p( y) KL (W ) p ( y ) log K dy k 1 p ( yk ) K H (Y ;W ) H (Yk ;W ) k 1 1. 結合エントロピー 2. 周辺エントロピー和 H (Y ;W ) p ( y ) log p ( y )dy p ( x )(log p ( x ) log W )dx H ( X ) log W ( p( y ) p( x ) / | W |) H (Yk ;W ) p( y ) log p( yk )dy p( x ) log p ( yk )dx ( p( x )dx p( y )dy ) 非線型関数2の導出(cont’d) p( y) KL (W ) p ( y ) log K dy k 1 p ( yk ) K H (Y ;W ) H (Yk ;W ) k 1 1. 結合エントロピー 2. 周辺エントロピー和 H (Y ;W ) この値を最大化 p ( y ) log p ( y )dy ⇒p (音源間の関連を無くす x )(log p ( x ) log W )dx H ( X ) log W ( p( y ) p( x ) / | W |) H (Yk ;W ) この値を最小化 p( y ) log p( yk )dy ⇒p(個々の音を非ガウス化 x ) log p ( yk )dx ( p( x )dx p( y )dy ) 非線型関数2の導出(cont’d) 分離信号の同時確率密度と周辺確率密度積のKL擬距離 KL(W ) の W に関する勾配を求め,その逆方向に W を更新学習 KL( W) W ( W T ) 1 p ( x) (y )x T dx W T T 1 T log p ( y ) log p ( y ) 1 K ( W ) E x (y )x ( y) , ..., I E (y )y W T T 1 y y1 y K 音声の場合はSigmoid 関数で近似可能 様々なバリエーション EMアルゴリズムによるp(y)の同時推定 二次統計量によるp(y)の推定+高次統計量ICA [Saruwatari, ICASSP2009] ICAと音響信号処理の類似点を明らかにし、相補性を生かした高速 収束アルゴリズム [Saruwatari, IEEE Trans. SAP 2003 & 2006] 教師無し最適化としてのICA 従来の教師有り最適化:目標値が与えられる • 子育てで言えば「医者にするにはどうするか?」 • 最小化関数=∫ (医者 ー 子供の現在)2 • コスト関数が可計算、その微分勾配も可計算 ICA等の教師無し最適化:目標値が無い! • • • • 子育てで言えば「良い大人になりなさい!(でも具体的には?)」 最小化関数=div(???||子供の現在) ⇒陽に計算不可 コスト関数は可計算ではないが、その勾配は可計算 独立性自体をデータから測ることは困難であるが、どの方向に 動けば独立性が高まるかは計算可能 • 「勉強しよう」、「運動しよう」、「約束は守る」、「友達は大切に」… スパース信号解析としてのICA(1) スパース(疎)信号解析とICAの密接な関係 Amplitude Frequency Frequency • スパースな生起を有する信号の確率密度は非ガウス • より非ガウス分布に従う確率信号へ分解するのがスパース解析 • ICAによって分解される信号は、実際、より「疎」なものになる Time 観測スペクトログラム Time Amplitude アクティベーション行列 基底スペクトル行列 Ω: 周波数ビン数 𝑇: 時間フレーム数 𝐾: 基底数 スパース信号解析としてのICA(2) スパース(疎)信号解析とICAの密接な関係 • 「スパースさ」を測る尺度として「高次統計量」がある • 高次統計量を眺めて非ガウス性を測り、全ての分解信号を可能 な限り「ガウス分布から離れたものにする」のがICA • 音声信号は元来、非常に非ガウス(優ガウス)なので相性が良い 1 0.8 優ガウス 0.6 0.4 0.2 0 優ガウス -0.2 -0.4 1 0.8 -0.6 0.6 0.4 0.2 -0.8 0 -0.2 -0.4 -1 -0.6 ガウス ハンズフリー音声対話ロボシステムの構築 ・各種モジュールを統合した実環境動作可能な音声対話システム 典型的な駅騒音の中で 遠隔発話した場合でも ディスプレー キタちゃんロボ 90%以上 の単語認識率を達成 8チャンネル マイクアレー リアルタイム ブラインド空間 サブトラクションアレー 音声発話検出& 音声認識デコーダ 対話管理処理 応答音声生成 各種情報提示処理 (今後) ロボット動作 との連携 ハンズフリー音声対話ロボシステムの構築 ICA利用したアプリケーション 世界で初めてリアルタイム BSSモジュールが商用化さ れ、2008年には警察備品と して採用された。 ドコモモバイルサイエンス賞 京大NAIST-CRESTプロジ ェクトにて「場の雰囲気を読 むポスタセッションアーカイ ブシステム」に導入された。 ポスタ会場 発表者 質問者 スパース表現信号処理について ~非負値行列因子分解~ 25 研究背景 • 複数の楽器音が多重に混合された音楽信号 から,楽器音を分離・抽出 音楽信号分解 • 応用例 – ユーザが好み応じて各楽器音を編集 – 音楽信号の自動採譜 – 音の拡張現実 (AR) 等 26 研究背景 • 非負値行列因子分解 [Lee, et al., 1999] • データのスパース性,重ね合わせ表現を考慮 • 効率的な乗法型更新式 • 画像処理,信号処理等様々な分野への応用 27 … Frequency [Hz] Nonnegative Matrix Factorization (NMF) … Time [sec] 頻出スペクトル … … 各スペクトルの タイミングと音量 28 … Frequency [Hz] Nonnegative Matrix Factorization (NMF) … スペクトル基底行列 Time [sec] … … アクティベーション行列 29 NMF の目的関数 • NMF では,分解行列因子の と を最適 化するための目的関数が距離関数として与 えられる : 任意の距離関数 • この距離関数はデータや分解する目的に応 じて使い分けられる ex.) – 音源分離: 一般化KLダイバージェンス – 自動採譜: 板倉-斉藤擬距離 30 -divergence について • 一般化距離関数 -divergence [Eguchi, et al., 2001] : ユークリッド距離 : 一般化KLダイバージェンス : 板倉-斉藤擬距離 スパース性が重視 された距離尺度に 31 -divergence について • における 2 25 4 3 2 1 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x が正 =1) 20 15 10 5 =2) 12 EUC-distance =0) KL-divergence IS-divergence 5x10 のグラフ 10 8 6 4 2 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x y-x 入力変数 がデータ より大きい 板倉-斉藤擬距離やKL-divergenceでは大きな距離値に が負 入力変数 がデータ より小さい 板倉-斉藤擬距離やKL-divergenceでは小さな距離値に 32 -divergence について • における 2 25 4 3 2 1 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 =2) 12 20 15 10 5 10 8 6 4 2 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x y-x 0 -2 -4 -6 -8 -10 0 Amplitude [dB] Amplitude [dB] 0 -2 -4 -6 -8 -10 0 =1) EUC-distance =0) KL-divergence IS-divergence 5x10 のグラフ 1 2 3 4 Frequency [kHz] 5 スパース性: 強 1 2 3 4 Frequency [kHz] スパース性: 弱 5 33 -divergence について • における のグラフ 97 2 -divergence -divergence -divergence 5x10 9x10 100 =100) =3) =4) 8 7 80 6 60 5 4 40 3 2 20 1 0 0 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 y-x y-x y-x さらに を大きくすると,入力変数 とデータ を 入れ替えたような性質になる 34 -divergence規範NMF [Nakano, et al., 2010] • -divergence の全ての において収束性が 保障された更新式の導出 はそれぞれ の要素 35 Penalized Supervised NMF (PSNMF) [Kitamura, et al., 2013] • 分離する楽器の教師音を用いる手法 学習プロセス 目的の楽器の教師音を 用いて学習した基底 分離プロセス 教師基底 は を固定して を構成 となるべく無相関となるように求める 36 Penalized Supervised NMF (PSNMF) [Kitamura, et al., 2013] • 分離する楽器の教師音を用いる手法 学習プロセス 目的の楽器の教師音を 用いて学習した基底 分離プロセス 教師基底 を固定して を構成 から再構成した スペクトログラムが分離結果 37 多チャネル音楽信号分離デモ 4楽器から成るステレオ曲を実際に分解してみた。 原曲 分離音1 分離音2 全てのメロディが聞き取れた ら、君もプロミュージシャン! 分離音3 分離音4 簡単 フルート 聞き取 れた? 難しい
© Copyright 2024 ExpyDoc