アクティベーション共有型非負値行列因子分解を用いた音像深度推定 ◎宮内 智, 北村 大地, 猿渡 洋, 中村 哲 (奈良先端大・情報科学研究科) 1. 研究背景と目的 非負値行列因子分解 (nonnegative matrix factorization: NMF) 既存の 音響システム 非負行列を2つの非負行列の 非負行列を つの非負行列の 行列積で表すスパース表現手法 既存の 音響システム 3D TV の映像 : スペクトログラム : 基底行列 Amplitude 既存のコンテンツでは各音源 既存のコンテンツでは各音源が のコンテンツでは各音源が 2ch に 混合されて収録されているため, 混合されて収録されているため,音像 収録されているため,音像 ごとに操作することが出来ない ごとに操作することが出来ない ある特定の映像だけが移動した場合に, ある特定の映像だけが移動した場合に, 映像に合わせて特定の音源だけ 映像に合わせて特定の音源だけを操作 合わせて特定の音源だけを操作 する事ができない する事ができない Frequency 3D テレビ等によって立体感のある奥行を テレビ等によって立体感のある奥行を 持たせた映像を呈示する事が可能 持たせた映像を呈示する事が可能 既存の音響 既存の音響システムではディスプレイより の音響システムではディスプレイより 前方に定位する 前方に定位する音像の再現は困難 定位する音像の再現は困難 音像と映像の知覚上の位置が一致せず 音像と映像の知覚上の位置が一致せず 視聴者は違和感を感じてしまう 視聴者は違和感を感じてしまう 3D TV の映像 5. 提案手法における特徴量抽出 混合音源問題 Frequency 音像定位操作問題 : アクティベーション行列 : 周波数ビン数 : 時間フレーム数 : 基底数 Amplitude Time スペクトログラム中で頻出 スペクトログラム中で頻出 するスペクトルパターン するスペクトルパターン Time が現れるタイミング 及び音量を表現する 音量を表現する 及び 違和感 違和感 アクティベーション共有型 NMF 飛び出す映像 飛び出さない音像 単一映像のみ移動 混合音全体が移動 L-ch スパース表現による次元 スパース表現による次元圧縮 表現による次元圧縮 本研究の最終目的 本研究の最終目的 立体映像に適した音像を呈示できる立体音響システムの構築 立体映像に適した音像を呈示できる立体音響システムの構築 NMF チャネル間で アクティベーションを 共有する 共有する 信号の方位情報 信号の方位情報を保ちつつ の方位情報を保ちつつ 目的音の特徴量抽出を行う 2. 波面合成法 デジタル信号処理過程で生じる デジタル信号処理過程で生じる 歪みや背景雑音の影響を取り除き 目的音の DOA 分布を取得できる 一次音源により生じる一次音場を複数のスピーカアレイを用い再現する技術 一次音源により生じる一次音場を複数のスピーカアレイを用い再現する技術 スピーカアレイよりも前方に音像を配置する 物理的な波面を合成する) スピーカアレイよりも前方に音像を配置する (物理的な波面を合成する 物理的な波面を合成する ことも可能 R-ch NMF 合成音場 元の音場 コスト関数 波面合成法 による再現 二次音源 (スピーカ) 一次音源 (元音源 元音源) 元音源 6. 提案手法における信号のフロー S P (ω ) Primary source ( x P , y P ) ( x Sn , 0 ) rPn S Sn (ω ) n th secondary source x ∆x y : 一次音源と参照 受聴線のy 座標の比 , (0, yR ) Reference listening line 立体映像に一致する奥行感のある音像を呈示することが可能となる 映像に一致する奥行感のある音像を呈示することが可能となる 〇 立体 × 音像の位置をユーザ側から指定する必要がある → 元音源の位置は分からない 元音源の位置は分からない 波面合成法で必要となる混合音源中の音像深度 奥行) 波面合成法で必要となる混合音源中の音像深度 (奥行 奥行 を推定する 本発表の目的 各時間周波数グリッドにおいて知覚される方位は1つの方向のみ(第一波面の法則) 各時間周波数グリッドにおいて知覚される方位は1つの方向のみ(第一波面の法則) ある方向に知覚される音の塊をオーディオオブジェクトと呼び,分離結果はこれに相当する ある方向に知覚される音の塊をオーディオオブジェクトと呼び,分離結果はこれに相当する チャネル間の チャネル間の音圧比を音源の方位情報としクラスタリングに 音圧比を音源の方位情報としクラスタリングによって方位毎の音源へ分離する よって方位毎の音源へ分離する L-ch 空間情報 R-ch 空間情報 L-ch input signal L-ch input signal :オブジェクト 番号 空間情報 L-ch input signal モノラル 合成信号 :Source component 歪み,干渉成分 Cluster C Cluster L Cluster R K-means クラスタ リングに リングによる 音源の方位分解 音源の方位分解 DOA Depth estimation Depth estimation Depth estimation 各クラスタの 各クラスタの DOA 分布形状を β で 評価することにより音像深度を推定する 評価することにより音像深度を推定する β の値が大きければ音源が遠い NMF 処理による 目的音源の 特徴量抽出 DOA 実験結果 6 :Centroid vector 提案手法 音の到来方向 (direction of arrival: DOA) 分布に基づく深度推定 Conventional method 1 Conventional method 2 NMF 処理無し 従来の NMF Proposed method アクティベーション 共有型 NMF Test source 1, 2, 3 NMF beta Reverberation time 目的音の DOA 分布形状を評価する ことにより音像の深度推定を試みる 評価値 Frequency DOA 実験条件 4. 提案手法の概要 音源の DOA でヒストグラムを作成すると 音源の距離によって形状が変化する 重み付き DOA ヒストグラム の作成 7. 実験条件および結果 R-ch input signal R-ch input signal R-ch input signal Clustering Normalization Binaural–recorded mixed source Right Left Weighted DOA histogram Activation- Activation- Activationshared NMF shared NMF shared NMF 3. k-meansクラスタリングに基づく方位分解 分離信号 Center Input stereo signal L-ch R-ch STFT Frequency 0 Frequency θ Pn Frequency (0, y P ) 5 Shape parameter 駆動関数 4 Image Imagemethod method conventional Conventionalmethod method11 conventional Conventionalmethod method22 Proposed method method proposed 3 2 1 ばらつき 一般化正規分布 : Target source Generalized Gaussian distribution: GGD Frequency DOA at intervals : Interference source 形状パラメータ β 値で形状が変化 0 0 0.5 1 1.5 2 2.5 3 3.5 4 Distance between source and listener (m) ばらつき 一般化正規 一般化正規分布の形状パラメータ 正規分布の形状パラメータ β の 算出により形状評価 = 深度推定を行う DOA NMF 処理により 処理により特徴量抽出が可能となり, により特徴量抽出が可能となり,リファレンス 特徴量抽出が可能となり,リファレンスの値に近付いている. リファレンスの値に近付いている. 提案法の NMF のみ,音源の距離に応じて評価値が上昇して推移している. 混合音源中の音像深度推定に対する提案法の有効性が示された. R-ch input signal Stereo signal K-means clustering ×目的音の DOAが埋もれてしまう が埋もれてしまう 信号処理で生じる 信号処理で生じる 人工的な歪み 8. まとめと今後の方針 まとめ 音像深度” 波面合成法の再現には ”音像深度 音像深度 が必要だが,混合音源では情報が失われている. 音像深度の推定を目的として,DOA 分布に基づく音像深度 音像深度の推定を目的として, 分布に基づく音像深度推定 深度推定を提案した. 推定を提案した. 信号処理問題の改良手法として 信号処理問題の改良手法としてアクティベーション共有型 処理問題の改良手法としてアクティベーション共有型 NMF を提案し適用した. 実験から,音像深度推定に対する提案手法の有効性が示唆された. Frequency L-ch input signal 実際の信号処理における問題点 Direction of arrival Weighted DOA histogram 今後の方針 他条件で 他条件 での追加実験の実施.実音源との比較
© Copyright 2024 ExpyDoc