アクティベーション共有型非負値行列因子分解を用 - 情報科学研究科

アクティベーション共有型非負値行列因子分解を用いた音像深度推定
◎宮内 智, 北村 大地, 猿渡 洋, 中村 哲 (奈良先端大・情報科学研究科)
1. 研究背景と目的
非負値行列因子分解 (nonnegative matrix factorization: NMF)
既存の
音響システム
非負行列を2つの非負行列の
非負行列を つの非負行列の
行列積で表すスパース表現手法
既存の
音響システム
3D TV の映像
: スペクトログラム
: 基底行列
Amplitude
既存のコンテンツでは各音源
既存のコンテンツでは各音源が
のコンテンツでは各音源が 2ch に
混合されて収録されているため,
混合されて収録されているため,音像
収録されているため,音像
ごとに操作することが出来ない
ごとに操作することが出来ない
ある特定の映像だけが移動した場合に,
ある特定の映像だけが移動した場合に,
映像に合わせて特定の音源だけ
映像に合わせて特定の音源だけを操作
合わせて特定の音源だけを操作
する事ができない
する事ができない
Frequency
3D テレビ等によって立体感のある奥行を
テレビ等によって立体感のある奥行を
持たせた映像を呈示する事が可能
持たせた映像を呈示する事が可能
既存の音響
既存の音響システムではディスプレイより
の音響システムではディスプレイより
前方に定位する
前方に定位する音像の再現は困難
定位する音像の再現は困難
音像と映像の知覚上の位置が一致せず
音像と映像の知覚上の位置が一致せず
視聴者は違和感を感じてしまう
視聴者は違和感を感じてしまう
3D TV の映像
5. 提案手法における特徴量抽出
混合音源問題
Frequency
音像定位操作問題
: アクティベーション行列
: 周波数ビン数
: 時間フレーム数
: 基底数
Amplitude
Time
スペクトログラム中で頻出
スペクトログラム中で頻出
するスペクトルパターン
するスペクトルパターン
Time
が現れるタイミング
及び音量を表現する
音量を表現する
及び
違和感
違和感
アクティベーション共有型 NMF
飛び出す映像
飛び出さない音像
単一映像のみ移動
混合音全体が移動
L-ch
スパース表現による次元
スパース表現による次元圧縮
表現による次元圧縮
本研究の最終目的
本研究の最終目的
立体映像に適した音像を呈示できる立体音響システムの構築
立体映像に適した音像を呈示できる立体音響システムの構築
NMF
チャネル間で
アクティベーションを
共有する
共有する
信号の方位情報
信号の方位情報を保ちつつ
の方位情報を保ちつつ
目的音の特徴量抽出を行う
2. 波面合成法
デジタル信号処理過程で生じる
デジタル信号処理過程で生じる
歪みや背景雑音の影響を取り除き
目的音の DOA 分布を取得できる
一次音源により生じる一次音場を複数のスピーカアレイを用い再現する技術
一次音源により生じる一次音場を複数のスピーカアレイを用い再現する技術
スピーカアレイよりも前方に音像を配置する
物理的な波面を合成する)
スピーカアレイよりも前方に音像を配置する (物理的な波面を合成する
物理的な波面を合成する ことも可能
R-ch
NMF
合成音場
元の音場
コスト関数
波面合成法
による再現
二次音源
(スピーカ)
一次音源
(元音源
元音源)
元音源
6. 提案手法における信号のフロー
S P (ω ) Primary source ( x P , y P )
( x Sn , 0 )
rPn
S Sn (ω ) n th secondary source
x
∆x
y
: 一次音源と参照
受聴線のy 座標の比
,
(0, yR )
Reference listening line
立体映像に一致する奥行感のある音像を呈示することが可能となる
映像に一致する奥行感のある音像を呈示することが可能となる
〇 立体
× 音像の位置をユーザ側から指定する必要がある → 元音源の位置は分からない
元音源の位置は分からない
波面合成法で必要となる混合音源中の音像深度
奥行)
波面合成法で必要となる混合音源中の音像深度 (奥行
奥行 を推定する
本発表の目的
各時間周波数グリッドにおいて知覚される方位は1つの方向のみ(第一波面の法則)
各時間周波数グリッドにおいて知覚される方位は1つの方向のみ(第一波面の法則)
ある方向に知覚される音の塊をオーディオオブジェクトと呼び,分離結果はこれに相当する
ある方向に知覚される音の塊をオーディオオブジェクトと呼び,分離結果はこれに相当する
チャネル間の
チャネル間の音圧比を音源の方位情報としクラスタリングに
音圧比を音源の方位情報としクラスタリングによって方位毎の音源へ分離する
よって方位毎の音源へ分離する
L-ch 空間情報
R-ch 空間情報
L-ch input signal
L-ch input signal
:オブジェクト
番号
空間情報
L-ch input signal
モノラル
合成信号
:Source component
歪み,干渉成分
Cluster C
Cluster L
Cluster R
K-means クラスタ
リングに
リングによる
音源の方位分解
音源の方位分解
DOA
Depth
estimation
Depth
estimation
Depth
estimation
各クラスタの
各クラスタの DOA 分布形状を β で
評価することにより音像深度を推定する
評価することにより音像深度を推定する
β の値が大きければ音源が遠い
NMF 処理による
目的音源の
特徴量抽出
DOA
実験結果
6
:Centroid vector
提案手法 音の到来方向 (direction of arrival: DOA) 分布に基づく深度推定
Conventional method 1
Conventional method 2
NMF 処理無し
従来の NMF
Proposed method
アクティベーション
共有型 NMF
Test source 1, 2, 3
NMF beta
Reverberation time
目的音の DOA 分布形状を評価する
ことにより音像の深度推定を試みる
評価値
Frequency
DOA
実験条件
4. 提案手法の概要
音源の DOA でヒストグラムを作成すると
音源の距離によって形状が変化する
重み付き DOA
ヒストグラム
の作成
7. 実験条件および結果
R-ch input signal
R-ch input signal
R-ch input signal
Clustering
Normalization
Binaural–recorded
mixed source
Right
Left
Weighted DOA histogram
Activation- Activation- Activationshared NMF shared NMF shared NMF
3. k-meansクラスタリングに基づく方位分解
分離信号
Center
Input stereo signal
L-ch
R-ch
STFT
Frequency
0
Frequency
θ Pn
Frequency
(0, y P )
5
Shape parameter
駆動関数
4
Image
Imagemethod
method
conventional
Conventionalmethod
method11
conventional
Conventionalmethod
method22
Proposed method
method
proposed
3
2
1
ばらつき
一般化正規分布
: Target source
Generalized Gaussian
distribution: GGD
Frequency
DOA
at
intervals
: Interference source
形状パラメータ β
値で形状が変化
0
0
0.5
1
1.5
2
2.5
3
3.5
4
Distance between source and listener (m)
ばらつき
一般化正規
一般化正規分布の形状パラメータ
正規分布の形状パラメータ β の
算出により形状評価 = 深度推定を行う
DOA
NMF 処理により
処理により特徴量抽出が可能となり,
により特徴量抽出が可能となり,リファレンス
特徴量抽出が可能となり,リファレンスの値に近付いている.
リファレンスの値に近付いている.
提案法の NMF のみ,音源の距離に応じて評価値が上昇して推移している.
混合音源中の音像深度推定に対する提案法の有効性が示された.
R-ch input signal
Stereo signal
K-means clustering
×目的音の DOAが埋もれてしまう
が埋もれてしまう
信号処理で生じる
信号処理で生じる
人工的な歪み
8. まとめと今後の方針
まとめ
音像深度”
波面合成法の再現には ”音像深度
音像深度 が必要だが,混合音源では情報が失われている.
音像深度の推定を目的として,DOA
分布に基づく音像深度
音像深度の推定を目的として,
分布に基づく音像深度推定
深度推定を提案した.
推定を提案した.
信号処理問題の改良手法として
信号処理問題の改良手法としてアクティベーション共有型
処理問題の改良手法としてアクティベーション共有型 NMF を提案し適用した.
実験から,音像深度推定に対する提案手法の有効性が示唆された.
Frequency
L-ch input signal
実際の信号処理における問題点
Direction of arrival
Weighted DOA histogram
今後の方針
他条件で
他条件
での追加実験の実施.実音源との比較