スライド 1

日本音響学会2010年秋季研究発表会
NMF と基底モデルを用いた多重楽音解析
2-P-10
中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大)
概要
[1] P. Smaragdis, 2003
非負値行列因子分解(NMF)による楽音解析[1]
 現在最も主流になっている楽音解析手法
 音楽音響信号のスペクトログラムをNMFによって分解
研究背景
 音楽信号処理の高い関心
 近年,音楽コンテンツが爆発的に増加している
 自動採譜技術の期待
 NMF…非負行列Xを,2つの非負行列W,Hの積に分解するアルゴリズム
 音楽アプリケーションなど,様々なアプリケーションへ応用可能
H
楽音解析
 ≒自動採譜
 音響信号(wav)から楽譜信号(midi)への変換
 複数の音が混ざり合う信号から,個別の音を推定する逆問題
X
W
 音楽信号のスペクトログラムをNMFで分解
アクティビティ行列
発音時刻などの情報を含む
観測スペクトル
 録音物(wavデータ)から楽譜(midiデータ)へ,自動的に変換する
基底行列
基本周波数の情報を含む
提案手法
従来手法の問題点
研究の動機
ポリフォニー音楽を解析できないときがある
問題点 ①
 人間は楽器の特徴を知っている
ピアノ
⇒音を聞き分けやすい
ドとミ
だな
そこで,基底行列が
既知であると過程
 基底行列を予め学習しておく
 提案手法の定式化
スペクトルが周期的
(倍音成分のみ)
ˆH
XW
アクティビティ行列H
スペクトルが混在している
⇒音高が求まる
更新ルール
既知
観測スペクトルX
問題点
hlj  hlj 
ˆ
基底行列W
i
xij
Wˆ H 
ˆ il
w
ij
音高を正しく求められない
提案手法の流れ
基底の数を適切に選ぶ必要がある
問題点 ②
0.2
問題
ポリフォニーを正しく解析できない
⇒対応する基底ベクトルだけに反応させる
規定数=2 (誤)
規定数=3 (正)
0.25
提案手法による問題解決

4
0.35
3
0.3
ソ
2.5
STFT
2
0.15
ラ
STFT
解決
ファ
0.25
2
0.1
ミ
1.5
0.2
1
0.05
0.15
0
レ
1
0
0
500
1000
1500
2000
2500
3000
3500
4000
4500
0
0.5
1
1.5
2
2.5
3
3.5
0.1
0.5
0.25
5
0.2
4
0.15
3
0.1
2
0.05
1
0
0
500
1000
1500
2000
2500
3000
3500
4000
4500
0
0
500
1000
1500
2000
2500
3000
3500
4000
4500
0
0.5
1
1.5
2
2.5
3
0.35
0
0.5
1
1.5
2
2.5
3
3.5
3
0.3
楽器情報を
用いたNMF
3.5
NMF
0
0
ドの基底に対応するアクティビティ
0.05
楽器情報
DB
2.5
問題
正しい基底の数を与えるのは困難
0.25
2
3
0.35
0.2
0.3
2.5
0.25
0.2
1
1.5
0.1
0.15
1
0.1
楽器情報の学習
1.5
0.15
2
0.5
0.05
事後処理
0.5
0.05
0
0
0
0
500
1000
1500
2000
2500
3000
3500
4000
4500
0
0.5
1
1.5
2
2.5
3
3.5
0
0
500
1000
1500
2000
2500
3000
3500
4000
4500
0
0.5
1
1.5
2
2.5
3
⇒解析時に用いる基底行列は既知
(基底の数を考慮する必要がない)
3.5
曲1
解決
曲3
問題点
既知基底
評価実験
楽音情報の推定
実験結果
従来手法1
(採譜の達人)
 客観評価による比較
実験手順
1. MIDIデータを録音
2. 提案手法により音響信号を解析
3. 元のMIDIデータと比較
Under 0 %
78.6 %
95.6 %
2曲目
Under 0 %
61.0 %
84.0 %
Time
オリジナル
(音長が異なっても正解とみなす)
推定結果
提案手法
10
8
採譜の
達人
採譜の
達人
提案手法
HTC
6
実験条件
 解析範囲…4 oct. (C2-B5)
 基底…ピアノの楽器構造を予め学習
 推定結果の例 (1曲目)
正解率 = 1 - (不正解ノート数/全ノート数)
(RWCデータベース)
 Sicilienne op. 78 (0:14)
 Crescent Serenade (0:24)
提案手法
1曲目
 主観評価による比較
実験データ
従来手法2
(HTC)
曲2
Note number
意図しない基底が表れる
まとめ
4
2
0
強度
一定値
(a)
強度推
定値
(b) 1曲目
(c)
Perceptually
(d)
(e)
(f)
2曲目
(g)
 従来のNMFによる手法の問題点を解決
 解析精度が高い
 非常に高速(1秒程度で解析)
Reproducibility
2010 Autumn Meeting of ASJ. (C) CS17, Kobe University.