音高による音色変化と未知楽器の 問題

音高による音色変化と未知楽器の
問題を考慮した楽器音の音源同定
北原 鉄朗* 後藤 真孝** 奥乃 博*
*京都大学大学院情報学研究科 **産業技術総合研究所
1.研究の背景・目的
楽器音の音源同定
(音からの楽器名の同定)
∥
自動採譜・音楽アーカイブ構築
などにおいて重要な課題
関連研究:
•音楽認識関連の多くは,音高推定を指向
(音源同定は少数)
•現状の性能は,
単独音:70-80% / 10-30クラス
混合音:60-70% / 3-5クラス
Feature Extraction
(e.g. Decay speed,
p(X|wpiano)
Spectral centroid)
p(X|wflute)
w = argmax p(w|X)
= argmax p(X|w) p(w)
<inst>piano</inst>
本研究では,
•音高による音色変化の問題
•未知楽器の問題
に着目して研究を遂行
2.音高による音色変化を考慮する音源同定
2.1 はじめに
音高による音色変化=音源同定を難しくする要因のひとつ
e.g. Piano
0.5
(a) Pitch = C2 (65.5Hz)
(b) Pitch = C6 (1048Hz)
0.5
Fast decay
Slow decay
0
0
-0.5
0
1
2
time [s]
3
-0.5
0
1
2
time [s]
3
本研究では,音高による音色変化を関数近似で表現するモデル
(F0依存多次元正規分布)とそれを用いた音源同定手法を提案
2.2 F0依存多次元正規分布
多次元正規分布を以下のように拡張


代表値関数:各特徴量の音高依存性を基本周波数の関数で近似.
音高によって変化する分布の平均を表す.
F0正規化共分散行列:代表値関数からのちらばりの程度を表す.
特徴量を代表値関数で正規化してから通常の共分散算出式を適用.
代表値関数
F0正規化共分散行列
左はピアノの第4軸,右はチェロの第1軸(いずれも次元圧縮後)
2.3 F0依存多次元正規分布を用いた音源同定手法
1st step: 特徴抽出
先行研究・楽器音響学の知見に基づいて定めた
129個の特徴量を抽出
e.g. 周波数重心
Piano
Flute
パワー包絡線の近似直線の傾き
Piano
decayed
Flute
not decayed
2nd step: 次元圧縮
① 主成分分析
(累積寄与率=99%)
129次元a79次元
② 線形判別分析
79次元a18次元
(∵19楽器対象)
3rd step: パラメータ推定
F0依存多次元正規分布の
パラメータ:
- 代表値関数
- F0正規化共分散行列
を18次元空間上で推定
Final step: ベイズ決定規則
次式を満たす楽器wを出
力:
w = argmax [log p(X|w; f)
+ log p(w; f)]
2.4 評価実験
楽器数
2.4.1 実験条件
楽器個体
音の強さ
 使用データベース:
RWC-MDB-I-2001のサブセット 奏法
(詳細は右表)
データ数
 10-fold cross validation
 音高は既知
2~3種類/楽器
強・中・弱の3種類ずつ
通常の奏法のみ
1楽器153~696個(総数:6,247個)
Baseline
2.4.2 実験結果
0
20
Proposed
40
60
80
100
認識率 [%]
100
認識率[%]
 79.73%の認識率実現
 音高による音色変化を
考慮しない場合に比べ
4.00%認識率向上
 19楽器中6楽器で,
認識率が7%以上向上
オーケストラでよく用いられる19種類
(打楽器は含まない)
認識率が7%以上向上した楽器
80
Baseline
Proposed
60
40
20
0
Piano Trumpet Trombone
Sop.
Sax
Bari. Faggoto
Sax
3.未知楽器を考慮する音源同定
3.1 はじめに
 未知楽器の問題とは
学習データに含まれない楽器(未知楽器)をどう扱うかという問題
 未知楽器の問題が重要な理由
① 世の中には,オーケストラ楽器から民族楽器まで
無数の楽器が存在
② 近年のディジタルオーディオ技術の発展により,
多種多様な楽音を自由自在に作れるようになった
 未知楽器の問題は,これまで扱われてこなかった
 本研究の解決策=カテゴリーレベルで同定する.
たとえば,バイオリンとビオラをシンセサイザー上で合成して作っ
た音に対して,「楽器名はわからないが,弦楽器系の音」と判断
3.2 未知楽器のカテゴリー同定に適した楽器カテゴリー
 未知楽器のカテゴリー同定
に適した楽器カテゴリー
∥
楽器の音響的類似性を
反映した楽器カテゴリー
楽器の発音機構に基づく楽器カテゴリー
大分類
中分類
弦楽器
──
小分類
属する楽器
打弦楽器 PF
撥弦楽器 CG, UK, AG
擦弦楽器 VN, VL, VC
無簧楽器
木管楽器 単簧楽器
管楽器
複簧楽器
──
金管楽器
打楽器 (省略)
(省略)
PC, FL, RC
SS, AS, TS, BS, CL
OB, FG
TR, TB
(省略)
 楽器の発音機構に基づく
カテゴリー(右図)は,
上記の条件を満たさない.
また,物理的発音機構を
持たない電子楽器音には  具体的には,
適用できない
特徴空間上で各楽器間の距離を求
め,階層的クラスタリング*を行う
 楽器の音響的類似性を
反映した楽器カテゴリーを
*距離の短いペアを順に1つのクラスタに
まとめ上げる処理
自動作成
3.2.1 音響的類似性を反映した楽器カテゴリー作成の課題と解決策
課題1 どの特徴空間を使用する
か
⇒音源同定で用いるものと同じ
特徴空間を使用
課題2 特徴空間上の各楽器間の
距離をどのように測るか
⇒各楽器多数の音響信号から
多次元正規分布をつくり,
分布間の距離をマハラノビス
汎距離で求める.
3.2.2 カテゴリー作成例
 使用データ:上記と同じ
 特徴空間:上記と同じ
 結果は,部分的に慣習的な
ものと異なる(右表)
ク
ラ
ス
タ
リ
ン
グ
結
果
提案手法により得られた楽器カテゴリー
大分類 中分類
小分類
ウクレレ以外
減衰系
──
楽器
ウクレレ
──
弦楽器
サックス
クラリネット
持続系
楽器 管楽器 リコーダー
低音系+α
高音系
属する楽器
PF, CG, AG
UK
VN, VL, VC
SS, AS, TS
CL
RC
TR, TB, BS, FG
OB, PC, FL
3.3 未知楽器のカテゴリーレベルの音源同定
3.3.1 処理の流れ
3.3.2 使用データ
学習データ:自然楽器音
1. 楽器名レベルで同定
2. 1.の結果wと入力信号xとの (RWC-MDB-I-2001から抜粋した19楽器
6,247音のうち,ランダムに半分を選択)
距離D(x,w)を計算
既知楽器の評価データ:自然楽器音
3. D(x,w)がしきい値以下なら
(上記の残り半分)
wを出力
未知楽器の評価データ:電子楽器音
4. D(x,w)がしきい値以上なら
(ヤマハ製MU2000に収録されている
カテゴリーレベルで再同定
楽器名レベルで正解
カテゴリーレベルで正解
不正解
既知楽器
未知楽器
0%
20%
40%
60%
80%
- エレクトリックピアノ(ElecPf),
- シンセストリングス(SynStr),
- シンセブラス(SynBrs).
※各々2バリエーションずつ使用)
3.3.3 実験結果
100%  約77%の未知楽器音を正確に同定
4.ま
と
め
 音源同定=自動採譜・音楽アーカイブ構築において重要な課題
 音源同定における問題①「音高による音色変化」
 音高による音色変化を表現するモデル
「F0依存多次元正規分布」を提案
 19楽器6,247音の楽器音データベースを用いて,79.73%の
認識率を実現
(音高による音色変化を考慮しない場合に比べ4.00%向上)
 音源同定における問題②「未知楽器」
 学習データに含まれない楽器(未知楽器)を適切に扱うことの
重要性を指摘
 未知楽器をカテゴリーレベルで同定することを提案
 「楽器名まではわからないけど,弦楽器系の音」という理解
 自然楽器音のみの学習で,約77%の電子楽器音を正しく同定