音高による音色変化と未知楽器の 問題

音響的類似性を反映した楽器の階層表現の獲得と
それに基づく未知楽器のカテゴリーレベルの音源同
定
北原 鉄朗
京都大学大学院情報学研究科
1.研究の背景・目的
楽器音の音源同定
(音からの楽器名の同定)
∥
自動採譜・音楽アーカイブ構築
などにおいて重要な課題
音楽認識関連の研究の多くは,
音高推定を指向しており,
音源同定は少数
Feature Extraction
(e.g. Decay speed,
p(X|wpiano)
Spectral centroid)
p(X|wflute)
w = argmax p(w|X)
= argmax p(X|w) p(w)
<inst>piano</inst>
音源同定の一般的なアプローチ:
あらかじめ用意した各楽器の音響信号(学習データ)と比較
→学習データにない楽器(未知楽器)の入力は考慮されず
この問題を考慮する音源同定手法について検討
2.未知楽器の問題
 未知楽器の問題とは
学習データに含まれない楽器(未知楽器)をどう扱うか
という問題
 未知楽器の問題が重要な理由
① 世の中には,オーケストラ楽器から民族楽器まで
無数の楽器が存在
② 近年のディジタルオーディオ技術の発展により,
多種多様な楽音を自由自在に作れるようになった
 未知楽器の問題は,これまで扱われてこなかった
 本研究の解決策=カテゴリーレベルで同定する.
たとえば,バイオリンとビオラをシンセサイザー上で
合成して作った音に対して,
「楽器名はわからないが,弦楽器系の音」と判断
3.未知楽器のカテゴリー同定のための楽器カテゴ
リー
 未知楽器のカテゴリー同定
に適した楽器カテゴリー
∥
楽器の音響的類似性を
反映した楽器カテゴリー
表1 楽器の発音機構に基づく楽器カテゴリー
大分類
中分類
弦楽器
──
小分類
属する楽器
打弦楽器 PF
撥弦楽器 CG, UK, AG
擦弦楽器 VN, VL, VC
無簧楽器
木管楽器 単簧楽器
管楽器
複簧楽器
──
金管楽器
打楽器 (省略)
(省略)
PC, FL, RC
SS, AS, TS, BS, CL
OB, FG
TR, TB
(省略)
 楽器の発音機構に基づく
カテゴリー(右図)は,
上記の条件を満たさない.
また,物理的発音機構を
持たない電子楽器音には  具体的には,
適用できない
特徴空間上で各楽器間の距離を求め,
階層的クラスタリング*を行う
 楽器の音響的類似性を
反映した楽器カテゴリーを
*距離の短いペアを順に1つのクラスタに
まとめ上げる処理
自動作成
3.1 音響的類似性を反映した楽器カテゴリー作成の課題と解決策
課題1 どの特徴空間を使用する
か
⇒音源同定で用いるものと同じ
特徴空間を使用
課題2 特徴空間上の各楽器間の
距離をどのように測るか
⇒各楽器多数の音響信号から
多次元正規分布をつくり,
分布間の距離をマハラノビス
汎距離で求める.
3.2 カテゴリー作成条件
 使用データ:右表
 特徴空間:音源同定と同じもの
(表3の129個の特徴量をPCA,
LDAで18次元に圧縮)
表2 使用データ
楽器数
オーケストラでよく用いられる
19種類(打楽器を除く)
楽器個体 2~3種類/楽器
音の強さ 強・中・弱の3種類ずつ
奏法
通常の奏法のみ
データ数
153~696個/楽器(総数:6,247
個)
表3 129個の特徴量の概要
1. スペクトルに関する特徴
(周波数重心他)
2. パワーの時間変化に関する特徴
(パワー包絡線の近似直線の傾き他)
3. 各種変調
(周波数変調,振幅変調他)
4. 発音開始直後の非調波成分の特徴
3.3 カテゴリー作成結果
 部分的に発音機構に基づく
ものとは異なる結果に
 従来研究*が人手で与えた
ものと部分的に一致
*ただし,既知楽器のみを扱う
クラスタリング結果
 人間対象の聴取実験結果
とも一部一致
ただし,実楽器音を使った
大規模な聴取実験は少ない
大分類 中分類
大規模な楽器音データベースから
楽器カテゴリーを自動的に作る研究は
これまで行われてなかった
──
サックス
クラリネット
持続系
楽器 管楽器 リコーダー
低音系+α
表4 提案手法により得られた楽器カテゴリー
減衰系
楽器
──
小分類
属する楽器
ウクレレ以外 PF, CG, AG
UK
ウクレレ
弦楽器
高音系
VN, VL, VC
SS, AS, TS
CL
RC
TR, TB, BS, FG
OB, PC, FL
4.未知楽器のカテゴリーレベルの音源同定
4.1 処理の流れ
1. 楽器名レベルで同定
2. 1.の結果wと入力信号xとの
距離D(x,w)を計算
3. D(x,w)がしきい値以下なら
wを出力
4. D(x,w)がしきい値以上なら
カテゴリーレベルで再同定
既知・未知判定の精度
(表2の19楽器6,247音のうち,
ランダムに半分を選択)
既知楽器の評価データ:自然楽器音
(上記の残り半分)
未知楽器の評価データ:電子楽器音
(ヤマハ製MU2000に収録されている
Elec.Piano, Synth Strings, Synth
Brass)
4.3 実験結果
 約77%の未知楽器音を正確に同定
100%
80%
Accuracy
4.2 使用データ
学習データ:自然楽器音
60%
楽器名レベルで正解
カテゴリーレベルで正解
不正解
40%
既知楽器
未知楽器
20%
0%
Threshold: 50
Feat. Space:
既知楽器
未知楽器
40
30
PCA (23dim.)
25
40
30
25
PCA (18dim.)
40
30
25
PCA+LDA
(18dim.)
0%
20%
40%
60%
80%
100%
5.ま
と
め
 音源同定=自動採譜・音楽アーカイブ構築において重要な課題
 音源同定における問題=「未知楽器の問題」
 学習データに含まれない楽器(未知楽器)を適切に扱うことの
重要性を指摘
 未知楽器をカテゴリーレベルで同定することを提案
 「楽器名まではわからないけど,弦楽器系の音」という理解
 自然楽器音のみの学習で,約77%の電子楽器音を正しく同定
 上記実現のために適した楽器カテゴリーを自動作成
 楽器の発音機構に基づく従来の楽器カテゴリーと部分的に
異なる楽器カテゴリー
 人間が感じる音色類似性と部分的に一致
付録A 本研究で用いた音源同定手法
1st step: 特徴抽出
先行研究・楽器音響学の知見に基づいて定めた
129個の特徴量を抽出
e.g. 周波数重心
Piano
Flute
パワー包絡線の近似直線の傾き
Piano
decayed
Flute
not decayed
2nd step: 次元圧縮
① 主成分分析
(累積寄与率=99%)
129次元a79次元
② 線形判別分析
79次元a18次元
(∵19楽器対象)
3rd step: パラメータ推定
F0依存多次元正規分布の
パラメータ:
- 代表値関数
- F0正規化共分散行列
を18次元空間上で推定
Final step: ベイズ決定規則
次式を満たす楽器wを出
力:
w = argmax [log p(X|w; f)
+ log p(w; f)]