未知の楽器を考慮する楽器音の音源同定北原鉄朗† 後藤真孝†† 奥乃博† †京都大学大学院情報学研究科知能情報学専攻 ††産業技術総合研究所 9-11 Mar. 2004 研究の背景  ディジタル音楽配信が普及しユーザ個人が所有する音楽音響信号が増大  計算機で音楽を検索する技術が不十分 ⇒音楽音響信号に適切なタグを付与  MPEG-7: マルチメディアコンテンツに対するタグづけの枠組みを提供  最低限の事項のみ規定 ⇒ タグの内容と自動付与法について要検討研究の目的音楽音響信号に対する楽器タグの付与 ① 特にクラシック音楽では，使用楽器は楽曲を特徴づける重要なファクターである e.g. 「ピアノソナタ」「弦楽四重奏」 ⇒「ピアノソナタの曲を検索」のようなタスクで有用 ② 楽器名をキーとした頭出しに有用 e.g. 「フルートが弾き始めるところから聴きたい」 ③ 聴取者の好みや感性に依存しない本発表では，そのための第１段階として，単音を対象とした楽器音の音源同定を扱う →楽器名の同定何が問題なのか＝未知楽器＝楽器音の種類が膨大・多様 e.g. オーケストラ向け楽器，民族楽器シンセサイザーで合成した音，etc. ⇒ すべての音をあらかじめ学習することは事実上不可能 ⇒ 未学習の楽器を適切に扱える仕組みが必要未知楽器の問題（本研究にて初めて提起）未知楽器の問題人間は未知の楽器をどう理解するかバイオリンビオラ両者をシンセで合成した音予測：「楽器名はわからないけど，弦楽器系」 ⇒一段抽象度の高いレベルで音をとらえる既知楽器⇒楽器名レベルで認識未知楽器⇒カテゴリーレベルで認識発表の流れ ① 使用する音源同定手法 ② 楽器カテゴリーの自動作成 ③ 未知楽器のカテゴリー同定実験 ①使用する音源同定手法 1. 特徴抽出（129個） 2. 主成分分析で79次元に次元圧縮 3. 線形判別分析で18次元にさらに次元圧縮 4. 各楽器の分布の平均と共分散を推定 5. ベイズ決定規則に基づいて楽器名を同定（事後確率が最大になる楽器名を見つける） ˆ  arg maxlog p( x | i )  log p(i ) i ※事後確率＝入力音が当該楽器である確率 ①使用する音源同定手法 1. 特徴抽出（129個）例：周波数重心ピアノフルート ①使用する音源同定手法 1. 特徴抽出（129個）例：パワー包絡線の最小二乗法による近似直線の傾きピアノ time [ms] フルート ①使用する音源同定手法 1. 特徴抽出（129個） 2. 主成分分析で79次元に次元圧縮 3. 線形判別分析で18次元にさらに次元圧縮 4. 各楽器の分布の平均と共分散を推定 5. ベイズ決定規則に基づいて楽器名を同定（事後確率が最大になる楽器名を見つける） ˆ  arg maxlog p( x | i )  log p(i ) i ※事後確率＝入力音が当該楽器である確率 ②楽器カテゴリーの自動作成課題：同定に適した（＝音響的特徴を反映した）楽器カテゴリーをどのように得るか．解決策：音源同定システムの特徴空間上で階層的クラスタリングにより，自動作成階層的クラスタリングにおける課題：音高などにより各楽器の特徴空間上が変化 ⇒分布に対してクラスタリング（分布を100[個/楽器]以上のデータで求める） ②楽器カテゴリーの自動作成大分類中分類小分類ウクレレ以外減衰系 ── 楽器ウクレレ ── 弦楽器サックスクラリネット持続系楽器管楽器リコーダーブラス系＋α リード系属する楽器 PF, CG, AG UK VN, VL, VC SS, AS, TS CL RC TR, TB, BS, FG OB, PC, FL ③未知楽器のカテゴリー同定 (1) 楽器名レベルで同定 (2) 認識対象音から(1)の結果の学習データ（分布）までのマハラノビス距離を算出 (3) (2)がしきい値未満なら，(1)の結果を出力しきい値以上なら，カテゴリーレベルで再同定 p(X|wpiano) このマハラノビス距離をしきい値処理 p(X|wflute) ③未知楽器のカテゴリー同定  学習データ：自然楽器音  RWC-MDB-I-2001から抜粋した 19楽器6,247音からランダムに半分を選択  既知楽器の評価データ：自然楽器音  上記の残り  未知楽器の評価データ：電子楽器音  ヤマハ製MU2000に収録されている - エレクトリックピアノ(ElecPf)， - シンセストリングス(SynStr)， - シンセブラス(SynBrs)．実験結果楽器名レベルで正解カテゴリーレベルで正解不正解既知楽器未知楽器 0% 20% 40% 60% 80% 100%  既知楽器で約20%，未知楽器で約23%の誤り率．  既知・未知判定＝約85%  カテゴリー同定＝約92%  従来の発音機構ベースのカテゴリーでは約43% ∵従来のカテゴリーは電子楽器を考慮せず楽器ごとの実験結果  ElecPf A: 低精度 ∵既知・未知判定の精度が低い ⇒既知楽器に近い未知楽器の扱い要検討 80% 60% 40% 20% SynBrs B SynBrs A SynStr B SynStr A ElecPf B 0% ElecPf A Recognition Rates 100% まとめ  音源同定における新たな問題を提起「未知楽器の問題」（未学習の楽器をどう扱うか）  解決策：カテゴリーレベルで同定 ⇒「楽器名は分からないが弦楽器系」という human-likeな楽器音理解  上記のカテゴリー同定に適した楽器カテゴリーを自動作成する手法を提案 [今後の課題] 混合音・楽曲への適用質疑用スライド楽器名ピアノ，クラシックギター，ウクレレ，アコースティックギター，バイオリン，ビオラ，チェロ，トランペット，トロンボーン，ソプラノサックス，アルトサックス，テナーサックス，バリトンサックス，オーボエ，ファゴット，クラリネット，ピッコロ，フルート，リコーダ楽器個体 3種類（TR, OBのみ2種類）音の強さ 1楽器，強・中・弱の3種類ずつ奏法通常の奏法のみデータ数 1楽器153～696個（総数：6,247個）ピアノギター弦楽器金管楽器サックス複簧楽器クラリネット無簧楽器ピアノ(PF) クラシックギター(CG) ウクレレ(UK) バイオリン(VN) ビオラ(VL) トランペット(TR) ソプラノサックス(SS) アルトサックス(AS) オーボエ(OB) クラリネット(CL) ピッコロ(PC) フルート(FL) アコースティックギター(AG) チェロ(VC) トロンボーン(TB) テナーサックス(TS) バリトンサックス(BS) ファゴット(FG) リコーダー(RC) 本研究で用いた特徴量について 129個の特徴量の概要 (1) スペクトルに関する定常的特徴（40個）周波数重心，etc (2) パワーの時間変化に関する特徴（35個）パワー包絡線の線形最小二乗法による近似直線の傾き，etc (3) 各種変調の振幅／振動数（32個）振幅変調，周波数変調，周波数重心の時間変化，MFCCの時間変化 (4) 発音開始直後のピーク尖度に関する特徴（22個）発音開始直後のピーク尖度に関する特徴各周波数成分（11次倍音まで）を取り出し，各ピークの尖度（とんがり度）を算出 →非調波成分の豊富さを表す楽器の発音機構に基づく階層表現大分類中分類小分類打弦楽器撥弦楽器 ── 弦楽器擦弦楽器無簧楽器木管楽器単簧楽器管楽器複簧楽器 ── 金管楽器打楽器（省略）（省略）属する楽器 PF CG, UK, AG VN, VL, VC PC, FL, RC SS, AS, TS, BS, CL OB, FG TR, TB （省略）未知楽器同定に用いた電子楽器音  ヤマハ製MU2000に収録されている - エレクトリックピアノ(ElecPf)， - シンセストリングス(SynStr)， - シンセブラス(SynBrs)．  以下の観点から選択 - さまざまな音楽で用いられている， - 自然楽器のどれかに似ているが異なる音， - 「小分類」レベルで，あいまいなく正解設定可．未知楽器のカテゴリーレベルの認識 Recognition Rates 100% 80% 60% 40% 20% SynBrs B SynBrs A SynStr B SynStr A ElecPf B Conv. Prop.1 ElecPf A 0%  提案手法によって得られた楽器カテゴリーを用いることで，未知楽器を精度良く認識  楽器の発音機構に基づく分類は，（機械的発音機構の持たない）電子楽器には有効でないことを示唆楽器音の「既知」か「未知」かの判定 100% Accuracy 80% 60% 40% 既知楽器未知楽器 20% 0% Threshold: 50 40 30 25 Feat. Space: PCA (23dim.) 40 30 25 PCA (18dim.) 40 30 25 PCA+LDA (18dim.) PCA (23dim) において，約85%の正解率楽器音の「既知」か「未知」かの判定 100% Accuracy 80% 60% 40% 既知楽器未知楽器 20% 0% Threshold: 50 40 30 25 Feat. Space: PCA (23dim.) 40 30 25 PCA (18dim.) 40 30 25 PCA+LDA (18dim.) 「既知を正しく既知」と「未知を正しく未知」はトレードオフ ⇒応用に応じた適切なしきい値設定の必要性楽器音の「既知」か「未知」かの判定 100% Accuracy 80% 60% 40% 既知楽器未知楽器 20% 0% Threshold: 50 40 30 25 Feat. Space: PCA (23dim.) 40 30 25 PCA (18dim.) 40 30 25 PCA+LDA (18dim.) PCA＋LDAは精度低 ∵LDAは学習データの分離を良くする次元圧縮法多様な奏法を扱う場合の課題奏法による音響的違いを考慮したシンボル化 ⇒ 特徴ベクトルの分布を奏法別に作って本研究のカテゴリー作成法を適用（音響的違いの顕著な奏法は別カテゴリー）イメージ図 Piano (Normal) Violin (Pizz.) Violin (Normal) Violin (Vibrato) … カテゴリー同定の利用法  ピアノ曲の検索では… 再現率重視なら「ピアノに似た楽器」を含める適合率重視なら「ピアノに似た楽器」を含めない  「ピアノ」と「ピアノに似た楽器」をともに含む曲で両者を区別しながら採譜できる  音楽演奏の映像に対するタグ付けでは… 音から「楽器名はわからないが弦楽器」映像から「楽器名○○」 ⇒弦楽器に属する新たな楽器として再学習