音高による音色変化と未知楽器の 問題を考慮した楽器音の音源同定 北原 鉄朗* 後藤 真孝** 奥乃 博* *京都大学大学院情報学研究科 **産業技術総合研究所 1.研究の背景・目的 楽器音の音源同定 (音からの楽器名の同定) ∥ 自動採譜・音楽アーカイブ構築 などにおいて重要な課題 関連研究: •音楽認識関連の多くは,音高推定を指向 (音源同定は少数) •現状の性能は, 単独音:70-80% / 10-30クラス 混合音:60-70% / 3-5クラス Feature Extraction (e.g. Decay speed, p(X|wpiano) Spectral centroid) p(X|wflute) w = argmax p(w|X) = argmax p(X|w) p(w) <inst>piano</inst> 本研究では, •音高による音色変化の問題 •未知楽器の問題 に着目して研究を遂行 2.音高による音色変化を考慮する音源同定 2.1 はじめに 音高による音色変化=音源同定を難しくする要因のひとつ e.g. Piano 0.5 (a) Pitch = C2 (65.5Hz) (b) Pitch = C6 (1048Hz) 0.5 Fast decay Slow decay 0 0 -0.5 0 1 2 time [s] 3 -0.5 0 1 2 time [s] 3 本研究では,音高による音色変化を関数近似で表現するモデル (F0依存多次元正規分布)とそれを用いた音源同定手法を提案 2.2 F0依存多次元正規分布 多次元正規分布を以下のように拡張 代表値関数:各特徴量の音高依存性を基本周波数の関数で近似. 音高によって変化する分布の平均を表す. F0正規化共分散行列:代表値関数からのちらばりの程度を表す. 特徴量を代表値関数で正規化してから通常の共分散算出式を適用. 代表値関数 F0正規化共分散行列 左はピアノの第4軸,右はチェロの第1軸(いずれも次元圧縮後) 2.3 F0依存多次元正規分布を用いた音源同定手法 1st step: 特徴抽出 先行研究・楽器音響学の知見に基づいて定めた 129個の特徴量を抽出 e.g. 周波数重心 Piano Flute パワー包絡線の近似直線の傾き Piano decayed Flute not decayed 2nd step: 次元圧縮 ① 主成分分析 (累積寄与率=99%) 129次元a79次元 ② 線形判別分析 79次元a18次元 (∵19楽器対象) 3rd step: パラメータ推定 F0依存多次元正規分布の パラメータ: - 代表値関数 - F0正規化共分散行列 を18次元空間上で推定 Final step: ベイズ決定規則 次式を満たす楽器wを出 力: w = argmax [log p(X|w; f) + log p(w; f)] 2.4 評価実験 楽器数 2.4.1 実験条件 楽器個体 音の強さ 使用データベース: RWC-MDB-I-2001のサブセット 奏法 (詳細は右表) データ数 10-fold cross validation 音高は既知 2~3種類/楽器 強・中・弱の3種類ずつ 通常の奏法のみ 1楽器153~696個(総数:6,247個) Baseline 2.4.2 実験結果 0 20 Proposed 40 60 80 100 認識率 [%] 100 認識率[%] 79.73%の認識率実現 音高による音色変化を 考慮しない場合に比べ 4.00%認識率向上 19楽器中6楽器で, 認識率が7%以上向上 オーケストラでよく用いられる19種類 (打楽器は含まない) 認識率が7%以上向上した楽器 80 Baseline Proposed 60 40 20 0 Piano Trumpet Trombone Sop. Sax Bari. Faggoto Sax 3.未知楽器を考慮する音源同定 3.1 はじめに 未知楽器の問題とは 学習データに含まれない楽器(未知楽器)をどう扱うかという問題 未知楽器の問題が重要な理由 ① 世の中には,オーケストラ楽器から民族楽器まで 無数の楽器が存在 ② 近年のディジタルオーディオ技術の発展により, 多種多様な楽音を自由自在に作れるようになった 未知楽器の問題は,これまで扱われてこなかった 本研究の解決策=カテゴリーレベルで同定する. たとえば,バイオリンとビオラをシンセサイザー上で合成して作っ た音に対して,「楽器名はわからないが,弦楽器系の音」と判断 3.2 未知楽器のカテゴリー同定に適した楽器カテゴリー 未知楽器のカテゴリー同定 に適した楽器カテゴリー ∥ 楽器の音響的類似性を 反映した楽器カテゴリー 楽器の発音機構に基づく楽器カテゴリー 大分類 中分類 弦楽器 ── 小分類 属する楽器 打弦楽器 PF 撥弦楽器 CG, UK, AG 擦弦楽器 VN, VL, VC 無簧楽器 木管楽器 単簧楽器 管楽器 複簧楽器 ── 金管楽器 打楽器 (省略) (省略) PC, FL, RC SS, AS, TS, BS, CL OB, FG TR, TB (省略) 楽器の発音機構に基づく カテゴリー(右図)は, 上記の条件を満たさない. また,物理的発音機構を 持たない電子楽器音には 具体的には, 適用できない 特徴空間上で各楽器間の距離を求 め,階層的クラスタリング*を行う 楽器の音響的類似性を 反映した楽器カテゴリーを *距離の短いペアを順に1つのクラスタに まとめ上げる処理 自動作成 3.2.1 音響的類似性を反映した楽器カテゴリー作成の課題と解決策 課題1 どの特徴空間を使用する か ⇒音源同定で用いるものと同じ 特徴空間を使用 課題2 特徴空間上の各楽器間の 距離をどのように測るか ⇒各楽器多数の音響信号から 多次元正規分布をつくり, 分布間の距離をマハラノビス 汎距離で求める. 3.2.2 カテゴリー作成例 使用データ:上記と同じ 特徴空間:上記と同じ 結果は,部分的に慣習的な ものと異なる(右表) ク ラ ス タ リ ン グ 結 果 提案手法により得られた楽器カテゴリー 大分類 中分類 小分類 ウクレレ以外 減衰系 ── 楽器 ウクレレ ── 弦楽器 サックス クラリネット 持続系 楽器 管楽器 リコーダー 低音系+α 高音系 属する楽器 PF, CG, AG UK VN, VL, VC SS, AS, TS CL RC TR, TB, BS, FG OB, PC, FL 3.3 未知楽器のカテゴリーレベルの音源同定 3.3.1 処理の流れ 3.3.2 使用データ 学習データ:自然楽器音 1. 楽器名レベルで同定 2. 1.の結果wと入力信号xとの (RWC-MDB-I-2001から抜粋した19楽器 6,247音のうち,ランダムに半分を選択) 距離D(x,w)を計算 既知楽器の評価データ:自然楽器音 3. D(x,w)がしきい値以下なら (上記の残り半分) wを出力 未知楽器の評価データ:電子楽器音 4. D(x,w)がしきい値以上なら (ヤマハ製MU2000に収録されている カテゴリーレベルで再同定 楽器名レベルで正解 カテゴリーレベルで正解 不正解 既知楽器 未知楽器 0% 20% 40% 60% 80% - エレクトリックピアノ(ElecPf), - シンセストリングス(SynStr), - シンセブラス(SynBrs). ※各々2バリエーションずつ使用) 3.3.3 実験結果 100% 約77%の未知楽器音を正確に同定 4.ま と め 音源同定=自動採譜・音楽アーカイブ構築において重要な課題 音源同定における問題①「音高による音色変化」 音高による音色変化を表現するモデル 「F0依存多次元正規分布」を提案 19楽器6,247音の楽器音データベースを用いて,79.73%の 認識率を実現 (音高による音色変化を考慮しない場合に比べ4.00%向上) 音源同定における問題②「未知楽器」 学習データに含まれない楽器(未知楽器)を適切に扱うことの 重要性を指摘 未知楽器をカテゴリーレベルで同定することを提案 「楽器名まではわからないけど,弦楽器系の音」という理解 自然楽器音のみの学習で,約77%の電子楽器音を正しく同定
© Copyright 2024 ExpyDoc