日本音響学会2012年秋季研究発表会 重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析 1-P-24(e) 西村大樹 ・ 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 従来手法 概要 Specmurt法 [S. Saito, 2008] 和音情報u(x)と楽器情報h(x)の畳み込みで 観測情報v(x)を表現できる 多重音解析とは 同時刻に様々な高さの音が存在する信号の解析 音量 周波数 多重音解析 v( x) h( x) u( x) より、 V ( y) U ( y) と計算でき、 H ( y) h(x) が既知であるならば 楽譜形式 1 u( x) h ( x) v( x) 時間 wavデータ 短時間フーリエ変換 スペクトル u( x) F[U ( y)] 時間 で和音情報は求められる u (x) 、h(x) 、v(x) をフーリエ変換したものを U ( y )、 H ( y)、V ( y )とすると ウェーブレット変換 ピアノロール形式 研究背景 耳による楽曲の解析は非常に困難 一般に楽器情報は未知である 和音情報を求めるには楽器情報が既知である必要がある 人手でも不可能ではないが、かなりの経験、労力、時間を要する 解析結果はMIDIフォーマットによる可視化が容易 いかに楽器情報をモデル化するかに焦点があった (非線形写像と最小二乗誤差に基づく方法) MIDI化できれば、カラオケ、音楽検索などの分野でも活躍が見込める 提案手法 基本周波数成分 用意された解の候補と同数の 楽器情報をSpecmurtの式を利用して求める 楽器情報は音階によってわずかに形が異なる 2次高調波周波数成分 楽器情報の形には拘る必要がないのではないか? 得られた楽器情報から理想的な楽器情報に 最も近いものを見つける 3次 4次 楽器情報のモデル化を行わない Step1 高調波周波数成分に大きな値を持ち、 それ以外にピークを持たない(スパース) 1 23 理想的な楽器情報 hi (x) のうち、高調波周波数成分を 持たないものは棄却 理想的な楽器情報に最も近いもの h~i ( x) は 棄却されなかった hi (x) の中から 以下のようにスパース性に基づいて決定される Sparseness(i) La(i) (1 ) Lb(i) ※αは重さ 正しいピークの組み合わせ = 和音情報 :基本周波数 :高調波周波数 ~ i arg min Sparseness (i ) 観測情報のピークは基本周波数と高調波周波数であるため、 正しいピークの組み合わせが和音の情報になると考えられる i Laは高調波成分を除く楽器情報のスパース性であり、以下のように計算される L1ノルムを用いる場合 観測情報のピークを基に、 解の候補を数多く用意する X N La(i) {1 ( j x)} | hi ( x) | x 1 j 1 L2ノルムを用いる場合 X N La(i) {1 ( j x)}hi ( x) x 1 2 j 1 Lbは高調波成分要素の和であり、以下のように計算される Step2 L1ノルムを用いる場合 X N Lb(i) ( j x) | hi ( x) | x 1 j 1 観測情報をもとに考えられる解の候補 ui (x) 候補から得られた楽器情報 L2ノルムを用いる場合 X N Lb(i) ( j x)hi ( x) 2 x 1 j 1 h~i ( x) に対応するui (x) が解として一意に決まる hi (x) 評価実験 今後の課題 実験結果 重みや式の選択の自動化 ``RWC-MDB-C-2001 No.43: Sicilienne op.78”を解析 従来手法 提案手法 最大 (重み, 式) (楽器によって最適な重みや式が違うため) 提案手法 (平均) (L1, L1) (L1, L2) (L2, L1) (L2, L2) 全 ピアノ 89.2% 92.7% (α=0.9, (L2, L1)) 87.3% 86.7% 90.8% 89.2% 88.5% ギター 74.3% 79.7% (α=0.4, (L2, L1)) 77.4% 77.0% 78.6% 77.8% 77.7% バイオリン 65.0% 71.7% (α=0.1, (L1, L1)) オクターブ違いの和音に対する改善 (提案手法ではオクターブ違いの和音に対応できない) 歌声の多重音の解析 (提案手法を利用して歌声によるハーモニーの音高を解析できるか) 62.1% 63.0% 61.1% 62.8% 62.2% 2012 Autumn Meeting of ASJ. (C) CS17, Kobe University.
© Copyright 2024 ExpyDoc