拍時刻推定のサブモジュール群に対する重要度の検証

拍時刻推定のサブモジュール群に対する重要度の検証
Validity evaluation of submodule on a beat tracking system
岡田 創太†
Sota OKADA†
and
三浦 雅展‡
Masanobu MIURA‡
†龍谷大学大学院 理工学研究科 情報メディア学専攻
‡龍谷大学 理工学部 情報メディア学科
†Graduate School of Science and Technology, Ryukoku University
‡Dept. of Media Informatics, Faculty of Science and Technology, Ryukoku University
あらまし
拍時刻の推定手法は過去に多く提案されているが,どのような処理が重要であるか示した研究は報告
されていない.ここでは,拍適合度の算出,裏拍の棄却,欠落拍の棄却の 3 つのサブモジュールを併用した拍時刻の
推定手法を提案している.各モジュールを組み合わせた拍時刻の推定手法に対して評価実験を行なった結果,どのサ
ブモジュールも有要であり,特に,拍適合度の算出と裏拍の棄却のサブモジュールの組み合わせが自動推定への寄与
が大きいことが確認されている.さらに,提案する拍時刻の推定手法の汎用性については,拍の大きなゆらぎや非周
期的な場合に誤推定が多くみられることが確認されている.
キーワード
音響信号,拍,サブモジュール群,Spectral flux,アクセント
1. はじめに
MIR(Music Information Retrieval) の分野では,例えばス
ライドショーの自動生成システム[1] のような時間に関
する音楽情報を用いた研究が盛んに行なわれており,特
に拍の時刻(以降,拍時刻)の自動推定手法は数多く提案さ
れてきた[2-5].しかし,拍時刻を推定するにあたり,どの
ような処理が重要であるかを示した研究は報告されてい
ない.そこで本報告では,サブモジュール群を用いた拍
時刻推定手法を提案し,各サブモジュールの重要度を検
証することで,どのような処理が拍時刻推定において重
要であるかを明らかにする.また,推定手法の推定精度
の妥当性は,従来技術との比較によって評価する.さら
に,複数ジャンルの楽曲を対象に提案手法により拍時刻
推定をすることで,提案手法における汎用性,及び問題
点を明らかにする.
2. 事前知識
拍とは,例えばバスドラムの「ドンッ」という瞬発的に
発せられる大きな音(以降,アクセント音)や一定の周期
で出現する楽器の発音の存在によって示され[6,7],人々
は楽曲を聴取しながら手拍子などの動作をとることから
拍の位置を容易に認識することができる.音楽音響信号
における拍について考察すると,拍時刻では拍の基とな
るアクセント音が存在することが多く,アクセント音の
位置と出現周期を算出することで拍時刻を求めることが
できる可能性がある.しかし,拍の出現周期と半周期ず
れた位置においてもアクセント音が存在する場合があり
[2],本研究ではそのようなアクセント音を「裏拍」と呼
ぶこととする.また,楽曲の特定の区間において,アクセ
ント音が存在しない場合があるが,この場合でも拍が存
在する場合があり[2],本研究ではそのような拍を「欠落
拍」と呼ぶこととする.さらに,一般に拍の出現周期は表
現的な演奏や曲調の変化から一時的に拍の周期がゆらい
だり,徐々に拍の周期が変化する場合がある[3].このよ
うに,拍の特徴には多様性があり,拍と裏拍のような似
た特徴をもつものをどのように識別するかが難しいため,
音響信号から計算機を用いて自動的に拍時刻を推定する
ことは困難である.この問題は,拍に適合する特徴を明
らかにすることや,拍と裏拍のような似た特徴をもつも
のを正確に判別することで解決できると考えられる.さ
らに,特徴が小さいと考えられる欠落拍を補完すること
で拍時刻の推定精度が向上すると期待できる.
そこで本研究では,「拍適合度の算出」「裏拍の棄却」
及び「欠落拍の採択」の 3 つのサブモジュールを用いた
拍時刻推定手法を提案する.
3. 提案手法の概要
3.1. 既存手法の問題点とその解決策
1 より,拍時刻を自動的に推定する既存手法[2-4]はい
くつか存在する.[2]では,ショパンのピアノ曲やショス
タコーヴィッチの楽曲などに対して,MIDI データと音
響データを併用し楽曲構造から PLP という有力な局所
的パルス関数を求めて拍時刻を推定しているが,MIDI
のようなシンボリックデータが必要であるという問題が
ある.[3]では,カルマンフィルターを用いてアクセント
音の位置を特定し,テンポグラムからアクセントの周期
を算出することで拍時刻の推定している.[4]では,マル
チエージェントアーキテクチャと呼ばれる異なる解釈を
出力する判別器により,周波数帯域を分割し,多くの周
波数帯域でパワーの増加が確認された時刻を拍時刻とし
て推定している.[5]では,隠れマルコフモデルにより拍
時刻の推定している.
これら先行研究の問題点として,検出されたオンセッ
トやアクセント音のパワーが閾値を上回る場合は必ず拍
時刻として推定しており,拍及び裏拍におけるパワーが
ともに閾値を超える場合や拍時刻のオンセット音のパワ
ーが閾値を超えない場合を想定していない点がある.そ
のため,音響信号としては拍と同じような特性を持って
おり,実際の拍と半周期ずれた位置に存在する裏拍を拍
として誤推定してしまうという問題点がある.また,推
定された拍時刻が正しい拍時刻に同期されていなかった
り,拍のゆらぎに対応できていないという問題点もある.
これらの問題点を解決するためには,まずアクセント
音の時刻は拍時刻を表す可能性が高いが必ずしもアクセ
ント音の時刻が拍時刻となるわけではないので,拍適合
度の算出を行なう必要があると考えられる.具体的には,
アクセント音の出現周期上に存在しているアクセント音
の時刻及び欠落拍の時刻を拍に適合する時刻とすること
で拍適合度を算出している.また,拍と裏拍の特性につ
いては,拍は裏拍よりも「特徴的な音」であることを示し
た研究がある[5].ここでいう特徴的な音とは,スペクト
ルが大きく変化し,人間が聴取した際に耳につきやすい
音を意味する.したがって,アクセント音の周期上に存
在するアクセント音の内,スペクトルの変化量が大きい
アクセント音を拍として推定することで,裏拍誤りを解
決できると考えられる.さらに,欠落拍は,アクセント音
の出現周期から欠落拍の位置を予測すれば良い.これら
の処理を一定の区間ごとに区切られた楽曲の各区間に対
して行なうことで,拍時刻の出現周期が変化する拍のゆ
らぎについても対応できると考えられる.
3.2. 提案する拍時刻推定手法の概要
提案する拍時刻推定の流れを図 1 示す.この手法では,
拍の存在が期待されるアクセント音の時刻を得るために,
スペクトルの変動量の時間関数を算出し,そこからアク
セント音の時刻を検出する(図 1 内,(i),(ii)).また,既
存のテンポ推定手法[8] を用いて,アクセント音の出現周
期を求める(図 1 内,(iii)).そして,その周期上に存在
するアクセント音の時刻を拍に適合する時刻とし(図 1
内,(iv)),スペクトルの変動量が特に大きい拍に適合する
時刻を拍時刻として推定する(図 1 内,(v)).
図 1 提案する拍時刻推定の流れ
4. アクセント音の時刻と出現周期の算出法
4.1. アクセント音の時刻と出現周期の算出方針
2 より,拍は比較的大きな音であるアクセント音の存在
によって示されることが多い[6].そのため一定周期で出
現するアクセント音は,拍時刻を表す可能性が高い.そ
のため,本研究では,拍時刻の推定にはアクセント音の
時刻とアクセント音の出現周期が必要であると仮定する.
アクセント音は瞬発的に発せられる大きな音であるため,
パワースペクトルが急激に変化した時刻をアクセント音
の時刻とみなすことができる.また,アクセント音の出
現周期については,楽曲ごとにラベリングされたテンポ
値から求めればよい.音楽では通常,1 分間あたりの拍の
回数によりテンポ値を表現し,bpm(beats per minute) とい
̂は
う単位で表す.(テンポ値が T [bpm] のとき拍の周期ψ
60/T [s]である.
)そこで,本研究では自動的に拍時刻推定
を行なうため,既存のテンポ推定手法[8]を用いることで
自動的にアクセント音の出現周期を求める.そして,ア
クセント音の時刻と出現周期から,
「拍適合度の算出」
「裏
拍の棄却」及び「欠落拍の採択」の 3 つのサブモジュー
ルを用いることで,拍時刻を推定する.
4.2. ピーク時刻の検出法
3.1 より,アクセント音の時刻はパワースペクトルが急
激に変化した時刻を求めればよい.パワースペクトルの
急激な変化を表す音響パラメタに Spectral flux がある.
Spectral flux の時間関数𝐹ℎ の算出式を式(1)に示す.
N
Fh   Ph [n]  Ph 1[n]
(1)
n 1
式(1) における N は STFT(Short Time Fourier Transform)
に用いるサンプル点数,𝐹ℎ [𝑛]はℎ番目のフレームにおけ
る周波数𝑛のパワーを表している.
アクセント音の時刻を求めるには,Spectral flux の時間
関数の値が正から負へと変化する時刻(以降,このよう
な時刻をピーク時刻と呼ぶ)の検出が必要である.した
がって,入力された音響信号から𝐹ℎ を求め,𝐹ℎ の傾きの
時間関数から,その値が正から負へと変化する時刻を検
出することで,ピーク時刻を求めることができる.なお,
小さなピーク時刻はアクセント音ではない可能性がある
ため,それらをピーク時刻とみなすと,拍時刻の推定に
悪影響を与えると考えられる.そのため,𝐹ℎ の傾きの時
間関数から比較的大きいピークのみをアクセント音とし
て抽出する必要がある.
本研究では,この問題を解決するために,データ系列
に 対 す る 新 し い 正 規 化 手 法 OAN(Overlap-Add
Normalization)法を提案する.OAN 法とは,入力されたデ
ータ系列を短区間(ここでは,サンプル数 w = 861 点)ごと
に分解した後,各区間の最大値が同じ値(ここでは θ =
10.0)となるように正規化すると同時に三角窓を乗算しな
がら,オーバーラップするように加算合成することで,
入力されたデータ系列全体を正規化する手法である.
この OAN 法によって正規化されたデータ系列はデー
タ系列全体に対して値が比較的小さい区間が強調される
ため,例えば,楽曲の曲調が静かな区間と激しい区間が
存在する楽曲から得られた曲調に依存するデータ系列で
も,それらの区間同士の値を同じ尺度で扱うことが可能
となる.楽曲から抽出した𝐹ℎ を OAN 法を用いて正規化
した場合の例を図 2 に示す.図 2 からも確認できるよう
に,OAN 法を用いて正規化したデータ系列は,局所的な
値の大小関係を保ちつつ,データ系列全体に対して値が
比較的小さい区間が強調されている.
出する.次に,得られたエンヴェロープに対して STFT を
行ない,パワースペクトルを算出し,パワーの大きさに
基づいてテンポ値の候補を 2 つ列挙する.最後に,得ら
れた zero-crossings の回帰直線から得られたテンポ値を Z
テンポ値とし,この値に近い候補のテンポ値を最終的な
出力としている.
この手法から与えられたテンポ値から,アクセント音
の出現周期を算出する.
5. 提案する拍時刻推定手法のサブモジュール群
5.1. 拍適合度の算出法
図2
𝐹ℎ を OAN 法を用いて正規化した場合の例
4.3. アクセント音の時刻の検出法
4.2 に基づいた,アクセント音の時刻の検出の流れを図
3 に示す.図 3 は図 1 内の(ⅰ),(ⅱ)に相当する.具体的
な検出の流れは,まずサンプリング周波数 44100[Hz]の音
響信号から式(1)を用いて時間関数𝐹ℎ を算出する.次に,
𝐹ℎ から大きなピークのみをアクセント音として検出する
ために,OAN 法を用いて𝐹ℎ を正規化し,𝐹ℎ𝑧 を算出する.
そして,𝐹ℎ𝑧 におけるサンプル点群 R (ここでは R = 10)か
ら,最小二乗法によって回帰直線を算出し,その傾きを
時系列データとして持つ時間関数𝛥𝐹ℎ𝑧 を算出する.そして,
𝛥𝐹ℎ𝑧 の平均を閾値αとし,それを上回る値を持つピーク時
刻をアクセント音の時刻𝑡𝑖 として検出する.
本研究では,各アクセント音の時刻がアクセント音の
出現周期上に存在しているかを判定する 3 つの条件によ
り,アクセント音の時刻𝑡𝑖 における拍適合度Υ𝑡𝑖 を求める.
以下にこれらの条件を示し,各条件の概要を図 4 に示す.
 Around10 条件:
̂ (𝑙 = 1,2, … , 𝐿)(ここでは L = 5)の各 l における
𝑡𝑖 ± 𝑙ψ
̂ /𝜔) (ここ
2 点,すなわち全 10 点を中心とした±(ψ
では ω = 4)の範囲においてピーク時刻𝑡𝑖 が μ 回(ここ
では μ = 5)以上存在する場合,Υ𝑡𝑖 に 1 を加える.
 Pre10 条件:
̂ (𝑚 = 1,2, … , 𝑀)(ここでは M = 10)の各 m にお
𝑡𝑖 − 𝑚ψ
̂ /𝜔) (こ
ける 1 点,すなわち全 10 点を中心とした±(ψ
こでは ω = 4)の範囲においてピーク時刻𝑡𝑖 が μ 回以
上存在する場合,Υ𝑡𝑖 に 1 を加える.
 Post10 条件:
̂ (𝑚 = 1,2, … , 𝑀)(ここでは M = 10)の各 m にお
𝑡𝑖 + 𝑚ψ
̂ /𝜔) (こ
ける 1 点,すなわち全 10 点を中心とした±(ψ
こでは ω = 4)の範囲においてピーク時刻𝑡𝑖 が μ 回以
上存在する場合,Υ𝑡𝑖 に 1 を加える.
上に示した条件を 1 つでも満たすアクセント音の時刻は,
アクセント音の出現周期上に存在していると見なせるた
め,拍の可能性が高い.よってΥ𝑡𝑖 の値を「拍適合度」の
指標として用いる.ただしこの段階では,拍,裏拍ともに
拍適合度の高い時刻(Υ𝑡𝑖 > 0) となってしまうため,得られ
た拍適合度の高い時刻から,拍の時刻のみを推定する必
要がある.
図 3 アクセント音の時刻の検出の流れ
4.4. アクセント音の出現周期の算出法
4.1 で述べたように,拍の推定には,アクセント音の時
刻の他に,アクセント音の出現周期が必要となる.アク
セント音の出現周期は,楽曲のテンポの値と同義である.
本研究では,既存のテンポ推定手法[7]を用いることとす
る.具体的な処理の流れは,入力された音響信号に対し
て平滑化とダウンサンプリングを行ない,エンヴェロー
プを算出すると同時に,音響信号から zero-crossings を算
図 4 拍適合度を判定する条件の概要
5.2. 裏拍の棄却法
3.1 より,拍は裏拍よりも特徴的な音であり,スペクト
ルが大きく変化するため,例えば,実際の拍時刻と対応
するアクセント音の時刻𝑡𝑖 上における𝛥𝐹ℎ𝑧 の値は比較的
̂ 分進んだ時刻𝑡𝑖 +
高く,𝑡𝑖 からアクセント音の出現周期ψ
̂ の時刻周辺に存在するアクセント音の時刻𝑡𝑖±τ 上にお
ψ
ける𝛥𝐹ℎ𝑧 の値も常に比較的高い値を示すと考えられる.
この考えに基づいた裏拍の棄却法の具体的な処理の例
を図 6 に示す.図 6 に示すように,5.1 で得られたΥ𝑡𝑖 > 0
となる各アクセント音の時刻𝑡𝑖 から,アクセント音の出現
̂ 分進んだ時刻𝑡𝑖 + ψ
̂ を中心とする±(ψ
̂ /𝑜) (ここでは,
周期ψ
̂
o = 5) 以内において,𝑡𝑖 ± ψに最も近いアクセント音の時
刻𝑡𝑖±τ を検出していき,その後,検出された時刻群𝑡𝜂(𝜄)に
おける𝛥𝐹ℎ𝑧 の平均値𝛥𝐹 𝑧 [𝜂]を算出する.ここで,𝜂は裏拍
の棄却のために検出されたアクセント音群の ID,𝜄は裏拍
の棄却のために検出されたアクセント音の時刻群内のア
クセント音の時刻の ID を表している.そして,𝛥𝐹 𝑧 [𝜂]が
最大となるアクセント音の時刻群𝑡𝜂(𝜄) を拍時刻として出
力する(図 6 の場合は,𝑡0(𝜄) が拍時刻として出力される).
精度を比較した.
本研究では,RWC データベース:ポピュラー楽曲から
抜粋した楽曲 20 曲[10]と市販されているポピュラー楽
曲 20 曲の計 40 曲を聴取者に聴取させ,その楽曲の拍時
刻においてクリック音が発音される Wave 形式のラベリ
ングデータをそれぞれ作成させ,それを正解データとし
て用いることとした.また,RWC 楽曲のリスト,及びポ
ピュラー楽曲のリストをそれぞれ表 2,表 3 に示す.
表 1 各条件の組み合わせのパターン
AWM Cond.
AW Cond.
AM Cond.
WM Cond.
A Cond.
W Cond.
M Cond.
Alloc.
✔
✔
✔
Weak beat Missing beat
✔
✔
✔
✔
✔
✔
✔
✔
✔
Alloc.:Allocationability of beat
表 2 RWC 楽曲のリスト
図 6 提案する裏拍の棄却法の具体的な処理の例
5.3. 欠落拍の採択法
1 より,欠落拍とはアクセント音が存在しない時刻の拍
であるため,アクセント音が存在する区間から欠落拍の
位置を予測することで推定できる可能性がある.具体的
には,拍は一定周期で現れるという特性を利用し,アク
セント音の時刻からアクセント音の出現周期分進んだ位
置にアクセント音が存在しない場合は,その時刻を欠落
拍とすることで,欠落拍の位置を推定する.例えば,図 6
̂ を中心とする±(ψ
̂ /𝑜)以内において,ア
の𝑡0(4) は,𝑡𝑖 ± ψ
̂の
クセント音の時刻が存在していない.この場合は𝑡𝑖 ± ψ
̂
時刻に欠落拍が存在していると見なし,𝑡𝑖 ± ψの時刻へ 1
を加えることで欠落拍を採択する.
6. 拍時刻の推定精度評価
6.1. 推定精度評価の方針及び評価指標
提案手法における 3 つのサブモジュール群の重要度を
検証する.推定精度の評価尺度には,先行研究[2]でも用
いられている F-measure,Precision,Recall と呼ばれる 3
つを用いた.Precision と Recall はそれぞれ精度と再現率
を示し,F-measure は Precision と Recall から求めること
ができる.
5 で 述 べ た サ ブ モ ジ ュ ー ル 群 の う ち ,「 拍 適 合 度
(Allocationability of beat) の算出」処理を A 条件,「裏拍
(Weak beat) の棄却」処理を W 条件,
「欠落拍(Missing beat)
の採択」処理を M 条件とし,それぞれを分割し,各サブ
モジュールを網羅的に組み合わせて,拍時刻推定精度の
評価実験を行ない比較することでサブモジュール群の重
要度を検証した.評価実験を行なう各条件の組み合わせ
のパターンを表 1 に示す.また,既存手法として,Sonic
Visualiser の Aubio Vamp plugins[9]に装備されている Aubio
Beats tracker を用いた評価実験を行なうことにより推定
楽曲ID
RWC_01
RWC_02
RWC_03
RWC_04
RWC_05
RWC_06
RWC_07
RWC_08
RWC_09
RWC_10
楽曲番号
No.1
No.2
No.3
No.4
No.5
No.6
No.7
No.8
No.10
No.11
楽曲ID
RWC_11
RWC_12
RWC_13
RWC_14
RWC_15
RWC_16
RWC_17
RWC_18
RWC_19
RWC_20
楽曲番号
No.12
No.13
No.14
No.15
No.16
No.17
No.18
No.19
No.20
No.21
表 3 ポピュラー楽曲のリスト
楽曲ID
popular_01
popular_02
popular_03
popular_04
popular_05
popular_06
popular_07
popular_08
popular_09
popular_10
popular_11
popular_12
popular_13
popular_14
popular_15
popular_16
popular_17
popular_18
popular_19
popular_20
タイトル
ねがい
Not Found
月光
Mr.Taxi
Lost And Found
掌
She Will Be Loved
ロックンロールは生きている
Re:Make
Dear Show
17才
Get Into A Groove
Graceful World
Moon
Rescue Me
When We Stand Together
If Everyone Cared
青い蝶
Emerald Sword
Y/N
アーティスト名
B'z
Mr.Children
鬼束ちひろ
GIRLS' GENERATION
ONE OK ROCK
Mr.Chilrden
マルーン5
Mr.Children
ONE OK ROCK
嵐
Base Ball Bear
Every Little Thing
Every Little Thing
Every Little Thing
Every Little Thing
Nickelback
Nickelback
秦 基博
Rhapsody
school food punishment
6.2. 推定精度の評価結果とその考察
6.1 で作成した拍時刻のラベリングデータと,各条件で
推定された拍時刻をそれぞれ比較することで,各楽曲に
おける拍時刻の F-measure,Precision,Recall をそれぞれ
算出し,平均値を求めた.なお,正解とする時刻誤差は,
ラベリングされた拍時刻を中心とし,許容する時刻誤差
を段階的に変化させ評価を行なった.このように許容す
る時刻誤差を設定することで,例えば 120[bpm] の場合で
̂ = 10,ψ
̂ = 7,ψ
̂ = 5 であればそれぞれ最大で 50,
は,ψ
70,100[ms]のずれを正解とする基準となる.図 7 に拍時
刻推定の評価結果を示す. 図 7 のグラフのティックは
95%CI(Confidence Interval)を示している.図 7 より,AWM
条件と Sonic Visualiser による結果を比較すると,提案手
法が既存手法よりも高い推定精度であることが確認され
図 7 拍時刻推定の評価結果
た.次に,AWM 条件と AM 条件及び WM 条件を比較す
ンルであり,各ジャンルから 2 曲ずつ選出することで合
ると,AWM 条件に比べてどちらも値が低下しているこ
計 12 曲を用いた.使用した 12 曲の楽曲情報を表 4 に示
とから,拍適合度,及び裏拍の処理が重要であることが
す.表 4 より,使用した楽曲の音楽ジャンルは,クラシ
確認された.しかし,A 条件と W 条件に注目すると,推
ック,JAZZ,ライヴ音源,ラップ,演歌,洋楽の 6 種類
定精度が低いことから,2 つのサブモジュールを組み合わ
であり,クラシックや JAZZ などの楽曲を用いることで,
せることでうまく作用することが確認された.また,
拍のゆらぎが大きい場合や楽器構成がポピュラー楽曲と
AWM 条件と AW 条件を比較すると,推定精度に差がほ
は異なる場合においても推定できるかを調査できる.ま
とんど見られず,欠落拍の採択がうまく作用していない
た,ライヴ音源を用いることで,背景雑音が音源に含ま
と見受けられるが,M 条件のみに注目すると,0.4 ポイ
れる場合においても推定できるかを調査できる.最後に,
ントの推定精度があることが確認された.これは,欠落
ラップや演歌,洋楽などの楽曲を用いることで,音楽特
拍が存在する場合にこの処理は作用するが,AW 条件で
徴が異なる楽曲に対しても推定できるかを調査できる.
欠落拍をほぼ出さずに推定することができたため,推定
聴取実験による評価尺度は 5 段階尺度であり,0 ~ 4 の
精度に差が見られなかった可能性があった.また,A 条
値で表される.それぞれの値は「全く推定できていない
件及び W 条件に注目すると Precision の値が Recall と F(0)」,
「どちらかと言うと推定できていない(1)」,
「どちら
measure の値に比べて高いことが確認された.これは,
ともいえない(2)」,「どちらかと言うと推定できている
Precision の分母が推定された拍の総数であることから,
(3)」,
「かなり推定できている(4)」の 5 段階である.聴取
これら 2 つの条件は推定された拍の総数が少なかったと
実験の被験者は音楽経験がある本学学生 3 名(平均年齢 =
考えられる.最後に,最終的な推定精度が F-measure,
21.3)であり,被験者 3 名の評価値を楽曲ごとに平均する
Precision,Recall のどの尺度でも約 0.8 となった.
ことで,平均評価スコアを算出する.
表 4 使用した 12 曲の楽曲情報
7. 提案手法の汎用性
7.1. 調査方針
6 より,ポピュラー音楽に対する提案手法の有効性が
確認されが,ポピュラー音楽以外の楽曲を対象とした提
案手法の有効性については調査されていない.つまり,
他ジャンルの楽曲に対する推定精度が不明であり,提案
手法の汎用性が確認できていない.この点は,ポピュラ
ー楽曲以外の楽曲や,ライヴ音源などの背景雑音が含ま
れる音源に対しても提案手法を用いて拍時刻推定を行な
い,その精度を評価することで確認することができると
考えられる.そこで本章では,6 通りの音楽ジャンルの楽
曲に対して拍時刻推定を行なう.この結果から,それぞ
れの楽曲に対して推定された拍時刻の位置にクリック音
を付与する.クリック音が付与された楽曲を音楽刺激と
して聴取実験を行なう.具体的には,音楽刺激を被験者
に聴取させ,拍時刻が正しく推定できているかを 5 段階
で主観評価させる.そして,各被験者の評価値を楽曲ご
とに平均することで,平均評価スコアを算出し,その楽
曲における推定精度を評価する.また,楽曲を聴取した
際に,正しく推定されていないと感じた時刻を自由記述
させた.記述させた時刻の音楽的特徴から誤推定の要因
を考察することで提案手法における問題点を考察する.
7.2. 聴取実験の概要
7.1 で述べた調査で使用する楽曲は,6 通りの音楽ジャ
Tune ID
1
2
3
4
5
6
7
8
9
10
11
12
音楽ジャンル
クラシック
クラシック
JAZZ
JAZZ
ライヴ音源
ライヴ音源
ラップ
ラップ
演歌
演歌
洋楽
洋楽
アーティスト名 楽曲名
ベルガマスク組曲 第3曲「月の光」
ドビュッシー
ガーシュイン
ラプソディー・イン・ブルー
ビル・エヴァンス ビースビース
ビル・エヴァンス マイ・ファニー・ヴァレンタイン
Chelly
ブラック★ロックシューター
TRICK
東方神起
RIP SRYME
Good Day
RIP SRYME
Super Shooter
坂本冬美
祝い酒
坂本冬美
ふたりの大漁節
Ariana Grande problem
One Direction Everything About You
7.3. 結果
7.2 で述べた 12 曲に対して提案手法を用いて拍時刻推
定を行ない,推定された拍時刻に位置にクリック音を付
与した音楽刺激を作成した.この刺激を用いて聴取実験
を行ない,楽曲ごとに平均評価スコアを算出した.なお,
被験者 3 名による 12 曲に対する評価値の相関係数は,
0.58 < r < 0.85(average = 0.72,n = 12)であった.ここで,
各楽曲における平均評価スコアを図 8 に示す.図 8 より,
Tune ID = 2, 3 の平均評価スコアが最も低く 1.0 であった.
また Tune ID = 12 の平均評価スコアが最も高く 4.0 であ
った.これは,全被験者がかなり推定できていると評価
していることを示しており,この楽曲に対して提案手法
は有効であることを示している.また,クラシック楽曲
の Tune ID = 1, 2,および JAZZ 楽曲の Tune ID = 3, 4 は平
均評価スコアが全体的に低いことが確認できる.また,
Tune ID = 9 についても平均評価スコアが 2.0 を下回って
おり,正しく推定できていないことが確認できる.
効な手法になることが確認された.
8. まとめ
図 8 各楽曲における平均評価スコア
7.4. 考察
7.3 で述べた聴取実験結果について考察する.まず,
Tune ID = 1 は全体的に拍のゆらぎが大きく,正しく拍時
刻を推定できていないと考えられる.また,この楽曲は,
歌唱なしのピアノのみの演奏からなる楽曲であるため,
ポピュラー楽曲に比べて拍時刻にアクセント音が存在し
ない場合があり,人が拍を知覚することも困難な楽曲で
あった.Tune ID = 2 についても拍のゆらぎが大きく正し
く推定ができていないと考えられる.また,テンポ推定
の処理の際に,テンポ値を倍の値で推定しているため,
拍の出現周期が倍の周期で推定されていると考えられる.
Tune ID = 3 は JAZZ 楽曲であり,非周期的な演奏であっ
たため,正しく拍を推定できなかったと考えられる.ま
た,他楽曲と同様に,テンポ値を正しく推定できていな
いことから拍の周期が誤って推定されていると考えられ
る.Tune ID = 4 も Tune ID = 3 と同様の考察ができるが,
アクセントが強調された楽曲であることから Tune ID = 3
よりも推定率が高くなったと考えられる. ライヴ音源の
Tune ID = 5, 6 は,前奏や間奏では,観客の歓声や手拍子
などによる環境雑音が入るが,歌唱が含まれる部分にお
いては雑音が少なく,拍時刻推定においてはそこまで影
響されなかったと考えられる.Tune ID = 7, 8 はラップで
歌唱された楽曲であるが,ラップによる拍時刻の誤推定
は見受けられなかった.ただし,tuniID = 8 は,A メロや
B メロごとでテンポ値が変動しており,テンポ値を正し
く推定できていないことによる誤推定だと考えられる.
Tune ID = 9 は拍の周期が倍で推定されているが全体的に
は正しく推定できていた.ただし,音楽ジャンルが演歌
であり,こぶしを用いた歌唱の際に,拍時刻が誤推定さ
れた.Tune ID = 11 は男性ボーカルがささやくように歌唱
する部分で裏拍の時刻を拍時刻として誤推定していた.
これは,拍時刻のアクセント音よりも裏拍の時刻のアク
セント音の方が大きくなったため,正しく拍が推定でき
なかったと考えられる.洋楽の Tune ID = 11, 12 はどちら
も平均評価スコアが高く,歌唱言語による拍時刻の推定
精度の違いはほとんど見受けられなかった.
以上のことから,提案手法は,拍のゆらぎが大きい場
合や,楽曲内で大きなテンポ変動が存在する場合,また
非周期的な演奏の場合などで誤推定を起こすことが確認
された.また,テンポ値を正しく推定できていないこと
から生じる拍の出現周期の推定誤りが多く見られ,テン
ポ推定手法の改良が必要であると考えられる.また,提
案手法はライヴ音源やラップ,演歌,洋楽などのジャン
ルを対象としても,テンポ推定誤りを改善することで有
本研究では,拍適合度の算出,裏拍の棄却,及び欠落拍
の採択の 3 つのサブモジュールを用いた拍時刻の推定手
法を提案した.3 つのサブモジュールをそれぞれ組み合わ
せて,拍時刻推定精度の評価実験を行ない比較すること
でサブモジュール群の重要度を検証した.その結果,
「拍
適合度の算出」及び「裏拍の棄却」のサブモジュール群が
重要であることが示された.また,拍を補完する処理が
「欠落拍の採択」のサブモジュールのみであることから,
欠落拍が多い楽曲や,拍時刻の推定誤りが多い場合など
では,
「欠落拍の採択」のサブモジュールも重要であるこ
とが示された.また,提案手法の汎用性を調査したとこ
ろ,拍のゆらぎが大きい場合や,楽曲内で大きなテンポ
変動が存在する場合などで誤推定を起こすことが確認さ
れた.また,テンポ値を正しく推定できていないことか
ら生じる拍の出現周期の推定誤りが多く見られ,テンポ
推定手法の改良と拍のゆらぎが大きい場合における拍時
刻推定の提案が必要である.最後に,提案手法はライヴ
音源やラップ,演歌,洋楽などのジャンルを対象として
も,テンポ推定誤りを改善することで有効な手法になる
ことが確認された.
今後の展望として,ジャズやクラシックのような楽曲
に含まれる拍の揺らぎを考慮した拍時刻の推定手法の提
案などが挙げられる.
謝辞
本研究の一部は,科研費(15H02882)の援助を受けた.
参考文献
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
庄司正,三浦雅展,“音楽音響信号の拍時刻に基づいたスラ
イドショー自動生成システム”日本音響学会 2010 年秋季研
究発表会, 2-7-12, pp.897-900(2010.09)
P. Grosche, M. Mueller and C. S. Sapp, "WHAT MAKES BEAT
TRACKING DIFFICULT? A CASE STUDY ON CHOPIN
MAZURKAS", 11th International Society for Music Information
Retrieval Conference (ISMIR 2010), pp.649-654(2010).
A. T. Cemgil, B. Kappen, P. Desain and H. Honing, "On tempo
tracking: Tempogram Representation and Kalman filtering",
Journal of New Music Research, 29(4), pp.259-273(2000).
M. Goto, "An audio-based real-time beat tracking system for
music with or without drum-sounds," Journal of New Music
Research, 30(2), pp.159-171(2001).
G. Peeters and H. Papadopoulos, "Simultaneous Beat and
Downbeat-Tracking Using a Probabilistic Framework: Theory
and Large-Scale Evaluation", IEEE Transactions on speech and
audio processing, 19(6), pp.1754-1769(2011).
池内友次郎,野村良雄,服部幸三,皆川達夫,新音楽辞典,
(音楽ノ友社,東京,2006),p.433.
桑原浩志,三浦雅展“ 音楽音響信号に対する倍半テンポ値
問題を考慮したテンポ推定手法”日本音響学会 2013 年秋季
研究発表会, 3-3-4, pp.929-932 (2013.09)
Matthew E. P. Davies, Paul M. Brossier, and Mark D. Plumbley,
"Beat tracking towards automatic musical accompaniment", In
Proceedings of the Audio Engeeniring Society 118th Convention,
Poster Sesstion Z5-2, Convention Paper 6408(2005).
M. Goto, "Development of the RWC Music
Database",
Proceedings of the 18th International Congress on Acoustics
(ICA 2004), 1, pp.553-556(2004).