Processing を用いた音楽音響信号に対する リアルタイム

Processing を用いた音楽音響信号に対する
リアルタイム感情ハンドリングシステムの開発
A real-time emotion handling system for musical audio
using the Processing
宮本 真治 1 ,三浦 雅展 2
Shinji MIYAMOTO1,Masanobu MIURA2
1
龍谷大学大学院理工学研究科,
2
龍谷大学理工学部情報メディア学科
1
Graduate School of Science and Technology, Ryukoku University
2
Faculty of Science and Technology, Ryukoku University
概要 感情ハンドリングシステムとは,
計算機によって楽曲の感情を自動制御が可能なシステム
であり,例えば「怒り」を実現するために「音を大きく」「テンポを速く」などの演奏特徴を適
用し感情を表現する.しかし,既存システムでは楽曲全体に対して一定の変化率を用いて演奏特
徴を変化するため,楽曲を部分的に変化させることができず,楽曲内でのサビのような盛り上が
りに起因する感情の変化は考慮されていない.この報告では楽曲を部分的に変更する感情ハンド
リングシステムの実現を目指して,リタルダントの適用について検証している.検証結果より,
リタルダンドは Activity 及び Valence を増加させる効果があることが確認されている.さらに実
現方法として,Processing を用いた実装について検討している.
キーワード
感情ハンドリング,演奏特徴,Processing,音響信号
1. はじめに
近年,音楽と感情に関する研究が盛んに行
なわれており[1,2],その一つに,演奏の感情
を計算機上で実現するシステム[3-5](以後,
感情ハンドリングシステム)がある.過去に
開発された感情ハンドリングシステムには,
MIDI 形式の楽曲を入力としたシステム[4]や,
音楽音響信号とその楽譜情報を入力としたシ
ステム[5]がある.これらの研究では,
「音を大
きく」や「テンポを速く」などの演奏特徴を
適用することで,演奏に表現される感情の操
作(以降,感情ハンドリング)を行なってお
り,演奏特徴の感情表現に対する妥当性が検
証されてきた.しかし,過去の報告では,楽
曲全体に対して一定の変化率のみを用いて演
奏特徴を変化するため,楽曲の部分を部分的
に変化させることができず,楽曲固有の構成
による楽曲内での感情の変化を考慮できない
という問題があった.本報告では,演奏を部
分的に変化させ,ユーザが指定する感情をリ
アルタイムに表現するリアルタイム感情ハン
ドリングシステムの開発を目指して,手段の
適用方法とその実装方法について述べる.
2. 感情と音楽的特徴の対応関係
奏者は音楽演奏において「悲しみ」や「喜
び」などの感情を表現することができ,聴取
者はその演奏から奏者が意図した感情を読み
取ることができる[6].Juslin らは,演奏にお
いて表現される感情を 5 つの基本的感情(喜
び,優しさ,悲しみ,恐れ及び怒り)に分類
し,基本的感情と演奏特徴の対応関係を
Activity 軸(肯定-否定)及び Valence 軸(沈
静-覚醒)という 2 つの感情価で構成される二
次元平面上にまとめている[1,7].その対応関
係を図 1 に示す.感情ハンドリングシステム
の先行研究[4,5]では,図 1 で示される演奏特
徴を用いており,これらの特徴の感情表現に
関する有効性が確認されている.すなわち,
感情ハンドリングは演奏特徴を複数適用する
ことで実現可能であることがわかっている.
図 1 基本的感情と演奏特徴の対応関係[1,7]
3. 演奏特徴と感情価の対応
3.1. ステムの方針及び開発環境
演奏特徴が感情価に対して与える影響を定
量的に評価した研究がある[8].用いられた演
奏特徴はテンポ,スペクトル,音圧レベル(以
降,SPL),SPL 変動(以降,SPLV)の 4 つ
である.この感情ハンドリング手法に今回提
案するリアルタイム性を持たせるためには,
ユーザの入力に対する即時応答と,時間的に
変化する演奏特徴を用いる必要があり,前者
はシステム構成にかかわる部分であり,後者
はその演奏特徴が時間軸に対して変化した場
合の感情価に与える影響についてである.よ
ってその調査が必要となる.
後者について,テンポの時間変化と言える
リタルダンドについて調査を行なった.リタ
ルダンドとは,演奏の一部分において意図的
にテンポを遅くする演奏表現である.音響信
号にリタルダンドを再現する方法として,リ
タルダンドが譜面上で指示されていない演奏
に対する付与,またはリタルダンドが行なわ
れている演奏に対する強調,抑制及び除去な
どの変更処理が考えられる.しかし,リタル
ダンドをリアルタイム感情ハンドリングシス
テムに実装する場合,リタルダンドが指示さ
れていない楽曲に対しても動作可能とするた
めには,楽曲におけるリタルダンドの指示の
有無には直接関係しないのが望ましい.言い
換えると,リタルダンドが行なわれていない
演奏に対してリタルダンドを付与及び制御す
ることで,あらゆる楽曲に対応可能となる.
よって,今回は,リタルダンドが指示されて
いない演奏を対象としてリタルダンドの付与
を行なう手法を提案する.
3.2. リタルダンドの付与手法
多くの西洋音楽では,リタルダンドは楽曲
内で指定された箇所に付与することになるが,
今回は,指定位置を持たない楽曲に対して付
与するため,適用箇所の指定が必要となる.
今回の条件では,楽曲の盛り上がりの直前に
おいてテンポを滑らかにリタルダンドを適用
する.特に,ポピュラー音楽を対象とし,一
般的に楽曲の盛り上がりとされるコーラス
(サビ)が開始する直前とした.具体的には,
まず,先行研究におけるサビ時刻の推定手法
[9] を用いてサビの開始時刻の推定を行なう.
次に,先行研究におけるビート(拍) 時刻推定
手法[10] を用いてその演奏の拍の時刻を推定
する.最後に,推定されたサビの開始時刻と
それより前の拍(例えば4拍前や8拍前など)
の時刻の間の音響信号をリタルダンドの付与
を行なう区間とする.テンポを滑らかに遅く
するには,リタルダンドの付与を行なう区間
に対して段階的にタイムストレッチ処理を行
なう必要がある.本報告では,リタルダンド
の付与を行なう区間の音響信号を最終変化率
5%刻みで分割し,分割されたそれぞれの区間
に対し段階的にタイムストレッチ処理を行な
った.具体的には,最終変化率が 80%の場合,
音響信号を 4 分割し,95%,90%,85%,80%
といったようにそれぞれに段階的なタイムス
トレッチ処理を行なう.なお,タイムストレ
ッチには先行研究で提案されている時間領域
の手法[11]を用いた.
3.3. 調査方法
リタルダンドの程度が感情価にどのような
影響を与えるかの調査を行なう.そのために
は,演奏特徴を適用しない演奏(以降,元楽
曲)とその演奏の演奏特徴をいくつかの程度
で適用した演奏を被験者に聴取させ,その感
情価を回答させる手法が有効であると考えら
れる.そこで,リタルダンドを付与しない 1 パ
タンと,リタルダンドにおいて最もテンポが
遅くなる場合のテンポの変化率(以降,最終
変化率)を 90[%]~50[%] に適用した 5 パタ
ン及びリタルダンドを付与する音響信号の時
間長(以降,付与時間長)を 2 拍~8 拍に適
用した 4 パタンを組み合わせた 20 パタンの
計 21 パタンを作成し,その感情価を被験者
に回答させることで,演奏特徴が演奏の感情
価に与える影響の調査を行なった.なお,呈
示刺激の元楽曲は,個々の楽曲の特性を考慮
するために,クラシック,ポップス及びイン
ストルメンタルを 2 曲ずつの計 6 楽曲を選
出した.これらをまとめると,呈示刺激は全
126 パタン(6 楽曲×21 パタン)となる.被験
者は本学の学生 12 名とし,実験は龍谷大学内
の静寂な教室で行なった.被験者のタスクと
しては,まず,スピーカから流される元楽曲
及びその演奏特徴を適用した演奏を聴取させ
た.次に,図 1 の二次元空間に基づき,その
演奏が覚醒-沈静,肯定-否定の二軸からなる二
次元空間上のどの位置に布置するかを軸ごと
に 9 件法で評価させた.
3.4. 調査結果
3.3 の調査結果に基づく,リタルダンドが感
情価へ与える効果の平均を図 2 に示す.図 2
は,原点(0,0) を元楽曲とし,縦軸(Valence)
の数字が大きくなるほど楽曲の印象が肯定的
に変化,横軸(Activity)の数字が大きくなる
ほど楽曲の印象がより覚醒的に変化すること
を表わしている.また,図 2 中の各ベクトル
における「
」などのラベルはリタルダン
ドにおける最終変化率及び付与時間長の個別
の効果または組み合わせによる効果を表わし
ており,
は付与時間長(Beginning) による
感情価への平均的効果,
は最終変化率
(Final) による感情価への平均的効果を,
は最終変化率と付与時間長の組み合わせによ
る効果を表わしている.また,各ラベルにお
ける下付きの S は 2 拍または 4 拍(短い付
与時間長)による効果を表わし,L は 6 拍ま
たは 8 拍(長い付与時間長)による効果を表
わしている.これらのベクトルの向きは演奏
特徴が元楽曲にどのような影響を与えるかを
表わしており,ベクトルの長さ及び座標は演
奏特徴による影響の大きさを表わしている.
図2より,リタルダンドの付与時間長の長
さによって Valence に与える影響が大きく変
化することがわかる(例えば,
と
の比
較)
.ここで,リタルダンドの効果を大まかに
付与時間長が短い場合と付与時間長が長い場
合の 2 種類に分類した.図 2 の結果から,付
与時間長が短い場合のリタルダンドでは,
Activity 及び Valence を増加させる効果があ
ると考えられる.また,付与時間長が長い場
合のリタルダンドでは,Activity を増加させ,
Valence を減少させる効果があると考えられ
る.また,ベクトルの布置から,リタルダン
ドが感情価に与える影響を定量化すると,あ
る程度の Activity 及び Valence を再現するこ
とが示されている.例えば,Activity に対し
+1.0 の 効 果 を 再 現 す る場 合 , 付 与 時 間 長
2.5[拍],最終変化率 60[%] のリタルダンドま
たは,付与時間長 9.8[拍],最終変化率 60[%]
のリタルダンドを付与することで再現可能で
あることがわかる.
提供されている.また,minim ライブラリを
使用することで簡単なプログラムコードでオ
ーディオのコントロールが可能であり,リア
ルタイムでの分析が可能である.そのため,
ここでは Processing を用いる開発を試みる.
4.2. 使用する演奏特徴
図 3 に提案する感情ハンドリングシステム
のフローを示す.感情ハンドリングに用いる
演奏特徴はテンポ,スペクトル,SPL, SPLV,
リタルダンドの 5 つを用いる.3.1 で述べた感
情価に与える影響について調査と 3.4 で得ら
れた結果から Activity と Valence に与える影響
を基に,Processing を用いて演奏特徴を変化さ
せ感情ハンドリングを行なう.
START
input
Musical audio
User’s input of emotion
Changing of musical features
Tempo
Spectrum
SPL
SPLV
Ritardando
output
Rendered music
End of music
HALT
図 3 提案する感情ハンドリングシステム
図 2 リタルダンドが感情価へ与える効果の平均
4. 感情ハンドリング手法の概要
4.1. 開発環境
ユーザが指定する感情をリアルタイムに再
現するため,ユーザが指定した感情によって
それぞれの演奏特徴の変化率を変化する.楽
曲の演奏特徴に対してリアルタイムに音響信
号処理を行なう必要がある.その場合,分析
と合成を同時に行なう必要がある.そこで,
Java ベースの開発環境 Processing[12]を用いる.
Processing は,オープンソースプロジェクトで
ある.電子アートとビジュアルデザインのた
めのプログラミング言語であり,統合開発環
境である.minim ライブラリは Processing1.0
以降のバージョンで標準のサウンドライブラ
リであり,ステレオ再生や FFT などの機能が
4.3. SPL の変化手法
音響信号における音の大きさは振幅レベル
に依存する.そのため本報告では,音圧レベル
の変化を実現するために,入力された元楽曲に
おける平均振幅レベルを増減させることとし
た.Processing では指定した時間長の波形を格
納したバッファごとに処理を行ない,ユーザ
によって変化し続ける変化率をリアルタイム
に処理することにより,遅延の少ない処理手
法が可能となった.
4.4. スペクトルの変化手法
音色の違いの1つとして,音の明暗があり,
物理的には短時間フーリエ変換によるパワー
スペクトル上で表されるスペクトル重心によ
って表されることが知られている[13].そこで
本報告では「明るい音色」や「暗い音色」など
の変化を実現するために,入力音のパワースペ
クトルを変化させることとした.
具体的には,入力された音響信号に対して
STFT(サンプル点数 1024) を用いて周波数解
析を行ない,パワースペクトル及びスペクトル
重心を算出する.算出したスペクトル重心の値
と入力された変化率(0.3~2.0)から,目標と
なるスペクトル重心の値を決定する.次に,目
標となるスペクトル重心の値となるまで,パワ
ースペクトルに対して補正を行なう.音響信号
の振幅スペクトルに対して,高い周波数または
低い周波数にパワーの分布が偏る様な関数(以
降,補正関数) を用いて周波数の補正を行なう
ことで音色を変化させる.具体的には,STFT
によって得られた振幅スペクトルに対して,補
正関数を乗算することでスペクトルの補正を
行なう.補正関数は入力されたスペクトルの中
心周波数を軸に低周波数領域及び高周波数領
域に分け,強調または抑制の処理を行なう.
補正関数を増加させる場合,これを入力され
た音響信号の振幅スペクトルに対して乗算す
ることで,低周波数成分を抑制し高周波数成分
の強調を行ない,スペクトル重心の値を大きく,
音色を明るく変化させる.この際,入力スペク
トルの中心部分は変化せず,それよりも低い周
波数領域は抑制され,高い領域は強調される.
また,減少させる場合,これを入力された音響
波形の振幅スペクトルに対して乗算すること
で,低周波数成分を強調し高周波数成分の抑制
を行ない,スペクトル重心の値を小さく,音色
を暗く変化させる.この際,入力スペクトルの
中心部分は変化せず,それよりも低い周波数領
域が強調され,高い領域は抑制される.最後に,
補正されたパワースペクトルに対して STFT
を行ない,周波数特性が変更された音響信号を
出力する.しかし,Processing 上でボコーダー
の技術を使って,複数の正弦波の振幅と周波
数を変化させるという手法で,かつ変更を
draw()関数を用いると,入力信号をバッファ間
でうまく連結できず,シフト幅を 100%のみと
しなければならない.そこでメモリに区間ご
とのパワースペクトルを保存する必要がある.
4.5. テンポの変化手法
音楽音響信号におけるテンポを変更するた
めには計算機上で再生速度を変化,すなわち
音響信号を引き延ばすまたは押し縮めること
で時間長を変化させることで実現可能だが,
単に音響信号の時間長を伸縮させた場合, 音
響信号の周波数特性が変化し,聴取した際に
ピッチが変化した様に聴こえてしまう.この
問題を解決するためにはタイムストレッチと
呼ばれる技術を用いる必要がある.タイムス
トレッチの手法は数多く存在し,時間領域を
処理する方法と周波数領域を処理する方法の
2 つに大別することができる.時間領域を処
理する方法は,処理に掛かる時間が非常に少
ないが,音響信号の時間長を 2 倍や 3 倍など
大幅にストレッチした際に,違和感なく聴取
できる品質が確保できないといった問題があ
る.これに対して,周波数領域を処理する方
法は,大幅にタイムストレッチした場合でも
高い品質を確保する事ができるが,処理に掛
かる時間が多いといった問題がある.しかし,
Processing を用いた場合,短い時間で分析が可
能となるため,どちらも試すこととした.時
間領域でのタイムストレッチ手法の場合,既
存のタイムストレッチ手法[4]を用いて時間長
を伸縮させた時,バッファ間をうまく連結で
きないという問題がある.これにより 100%シ
フトによるタイムストレッチしかできず,大
きくノイズが入ることが確認された.よって,
Processing を用いる場合は周波数領域を処理
する方法が適切であると考えられる.そのた
めに,中心周波数を可変にした擬似的なフェ
ーズボコーダーの再現による手法を採用した.
FFT によって得られた音響信号の周波数成分
のパワーを正弦波によって再現することによ
り再現を行なう.しかし,正弦波の位相がず
れることによるノイズが発生する問題がみら
れた.この問題に対しては正弦波間を相互相
関等で調整する必要がある.
5. おわりに
本研究では,リタルダンドの付与手法の提
案と感情価に与える影響を調査した.また,
Processing に実装する演奏特徴の変化手法を
提案した.Processing に実装することで手法ご
との問題が明確化した.
今後の課題として,明確になった問題を解
決し,提案する演奏特徴をすべて実装したリ
アルタイム感情ハンドリングシステムを完成
させる必要がある.そこで,演奏特徴をリア
ルタイムに変化することの有用性を確認する.
謝辞
本研究の一部は,科研費(25580080)の援助を受けた.
参考文献
[1] Juslin and Sloboda,"Music and Emotion", OxfordUniversity Press, p.315
(2001) .
[2] Gabrielsson,"Emotion perceived and…", Musical Scientiae, pp.123-147
(2002) .
[3] Bresin and Friberg,"Emotional Coloring of…", Computer Music Journal, 24:4,
pp. 44-63(2000).
[4] Ohno and Miura,"Realtime emotion control system for polyphonic MIDI
musical excerpts", Acoustical Science and Technology, 34, 5,
pp.344-347(2013).
[5] Fabiani,"Interactive computer-aided expressive…", Ph.d. thesis, KTH Royal
Institute ofTechnology, Stockholm, Sweden(2011).
[6] Juslin,"Emotional
communication
in…",
MusicPerception,
14,
pp.383-418(2005).
[7] Juslin and Laukka,"Communication of Emotions…", Psychological Bulletin,
Vol. 129, No. 5,pp.770-814(2003).
[8] 小野,三浦,"音楽音響信号の演奏特徴が感情価に与える影響",日本音響
学会音楽音響研究会資料 MA2013-31,pp.17-20 (2013) .
[9] 宮本,小野,三浦,"ポピュラー楽曲の音楽音響信号を対象としたサビメ
ド レ ー 自 動 生 成 シ ス テ ム ", 日 本 音 響 学 会 音 楽 音 響 研 究 会 資 料
MA2013-60,pp.23-28 (2014).
[10] Shoji and Miura,"Slideshow system that…",Proc. of The 20th International
Congress onAcoustics, p.550 (2010) .
[11] Ohno, Shoji and Miura,"Emotion control system…", Proc. of APSCOM4, pp.
29-34 (2011).
[12] Processing. https://processing.org/ (参照 2015/02/10) .
[13] 山田,三浦,"音楽情報処理で用いられる音響パラメータによる音楽理解
の可能性",日本音響学会誌,Vol.70 , No. 8 , pp.440-445 (2014).