歌声合成技術 VOCALOID とその組み込み機器への応用可能性

社団法人 人工知能学会
人工知能学会研究会資料
Artificial Intelligence
SIG-Challenge-B002-1
JSAI Technical Report
Japanese Society for
歌声合成技術 VOCALOID とその組み込み機器への応用可能性
Singing Synthesizer “VOCALOID” and its possible application to embedded devices
剣持秀紀 吉岡靖雄 (ヤマハ(株) 研究開発センター)
Hideki KENMOCHI, Yasuo YOSHIOKA (Yamaha Corporation))
[email protected], [email protected]
ユーザはスコアエディタ(a)を用いて音符と歌詞を
入力する(Figure 2.). 歌手ライブラリ(b)には実際の歌
手の歌唱データから取り出した音声素片が含まれる.
合成エンジン(c)は歌手ライブラリから取り出した必
要な音声素片を連結して合成する.
Abstract—This paper describes overview of the commercial singing synthesis software “VOCALOID,” A prototype board where its synthesis engine is ported to a DSP
is also shown. Its application possibility as an embedded
device is discussed.
1. はじめに
最近, 歌声合成ソフトウェア VOCALOID を用いて,
多くのクリエイタが音楽制作を行っている. ニコニ
コ動画」などの動画サイトでは, 「初音ミク」を筆頭
とする歌声合成ソフトウェア VOCALOID を用いて
作成された楽曲が数多く投稿され, クリエイタたち
が楽曲制作を日夜競っている. VOCALOID は PC 上で
の音楽制作に特化した歌声生成ソフトウェアである
が, 歌声を合成するという機能を考えると PC 以外の
環境でも幅広い応用可能性も考えられる. また, 歌
声以外の音声についても, 韻律を自由自在に操作で
きるという点はこれまでにない応用を生み出す可能
性がある.
本稿では, VOCALOID 歌声合成システムを簡単に
紹介し, その合成エンジンを汎用の DSP に移植し,
ハードウェアとして実現した試作ボード
“VOCALOID-board”について述べる.
Figure 2 スコアエディタ
合成の際の素片の連結時には, C-V(子音-母音)とい
う素片の V(母音)の位置に音符開始タイミングが合
うように素片の位置の調整が行われる.
素片連結時には, 単に連結しただけではもちろん
歌にならない. 素片のピッチを所望のピッチに変換
することと, 素片接続位置での音色の合わせこみが
必要となる. VOCALOID ではこの 2 つを周波数領域
での信号処理にて行っている. すなわち, STFT によ
り求められたスペクトルを周波数軸上でスケーリン
グすることでピッチを変換し, スペクトル包絡が時
間的に滑らかになるように調整することで接続位置
での音色の合わせこみを行っている. 最後に IFFT(お
よび Windowing & Overlapping)を行い合成波形を得
る.
VOCALOID は歌声合成を第一の目的としているた
めに, 合成エンジンは音符と歌詞を入力としている.
しかし一方で, 歌声の合成から出発したという特質
を活かし, 韻律(イントネーションと音素継続長)を
直接指定して合成することが可能なインタフェース
も VOCALOID-flex という名称で提供されている. す
なわち, 韻律を与えれば歌声か話し声かを問わずそ
のまま合成することが可能である.
2. VOCALOID 歌声合成システム
VOCALOID はヤマハが開発し, ライセンスを行っ
ている歌声合成ソフトウェアである. 人間の歌声か
ら取り出した音声素片を連結することによって歌声
を合成する. 入力された楽譜情報をもとに素片を選
択し, 接続することで合成を行う. その構成を
Fugure 1.に示す.
Figure 1 VOCALOID 歌声合成システム
歌声合成システム
1
能が簡単に実現可能である. この分野で, 単なる波
形再生や TTS(Text-To-Speech)では不可能な価値を提
供していきたい. その価値とは, リアルタイム性, イ
ンタラクティブ性, エンタテインメント性である.
リアルタイム性とは, メッセージを受け取ったら
直ちに再生可能ということである. 機器のメイン
CPU に負担をかけることなく歌声や話し声の合成が
可能である. インタラクティブ性とは, 状況に応じ
て発話内容を変更可能ということである. エンタテ
インメント性とは, 発話内容そのものが, 親しみや
すく楽しめるものに成り得るという点である.
3. VOCALOID-board
VOCALOID は Windows PC 上で動作するソフトウ
ェアなので, 組み込み用途では制限が多い. そこで
汎用の固定小数点 DSP に合成エンジンを移植し, 小
型のハードウェアとして実現したものが
VOCALOID-board である. Figure 3.にその外観を示す.
VOCALOID-board の機能は以下の通りである.
* MIDI 入力により, 歌声や話し声を合成
* 実時間にて合成を行い, 出力する
* 最大負荷動作時 1W 以下の低消費電力
5. VOCALOID-board の今後
* 8cmx8cm のボード上に全機能を集約
歌声ライブラリは, PC ソフトウェア用のものがそ
のまま流用可能であり, SD カードにて提供される.
今後さらに小型化を進めていきたい. また, 試作
ボードの評価使用を含むアライアンスプログラムの
提供により, パートナー企業との協業を通じて用途
開発および要求仕様の絞り込みを進めていきたい.
参考文献
1) H. Kenmochi and H. Ohshita, VOCALOID - commercial singing synthesizer based on sample concatenation,
Proc. Interspeech, pp. 4009-4010. (2007.8).
Figure 3. VOCALOID-board
VOCALOID-board は以下の各モードにて動作する.
(a) Playback モード
VOCALOID Editor にて作成したシーケンスデー
タ(VOCALOID-MIDI 形式)を再生するモードで
ある.
(b) Realtime モード
あら かじめ歌 詞を入力してお き , 入 力される
MIDI の Note On/Off メッセージに従って発音す
るモードである. MIDI キーボード等を接続し,
歌声を「演奏」することが可能. 歌詞の入力は専
用の MIDI メッセージを用いる.
(c) Voicesynth モード
音素長と各時刻でのピッチとダイナミクスを直
接指定したものを入力として歌声や音声を出力
することが可能なモードである. 前述の
VOCALOID-flex 機能に対応する.
4. VOCALOID-board の応用
VOCALOID-board は, 用途として家電・業務用機器
への歌声・音声合成機能の組み込みを想定している.
特にエンタテインメントロボット分野で, インタラ
クティブな歌声の合成, 表情豊かな話し声の合成機
2