社団法人 人工知能学会 人工知能学会研究会資料 Artificial Intelligence SIG-Challenge-B002-1 JSAI Technical Report Japanese Society for 歌声合成技術 VOCALOID とその組み込み機器への応用可能性 Singing Synthesizer “VOCALOID” and its possible application to embedded devices 剣持秀紀 吉岡靖雄 (ヤマハ(株) 研究開発センター) Hideki KENMOCHI, Yasuo YOSHIOKA (Yamaha Corporation)) [email protected], [email protected] ユーザはスコアエディタ(a)を用いて音符と歌詞を 入力する(Figure 2.). 歌手ライブラリ(b)には実際の歌 手の歌唱データから取り出した音声素片が含まれる. 合成エンジン(c)は歌手ライブラリから取り出した必 要な音声素片を連結して合成する. Abstract—This paper describes overview of the commercial singing synthesis software “VOCALOID,” A prototype board where its synthesis engine is ported to a DSP is also shown. Its application possibility as an embedded device is discussed. 1. はじめに 最近, 歌声合成ソフトウェア VOCALOID を用いて, 多くのクリエイタが音楽制作を行っている. ニコニ コ動画」などの動画サイトでは, 「初音ミク」を筆頭 とする歌声合成ソフトウェア VOCALOID を用いて 作成された楽曲が数多く投稿され, クリエイタたち が楽曲制作を日夜競っている. VOCALOID は PC 上で の音楽制作に特化した歌声生成ソフトウェアである が, 歌声を合成するという機能を考えると PC 以外の 環境でも幅広い応用可能性も考えられる. また, 歌 声以外の音声についても, 韻律を自由自在に操作で きるという点はこれまでにない応用を生み出す可能 性がある. 本稿では, VOCALOID 歌声合成システムを簡単に 紹介し, その合成エンジンを汎用の DSP に移植し, ハードウェアとして実現した試作ボード “VOCALOID-board”について述べる. Figure 2 スコアエディタ 合成の際の素片の連結時には, C-V(子音-母音)とい う素片の V(母音)の位置に音符開始タイミングが合 うように素片の位置の調整が行われる. 素片連結時には, 単に連結しただけではもちろん 歌にならない. 素片のピッチを所望のピッチに変換 することと, 素片接続位置での音色の合わせこみが 必要となる. VOCALOID ではこの 2 つを周波数領域 での信号処理にて行っている. すなわち, STFT によ り求められたスペクトルを周波数軸上でスケーリン グすることでピッチを変換し, スペクトル包絡が時 間的に滑らかになるように調整することで接続位置 での音色の合わせこみを行っている. 最後に IFFT(お よび Windowing & Overlapping)を行い合成波形を得 る. VOCALOID は歌声合成を第一の目的としているた めに, 合成エンジンは音符と歌詞を入力としている. しかし一方で, 歌声の合成から出発したという特質 を活かし, 韻律(イントネーションと音素継続長)を 直接指定して合成することが可能なインタフェース も VOCALOID-flex という名称で提供されている. す なわち, 韻律を与えれば歌声か話し声かを問わずそ のまま合成することが可能である. 2. VOCALOID 歌声合成システム VOCALOID はヤマハが開発し, ライセンスを行っ ている歌声合成ソフトウェアである. 人間の歌声か ら取り出した音声素片を連結することによって歌声 を合成する. 入力された楽譜情報をもとに素片を選 択し, 接続することで合成を行う. その構成を Fugure 1.に示す. Figure 1 VOCALOID 歌声合成システム 歌声合成システム 1 能が簡単に実現可能である. この分野で, 単なる波 形再生や TTS(Text-To-Speech)では不可能な価値を提 供していきたい. その価値とは, リアルタイム性, イ ンタラクティブ性, エンタテインメント性である. リアルタイム性とは, メッセージを受け取ったら 直ちに再生可能ということである. 機器のメイン CPU に負担をかけることなく歌声や話し声の合成が 可能である. インタラクティブ性とは, 状況に応じ て発話内容を変更可能ということである. エンタテ インメント性とは, 発話内容そのものが, 親しみや すく楽しめるものに成り得るという点である. 3. VOCALOID-board VOCALOID は Windows PC 上で動作するソフトウ ェアなので, 組み込み用途では制限が多い. そこで 汎用の固定小数点 DSP に合成エンジンを移植し, 小 型のハードウェアとして実現したものが VOCALOID-board である. Figure 3.にその外観を示す. VOCALOID-board の機能は以下の通りである. * MIDI 入力により, 歌声や話し声を合成 * 実時間にて合成を行い, 出力する * 最大負荷動作時 1W 以下の低消費電力 5. VOCALOID-board の今後 * 8cmx8cm のボード上に全機能を集約 歌声ライブラリは, PC ソフトウェア用のものがそ のまま流用可能であり, SD カードにて提供される. 今後さらに小型化を進めていきたい. また, 試作 ボードの評価使用を含むアライアンスプログラムの 提供により, パートナー企業との協業を通じて用途 開発および要求仕様の絞り込みを進めていきたい. 参考文献 1) H. Kenmochi and H. Ohshita, VOCALOID - commercial singing synthesizer based on sample concatenation, Proc. Interspeech, pp. 4009-4010. (2007.8). Figure 3. VOCALOID-board VOCALOID-board は以下の各モードにて動作する. (a) Playback モード VOCALOID Editor にて作成したシーケンスデー タ(VOCALOID-MIDI 形式)を再生するモードで ある. (b) Realtime モード あら かじめ歌 詞を入力してお き , 入 力される MIDI の Note On/Off メッセージに従って発音す るモードである. MIDI キーボード等を接続し, 歌声を「演奏」することが可能. 歌詞の入力は専 用の MIDI メッセージを用いる. (c) Voicesynth モード 音素長と各時刻でのピッチとダイナミクスを直 接指定したものを入力として歌声や音声を出力 することが可能なモードである. 前述の VOCALOID-flex 機能に対応する. 4. VOCALOID-board の応用 VOCALOID-board は, 用途として家電・業務用機器 への歌声・音声合成機能の組み込みを想定している. 特にエンタテインメントロボット分野で, インタラ クティブな歌声の合成, 表情豊かな話し声の合成機 2
© Copyright 2024 ExpyDoc