VOCAL DYNAMICS CONTROLLER: 歌声のF0動特性をノート単位で編集 し, 合成できるインタフェース 大石 康智, 亀岡 弘和,持橋 大地 永野 秀尚,柏野 邦夫 NTTコミュニケーション科学基礎研究所 Copyright (c) 2010 日本電信電話株式会社 デモシステムの紹介 ①観測F0系列 ②入力歌声聴取 ③パラメータに基づく生成F0系列 ④パラメータ説明(ダイナミクスと音高) 減衰率,固有周波数,音高差 ⑤付加機能(ビブラート)説明 ⑥合成説明 ⑦歌声合成音聴取 Copyright (c) 2010 日本電信電話株式会社 2 歌声音響信号の合成 比率 周波数 [Hz] ① 観測F0系列と生成(修正)F0系列の比率計算 時間 [s] 1.12 1.08 1.04 1 0.96 線形伸縮 ② 入力歌声音響信号の線形予測分析 合成スペクトログラム 入力スペクトログラム 修正微細構造 微細構造(音高) 周波数 周波数 [Hz] [Hz] 包絡構造(音韻) 周波数 [Hz] 周波数 [Hz] 時間 時間 [s] [s] 時間 [s] 時間 [s] 時間 [s] ③ Griffin-Limの反復STFT法による位相推定 Copyright (c) 2010 日本電信電話株式会社 3 それでは 聴いてみましょう! Copyright (c) 2010 日本電信電話株式会社 4 システムの基礎技術 F0 [cent] F0系列のセグメント分割 6000 5600 5200 4800 4400 4000 0 2 4 6 8 [sec] ⇒ 隠れマルコフモデル(HMM)によるViterbiサーチ F0系列の成分分解 大局的 局所的 観測F0系列 旋律成分 動的変動成分 動的変動成分 インパルス 応答 ノート間の 音高差 0 時間 0 時間 0 時間 0 時間 ⇒ 2次系によるF0動特性の統計的モデリング Copyright (c) 2010 日本電信電話株式会社 5 F0系列のセグメント分割 隠れマルコフモデル(HMM)によるViterbiサーチ エルゴディックHMM(状態:ノートの音高,パラメータ:手動決定) 周波数 [cent] 無音 無音 時間 [s] Copyright (c) 2010 日本電信電話株式会社 6 F0系列の成分分解 想定する歌声のF0生成過程の概略図 観測F0系列 旋律成分 大局的変動成分 局所的変動成分 ノート間の 音高差 旋律成分:ステップ信号 パラメータ:ノート間の音高差 大局的変動成分:2次系インパルス応答 インパルス 応答 パラメータ:減衰率 ,固有周波数 系の出力信号 減衰振動( ) 臨界制動( オーバーシュート ) 指数減衰( ) ポルタメント 局所的変動成分:ガウス性白色雑音 パラメータ:ガウス分布の分散 Copyright (c) 2010 日本電信電話株式会社 7 従来研究:2次系インパルス応答 パ ラ メ 話声のF0 臨界制動2次系 ー インパルス応答 タ を アクセント制御 アクセント指令 手 臨界制動2次系 インパルス応答 動 で 喉頭の生理的・物理的特性に基づいて, 調 声帯振動制御機構を定量的にモデル化した 整 し 歌声のF0パターン生成モデル(齋藤ら) , 音 旋律成分 2次系インパルス応答 歌声のF0 声 合 成 に 利 観測されるF0から,生成過程のパラメータを推定したい !!用 2次系インパルス応答を利用したF0動特性の制御 Copyright (c) 2010 日本電信電話株式会社 話声のF0パターン生成モデル:藤崎モデル フレーズ指令 フレーズ制御 8 提案アプローチ 統計的信号処理手法に基づくF0動特性のモデリング 旋律成分 大局的変動成分 局所的変動成分 ノート間の 音高差 観測F0系列 インパルス 応答 入力ステップ信号 局所的変動成分 2次系の出力信号 (下三角行列) 長さ ⇒ 観測F0系列 2次系インパルス応答 減衰率 ,固有周波数 ⇒ ( : の単位行列) 独立な確率変数 ⇒ Copyright (c) 2010 日本電信電話株式会社 9 提案アプローチの工夫点 1/2 の関数からなる行列 (下三角行列) 臨界制動( )の場合 インパルス応答: 複雑な行列となる! 従来法(自身の従来モデル):自己回帰モデルで近似 を推定する問題 を推定する問題 パラメータ数が増加して, 自由度が高くなり, パラメータ推定が不安定 Copyright (c) 2010 日本電信電話株式会社 10 提案アプローチの工夫点 2/2 の関数からなる行列 (下三角行列) 臨界制動( )の場合 インパルス応答: 複雑な行列となる! モデルの自由度を効果的に下げる目的で,あらかじめ用意 した複数の振動基底の疎(スパース)な線形和で構成する 事前に 個の を計算し( 重み付き和で近似する 減衰振動 の推定 臨界制動 を手動で決定),その逆行列の 指数減衰 (スパース)の推定 Copyright (c) 2010 日本電信電話株式会社 11 パラメータ最適化アルゴリズム EM法と補助関数法に基づく最適化アルゴリズム 観測F0系列 2次系の出力信号 局所変動成分 完全データ 不完全データ 初期化: の導出( を手動で決定)と パラメータ集合 の初期値決定 E-step: 観測F0系列を出力信号と局所変動成分に分離 (現在のパラメータ集合を として) 条件付期待値: 補助変数: M-step: パラメータの更新 に関する連立方程式(Coordinate descent法) の更新式 Copyright (c) 2010 日本電信電話株式会社 12 F0系列の生成方法 ステップ信号 推定されたパラメータ 2次系インパルス応答 推定されたパラメータ の中で最も値が大きい に対応する ⇒ 推定されたインパルス応答 セグメントごとにF0を生成した結果 生成F0系列 観測F0系列 生成F0系列 の計算 ステップ信号 インパルス応答 周波数 [cent] 5000 4800 4600 4400 4200 0 2 4 6 時間 [s] 8 Copyright (c) 2010 日本電信電話株式会社 13 生成結果の例 ○大局的動的変動成分(立ち上がり,オーバーシュートなど) ×局所的動的変動成分(ビブラート,微細な変動成分) 声楽家と素人による,“喜びの歌”の歌唱 周波数 [cent] ⇒ ガウシアンプロセス,マルチカーネル学習 YINを利用したF0推定(5ms),無声音区間⇒線形補間 声楽家(女性) 6200 5800 観測F0系列 生成F0系列 5400 周波数 [cent] 5000 素人(男性) 5000 4600 4200 3800 0 2 4 時間 [sec] 6 観測F0系列 生成F0系列 8 Copyright (c) 2010 日本電信電話株式会社 14 評価実験 人工的に合成したF0系列に基づく評価 ランダムな 信号合成 推定された 提案法 比較 局所解問題を解決できているかの評価 パラメータ の応用性の評価 パラメータ の中で最も値が大きい に対応する の の歌唱者ごとの平均値 が小さい ⇒ オーバーシュートしがち 0.20 0.18 0.16 ポップス歌手 (女性) 声楽家(男性) 素人(女性) 0.14 素人(男性) が小さい ⇒ ノートの立ち上りが遅い 0.12 0.46 歌唱技術・スタイルの違いの分析 声楽家(女性) 0.50 0.54 ポップス歌手 (男性) 0.58 0.62 Copyright (c) 2010 日本電信電話株式会社 15 研究の根底にある興味 人間が付与する動特性(ダイナミクス)の特徴抽出 離散的な記号列 歌声:楽譜・歌詞 人間 歌唱者 連続的な信号 音高(F0信号) 音韻(MFCC信号) き ら き ら ひ か る 話声:文章(文字列) おはようございます, 今日は良い天気ですね。 話し手 音高(F0信号) 音韻(MFCC信号) ダイナミクスと,非言語情報(歌い方や話し方などのスタイル, 平静,怒り,喜び,悲しみなどの感情)との関係性の解明 ⇒ “D特徴量に代わる” ,ダイナミクスのモデル化 Copyright (c) 2010 日本電信電話株式会社 16 まとめ 歌声のF0動特性をノート単位で編集し,合成できる Vocal Dynamics Controllerの提案 F0系列のセグメント分割 エルゴディックなHMMによるViterbiサーチ F0系列の成分分解 2次系を利用したF0動特性の統計的モデリング EM法と補助関数法に基づくパラメータ最適化アルゴリズム パラメータを利用したF0生成 今後の課題 局所的変動成分(ビブラート,微細な変動成分)のモデル化 ⇒ ガウシアンプロセス,マルチカーネル学習 提案モデルの多変量化と声質(MFCCなど)の動特性の制御 Copyright (c) 2010 日本電信電話株式会社 17
© Copyright 2024 ExpyDoc