スライド 1 - NTT物性科学基礎研究所

VOCAL DYNAMICS CONTROLLER:
歌声のF0動特性をノート単位で編集
し,
合成できるインタフェース
大石 康智, 亀岡 弘和,持橋 大地
永野 秀尚,柏野 邦夫
NTTコミュニケーション科学基礎研究所
Copyright (c) 2010 日本電信電話株式会社
デモシステムの紹介
①観測F0系列
②入力歌声聴取
③パラメータに基づく生成F0系列
④パラメータ説明(ダイナミクスと音高)

減衰率,固有周波数,音高差
⑤付加機能(ビブラート)説明
⑥合成説明
⑦歌声合成音聴取
Copyright (c) 2010 日本電信電話株式会社
2
歌声音響信号の合成
比率
周波数 [Hz]
① 観測F0系列と生成(修正)F0系列の比率計算
時間 [s]
1.12
1.08
1.04
1
0.96
線形伸縮
② 入力歌声音響信号の線形予測分析
合成スペクトログラム
入力スペクトログラム
修正微細構造
微細構造(音高)
周波数
周波数 [Hz]
[Hz]
包絡構造(音韻)
周波数 [Hz]
周波数 [Hz]
時間
時間 [s]
[s]
時間 [s]
時間 [s]
時間 [s]
③ Griffin-Limの反復STFT法による位相推定
Copyright (c) 2010 日本電信電話株式会社
3
それでは
聴いてみましょう!
Copyright (c) 2010 日本電信電話株式会社
4
システムの基礎技術
F0 [cent]
 F0系列のセグメント分割
6000
5600
5200
4800
4400
4000
0
2
4
6
8
[sec]
⇒ 隠れマルコフモデル(HMM)によるViterbiサーチ
 F0系列の成分分解
大局的
局所的
観測F0系列
旋律成分
動的変動成分 動的変動成分
インパルス
応答
ノート間の
音高差
0
時間
0
時間
0
時間
0
時間
⇒ 2次系によるF0動特性の統計的モデリング
Copyright (c) 2010 日本電信電話株式会社
5
F0系列のセグメント分割
 隠れマルコフモデル(HMM)によるViterbiサーチ
エルゴディックHMM(状態:ノートの音高,パラメータ:手動決定)
周波数 [cent]

無音
無音
時間 [s]
Copyright (c) 2010 日本電信電話株式会社
6
F0系列の成分分解
 想定する歌声のF0生成過程の概略図
観測F0系列
旋律成分
大局的変動成分 局所的変動成分
ノート間の
音高差

旋律成分:ステップ信号


パラメータ:ノート間の音高差
大局的変動成分:2次系インパルス応答


インパルス
応答
パラメータ:減衰率
,固有周波数
系の出力信号
減衰振動(
)
臨界制動(
オーバーシュート

)
指数減衰(
)
ポルタメント
局所的変動成分:ガウス性白色雑音

パラメータ:ガウス分布の分散
Copyright (c) 2010 日本電信電話株式会社
7
従来研究:2次系インパルス応答
パ
ラ
メ
話声のF0
臨界制動2次系
ー
インパルス応答
タ
を
アクセント制御
アクセント指令
手
臨界制動2次系
インパルス応答
動
で
喉頭の生理的・物理的特性に基づいて,
調
声帯振動制御機構を定量的にモデル化した 整
し
 歌声のF0パターン生成モデル(齋藤ら)
,
音
旋律成分
2次系インパルス応答
歌声のF0
声
合
成
に
利
観測されるF0から,生成過程のパラメータを推定したい
!!用
2次系インパルス応答を利用したF0動特性の制御
Copyright (c) 2010 日本電信電話株式会社
 話声のF0パターン生成モデル:藤崎モデル
フレーズ指令
フレーズ制御
8
提案アプローチ
 統計的信号処理手法に基づくF0動特性のモデリング
旋律成分
大局的変動成分 局所的変動成分
ノート間の
音高差
観測F0系列
インパルス
応答
入力ステップ信号
局所的変動成分
2次系の出力信号
(下三角行列)
長さ
⇒
観測F0系列
2次系インパルス応答
減衰率 ,固有周波数
⇒
(
:
の単位行列)
独立な確率変数
⇒
Copyright (c) 2010 日本電信電話株式会社
9
提案アプローチの工夫点 1/2

の関数からなる行列
(下三角行列)
臨界制動(
)の場合
インパルス応答:
複雑な行列となる!
従来法(自身の従来モデル):自己回帰モデルで近似
を推定する問題
を推定する問題
パラメータ数が増加して,
自由度が高くなり,
パラメータ推定が不安定
Copyright (c) 2010 日本電信電話株式会社
10
提案アプローチの工夫点 2/2
の関数からなる行列

(下三角行列)
臨界制動(
)の場合
インパルス応答:
複雑な行列となる!

モデルの自由度を効果的に下げる目的で,あらかじめ用意
した複数の振動基底の疎(スパース)な線形和で構成する

事前に
個の
を計算し(
重み付き和で近似する
減衰振動
の推定
臨界制動
を手動で決定),その逆行列の
指数減衰
(スパース)の推定
Copyright (c) 2010 日本電信電話株式会社
11
パラメータ最適化アルゴリズム
 EM法と補助関数法に基づく最適化アルゴリズム
観測F0系列
2次系の出力信号
局所変動成分
完全データ
不完全データ
初期化:
の導出(
を手動で決定)と
パラメータ集合
の初期値決定
E-step: 観測F0系列を出力信号と局所変動成分に分離
(現在のパラメータ集合を として)
条件付期待値:
補助変数:
M-step: パラメータの更新
に関する連立方程式(Coordinate descent法)
の更新式
Copyright (c) 2010 日本電信電話株式会社
12
F0系列の生成方法
 ステップ信号

推定されたパラメータ
 2次系インパルス応答

推定されたパラメータ
の中で最も値が大きい
に対応する
⇒ 推定されたインパルス応答
セグメントごとにF0を生成した結果
生成F0系列
観測F0系列
 生成F0系列
の計算
ステップ信号
インパルス応答
周波数 [cent]

5000
4800
4600
4400
4200
0
2
4
6
時間 [s]
8
Copyright (c) 2010 日本電信電話株式会社
13
生成結果の例
○大局的動的変動成分(立ち上がり,オーバーシュートなど)
×局所的動的変動成分(ビブラート,微細な変動成分)
 声楽家と素人による,“喜びの歌”の歌唱
周波数 [cent]

⇒ ガウシアンプロセス,マルチカーネル学習
YINを利用したF0推定(5ms),無声音区間⇒線形補間
声楽家(女性)
6200
5800
観測F0系列
生成F0系列
5400
周波数 [cent]
5000
素人(男性)
5000
4600
4200
3800
0
2
4
時間 [sec]
6
観測F0系列
生成F0系列
8
Copyright (c) 2010 日本電信電話株式会社
14
評価実験
 人工的に合成したF0系列に基づく評価
ランダムな
信号合成
推定された
提案法
比較
局所解問題を解決できているかの評価
 パラメータ


の応用性の評価
パラメータ
の中で最も値が大きい
に対応する
の
の歌唱者ごとの平均値
が小さい ⇒ オーバーシュートしがち
0.20
0.18
0.16
ポップス歌手
(女性)
声楽家(男性)
素人(女性)
0.14 素人(男性)
が小さい ⇒ ノートの立ち上りが遅い 0.12
0.46
歌唱技術・スタイルの違いの分析
声楽家(女性)
0.50 0.54
ポップス歌手
(男性)
0.58
0.62
Copyright (c) 2010 日本電信電話株式会社
15
研究の根底にある興味
 人間が付与する動特性(ダイナミクス)の特徴抽出
離散的な記号列
歌声:楽譜・歌詞
人間
歌唱者
連続的な信号
音高(F0信号)
音韻(MFCC信号)
き ら き ら ひ か る
話声:文章(文字列)
おはようございます,
今日は良い天気ですね。
話し手
音高(F0信号)
音韻(MFCC信号)
ダイナミクスと,非言語情報(歌い方や話し方などのスタイル,
平静,怒り,喜び,悲しみなどの感情)との関係性の解明
⇒ “D特徴量に代わる” ,ダイナミクスのモデル化
Copyright (c) 2010 日本電信電話株式会社
16
まとめ
 歌声のF0動特性をノート単位で編集し,合成できる
Vocal Dynamics Controllerの提案

F0系列のセグメント分割


エルゴディックなHMMによるViterbiサーチ
F0系列の成分分解
2次系を利用したF0動特性の統計的モデリング
 EM法と補助関数法に基づくパラメータ最適化アルゴリズム


パラメータを利用したF0生成
 今後の課題

局所的変動成分(ビブラート,微細な変動成分)のモデル化


⇒ ガウシアンプロセス,マルチカーネル学習
提案モデルの多変量化と声質(MFCCなど)の動特性の制御
Copyright (c) 2010 日本電信電話株式会社
17