情報科学フロンティア研究院特別講演会 名古屋工業大学

情報科学フロンティア研究院特別講演会
高品質音声処理を目的とした
駆動音源の表現と分析について
和歌山大学
河原英紀
名古屋工業大学, 2016年8月10日
今日の資料のPDF
http://www.wakayama-u.ac.jp/~kawahara/newFOextractorNiitechR.pdf
本題に入る前に
•
Open sourceで、対話的な音声・聴覚の教育/研究ツールと基盤ソ
フトを提供します
•
SparkNG
•
WORLD
•
それぞれの教育/研究の現場に出前に行きます
•
そして本題:Googleで開発した新しいF0/非周期性同時推定法
open to everyone
link to movie: oekaki and spark
聴覚は何を聴いているか
何が叩かれているか
聴覚は何を聴いているか
何が叩かれているか
形、サイズ
聴覚は何を聴いているか
何で叩かれているか
聴覚は何を聴いているか
何で叩かれているか
材質
聴覚は何を聴いているか
どう叩かれているか
聴覚は何を聴いているか
どう叩かれているか
激しさ
どんな環境で叩かれているか
どんな環境で叩かれているか
一回だけでは周りの音に紛れてしまう
繰り返すと目立つ
音声では
調音器官
発声器官
音声では
調音器官
発声器官
フィルタ
音源
音声では
調音器官
発声器官
フィルタ
音源
伝達特性
基本周波数
音声では
調音器官
発声器官
フィルタ
音源
伝達特性
基本周波数
音源波形
音声では
繰り返し
調音器官
発声器官
フィルタ
音源
伝達特性
基本周波数
音源波形
混合
音声では
繰り返し
調音器官
発声器官
フィルタ
音源
信号処理の悪夢
伝達特性
混合
基本周波数
音源波形
SparkNG: 悪夢理解のツール
SparkNG: 悪夢理解のツール
声道ツール
音源ツール
SparkNG: 悪夢理解のツール
声道ツール
音源ツール
log-area
transfer
function
display
control
log-area
transfer
function
display
control
SparkNG: 悪夢理解のツール
声道ツール
音源ツール
A
B
A
B
D
C
D
C
A
B
C
A
B
C
D
D
16-19 December, 2015
open access
b
a
M
l
t
a
b
a
M
l
t
a
b
a
M
l
t
a
b
a
M
l
t
a
本題に入る前に
•
Open sourceで、対話的な音声・聴覚の教育/研究ツールと基盤ソ
フトを提供します
•
SparkNG
•
WORLD
•
それぞれの教育/研究の現場に出前に行きます
•
そして本題:Googleで開発した新しいF0/非周期性同時推定法
本題に入る前に
•
Open sourceで、対話的な音声・聴覚の教育/研究ツールと基盤ソ
フトを提供します
•
SparkNG
•
WORLD
•
それぞれの教育/研究の現場に出前に行きます
•
そして本題:Googleで開発した新しいF0/非周期性同時推定法
本題に入る前に
•
Open sourceで、対話的な音声・聴覚の教育/研究ツールと基盤ソ
フトを提供します
•
SparkNG
•
WORLD
Show and Tell, Interspeech 2016
•
それぞれの教育/研究の現場に出前に行きます
•
そして本題:Googleで開発した新しいF0/非周期性同時推定法
本題に入る前に
•
Open sourceで、対話的な音声・聴覚の教育/研究ツールと基盤ソ
フトを提供します
•
SparkNG
•
WORLD
•
それぞれの教育/研究の現場に出前に行きます
•
そして本題:Googleで開発した新しいF0/非周期性同時推定法
情報科学フロンティア研究院特別講演会
高品質音声処理を目的とした
駆動音源の表現と分析について
和歌山大学
河原英紀
名古屋工業大学, 2016年8月10日
FO/非周期性同時推定
•
XSX, 高次対称性に基づくFO推定、Kalman filter併用は、袋小路
•
NDFは、高性能。しかし、保守・拡張不可能。
•
基本に戻る
•
周期性からの外れ→非周期性
•
基本波確率マップ→追跡・初期推定→再帰的更新 の分離
•
LPFではなくBPF
STRAIGHT
1997-
TANDEM-STRAIGHT
2007
Temporally variable multi-aspect morphing
2009
Temporally variable morphing
2003multi-aspect N-way morphing
2013
F0 extractors
199719992002- YIN
2005- NDF
20072008- XSX
20122013Spark 1986-
I am a tool builder hoping to make useful tools to promote
understanding of human speech communication and to encourage
collaborations between researchers and developers. I would
appreciate your suggestions for me to produce further interesting
tools.
FO/非周期性同時推定
•
XSX, 高次対称性に基づくFO推定、Kalman filter併用は、袋小路
•
NDFは、高性能。しかし、保守・拡張不可能。
•
基本に戻る
•
周期性からの外れ→非周期性
•
基本波確率マップ→追跡・初期推定→再帰的更新 の分離
•
LPFではなくBPF
2015.3 石垣島での小野先生の一言 「普通の波形誤差ではだめですか?」
Using instantaneous frequency and aperiodicity detection to estimate F0 for
high-quality speech synthesis⇤
Hideki Kawahara1,2 , Yannis Agiomyrgiannakis1 , Heiga Zen1
Google
2
Wakayama University, Japan
1
http://arxiv.org/abs/1605.07809
[email protected],{agios,heigazen}@google.com
Abstract
This paper introduces a general and flexible framework for
F0 and aperiodicity (additive non periodic component) analysis, specifically intended for high-quality speech synthesis and
modification applications. The proposed framework consists of
three subsystems: instantaneous frequency estimator and initial
aperiodicity detector, F0 trajectory tracker, and F0 refinement
and aperiodicity extractor. A preliminary implementation of
the proposed framework substantially outperformed (by a factor of 10 in terms of RMS F0 estimation error) existing F0 extractors in tracking ability of temporally varying F0 trajectories. The front end aperiodicity detector consists of a complexvalued wavelet analysis filter with a highly selective temporal
and spectral envelope. This front end aperiodicity detector uses
a new measure that quantifies the deviation from periodicity.
The measure is less sensitive to slow FM and AM and closely
correlates with the signal to noise ratio. The front end combines instantaneous frequency information over a set of filter
outputs using the measure to yield an observation probability
map. The second stage generates the initial F0 trajectory using
this map and signal power information. The final stage uses the
trajectories produced by those models. To attain highly natural synthetic speech it is important to retain these fine temporal
variation in F0 trajectories [6, 7]. Although many F0 extractors
have been proposed [8–12], in practice, parameter tuning and/or
manual error correction is often necessary. In addition, their
performance when extracting such fine temporal variations has
not been investigated explicitly. That is the goal of this paper.
This paper is organized as follows. Section 2 discusses the
motivation and target for designing a new F0 observer, based on
a review on existing issues. It also defines aperiodicity, which is
relevant for speech analysis and synthesis. Section 2.2 presents
objective measures used in this paper. Based on these, section 3
introduces a general scalable architecture for F0 observer. It
consists of three subsystems: front end aperiodicity detectors,
the best trajectory finder, and F0 initial estimate and refinement
subsystem with aperiodicity extractor. Sub-sections 3.1 and 3.3
introduce the front end and the refinement subsystems, respectively. In section 4, these subsystems are evaluated using artificial test signals. Section 5 discusses remaining issues. Example
analysis results using actual speech samples and mathematical
details are given in appendices.
126
125
124
真値
提案法
frequency (Hz)
123
122
121
120
119
118
Trueth
117
T 10 ° T10 ° H3
116
YIN
SWIPE'
NDF
Dio
115
0.58
0.6
0.62
0.64
time (s)
0.66
0.68
0.7
F0: 120 Hz
提案法
0
gain (dB)
-5
-10
-15
T10 ° T10 ° H3
-20
-25
10 0
H10 ° H3
Yin
SWIPE'
NDF
DIO
10 1
modulation frequency (Hz)
提案法
音源情報推定法の構成
detector-1
prob.conv
detector-2
prob.conv
detector-k
prob.conv
stage-1
stage-2
stage-3
time warp
map tracker
and
initial F0
estimator
harmonic
detector
F0 updator
detectorN-1
prob.conv
detector-N
prob.conv
best weight
音源情報推定法の構成
detector-1
prob.conv
detector-2
prob.conv
detector-k
prob.conv
stage-1
stage-2
stage-3
time warp
map tracker
and
initial F0
estimator
harmonic
detector
F0 updator
detectorN-1
prob.conv
detector-N
prob.conv
best weight
問題設定
•
基本波だけを選択し、同時に、背景雑音のレベルを推定したい
前提
•
基本周波数は、未知
•
帯域通過フィルタで基本波だけを選択することができれば、
フィルタの出力は正弦波になる
•
インパルス応答が複素数(quadrature signal)であれば、フィルタ出力
は、単一周波数の複素指数関数になる
•
単一周波数の複素指数関数の絶対値は一定
•
フィルタ出力に含まれる雑音は、支配的ではない
基本波検出器の実現方法
•
帯域通過フィルタの出力をもう一度帯域通過フィルタに通すと、基本波
が含まれている場合には、基本波成分が支配的になる。
•
帯域通過フィルタを一度通った信号の絶対値が1になるように正規化し
たものから、帯域通過フィルタを二度通った信号の絶対値が1になるよ
うに正規化したものを取り除けば、残った信号のレベルは、その帯域で
のSNRに(平均的に)比例する
•
このSNRとフィルタ出力の瞬時周波数から、基本周波数の分布を求める
非周期成分検出器
•
入力の周波数についての仮定不要
Flanagan's
equation
X
1
|.|
+
X
1
|.|
+
-
2
|.|
フィルタを通しても正弦波は正弦波
0
0
-10
relative residual (dB)
10
gain (dB)
-10
-20
-30
filter
2
filter
residual filter
signal location
-40
-50
0
0.5
-20
-30
40 dB
30 dB
20 dB
10 dB
0 dB
-10 dB
-40
-50
1
1.5
signal location (re. center)
2
-60
0
0.5
1
1.5
signal location (re. center)
2
wavelet変換とFourier変換
aperiodicity detector for front end
aperiodicity detector for refinement
1
gain (absolute value)
0.8
0.7
detector at 100Hz
2nd filter
residual gain
detector at 500Hz
2nd filter
residual gain
harmonics of 100 Hz
0.8
0.6
0.5
0.4
0.3
0.7
0.6
0.5
0.4
0.3
0.2
0.2
0.1
0.1
0 1
10
detector at 100Hz
2nd filter
residual gain
detector at 500Hz
2nd filter
residual gain
harmonics of 100 Hz
0.9
gain (absolute value)
0.9
1
2
10
frequency (Hz)
3
10
0
0
100
200
300
400
frequency (Hz)
500
600
音源情報推定法の構成
detector-1
prob.conv
detector-2
prob.conv
detector-k
prob.conv
stage-1
stage-2
stage-3
time warp
map tracker
and
initial F0
estimator
harmonic
detector
F0 updator
detectorN-1
prob.conv
detector-N
prob.conv
best weight
非周期成分検出器
•
入力の周波数についての仮定不要
Flanagan's
equation
X
1
|.|
+
X
1
|.|
+
-
2
|.|
瞬時周波数
瞬時周波数
40
50
70
100
200
300
500
700
instantaneous frequency map of /aiueo/
900
700
filter center frequency (Hz)
500
300
200
100
70
50
40
0
0.1
0.2
0.3
0.4
time (s)
0.5
0.6
0.7
900
非周期成分検出器
•
入力の周波数についての仮定不要
Flanagan's
equation
残差
X
1
|.|
+
X
1
|.|
+
-
2
|.|
0.0001
0.0003
0.001
0.003
0.01
0.03
0.1
0.5
0.6
0.3
aperiodicity map of /aiueo/
900
700
filter center frequency (Hz)
500
300
200
100
70
50
40
0
0.1
0.2
0.3
0.4
time (s)
0.7
1
音源情報推定法の構成
detector-1
prob.conv
detector-2
prob.conv
detector-k
prob.conv
stage-1
stage-2
stage-3
time warp
map tracker
and
initial F0
estimator
harmonic
detector
F0 updator
detectorN-1
prob.conv
detector-N
prob.conv
best weight
最良混合係数
確率の統合
n番目の検出器出力
の瞬時周波数
残差から求められた分散
音源情報推定法の構成
detector-1
prob.conv
detector-2
prob.conv
detector-k
prob.conv
stage-1
stage-2
stage-3
time warp
map tracker
and
initial F0
estimator
harmonic
detector
F0 updator
detectorN-1
prob.conv
detector-N
prob.conv
best weight
最良混合係数
連立一次方程式の解
音源情報推定法の構成
detector-1
prob.conv
detector-2
prob.conv
detector-k
prob.conv
stage-1
stage-2
stage-3
time warp
map tracker
and
initial F0
estimator
harmonic
detector
F0 updator
detectorN-1
prob.conv
detector-N
prob.conv
best weight
0.001
0.003
0.01
0.03
0.1
0.3
probability map of /aiueo/
900
700
filter center frequency (Hz)
500
300
200
100
70
50
40
0
0.1
0.2
0.3
0.4
time (s)
0.5
0.6
0.7
音源情報推定法の構成
detector-1
prob.conv
detector-2
prob.conv
detector-k
prob.conv
stage-1
stage-2
stage-3
time warp
map tracker
and
initial F0
estimator
harmonic
detector
F0 updator
detectorN-1
prob.conv
detector-N
prob.conv
best weight
調波の利用と時間軸の適応伸縮
調波の利用
時間軸伸縮と調波の利用
フロントエンド
音源情報推定法の構成
detector-1
prob.conv
detector-2
prob.conv
detector-k
prob.conv
stage-1
stage-2
stage-3
time warp
map tracker
and
initial F0
estimator
harmonic
detector
F0 updator
detectorN-1
prob.conv
detector-N
prob.conv
best weight
wavelet変換とFourier変換
aperiodicity detector for front end
aperiodicity detector for refinement
1
gain (absolute value)
0.8
0.7
detector at 100Hz
2nd filter
residual gain
detector at 500Hz
2nd filter
residual gain
harmonics of 100 Hz
0.8
0.6
0.5
0.4
0.3
0.7
0.6
0.5
0.4
0.3
0.2
0.2
0.1
0.1
0 1
10
detector at 100Hz
2nd filter
residual gain
detector at 500Hz
2nd filter
residual gain
harmonics of 100 Hz
0.9
gain (absolute value)
0.9
1
2
10
frequency (Hz)
3
10
0
0
100
200
300
400
frequency (Hz)
500
600
F0抽出器の評価
•
試験信号:Aliasing-free L-F modelの出力
•
固定基本周波数、SNR操作
•
正弦波により周波数変調された基本周波数
•
周波数変調の変調度の変調周波数依存性
•
基本周波数軌跡の自乗誤差
F0抽出器の評価
•
試験信号:Aliasing-free L-F modelの出力
•
固定基本周波数、SNR操作
•
正弦波により周波数変調された基本周波数
•
周波数変調の変調度の変調周波数依存性
•
基本周波数軌跡の自乗誤差
フロントエンドのみ
更新後
F0抽出器の評価
•
試験信号:Aliasing-free L-F modelの出力
•
固定基本周波数、SNR操作
•
正弦波により周波数変調された基本周波数
•
周波数変調の変調度の変調周波数依存性
•
基本周波数軌跡の自乗誤差
周波数変調された試験信号
試験信号の作成例
fs = 22050;% Hz
duration = 1; % s
SparkNGの関数を利用
f0_base = 120;% Hz
f0_modulation = 16;% Hz
depth = 100; % cent center to peak
tx = (0:1 / fs:duration)';
f0 = 2 .^ ((1200 * log2(f0_base) + ...
depth * sin(2 * pi * f0_modulation * tx)) / 1200);
tp = 0.4134;
te = 0.5530;
L-F
modelのパラメタ
ta = 0.0041;
tc = 0.5817;
outStr = AAFLFmodelFromF0Trajectory(f0, tx, fs, tp, te, ta, tc);
x = outStr.antiAliasedSignal;
126
125
124
真値
提案法
frequency (Hz)
123
122
121
120
119
118
Trueth
117
T 10 ° T10 ° H3
116
YIN
SWIPE'
NDF
Dio
115
0.58
0.6
0.62
0.64
time (s)
0.66
0.68
0.7
F0抽出器の評価
•
試験信号:Aliasing-free L-F modelの出力
•
固定基本周波数、SNR操作
•
正弦波により周波数変調された基本周波数
•
周波数変調の変調度の変調周波数依存性
•
基本周波数軌跡の自乗誤差
F0: 120 Hz
提案法
0
gain (dB)
-5
-10
-15
T10 ° T10 ° H3
-20
-25
10 0
H10 ° H3
Yin
SWIPE'
NDF
DIO
10 1
modulation frequency (Hz)
F0抽出器の評価
•
試験信号:Aliasing-free L-F modelの出力
•
固定基本周波数、SNR操作
•
正弦波により周波数変調された基本周波数
•
周波数変調の変調度の変調周波数依存性
•
基本周波数軌跡の自乗誤差
提案法
FO/非周期性同時推定
•
XSX, 高次対称性に基づくFO推定、Kalman filter併用は、袋小路
•
NDFは、高性能。しかし、保守・拡張不可能。
•
基本に戻る
•
周期性からの外れ→非周期性
•
基本波確率マップ→追跡・初期推定→再帰的更新 の分離
•
LPFではなくBPF
STRAIGHT
1997-
TANDEM-STRAIGHT
2007
Temporally variable multi-aspect morphing
2009
Temporally variable morphing
2003multi-aspect N-way morphing
2013
F0 extractors
199719992002- YIN
2005- NDF
20072008- XSX
20122013Spark 1986-
I am a tool builder hoping to make useful tools to promote
understanding of human speech communication and to encourage
collaborations between researchers and developers. I would
appreciate your suggestions for me to produce further interesting
tools.
FO/非周期性同時推定
•
XSX, 高次対称性に基づくFO推定、Kalman filter併用は、袋小路
•
NDFは、高性能。しかし、保守・拡張不可能。
•
基本に戻る
•
周期性からの外れ→非周期性
•
基本波確率マップ→追跡・初期推定→再帰的更新 の分離
•
LPFではなくBPF
得意な人にまかせたい
TensorFlow?
他の方法にも使えるアイデア
FO/非周期性同時推定
•
XSX, 高次対称性に基づくFO推定、Kalman filter併用は、袋小路
•
NDFは、高性能。しかし、保守・拡張不可能。
•
基本に戻る
•
周期性からの外れ→非周期性
•
基本波確率マップ→追跡・初期推定→再帰的更新 の分離
•
LPFではなくBPF
Thank you! Comment? Question? Welcome!