情報科学フロンティア研究院特別講演会 高品質音声処理を目的とした 駆動音源の表現と分析について 和歌山大学 河原英紀 名古屋工業大学, 2016年8月10日 今日の資料のPDF http://www.wakayama-u.ac.jp/~kawahara/newFOextractorNiitechR.pdf 本題に入る前に • Open sourceで、対話的な音声・聴覚の教育/研究ツールと基盤ソ フトを提供します • SparkNG • WORLD • それぞれの教育/研究の現場に出前に行きます • そして本題:Googleで開発した新しいF0/非周期性同時推定法 open to everyone link to movie: oekaki and spark 聴覚は何を聴いているか 何が叩かれているか 聴覚は何を聴いているか 何が叩かれているか 形、サイズ 聴覚は何を聴いているか 何で叩かれているか 聴覚は何を聴いているか 何で叩かれているか 材質 聴覚は何を聴いているか どう叩かれているか 聴覚は何を聴いているか どう叩かれているか 激しさ どんな環境で叩かれているか どんな環境で叩かれているか 一回だけでは周りの音に紛れてしまう 繰り返すと目立つ 音声では 調音器官 発声器官 音声では 調音器官 発声器官 フィルタ 音源 音声では 調音器官 発声器官 フィルタ 音源 伝達特性 基本周波数 音声では 調音器官 発声器官 フィルタ 音源 伝達特性 基本周波数 音源波形 音声では 繰り返し 調音器官 発声器官 フィルタ 音源 伝達特性 基本周波数 音源波形 混合 音声では 繰り返し 調音器官 発声器官 フィルタ 音源 信号処理の悪夢 伝達特性 混合 基本周波数 音源波形 SparkNG: 悪夢理解のツール SparkNG: 悪夢理解のツール 声道ツール 音源ツール SparkNG: 悪夢理解のツール 声道ツール 音源ツール log-area transfer function display control log-area transfer function display control SparkNG: 悪夢理解のツール 声道ツール 音源ツール A B A B D C D C A B C A B C D D 16-19 December, 2015 open access b a M l t a b a M l t a b a M l t a b a M l t a 本題に入る前に • Open sourceで、対話的な音声・聴覚の教育/研究ツールと基盤ソ フトを提供します • SparkNG • WORLD • それぞれの教育/研究の現場に出前に行きます • そして本題:Googleで開発した新しいF0/非周期性同時推定法 本題に入る前に • Open sourceで、対話的な音声・聴覚の教育/研究ツールと基盤ソ フトを提供します • SparkNG • WORLD • それぞれの教育/研究の現場に出前に行きます • そして本題:Googleで開発した新しいF0/非周期性同時推定法 本題に入る前に • Open sourceで、対話的な音声・聴覚の教育/研究ツールと基盤ソ フトを提供します • SparkNG • WORLD Show and Tell, Interspeech 2016 • それぞれの教育/研究の現場に出前に行きます • そして本題:Googleで開発した新しいF0/非周期性同時推定法 本題に入る前に • Open sourceで、対話的な音声・聴覚の教育/研究ツールと基盤ソ フトを提供します • SparkNG • WORLD • それぞれの教育/研究の現場に出前に行きます • そして本題:Googleで開発した新しいF0/非周期性同時推定法 情報科学フロンティア研究院特別講演会 高品質音声処理を目的とした 駆動音源の表現と分析について 和歌山大学 河原英紀 名古屋工業大学, 2016年8月10日 FO/非周期性同時推定 • XSX, 高次対称性に基づくFO推定、Kalman filter併用は、袋小路 • NDFは、高性能。しかし、保守・拡張不可能。 • 基本に戻る • 周期性からの外れ→非周期性 • 基本波確率マップ→追跡・初期推定→再帰的更新 の分離 • LPFではなくBPF STRAIGHT 1997- TANDEM-STRAIGHT 2007 Temporally variable multi-aspect morphing 2009 Temporally variable morphing 2003multi-aspect N-way morphing 2013 F0 extractors 199719992002- YIN 2005- NDF 20072008- XSX 20122013Spark 1986- I am a tool builder hoping to make useful tools to promote understanding of human speech communication and to encourage collaborations between researchers and developers. I would appreciate your suggestions for me to produce further interesting tools. FO/非周期性同時推定 • XSX, 高次対称性に基づくFO推定、Kalman filter併用は、袋小路 • NDFは、高性能。しかし、保守・拡張不可能。 • 基本に戻る • 周期性からの外れ→非周期性 • 基本波確率マップ→追跡・初期推定→再帰的更新 の分離 • LPFではなくBPF 2015.3 石垣島での小野先生の一言 「普通の波形誤差ではだめですか?」 Using instantaneous frequency and aperiodicity detection to estimate F0 for high-quality speech synthesis⇤ Hideki Kawahara1,2 , Yannis Agiomyrgiannakis1 , Heiga Zen1 Google 2 Wakayama University, Japan 1 http://arxiv.org/abs/1605.07809 [email protected],{agios,heigazen}@google.com Abstract This paper introduces a general and flexible framework for F0 and aperiodicity (additive non periodic component) analysis, specifically intended for high-quality speech synthesis and modification applications. The proposed framework consists of three subsystems: instantaneous frequency estimator and initial aperiodicity detector, F0 trajectory tracker, and F0 refinement and aperiodicity extractor. A preliminary implementation of the proposed framework substantially outperformed (by a factor of 10 in terms of RMS F0 estimation error) existing F0 extractors in tracking ability of temporally varying F0 trajectories. The front end aperiodicity detector consists of a complexvalued wavelet analysis filter with a highly selective temporal and spectral envelope. This front end aperiodicity detector uses a new measure that quantifies the deviation from periodicity. The measure is less sensitive to slow FM and AM and closely correlates with the signal to noise ratio. The front end combines instantaneous frequency information over a set of filter outputs using the measure to yield an observation probability map. The second stage generates the initial F0 trajectory using this map and signal power information. The final stage uses the trajectories produced by those models. To attain highly natural synthetic speech it is important to retain these fine temporal variation in F0 trajectories [6, 7]. Although many F0 extractors have been proposed [8–12], in practice, parameter tuning and/or manual error correction is often necessary. In addition, their performance when extracting such fine temporal variations has not been investigated explicitly. That is the goal of this paper. This paper is organized as follows. Section 2 discusses the motivation and target for designing a new F0 observer, based on a review on existing issues. It also defines aperiodicity, which is relevant for speech analysis and synthesis. Section 2.2 presents objective measures used in this paper. Based on these, section 3 introduces a general scalable architecture for F0 observer. It consists of three subsystems: front end aperiodicity detectors, the best trajectory finder, and F0 initial estimate and refinement subsystem with aperiodicity extractor. Sub-sections 3.1 and 3.3 introduce the front end and the refinement subsystems, respectively. In section 4, these subsystems are evaluated using artificial test signals. Section 5 discusses remaining issues. Example analysis results using actual speech samples and mathematical details are given in appendices. 126 125 124 真値 提案法 frequency (Hz) 123 122 121 120 119 118 Trueth 117 T 10 ° T10 ° H3 116 YIN SWIPE' NDF Dio 115 0.58 0.6 0.62 0.64 time (s) 0.66 0.68 0.7 F0: 120 Hz 提案法 0 gain (dB) -5 -10 -15 T10 ° T10 ° H3 -20 -25 10 0 H10 ° H3 Yin SWIPE' NDF DIO 10 1 modulation frequency (Hz) 提案法 音源情報推定法の構成 detector-1 prob.conv detector-2 prob.conv detector-k prob.conv stage-1 stage-2 stage-3 time warp map tracker and initial F0 estimator harmonic detector F0 updator detectorN-1 prob.conv detector-N prob.conv best weight 音源情報推定法の構成 detector-1 prob.conv detector-2 prob.conv detector-k prob.conv stage-1 stage-2 stage-3 time warp map tracker and initial F0 estimator harmonic detector F0 updator detectorN-1 prob.conv detector-N prob.conv best weight 問題設定 • 基本波だけを選択し、同時に、背景雑音のレベルを推定したい 前提 • 基本周波数は、未知 • 帯域通過フィルタで基本波だけを選択することができれば、 フィルタの出力は正弦波になる • インパルス応答が複素数(quadrature signal)であれば、フィルタ出力 は、単一周波数の複素指数関数になる • 単一周波数の複素指数関数の絶対値は一定 • フィルタ出力に含まれる雑音は、支配的ではない 基本波検出器の実現方法 • 帯域通過フィルタの出力をもう一度帯域通過フィルタに通すと、基本波 が含まれている場合には、基本波成分が支配的になる。 • 帯域通過フィルタを一度通った信号の絶対値が1になるように正規化し たものから、帯域通過フィルタを二度通った信号の絶対値が1になるよ うに正規化したものを取り除けば、残った信号のレベルは、その帯域で のSNRに(平均的に)比例する • このSNRとフィルタ出力の瞬時周波数から、基本周波数の分布を求める 非周期成分検出器 • 入力の周波数についての仮定不要 Flanagan's equation X 1 |.| + X 1 |.| + - 2 |.| フィルタを通しても正弦波は正弦波 0 0 -10 relative residual (dB) 10 gain (dB) -10 -20 -30 filter 2 filter residual filter signal location -40 -50 0 0.5 -20 -30 40 dB 30 dB 20 dB 10 dB 0 dB -10 dB -40 -50 1 1.5 signal location (re. center) 2 -60 0 0.5 1 1.5 signal location (re. center) 2 wavelet変換とFourier変換 aperiodicity detector for front end aperiodicity detector for refinement 1 gain (absolute value) 0.8 0.7 detector at 100Hz 2nd filter residual gain detector at 500Hz 2nd filter residual gain harmonics of 100 Hz 0.8 0.6 0.5 0.4 0.3 0.7 0.6 0.5 0.4 0.3 0.2 0.2 0.1 0.1 0 1 10 detector at 100Hz 2nd filter residual gain detector at 500Hz 2nd filter residual gain harmonics of 100 Hz 0.9 gain (absolute value) 0.9 1 2 10 frequency (Hz) 3 10 0 0 100 200 300 400 frequency (Hz) 500 600 音源情報推定法の構成 detector-1 prob.conv detector-2 prob.conv detector-k prob.conv stage-1 stage-2 stage-3 time warp map tracker and initial F0 estimator harmonic detector F0 updator detectorN-1 prob.conv detector-N prob.conv best weight 非周期成分検出器 • 入力の周波数についての仮定不要 Flanagan's equation X 1 |.| + X 1 |.| + - 2 |.| 瞬時周波数 瞬時周波数 40 50 70 100 200 300 500 700 instantaneous frequency map of /aiueo/ 900 700 filter center frequency (Hz) 500 300 200 100 70 50 40 0 0.1 0.2 0.3 0.4 time (s) 0.5 0.6 0.7 900 非周期成分検出器 • 入力の周波数についての仮定不要 Flanagan's equation 残差 X 1 |.| + X 1 |.| + - 2 |.| 0.0001 0.0003 0.001 0.003 0.01 0.03 0.1 0.5 0.6 0.3 aperiodicity map of /aiueo/ 900 700 filter center frequency (Hz) 500 300 200 100 70 50 40 0 0.1 0.2 0.3 0.4 time (s) 0.7 1 音源情報推定法の構成 detector-1 prob.conv detector-2 prob.conv detector-k prob.conv stage-1 stage-2 stage-3 time warp map tracker and initial F0 estimator harmonic detector F0 updator detectorN-1 prob.conv detector-N prob.conv best weight 最良混合係数 確率の統合 n番目の検出器出力 の瞬時周波数 残差から求められた分散 音源情報推定法の構成 detector-1 prob.conv detector-2 prob.conv detector-k prob.conv stage-1 stage-2 stage-3 time warp map tracker and initial F0 estimator harmonic detector F0 updator detectorN-1 prob.conv detector-N prob.conv best weight 最良混合係数 連立一次方程式の解 音源情報推定法の構成 detector-1 prob.conv detector-2 prob.conv detector-k prob.conv stage-1 stage-2 stage-3 time warp map tracker and initial F0 estimator harmonic detector F0 updator detectorN-1 prob.conv detector-N prob.conv best weight 0.001 0.003 0.01 0.03 0.1 0.3 probability map of /aiueo/ 900 700 filter center frequency (Hz) 500 300 200 100 70 50 40 0 0.1 0.2 0.3 0.4 time (s) 0.5 0.6 0.7 音源情報推定法の構成 detector-1 prob.conv detector-2 prob.conv detector-k prob.conv stage-1 stage-2 stage-3 time warp map tracker and initial F0 estimator harmonic detector F0 updator detectorN-1 prob.conv detector-N prob.conv best weight 調波の利用と時間軸の適応伸縮 調波の利用 時間軸伸縮と調波の利用 フロントエンド 音源情報推定法の構成 detector-1 prob.conv detector-2 prob.conv detector-k prob.conv stage-1 stage-2 stage-3 time warp map tracker and initial F0 estimator harmonic detector F0 updator detectorN-1 prob.conv detector-N prob.conv best weight wavelet変換とFourier変換 aperiodicity detector for front end aperiodicity detector for refinement 1 gain (absolute value) 0.8 0.7 detector at 100Hz 2nd filter residual gain detector at 500Hz 2nd filter residual gain harmonics of 100 Hz 0.8 0.6 0.5 0.4 0.3 0.7 0.6 0.5 0.4 0.3 0.2 0.2 0.1 0.1 0 1 10 detector at 100Hz 2nd filter residual gain detector at 500Hz 2nd filter residual gain harmonics of 100 Hz 0.9 gain (absolute value) 0.9 1 2 10 frequency (Hz) 3 10 0 0 100 200 300 400 frequency (Hz) 500 600 F0抽出器の評価 • 試験信号:Aliasing-free L-F modelの出力 • 固定基本周波数、SNR操作 • 正弦波により周波数変調された基本周波数 • 周波数変調の変調度の変調周波数依存性 • 基本周波数軌跡の自乗誤差 F0抽出器の評価 • 試験信号:Aliasing-free L-F modelの出力 • 固定基本周波数、SNR操作 • 正弦波により周波数変調された基本周波数 • 周波数変調の変調度の変調周波数依存性 • 基本周波数軌跡の自乗誤差 フロントエンドのみ 更新後 F0抽出器の評価 • 試験信号:Aliasing-free L-F modelの出力 • 固定基本周波数、SNR操作 • 正弦波により周波数変調された基本周波数 • 周波数変調の変調度の変調周波数依存性 • 基本周波数軌跡の自乗誤差 周波数変調された試験信号 試験信号の作成例 fs = 22050;% Hz duration = 1; % s SparkNGの関数を利用 f0_base = 120;% Hz f0_modulation = 16;% Hz depth = 100; % cent center to peak tx = (0:1 / fs:duration)'; f0 = 2 .^ ((1200 * log2(f0_base) + ... depth * sin(2 * pi * f0_modulation * tx)) / 1200); tp = 0.4134; te = 0.5530; L-F modelのパラメタ ta = 0.0041; tc = 0.5817; outStr = AAFLFmodelFromF0Trajectory(f0, tx, fs, tp, te, ta, tc); x = outStr.antiAliasedSignal; 126 125 124 真値 提案法 frequency (Hz) 123 122 121 120 119 118 Trueth 117 T 10 ° T10 ° H3 116 YIN SWIPE' NDF Dio 115 0.58 0.6 0.62 0.64 time (s) 0.66 0.68 0.7 F0抽出器の評価 • 試験信号:Aliasing-free L-F modelの出力 • 固定基本周波数、SNR操作 • 正弦波により周波数変調された基本周波数 • 周波数変調の変調度の変調周波数依存性 • 基本周波数軌跡の自乗誤差 F0: 120 Hz 提案法 0 gain (dB) -5 -10 -15 T10 ° T10 ° H3 -20 -25 10 0 H10 ° H3 Yin SWIPE' NDF DIO 10 1 modulation frequency (Hz) F0抽出器の評価 • 試験信号:Aliasing-free L-F modelの出力 • 固定基本周波数、SNR操作 • 正弦波により周波数変調された基本周波数 • 周波数変調の変調度の変調周波数依存性 • 基本周波数軌跡の自乗誤差 提案法 FO/非周期性同時推定 • XSX, 高次対称性に基づくFO推定、Kalman filter併用は、袋小路 • NDFは、高性能。しかし、保守・拡張不可能。 • 基本に戻る • 周期性からの外れ→非周期性 • 基本波確率マップ→追跡・初期推定→再帰的更新 の分離 • LPFではなくBPF STRAIGHT 1997- TANDEM-STRAIGHT 2007 Temporally variable multi-aspect morphing 2009 Temporally variable morphing 2003multi-aspect N-way morphing 2013 F0 extractors 199719992002- YIN 2005- NDF 20072008- XSX 20122013Spark 1986- I am a tool builder hoping to make useful tools to promote understanding of human speech communication and to encourage collaborations between researchers and developers. I would appreciate your suggestions for me to produce further interesting tools. FO/非周期性同時推定 • XSX, 高次対称性に基づくFO推定、Kalman filter併用は、袋小路 • NDFは、高性能。しかし、保守・拡張不可能。 • 基本に戻る • 周期性からの外れ→非周期性 • 基本波確率マップ→追跡・初期推定→再帰的更新 の分離 • LPFではなくBPF 得意な人にまかせたい TensorFlow? 他の方法にも使えるアイデア FO/非周期性同時推定 • XSX, 高次対称性に基づくFO推定、Kalman filter併用は、袋小路 • NDFは、高性能。しかし、保守・拡張不可能。 • 基本に戻る • 周期性からの外れ→非周期性 • 基本波確率マップ→追跡・初期推定→再帰的更新 の分離 • LPFではなくBPF Thank you! Comment? Question? Welcome!
© Copyright 2024 ExpyDoc