電子情報通信学会ワードテンプレート (タイトル)

<<この欄は編集者が記入します>>日本音響学会聴覚研究会資料,Vol. ,No
[招待講演] めざせ音声分析合成マスター!
-「よくわからない」から「ちょっとわかる」へのチュートリアル-
森勢 将雅†
†山梨大学大学院総合研究部 〒400-8511 山梨県甲府市武田 4-3-11
E-mail: †[email protected]
あらまし Vocoder の考えに基づく音声分析合成技術は,研究用のツールとして広く利用されている.特に利用
されている STRAIGHT は,音声から基本周波数(F0),スペクトル包絡,非周期性指標を取り出し,それぞれのパラ
メータから音声波形を合成する機能を有する.F0 が高さであることは直感的だが,スペクトル包絡と非周期性指標
に関しては,どのように変換すればどのような音色になるのかが分かりにくい.また,STRAIGHT を含む高品質音
声分析合成技術については,中身をブラックボックスとする傾向があることも事実である.本講演では,音声分析
合成において,それぞれのパラメータがどのように音色に影響しているかを説明し,利用者がスペクトル包絡や非
周期性指標の中身を知るためのチュートリアルを行う.チュートリアルでは,筆者の開発した音声分析合成システ
ムを利用するが,制御法に関する理論は,同一の構造を有する分析合成システム全般で利用可能である.
キーワード 音声分析合成,Vocoder,基本周波数,スペクトル包絡,非周期性指標,
Aim to be a speech analysis/synthesis master!
-I want to say that I understand a little-
Masanori MORISE†
†Faculty of Engineering, University of Yamanashi 4-3-11 Takeda, Kofu-shi, Yamahashi, 400-8511 Japan
E-mail: †[email protected]
Abstract Speech analysis/synthesis systems on the basis of the ideal of Vocoder have been widely used, and several
researchers can use them without enough knowledge on the principle of the systems. These systems estimate the fundamental
frequency (F0), spectral envelope and aperiodicity from the speech signals and generate the signal with these three parameters.
It is well-known that we can control the pitch by using the F0 information, but it is difficult to control the spectral envelope
and aperiodicity with understanding in the relationship between the subjective timbre and them. The purpose of this article is to
demonstrate this relationship and to give the knowledge for controlling the speech parameters to the users. This article uses a
speech analysis/synthesis system named WORLD, but the knowledge in this article is generalized for being able to use other
similar systems.
Keywords Speech analysis/synthesis, vocoder, fundamental frequency, spectral envelope, aperiodicity
く伝達する観点で研究が進められており,品質が低い
1. は じ め に
音声分析合成技術は,人間の音声知覚のメカニズム
こ と が 特 徴 と し て 挙 げ ら れ て い た .1990 年 以 降 の 信 号
を 解 明 す る 研 究 に 有 用 で あ る . と り わ け , Vocoder [1]
処理技術,計算機能力の発展に伴い,高品質な音声分
の考えに基づく分析合成システムは, 音声の特徴を段
析 合 成 技 術 と し て STRAIGHT [2]が 提 案 さ れ , 肉 声 に
階的に変化させて知覚特性を計測する実験 など様々な
近い音声合成が可能となった.
応用研究に利用可能である.これは,音声から人間の
STRAIGHT の 発 明 は ,音 声 モ ー フ ィ ン グ [3]等 の 新 た
知覚する高さと音色に相当する音声パラメータを出力
な音声加工法の提案へと繋がり,音声分野に 大きな発
し ,各 パ ラ メ ー タ か ら 波 形 を 合 成 で き る 特 徴 に 基 づ く .
展をもたらした.さらに,聴覚分野における音声知覚
Vocoder の 考 え で は ,音 声 の 高 さ は 基 本 周 波 数( F0),
メカニズムの解明に向けた,基盤ツールとしての側面
音色はスペクトル包絡と定義される.最近では,声の
も有する.すでに多数の事例があるが,例えば,音声
擦れの程度に相当する非周期性成分に関する 3 つ目の
のピッチや話速が印象に与える影響について調査され
音声パラメータも利用される.初期の音声分析合成技
て い る [4].聴 覚 特 性 の 1 つ と し て ,聴 覚 は 音 を 音 源 が
術は,限られた通信能力と計算機能力で音声を効率よ
有する寸法の情報を抽出可能であるという考察がなさ
Proc. Auditory Res. Meeting, The Acoustical Society of Japan, Vol.
, No <<この欄は編集者が記入します>>
<<この欄は編集者が記入します>>日本音響学会聴覚研究会資料,Vol. ,No
れ ,STRAIGHT を 利 用 し た 寸 法 変 化 に よ り 検 証 さ れ た
例 も あ る [5]. 音 声 知 覚 に お け る Auditory adaptation の
示 す 論 文 [6]な ど ,STRAIGHT が 基 盤 と し て 利 用 さ れ た
例は多数ある.品質の高さから,歌声の合成,変換技
術 に も 利 用 さ れ て お り ,歌 声 の モ ー フ ィ ン グ [7]な ど の
加工技術を支える基盤としても利用されている.
STRAIGHT の 内 容 に つ い て は ,す で に 複 数 の 解 説 資
料 [8, 9]が あ る .し か し な が ら ,そ の 内 容 に つ い て 把 握
することは容易ではなく,未だにブラックボックスと
して扱われていることも多い.本講演の目的は,
STRAIGHT を は じ め と す る 高 品 質 な 音 声 分 析 合 成 技 術
について,各音声パラメータの位置付けや加工の際の
問題点などを説明することである.アルゴリズムの詳
細ではなく,各音声パラメータを制御することで具体
的に合成時何が生じるのかなど,入門資料としての位
置付けである.
音 声 分 析 合 成 は Vocoder 以 外 に も ,Phase vocoder [10]
や Sinusoidal model [11]な ど が 存 在 す る . こ こ で は ,
STRAIGHT の 基 盤 と な る Vocoder (正 確 に は Channel
vocoder)方 式 に 着 目 し , 特 に , STRAIGHT と そ の 後 継
に あ た る TANDEM-STRAIGHT [12,13]と WORLD [14]
の 3 種をターゲットにする.上述の 3 種の方式は同様
の機構を有するため,全種類を共通する呼称として
STRAIGHT と い う 用 語 を 用 い る .1999 年 に 提 案 さ れ た
も の は Legacy-STRAIGHT と す る .
音声パラメータから波形を合成するアルゴリズムから
音声パラメータ推定の手順について概説する.なお,
Legacy-STRAIGHT,TANDEM-STRAIGHT,WORLD の
バ ー ジ ョ ン は , そ れ ぞ れ STRAIGHTV40_006b ,
Tandem-STRAIGHTmonolithicPackage004TestRev
,
v0.2.0_4 で あ る .
2.2. F0 の推 定
音 声 の F0 推 定 に つ い て は , す で に 膨 大 な 研 究 事 例
が 存 在 す る 広 い 研 究 領 域 で あ る .STRAIGHT で は ,あ
る 程 度 SNR の 高 い 音 声 が 対 象 で あ り ,混 合 音 は 非 対 象
で あ る .具 体 的 に ,Legacy-STRAIGHT の F0 推 定 は NDF
2.1. 音 声 の定 義 と問 題 設 定
STRAIGHT で は , 以 下 の 数 式 に よ り 有 声 音 𝑦(𝑡)が 構
成されていると仮定する.
(1)
∞
𝑥(𝑡) = ∑ 𝛿(𝑡 − 𝑘𝑇0 ),
図 1 の よ う に ,STRAIGHT で は ,音 声 か ら 3 つ の 音
声パラメータを推定するアルゴリズム,および 3 つの
構 成 さ れ る . 以 下 で は ,Matlab の コ ー ド を 含 め て ,各
2. 音 声 分 析 合 成 シ ス テ ム の 構 成
𝑦(𝑡) = ℎ(𝑡) ∗ 𝑥(𝑡) + 𝑛(𝑡),
図 1: STRAIGHT の 枠 組 み .
[15],TANDEM-STRAIGHT で は XSX [12],WORLD で
は DIO [16]と い う そ れ ぞ れ 別 の 方 法 が 採 用 さ れ て い る .
音 声 波 形 を x,サ ン プ リ ン グ 周 波 数 を fs と し た 場 合 ,
各 シ ス テ ム で は 以 下 の コ マ ン ド に よ り 音 声 の F0 を 推
定 可 能 で あ る . 以 下 , Legacy-STRAIGHT , TANDEM-
(2)
𝑘=−∞
こ こ で , 記 号 ∗は 畳 み 込 み を 表 し , 𝑥(𝑡)は 基 本 周 期 𝑇0 の
周 期 を 有 す る パ ル ス 列 , ℎ(𝑡)は 声 帯 振 動 に 相 当 す る イ
STRAIGHT, WORLD の 順 に コ ー ド を 記 載 す る .
 [f0, ap] = exstraightsource(x, fs);
 f0 = exF0candidatesTSTRAIGHTGB(x, fs);
 f0 = Dio(x, fs);
ン パ ル ス 応 答 , 𝑛(𝑡)は 有 声 音 中 に 存 在 す る 非 周 期 的 な
x は 波 形 , fs は サ ン プ リ ン グ 周 波 数 に 対 応 す る .
雑音成分を表す.雑音成分が無い合成音声はブザー音
Legacy-STRAIGHT に つ い て は , 非 周 期 性 指 標 ap も 同
的 な 音 色 ( Buzzy) と な る た め , 非 周 期 性 成 分 は 音 声
時 に 推 定 さ れ る . TANDEM-STRAIGHT と WORLD の
の Buzzy さ を 低 減 す る た め に 重 要 と な る .
戻 り 値 は 構 造 体 で あ り , メ ン バ 変 数 f0 が 目 的 と す る
Vocoder に よ る 音 声 分 析 で は , 音 声 波 形 𝑦(𝑡)か ら , 3
F0 の 軌 跡 で あ る . メ ン バ 変 数 temporalPositions
つ の 音 声 パ ラ メ ー タ を 推 定 す る こ と を 目 指 す . F0 は ,
(TANDEM-STRAIGHT)と temporal_positions (WORLD)
基本周期の逆数として求める.スペクトル包絡につい
は , f0 が 推 定 さ れ た 時 刻 を 表 す 配 列 で あ る . 例 え ば ,
て は , 声 帯 振 動 の 波 形 ℎ(𝑡)で は な く , パ ワ ー ス ペ ク ト
f0.f0(n)は ,時 刻 f0.temporal_position(n)秒 の F0 を 示 す .
ルのみが推定対象である.非周期指標についても,雑
Legacy-STRAIGHT に つ い て は ,配 列 の n 番 目 が n ミ リ
音 成 分 𝑛(𝑡)そ の も の で は な く ,音 声 波 形 𝑦(𝑡)中 の 周 期 的
な 成 分 ℎ(𝑡) ∗ 𝑥(𝑡)と , 非 周 期 的 な 成 分 𝑛(𝑡)と の パ ワ ー の
比として定義される.非周期性指標は帯域毎に異なる
ため,スペクトル状のパラメータである.
Proc. Auditory Res. Meeting, The Acoustical Society of Japan, Vol.
秒 時 の F0 に 相 当 し ,分 析 シ フ ト 量 の 指 定 は で き な い .
TANDEM-STRAIGHT , WORLD の 分 析 シ フ ト 量 の デ
フ ォ ル ト 値 は 5 ms で あ る .
性 能 は ,音 声 中 の 雑 音 量 ,た だ し 単 純 な SNR で は な
, No <<この欄は編集者が記入します>>
<<この欄は編集者が記入します>>日本音響学会聴覚研究会資料,Vol. ,No
く音声中の非周期性成分を含む雑音量に依存する.開
声区間と誤推定しても全周波数で非周期的であると推
発 者 グ ル ー プ が 非 公 式 に 行 っ た 実 験 で は , NDF が 低
定されることから,有声音区間と判定する閾値を緩く
SNR な 音 声 に 対 し て も 高 い 精 度 で F0 が 推 定 可 能 で あ
設定することで品質が上がるという報告も存在する.
ることを確認している.静音環境で収録された 音声で
2.4. スペクトル包 絡 の推 定
は ,DIO が NDF と ほ ぼ 等 価 な 性 能 を 達 成 し て い る .分
ス ペ ク ト ル 包 絡 推 定 に は , 線 形 予 測 (LPC: Linear
析 速 度 に つ い て は DIO が 他 手 法 よ り 1 桁 以 上 高 速 に 動
predictive coding) [22] や ケ プ ス ト ラ ム [23] な ど の 代 表
作 し , TANDEM-STRAIGHT, Legacy-STRAIGHT の 順
的な方法や,改良法が提案されている.従来の音声分
に 遅 く な る .た だ し ,Legacy-STRAIGHT の 分 析 シ フ ト
析では,窓関数で波形を切り出し ,スペクトル包絡を
量 は 1 ms,TANDEM-STRAIGHT の 分 析 シ フ ト 量 は 5 ms
推定するが,推定結果は,毎回の声帯振動が不変にも
で あ り , 分 析 シ フ ト 量 を 揃 え た 場 合 は , TANDEM-
関わらず,波形を切り出す時刻に依存して変化する.
STRAIGHT の ほ う が 低 速 で あ る .
STRAIGHT は ,こ の 分 析 時 刻 に 依 存 す る 成 分 を そ れ
2.3. 非 周 期 性 指 標 の推 定
ぞれ独自に定式化し,除去するようデザインされてい
音 声 の 非 周 期 的 な 成 分 を 扱 う 研 究 に は , Mixed
る . 類 似 研 究 と し て , 中 野 ら の 取 り 組 み [24]が 存 在 す
excitation [17]な ど の 事 例 が 存 在 す る [18]. た だ し , 高
る が , 1 sample ご と の 波 形 切 り 出 し が 必 要 な ど 計 算 コ
品質音声合成のために提案された方法は少ないのが現
スト面での課題が残されている. 各システムでのスペ
状である.非周期性指標は,以下のコマンドにより推
クトル包絡は,それぞれ以下のコマンドで 推定する.
定 さ れ る . Legacy-STRAIGHT は F0 と 同 時 に 推 定 さ れ
 spec = exstraightspec(x, f0, fs);
るため,ここでは省略する.
 spec = exSpectrumTSTRAIGHTGB(x, fs, source);
 source = aperiodicityRatioSigmoid(x, f0, 1, 2, 0);
 spec = CheapTrick(x, fs, source);
 source = D4C(x, fs, f0);
Legacy-STRAIGHT 以 外 は 構 造 体 で 結 果 が 与 え ら れ
source は 構 造 体 で あ り , メ ン バ 変 数 に は F0 を 含 む .
る . ま た , Legacy-STRAIGHT は 振 幅 ス ペ ク ト ル だ が ,
Legacy-STRAIGHT と WORLD で は ,FFT 長 に 応 じ た ス
そ れ 以 外 は パ ワ ー ス ペ ク ト ル で あ る .FFT 長 は ,F0 の
ペ ク ト ル 表 現 が 結 果 と し て 与 え ら れ る が , TANDEM-
下限とサンプリング周波数から 自動的に決定される.
STRAIGHT の 場 合 は ,い く つ か の 帯 域 毎 に 推 定 を 行 い ,
ス ペ ク ト ル 包 絡 推 定 精 度 に つ い て は , TANDEM-
帯域毎の結果に対してシグモイド関数でフィッティン
STRAIGHT が Legacy-STRAIGHT を 上 回 る と い う 結 果
グ を 行 い ,そ の パ ラ メ ー タ を 最 終 的 な 結 果 と す る [19].
が 得 ら れ て い る [25] . 合 成 音 声 の 品 質 に つ い て は , 3
これは,音声は低域であるほど周期的で,高域になる
種 と も に 有 意 差 が 無 く ,サ ー ス ト ン の 一 対 比 較 法 で は ,
ほ ど 非 周 期 的 に な る と い う 仮 説 に 基 づ く . FFT 長 は ,
高 い 順 に WORLD で 採 用 さ れ て い る CheapTrick [26,
後述するスペクトル包絡推定に用いる値と等しい.
27], TANDEM-STRAIGHT, Legacy-STRAIGHT で あ る
音声の声帯振動は,時間的にも常に等間隔ではなく
ことが示唆されている.ただし,分析合成する音声と
波形も毎回異なる.周期性を仮定し,周期性成分と非
の相性があるため,大局的にはどの方法にも大きな差
周期性成分のパワー比である非周期性指標を推定する
が存在しないという報告も寄せられている.
場合,この声帯振動の揺らぎが結果に影響する.
2.5. 3 つの音 声 パラメータからの波 形 合 成
Legacy-STRAIGHT と TANDEM-STRAIGHT は ,波 形 の
波形合成部では,音声波形から得られた 3 つの音声
F0 に 基 づ い て 時 間 伸 縮 を 行 い , F0 を フ ラ ッ ト に 変 換
パラメータを入力とし,以下のコマンドで波形を出力
し て か ら 推 定 す る .Legacy-STRAIGHT で は ,全 フ レ ー
す る .な お ,TANDEM-STRAIGHT の 戻 り 値 は 構 造 体 で
ムの推定後,さらに時間方向への平滑化がなされる.
あ り , メ ン バ 変 数 synthesisOut が 波 形 で あ る .
WORLD で 採 用 し て い る ア ル ゴ リ ズ ム D4C [20]は ,
 y = exstraightsynth(f0, spec, ap, fs);
声帯振動の時間的な揺らぎに頑健なアルゴリズムを採
 y = exTandemSTRAIGHTsynthNx(source, spec);
用しているため,時間伸縮や推定後の平滑化を行うこ
 y = Synthesis(source, spec);
となく非周期性指標を推定可能な特長を有する. 分析
合 成 処 理 は , (1) F0 軌 跡 か ら 声 帯 振 動 が 生 じ た 時 刻
合 成 音 の 品 質 評 価 に つ い て は , Legacy-STRAIGHT と
を 計 算 , お よ び (2) 各 声 帯 振 動 が 生 じ た 時 刻 に お け る
WORLD と が ほ ぼ 等 価 で ,TANDEM-STRAIGHT が や や
有声音,無声音の合成の 2 ステップで構成される.
劣 る こ と を 確 認 し て い る . HMM 音 声 合 成 に 関 し て
初 め に ,F0 軌 跡 か ら 声 帯 振 動 の 生 じ る 時 刻 を 推 定 す
Legacy-STRAIGHT と WORLD の 比 較 を 行 っ た 実 験 例
る 方 法 を 述 べ る .F0 軌 跡 𝑓0 (𝑡)か ら ,以 下 の 式 に よ り パ
も あ り , ほ ぼ 同 等 の 品 質 を 達 成 し て い る [21]. な お ,
ラ メ ー タ 𝜃𝑐 (𝑡)を 計 算 す る .
有声音を無声音と誤推定した場合の品質低下は大きい
が,非周期性指標推定が適切であれば,無 声区間を有
Proc. Auditory Res. Meeting, The Acoustical Society of Japan, Vol.
𝑡
𝜃𝑐 (𝑡) = ∫ 𝑓0 (𝜏) 𝑑𝜏.
0
, No <<この欄は編集者が記入します>>
(3)
<<この欄は編集者が記入します>>日本音響学会聴覚研究会資料,Vol. ,No
図 2:F0 軌 跡( 上 段 )と 式 (3)に よ り 得 ら れ た 結 果( 下
図 3:あ る フ レ ー ム の ス ペ ク ト ル 包 絡( 上 段 左 ),非
段 ). 無 音 区 間 の F0 は 500 Hz と し て 計 算 し て い る .
周 期 性 指 標( 上 段 右 ),周 期 性 ス ペ ク ト ル( 下 段 左 ),
図 2 に ,あ る 音 声 を 分 析 し た 結 果 の F0 軌 跡 𝑓0 (𝑡)と ,パ
非 周 期 性 ス ペ ク ト ル ( 下 段 右 ).
ラ メ ー タ 𝜃𝑐 (𝑡)の 例 を 示 す .無 声 音 に F0 は 存 在 し な い が ,
破裂音の合成で瞬時に音が発生することに対応するた
め , 高 い F0 の 値 ( WORLD で は 500 Hz) に 置 き 換 え
て 計 算 す る . 時 刻 0 の 値 を 初 期 値 と し , 縦 軸 が 2𝜋変 動
するのに要した時間間隔が基本周期となる.このアル
ゴリズムにより時刻 0 から声帯振動の生じる時刻を計
算 す る .こ の ア ル ゴ リ ズ ム は ,F0 制 御 に お い て は ,大
局 的 な 制 御 が 重 要 で あ る こ と を 示 唆 す る .微 細 変 動 は ,
毎回の声帯振動時刻を微細に変動させることになるた
め,品質を損なう原因となり得る.声帯振動の生じる
時刻が得られた後は,各時刻について有声音と無声音
の 合 成 , お よ び 得 ら れ た 結 果 を Overlap-add の 考 え 方
に基づいて加算する.
声帯振動の位相を推定していないため,位相はパ
ワースペクトルから計算される最小位相とする.
STRAIGHT で は ,ス ペ ク ト ル 包 絡 を そ の ま ま 用 い て 有
声 音 を 合 成 す る の で は な く ,ス ペ ク ト ル 包 絡 𝑆𝑒 (𝜔)と 非
周 期 性 指 標 𝑎𝑝(𝜔)か ら ,周 期 性 ス ペ ク ト ル を 求 め て 利 用
する.スペクトル包絡と非周期性指標,周期性・非周
算 す る た め ,フ ォ ル マ ン ト の ピ ー ク へ の 影 響 は 小 さ い .
非周期性指標が品質に与える影響は,他の 2 つに比
べると小さいため,非周期性指標をどのように与える
かについては,現在までに一定の結論には至っていな
い . た だ し , D4C で は 3 kHz 毎 の 中 心 周 波 数 に つ い て
計 算 し , 0 Hz の 値 を -60 dB, ナ イ キ ス ト 周 波 数 の 値 を
0 dB と し て 与 え て 補 間 す る こ と に よ り ,全 離 散 周 波 数
に つ い て 値 を 求 め る Legacy-STRAIGHT と 等 価 か や や
上回る品質を達成している.これは,周期性・非周期
性スペクトル形状の複雑さがスペクトル包絡側で決定
するため,非周期性指標については,概形のみ推定で
きれば充分である可能性を示唆する.
3. 音 声 加 工 の 実 例 と 応 用 例
ここでは,比較的容易な変換法やそれを用いた研究
事例を紹介する.
3.1. 話 速 制 御
話速変化は,比較的容易に実装できる変換技術の 1
つ で あ る .Legacy-STRAIGHT で は フ レ ー ム シ フ ト が 1
期性スペクトルは以下の関係式となる.
𝑆𝑒 (𝜔) = 𝑆𝑒 (𝜔)𝑎𝑝(𝜔) + 𝑆𝑒 (𝜔)(1 − 𝑎𝑝(𝜔)),
トル包絡との乗算で周期性・非周期性スペクトルを計
(4)
ms に 固 定 さ れ て い る た め , 例 え ば 話 速 を N 倍 に す る
場合は各パラメータを時間方向に N 倍へ伸縮する必要
右辺の第一項が非周期性スペクトルであり,第二項が
が あ る . 一 方 , WORLD で は , source の メ ン バ 変 数
周期性スペクトルである.非周期性指標は 0 から 1 の
temporal_positions に 時 間 の 情 報 が 格 納 さ れ て い る た め ,
範 囲 の 値( Legacy-STRAIGHT は 対 数 と な っ て い る た め
話 速 を N 倍 に し た い 場 合 ,temporal_positions を N 倍 す
負の値)であり,非周期性指標が 0 であることは,ス
れ ば 良 い . TANDEM-STRAIGHT も temporalPositions
ペクトル包絡が全て周期的であることを示す.
を N 倍 す る こ と で 発 話 速 度 を 伸 縮 で き る .spec メ ン バ
図 3 は,特定のフレームについて計算された,スペ
変 数 に も temporal_positions は 存 在 す る が ,こ ち ら は 合
クトル包絡,非周期性指標,周期性・非周期性スペク
成時に利用されない.ただし,伸縮が線形の場合は子
トルを示す.非周期性指標は滑らかであるが,スペク
音部や調音区間も線形に伸縮されるため,変化率が大
Proc. Auditory Res. Meeting, The Acoustical Society of Japan, Vol.
, No <<この欄は編集者が記入します>>
<<この欄は編集者が記入します>>日本音響学会聴覚研究会資料,Vol. ,No
パ ル ス 応 答 の 位 相 に は 最 小 位 相 を 利 用 し て い る .一 方 ,
図 4 からも明らかに,実音声の波形と合成された波形
のエンベロープは異なる.
聴 覚 は 位 相 の 違 い を 知 覚 す る こ と が 可 能 で あ る [30].
また,聴覚野の神経細胞応答を計測する研究では,波
形のエンベロープにより反応を変化させる神経細胞応
答 の 存 在 が 示 唆 さ れ て い る [31]. 波 形 の エ ン ベ ロ ー プ
は,波形のエネルギーが時間的にどの程度散らばって
いるかに相当する.波形の時間的な散らばりはパワー
スペクトルと群遅延から求められるため,同一のスペ
クトル包絡に対するエンベロープは, 群遅延操作で制
御 す る こ と が 可 能 で あ る [32]. 知 覚 的 に 重 要 な こ と が
エンベロープのみである場合,波形のエンベロープを
制御しやすいような群遅延,あるいは位相のモデリン
図 4:音 声 波 形( 上 段 )と 合 成 波 形( 下 段 ).波 形 の
グを行うことが新たな課題と言える.
エンベロープが異なる.
4.2. 分 析 合 成 方 式 の限 界
きい場合は自然性が低下する.自然性を保ったまま話
速を変換するためには,調音速度や子音・母音区間を
加味した非線形な伸縮が必要になる.
Vocoder の 構 造 に 基 づ く 音 声 分 析 合 成 シ ス テ ム は ,
音 声 波 形 が 有 す る 位 相 情 報 の 扱 い に 限 界 が あ る .ま た ,
声帯振動が周期的であるという前提で理論が構築され
ているが,実際の音声は声帯振動の生じる時間間隔が
3.2. 寸 法 の制 御
各フレームに対するスペクトル包絡を線形伸縮す
ることは,寸法(声道長)の制御に対応する. 線形伸
縮 を 行 う 場 合 は , Matlab の interp1 関 数 を 利 用 す る こ
とで容易に実装可能である.また,スペクトル包絡の
周波数伸縮は,対数パワーに対して行うことが望まし
い と い え る .STRAIGHT に よ る 合 成 音 声 は ,フ ォ ル マ
ントピークの鋭さが鈍ることで品質が劣化するため,
対数パワーによる処理でこの影響を低減できる.
ばらついており,声帯振動波形も毎回同一とはならな
い.短時間で分析を行うため,周期性の仮定は分析結
果 に 大 き な 影 響 を 与 え な い が , 能 [33]の よ う な 特 殊 発
声 で は ,こ の 仮 定 が 成 立 し な い .ま た ,グ ロ ウ ル・シ ャ
ウトのような演奏表現においても,同様に現状の音声
分析合成技術で解析することは不可能である. これら
の音声を解析するためには,音声の周期性を仮定しな
い理論を構築し直すことが必要になる.
特殊発声を分析合成システムに入力して分析する
3.3. 声 道 断 面 積 関 数 の制 御
ことは可能であり,周期性の逸脱も小さければ高品質
声 道 断 面 積 関 数 (VTAF: vocal tract area function)を 用
な 音 声 合 成 が 可 能 で あ る . Legacy-STRAIGHT ,
いることで,声門から口唇までの声道形状を近似する
TANDEM-STRAIGHT, WORLD そ れ ぞ れ に 相 性 の 良 い
こ と が 可 能 と な る . 近 年 で は 音 声 波 形 か ら VTAF を 推
音声があることは,このような周期性の逸脱が原因で
定 す る 技 術 が 提 案 さ れ て い る [28].VTAF は 全 極 ス ペ ク
あることが考えられる.
ト ル で の 近 似 に な る た め ,STRAIGHT に よ り 得 ら れ た
ス ペ ク ト ル 包 絡 か ら VTAF を 推 定 す る と , ス ペ ク ト ル
包 絡 を VTAF 由 来 の も の と 残 差 に 分 離 す る こ と に な る .
筆 者 ら の 検 討 で は ,音 声 の「 は き は き 」
「 も ご も ご 」感
には口の開き方の時間的な変化量が重要で あることを
示 唆 し て い る [29]. VTAF 制 御 に よ る 声 質 変 換 [28]は ,
口の開き方に対応するため直感的であ る.
5. お わ り に
本稿では,高品質音声分析合成システムとして
STRAIGHT, TANDEM-STRAIGHT, WORLD の 3 つ を
対象とし,音声分析により得られるパラメータが合成
時にどのように利用されるのかを説明した.特に,非
周期性指標の扱いについて解説し,各パラメータが合
成結果にどのような影響を与えるかについて述べた.
4. 音 声 分 析 合 成 シ ス テ ム の 展 望 と 限 界
応用研究に向けて,何を変換するとどのような結果が
こ こ で は ,現 状 の STRAIGHT で 残 さ れ た 課 題 と 音 声
得られるのか「ちょっとわかる」ようになれば幸いで
分析合成技術の限界について述べる.
ある.
4.1. 分 析 合 成 方 式 に残 された課 題
6. 謝 辞
音声分析合成には,音声波形の位相をどの様に扱う
本 研 究 は ,科 研 費 15H02726,26540087,お よ び 東 北
べきかという共通の課題が存在する. 中野らの取り組
大 学 電 気 通 信 研 究 所 共 同 プ ロ ジ ェ ク ト ( H25/A08) の
み [24]は あ る も の の , 概 ね 各 声 帯 振 動 に 相 当 す る イ ン
支援を受けて実施された.
Proc. Auditory Res. Meeting, The Acoustical Society of Japan, Vol.
, No <<この欄は編集者が記入します>>
<<この欄は編集者が記入します>>日本音響学会聴覚研究会資料,Vol. ,No
文
献
[1] H. Dudley,“ Remaking speech,”J. Acoust. Soc. Am.,
vol. 11, pp. 169-177, 1939.
[2] H. Kawahara, I. Masuda-Katsuse, and A. De
Cheveigné, “ Restructuring speech representations
using a pitch-adaptive time-frequency smoothing and
an instantaneous-frequency-based F0 extraction, ”
Speech Communication, vol. 27, pp. 187-207, 1999.
[3] H. Kawahara and H. Matsui, “ Auditory morphing
based on an elastic perceptual distance metric in an
interference-free time-frequency representation, ”
Proc. ICASSP2003, pp. 256-259, 2003.
[4] 内 田 照 久 ,“ 音 声 の 発 話 速 度 の 制 御 が ピ ッ チ 感 及
び 話 者 の 性 格 印 象 に 与 え る 印 象 ,” 音 響 学 会 誌 ,
vol. 56, pp. 396-405, 2000.
[5] D. R. Smith, R. D. Patterson, R. Turner, H. Kawahara,
and T. Irino,“ The processing and perception of size
information in speech sounds,” J. Acoust. Soc. Am.,
vol. 117, pp. 305-318, 2005.
[6] S. R. Schweinberger, C. Casper, N. Hauthal, J. M.
Kaufmann, H. Kawahara, N. Kloth, D.M.C.
Robertson, A. P. Simpson and R. Zäske,“ Auditory
Adaptation in Voice Perception, ”Current Biology, vol.
18, pp. 684-688, 2008.
[7] M. Morise, M. Onishi, H. Kawahara, and H. Katayose,
“ v.morish'09: A morphing-based singing design
interface for vocal melodies, ” Lecture Notes in
Computer Science, LNCS 5709 (in Proc of ICEC
2009), pp. 185-190, 2009.
[8] 河 原 英 紀 ,
“ Vocoder の も う 一 つ の 可 能 性 を 探 る -
音 声 分 析 変 換 合 成 シ ス テ ム STRAIGHT の 背 景 と
展 開 - ,” 日 本 音 響 学 会 誌 , vol. 63 pp. 442-449,
2007.
[9] H. Kawahara,“ STRAIGHT, Exploration of the other
aspect of VOCODER: Perceptually isomorphic
decomposition of speech sounds, ” Acoustic Science
and Technology, vol. 27, pp. 349-353, 2006.
[10] J. L. Flanagan and R. M. Golden,“ Phase vocoder,”
Bell System Technical Journal, vol. 45, pp.
1493-1509, 1966.
[11] R. McAulay and T. F. Quatieri, “ Speech
analysis/synthesis
based
on
a
sinusoidal
representation,” IEEE Trans. Acoust., Speech, Sig.
Process. vol. 34, pp. 744-754, 1986.
[12] H. Kawahara, M. Morise, T. Takahashi, R. Nis imura,
T. Irino and H. Banno, “ TANDEM-STRAIGHT: A
temporally stable power spectral representation for
periodic signals and applications to interference -free
spectrum, f0, and aperiodicity estimation, ” Proc.
ICASSP 2008, pp. 3933-3936, 2008.
[13] H. Kawahara and M. Morise,“ Technical foundations
of TANDEM-STRAIGHT, a speech analysis,
modification and synthesis framework, ”SADHANA Academy Proceedings in Engineering Sciences, vol.
36, pp. 713-728, 2011.
[14] http://ml.cs.yamanashi.ac.jp/world/ 最 新 版 は Web
で 公 開 し て お り ,最 新 版 の シ ス テ ム 全 体 を ま と め
た資料はまだ存在しない.
[15] H. Kawahara, A. de Cheveigne, H. Banno, T.
Takahashi and T. Irino, “ Nearly Defect-free F0
Trajectory Extraction for Expressive Speech
Modifications based on STRAIGHT, ” Proc.
Interspeech2005, pp. 537-540, 2005.
[16] 森 勢 将 雅 , 河 原 英 紀 , 西 浦 敬 信 ,“ 基 本 波 検 出 に
Proc. Auditory Res. Meeting, The Acoustical Society of Japan, Vol.
基 づ く 高 SNR の 音 声 を 対 象 と し た 高 速 な F0 推 定
法 ,”電 子 情 報 通 信 学 会 論 文 誌 D,vol. J93-D, pp.
109-117, 2010.
[17] A. V. McCree and T. P. Barnwell III, “ A mixed
excitation LPC vocoder model for low bit rate speech
coding,” IEEE Trans. on Speech Audio Process., vol.
3, pp. 242-250, 1995.
[18] D. W. Griffin and J. S. Lim,“ Multiband excitation
vocoder,”IEEE Trans. on Acoust. Speech, and Signal
Process., vol. 36, pp. 1223-1235, 1988.
[19] H. Kawahara and M. Morise,“ Simplified aperiodicity
representation for high-quality speech manipulation
systems,” Proc. ICSP2012, pp. 579-584, 2012.
[20] 森 勢 将 雅 ,“ 帯 域 毎 の 非 周 期 性 指 標 推 定 法 と そ の
誤 差 評 価 ,” 信 学 技 報 , vol. 115, pp. 13-18, 2015.
[21] 高 道 慎 之 介 ,戸 田 智 基 ,森 勢 将 雅 ,中 村 哲 ,
“ HMM
音 声 合 成 に お け る 音 声 分 析 合 成 器 STRAIGHT と
WORLD の 比 較 ,” 音 講 論 (秋 ), pp. 271-272, 2015.
[22] B. S. Atal, S. L. Hanauer, “ Speech analysis and
synthesis by linear prediction of the speech wave, ”J.
Acoust. Soc. Am., vol. 50, pp. 637-655, 1971.
[23] A. V. Oppenheim,“ Speech analysis-synthesis system
based on homomorphic filtering,”J. Acoust. Soc. Am.,
vol. 45, pp. 458-465, 1969.
[24] T. Nakano and M. Goto, “ A spectral envelope
estimation method based on f0 -adaptive multi-frame
integration analysis,” Proc. SAPA-SCALE2012, pp.
11-16, 2012.
[25] 赤 桐 隼 人 , 森 勢 将 雅 , 入 野 俊 夫 , 河 原 英 紀 ,“ ス
ペ ク ト ル ピ ー ク を 強 調 し た F0 適 応 型 ス ペ ク ト ル
包 絡 抽 出 法 の 最 適 化 と 評 価 ,”信 学 論 A,vol. J94-A,
pp. 557-567, 2011.
[26] M. Morise, “ CheapTrick, a spectral envelope
estimator for high-quality speech synthesis,” Speech
Communication, vol. 67, pp. 1-7, 2015.
[27] M. Morise, “ Error evaluation of an F0-adaptive
spectral envelope estimator in robustness against the
additive noise and F0 error,” IEICE transactions on
information and systems, vol. E98 -D, pp. 1405-1408,
2015.
[28] A. Arakawa, Y. Uchimura, H. Banno, F. Itakura, and
H. Kawahara, “ High quality voice manipulation
method based on the vocal tract area function
obtained from sub-band LSP of straight spectrum,”
Proc. ICASSP2010, pp. 4834-4837, 2010.
[29] M. Morise, S. Tsuzuki, H. Banno, and K. Ozawa,
“ Muffled and brisk speech evaluation with criterion
based on temporal differentiation of vocal tract area
function, ” IEICE transactions on information and
systems, vol. E97-D, pp. 3230-3233, 2014.
[30] R. Promp and H. J. M. Steeneken,“ Effect of phase on
the timbre of complex tones,” J. Acoust. Soc. Am.,
vol. 46, pp. 409-421, 1969.
[31] 森 勢 将 雅 ,大 久 保 快 走 , 地 本 宗 平 , 佐 藤 悠 , 小 澤
賢 司 ,“ ソ ー ス ・ フ ィ ル タ 型 音 声 合 成 に お け る 有
声音の位相が聴覚野の神経細胞応答に与える影
響について ~覚醒ネコ第一次聴覚野の神経細
胞 応 答 に 基 づ く 検 討 ~ ,” 信 学 技 報 , vol. 114, pp.
41-46, 2014.
[32] L. コ ー エ ン ,
“ 時 間 -周 波 数 解 析 ,”朝 倉 書 店 , 1998.
[33] O. Fujimura, K. Honda, H. Kawahara, Y. Konparu, M.
Morise and J.C. Williams, “ Noh voice quality, ”
Logopedics Phoniatrics Vocology, vol. 34, pp.
157-170, 2009.
, No <<この欄は編集者が記入します>>