スペクトル補正に基づく話者性を維持した構音障害者のための音声合成

スペクトル補正に基づく話者性を維持した構音障害者のための音声合成シス
テム ∗
☆上田怜奈, 滝口哲也, 有木康雄(神戸大)
HMM 音声合成
2
HMM 音声合成の概要
2.1
Fig. 1 はHMMを用いた音声合成システムの学習・
合成部の概要である.学習部においては、まず特徴
量(スペクトル、F0、A P 成分)を抽出する.こ
れらの特徴量はコンテキスト依存HMMによってモ
デル化される.また、音素継続長モデルを導入するこ
とにより、それぞれの特徴量と継続長を統一的枠組み
でモデルがすることが可能となった.合成部において
は、まず入力テキストをテキスト解析することによっ
てコンテキスト依存ラベル系列を得る.そのコンテ
Fig. 1: HMM-based sound synthesis system
キスト依存ラベル系列を基にしてコンテキスト依存
HMMを結合することによって文HMMを生成する.
1
はじめに
本研究では脳性麻痺から起こる構音障害を持つ人々
そのときHMM状態系列 q = [q1 , · · · , qT ] が Eq. (1)
によって継続長モデルから決定される.
のための音声合成法を提案する.構音障害者にとって
q̂ = arg max P (q|λ)
(1)
q
健常者との会話は困難を伴うものである.コミュニ
ケーションの障害となりうる要因として発話継続長、
このとき、変数 T はそれぞれフレーム数、qt はフレー
ピッチ、スペクトルなどの問題が挙げられる.これら
ム t におけるHMM状態インデックス、λ はHMMの
の問題を解決するにあたり、彼らの音声を話者性は保
パラメータセットである.静的・動的特徴量の間の明
ちつつ聞き取りやすく再構築するということは必要
示的な制約の下で、パラメータセットはHMM尤度が
不可欠である.そこで本研究では話者性を維持しつ
最大となるように生成される [1].
つ彼らのコミュニケーションの手助けとなるような隠
c = arg max P (Wc|q̂, λ)
れマルコフモデル (HMM) を用いた音声合成システ
(2)
c
ムを提案する.構音障害者のピッチには、健常者のも
T
のと比べて不安定であるという問題点がある.そこ
T
Eq. (2) において、c = [c1 T , · · · , cT
t , · · · , cT ] は音声
で提案法では、F0 モデル構築の際、健常者のピッチ
パラメータ系列を示し、ct = [c(1), · · · , c(D)] は t フ
系列の平均をを予め線形変換によって障害者の特徴
レームでの音声パラメータ系列、W は動的特徴量を
の平均へと変換する.また、構音障碍者のスペクトル
計算に用いて構築した重み行列を示している [2]。パ
の問題として、子音成分がしばしば不安定かつ不明
ラメータ生成の後、MLSA フィルタ [3] を用いてパラ
瞭になるということがある.このようなスペクトル
メータ系列から音声が合成される。
の問題に対して、我々は障害者のスペクトルモデルか
ら生成したパラメーターを健常者モデルのスペクト
ルパラメーターによって補完するという方法で解決
を試みる.評価実験を通して、提案手法が構音障害者
の話者性を維持しつつより聞き取り易い合成音を実
現していることを示す.
T
構音障害者のためのHMM音声合成
2.2
構音障害者の音声は収録した段階で不安定な音声
となっているため、構音障害者の音声から得られた音
声特徴でパラメータ学習をすると得られる合成音は聞
き取りずらいものになってしまう。そこで、本研究で
は、話者性の近い健常者と構音障害者の両方の音声を
学習データとして、話者性は維持しつつより聞き取り
易い合成音を作成した。Fig. 2 は提案手法の概要であ
る。提案手法において、構音障害者と健常者の両方を
∗
Individuality-Preserving Voice Reconstruction for Articulation Di
(a) a physically unimpaired person
Fig. 2: Diagram of HMM-based sound synthesis
method for articulation disorders
学習データとして使用する。初めに、STRAIGHT[4]
を用いて二人の話者から3つの音声パラメータ(F0
概形、スペクトラム包絡、非周期成分 (AP) )を抽
出する。特徴量を抽出したのち、健常者の F0 系列を
2.3 節にあるように修正する。学習部・合成部両方に
おいて、それぞれのパラメータに対して別々の処理を
行う。音素継続長モデルについて、構音障害者の発話
長は健常者に比べて長くなっているので、音素継続長
モデルは健常者のコンテキスト依存ラベル系列のみ
を用いて学習する。合成の際はこのように生成した
音素継続長モデルと入力テキストに基づいて、コン
テキスト依存ラベル系列が生成される。その後、生成
(b) a person with an articulation disorder
Fig. 3: Examples of spectrogram uttered for // g e
N j i ts u o
したコンテキスト依存ラベル系列と学習したHMM
に基づいて、スペクトラム、F0、AP パラメータが生
者の話者性が含まれていることになる。F0 系列の変
成される。F0 パラメータは修正した F0 モデルから
換には Eq. (3) のような線形変換を利用する。
生成、AP パラメータは構音障害者の AP モデルから
x̂t =
生成する。スペクトルパラメータに関しては構音障
害者、健常者のそれぞれのスペクトルモデルからそ
れぞれ生成する。スペクトルパラメータを生成した
後、障害者のスペクトルパラメータを 2.4 節のように
修正される。パラメータ系列 (スペクトル、F0、AP
σy
(xt − µx ) + µy
σx
(3)
Eq. (3) において、xt は健常者の t フレーム目の対数
F0、µx 、σx は健常者の F0 系列の平均・分散、µy 、
σy は構音障害者の対数 F0 系列の平均・分散をそれ
ぞれ表している。
成分) はすべて STRAIGHT で扱うことのできる形式
スペクトラム系列の修正
に変換される。最後に、STRAIGHT によって最終的
2.4
な合成音が生成される。2.3 節、2.4 節ではスペクト
Fig. 3 は健常者と構音障害者の元音声の ”現実を ”
と発声しているスペクトログラムである。Fig. 3 にあ
ルと F0 パラメータに対する処理の詳細を記述する。
2.3
F0 系列の修正
構音障害者の F0 系列はしばしば不安定なものであ
るので、本研究の F0 の修正法では、健常者の F0 系
るように、構音障害者のスペクトルの高周波成分は健
常者のものと比べて弱くなっている。これは構音障害
者の発声の子音成分が弱くなっておりそのことが聞
き取りにくさの原因となっているとこを示している。
列を基本として F0 モデルを学習する。F0 系列に構
音障害者の話者性を付与するため、F0 系列を構音障
2.5
謝辞について
害者の特徴へと変換する。F0 モデルはこの変換後の
必要に応じて,本文の最後,参考文献の前に謝辞を
F0 系列を学習データとして学習するので、構音障害
挿入する.また,謝辞は節ではなく,\paragraph{謝
辞} で書くようにする.
参考文献について
2.6
参考文献自体のフォントサイズは本文と同様であ
る.少なくとも,正しく引用するのに必要な情報は記
載する.著者が 3 名以上いる場合は,第一著者のみ
記載し,
「他」,
「et al.」を入れる.書誌情報のフォー
マットの例は,本ファイルの最後の「参考文献」欄に
parameter generation algorithms for HMMbased speech synthesis,” in Proc. of ICASSP,
2000, pp. 1315–1318.
[2] H. Zen, K. Tokuda, and A. W. Black, “Statistical
parametric speech synthesis,” Speech Communication, vol. 51, pp. 1039–1064, 2009.
記載してあるので,参照されたい.
[3] S. Imai, K. Sumita, and C. Furuichi, “Mel
その他の TIPS
3
以下に,TeX を使って見やすい原稿を作成するた
めの,TIPS を参考までに示す.
• 本文中に,周波数 1000 Hz,音圧レベル 40 dB
といった値を記載する際は,数値と単位の間に
半角スペースを入れる.ただし,「C◦ 」と「%」
の場合には,スペースを入れずに記す.
• 図番号を.\ref{fig:thisfigure}として本文で
cations in Japan (Part I: Communications),
vol. 66, pp. 10–18, 1983.
[4] H. Kawahara, I. Masuda-Katsuse, and A. D.
Cheveigné, “Restructuring speech representations using a pitch-adaptive time-frequency
番号の間で改行されてしまうことがある.これ
smoothing and an instantaneous-frequencybased f0 extraction: Possible role of a repetitive structure in sounds,” Speech communica-
を防ぐためには,Fig.~\ref{fig:thisfigure}
tion, vol. 27, pp. 187–207, 1999.
参照すると,これが行末に来た場合に,Fig. と図
とする.
• 「,
」と「「」が並ぶと,その間隔が狭くなる.こ
の場合,「,{} 「」と記すとよい.
• et al. は斜体なので,{\itshape et al.}とする
か,\textit{et al.}とする.
• 式 (\ref{eqn:thisequation}) に 代 え て ,式
\eqref{eqn:thisequation}を用いることもで
きる.
• サ ン プ ル のソ ー ス コー ド 上 に書 か れ てい る ,
\verb| |は,TeX のコマンド文字列を,ただ
の文字列として表示させるためのものである.
• dvipdf で PDF ファイルを作成した時に文章位
置が狂う場合には,-sPAPERSIZE=a4 のオプショ
ンを付けて実行してみる.
• dvipdfmx で PDF ファイルを作成すると,フォ
ントを埋め込まないので,ファイルサイズを小
さくできる.
おわりに
4
log spectrum approximation (MLSA) filter for
speech synthesis,” Electronics and Communi-
本稿が,分かりやすい原稿づくりの参考になれば,
幸いである.
謝辞
脚注を段抜きにするために,Bear-Collections
[?] にある 1-in-2.sty の該当箇所を,アレンジして本
スタイルファイルに取り込ませていただきました.
参考文献
[1] K.
Tokuda,
T.
Yoshimura,
T.
Masuko,
T. Kobayashi, and T. Kitamura, “Speech