シフトレジスタを用いた音声合成回路における声道形状の

社団法人 電子情報通信学会
THE INSTITUTE OF ELECTRONICS,
INFORMATION AND COMMUNICATION ENGINEERS
信学技報
TECHNICAL REPORT OF IEICE.
シフトレジスタを用いた音声合成回路における声道形状の決定
眞鍋 慧太†
上垣 利果†
田向
権†
関根
優年†
† 東京農工大学 工学府
〒 184–8588 東京都小金井市中町 2–24–16
E-mail: †{manabe,uegaki}@sekine-lab.ei.tuat.ac.jp, ††{tamukoh,sekinem}@cc.tuat.ac.jp
あらまし
発声器官の形状は筋肉により複雑に変化し,その違いによって,言葉として認識できるような様々な音声
が生まれる.本研究では,音の伝達・反射・重ね合わせを行う仮想的な物理空間を論理回路で FPGA 内に構成するこ
とで,発声器官の機能を模擬することを目指す.音は空気の疎密波であり,論理回路内ではこれをパルス密度で表現
することで演算処理を行う.我々はこれまで声道部分回路のレジスタを 3 並列構成とすることで声道内での波の重ね
合わせを表現してきた.また,口腔部の広がりをモデル化し,分岐するレジスタを持つように改良を行った.本稿で
は作成した回路を用いて,母音を決定づける主要因となるフォルマントに着目し,より人間らしい音声を合成するた
めの声道形状の決定方法について報告する.
キーワード
音声合成,パルス論理,パルス演算,声道形状,FPGA
Detemination of Vocal Tract Shape on Voice Synthesis Circuit using
Shift Register
Keita MANABE† , Rika UEGAKI† , Hakaru TAMUKOH† , and Masatoshi SEKINE†
† Faculty of Engineering, Tokyo University of Agriculture and Technology
2-24-16 Naka-chou, Koganei-shi, Tokyo, 184-8588 Japan
E-mail: †{manabe,uegaki}@sekine-lab.ei.tuat.ac.jp, ††{tamukoh,sekinem}@cc.tuat.ac.jp
Abstract Human various voices are made by a shape of phonatory organ that changes its complexity with the
muscles. In this paper, we construct a virtual physical space with a logical circuit in an FPGA, that performs acoustic propagation, reflection and superposition, and the circuit simulates the function of phonatory organ. The sound
is a compressional wave of air. Therefore, in the proposed circuit, the voice synthesis processing circuit is performed
with a expression of pulse density. In our previous work, the voice synthesis processing circuit was represented as
a triserial multistage registers. And we retrofit vocal tract circuit. It consists of bifurcated register circuits that
modeling mouth orifice enlarging. We pay our attention to formant becoming the main factor to determine a vowel
sound using the circuit. Finally, we report a determination of vocal tract shape method to compose a more human
sound.
Key words Voice Synthesis, Pulse Logic, Pulse Operation, Vocal Tract Shape, FPGA
1. は じ め に
1. 1 研 究 背 景
されたパルスを流すことで波の重ね合わせを行う.
1. 2 研 究 目 的
数学的な解析が容易にできるようなモデルを用い声道伝達特
数千万ゲートのシステム LSI の応用分野の 1 つとして音声合
性を求める方法では,実際の音声の生成過程とはかけ離れてい
成を研究している.その理由としてソフトウェアを用いた従来
る.人間は,舌・顎・口唇といった複数の発声器官の時間的・空
の波形レベルでの合成では,自然な音声を合成することは難し
間的変化によって発声している.これをエレクトロニクス的に
いということが挙げられる.本研究では発声器官及び発声過程
実現するにはソフトウェアのみでは難しく,ハードウェアでの
を論理回路によって物理的に模擬し,自然な音声を合成するこ
並列処理が有効と考えられる.そこで論理回路内に仮想的な物
とを目指す.FPGA 内のレジスタで物理空間を表し,密度変調
理空間として声道を形成する.そして,音声をパルス密度で表
—1—
R
N
B
Y
L
X
W
X,Y:ã‚Ì’†SˆÊ’u
L@:ã‚Ì“Ë‚«o‚µ
W :O‚ÌŠJŒû
R,B:ãæ‚̈ʒu‚Æ‹·‚ß
N :“îŒûŠ
W‚ÌŒ‹‡“x
図 1 調音モデル
現し,より自然な音声が物理現象として生成されることを目指
し,パルス演算によって音を合成する手法を提案してきた [6].
回路はシフトレジスタを用い進行波 256bit・後退波 256bit の
図2
512bit をひとかたまりとして,約 25,000 スライスで実現して
口腔部モデル
いる.またフォルマントを強調する回路を組み込んだとしてそ
れにより引き起こされる結果を実際の回路実装に利用する.そ
声帯回路
基本波形
生成パルス列
のために,本稿では作成した回路を用いて,母音を決定づける
パラメータ波 (Pitch,Volumeパラメータ)
主要因となるフォルマントに着目し,より人間らしい音声を合
図3
パラメータ波
成するための声道形状について報告する.
圧力
2. 音声生成過程
音声
時間
有声音源である呼気の断続流は声帯の振動によって生成され
パルス密度表現
役割を果たす.本章では,音声生成過程の計算モデルについて
音響管モデル [1] に代表される声道アナログ型のモデルは,
声道断面積を制御パラメータとする声道形状の生成モデルであ
る.これに対し,調音モデル [1] は声道の形を決定する舌,咽
頭,唇,顎などの調音器官そのものの構造と運動を直接モデル
化し,その結果として声道形状を表現するモデルである.調音
モデルの構成例を図 1 に示す.本来は,X 線による観測などに
より声道形状を観測しパラメータを得るが,本研究では大まか
な声道形状としてパラメータを用い,合成音声との対応付けを
行い,今後詳細なモデルを検討する.
2. 2 口腔部のモデル化
口腔部のモデルについて述べる.声道形状によって音響フィ
ルタとしての特性が決まるが,発声の際には特に口腔部の変化
が大きいと考えられる.図 2 のように口腔での声道の広がりを
表現する回路を構成する.
口腔部の形状変化と声道回路のレジスタの接続状態を対応付
け,分岐の長さと位置を指定するパラメータを設け,制御する.
2. 3 パラメータ波
発声器官を模擬した回路はパラメータによって制御し,これ
を調音モデルの調音パラメータに対応付けていく.一定時間間
隔ごとにパラメータを決めておき,回路に流しながら音声を合
成する.このパラメータ列を“ パラメータ波 ”と呼ぶこととし,
声帯回路での Volume パラメータ・Pitch パラメータを制御す
る(図 3).
密
図 4 パルス密度表現
説明する.
2. 1 調音モデル
疎
{
波が特徴づけられる.声道は声帯音源に対する音響フィルタの
{
る.この有声音源は声道を駆動し,その共振特性によって音源
2. 4 パルス密度
空気中を伝播する音声は,空気の疎密波である.そこで本研
究では,この粗密波を気体分子の数による粗密として捉え,パ
ルス数変調を用いて音声を表す.発声過程における声帯・声道
での気体分子の粗密波を 1bit パルス信号の密度表現によって再
現する.パルス信号を用いることで,回路内での伝送データの
ビット幅は 1bit と少なく,ハードウェアでの実装・処理に大変
適している.これにより,音の伝播という物理現象を,ディジ
タル回路内で,実際現実に起きている物理現象に近い形で再現
できる.
(図 4)そして疎密波は,基準密度 d とそこからの変位
dx (t) によって表現できる [4] [6].
3. 音声合成システム
音声合成システム全体の構成を図 5 に示す.音声合成システ
ムは,ホスト PC・音声合成回路(hwNet)
・D 級アンプ・聴覚
回路・音声取り込み回路,により構成する.hwModuleV2 に実
装する回路(hwNet)は,音声合成回路ブロックと聴覚回路ブ
ロックのふたつに大きく分けられる.音声合成回路は,主に声
帯回路・声道回路・PWM 回路・聴覚回路,により構成される.
ホスト PC では,基本波の生成とパラメータのコントロールを
行う.
本稿ではこれまで 3 並列構造であった声道シフトレジスタを
分岐させ,口腔部をモデル化した回路を構成した.口腔部の形
—2—
基本波パルス
基本波形
合成波パルス
表 2 声帯回路の回路規模
PWM
出力波形
入力
声帯回路
基本波生成
パルス変調
声道回路
PWM変調
調音処理
PWM変調
D級アンプ
Number of occupied Slices
290
Total Number of input LUTs
522
Maximum Frequency
80.736[MHz]
出力
マイク
パラメータ抽出
コントロール
音声取り
込み回路
聴覚回路
音声合成回路(hwNet)
ホストPC
レジスタ
3列目
GPIF
PCI
分岐レジスタ
進行波
入力
出力
2列目
1列目
:分岐/演算回路
図 5 音声合成システム
表1
図7 声道回路
音声合成回路の回路規模
Number of occupied Slices
:演算回路
分岐レジスタ
後退波
25,387
Total Number of input LUTs
45,464
した処理を行う.音波を表したパルスを伝達するシフトレジス
Maximum Frequency
35.489[MHz]
タと波の分割・反射を行う演算回路などで構成する.従来はレ
Total equivalent gate count for design
2,038,900
ジスタ列が 3 並列となるように構成していたが,新たに 1 列目
からの分岐レジスタを追加した.分岐/演算回路によって分岐
LM
スケーリング係数
ピッチデータ
基本波
パラメータ波
を行い,分岐レジスタへとパルスを伝達する.シフトレジスタ
聴覚回路
ソフトウェア
は,進行波 256bit・後退波 256bit の 512bit をひとかたまりと
「発声」制御信号
Bram
Pitch
パラメータ波
基本波
Bram
Pitch
制御
して,これを 22 段繋げたものをさらに 3 並列にしている.回路
パラメータ
制御
パラメータ波
8bit
Volume
パラメータ波
パルス密度
変換
2bit
Volume
制御
の動作クロックは 66.6[MHz] であり,入力から出力までシフト
声道回路へ
パルス密度波
するのに 5632 クロックかかる.成人男性の声道長を約 17[cm],
音速を約 340[m/s] を考えたときに,パルスが声道を通る時間
と実際の音速とがちょうど対応するようになっている.声道を
声帯回路
図6 声帯回路
模擬して,FPGA 内の論理回路に仮想的な物理空間を構成して
いるものと考えられる.
状の変化とレジスタ構成を対応付けながら,より複雑な重ね合
わせを表現する.
表 1 に周辺回路を含めた全ての回路規模を示す.尚,ここで
示しているのは Xilinx 社の XC3S4000 を使用した時のデータ
であり,およそ約 90%を使用している.
3. 1 音声合成回路ブロック
基本波形となる Rosenberg 波をソフトウェアで生成し,ロー
カルメモリを介して回路へ入力し,これをもとに,各回路に
よって調音処理を施していく.最後に GPIF を介して,D級ア
ンプを通して音として出力する.
3. 1. 1 声 帯 回 路
声帯回路は,声帯の振動によって音源波が生成されるのを模
3 並列のレジスタについて述べる.1 列目は,長さ 22 段で固
定とし 2 列目・3 列目は,パラメータによって長さを動的に変
更しながら音声を合成する.2 列目シフトレジスタは,1 列目
シフトレジスタの途中 1∼8 段目の任意の場所からパルスを受
ける.さらに,3 列目シフトレジスタは,2 列目シフトレジス
タの途中 1∼8 段目の任意の場所からパルスを受ける.2 列目・
3 列目シフトレジスタの何段目を最終段とするかは,パラメー
タ設定により任意に変えることができる.表 3 に声道回路の回
路規模を示す.これは後述する声道回路口腔部,声道回路合成
演算部も含んだ回路規模となる.
表 3 声道回路の回路規模
Number of occupied Slices
21,228
擬した回路である.図 6 に回路構成を示す.HostPC 上のソフ
Total Number of input LUTs
41,799
トウェアで Rosenberg 波の PCM データを生成し,回路で 1bit
Maximum Frequency
98.532[MHz]
パルスへ変換する.このとき,Pitch 周期・Volume をコント
ロールしながら変換を行う.Pitch パラメータ・Volume パラ
a ) 声道回路口腔部
メータは,ブロック RAM に保存したパラメータ波を読み出し
口腔部をモデル化し,シフトレジスタを分岐した構成を図 8
ながらコントロールする.パラメータ波は,後述する聴覚回路
に示す.3 列あるシフトレジスタのうち,1 列目を図 8 のよう
によって取得した音声データ及びピッチデータを基に,ソフト
な回路構成とした.パルス分岐演算回路からレジスタを繋ぎ,
ウェアにより生成し LM を介して保持しておく.8bit データ 1
進行波・後退波それぞれに分岐するレジスタを構成している.
サンプルあたり 0∼255 個のパルスを出力する処理を行う.表
パルス分岐演算回路で分岐したパルスは,口腔部分岐レジスタ
2 に声帯回路のみの回路規模を示す.
に流れる.分岐する場所は,1 列目のレジスタ 22 段のうち口唇
3. 1. 2 声 道 回 路
側の 12 箇所とした.口腔部分岐レジスタは長さが 22 段となっ
声道回路(図 7)は,声道での波の反射や重ね合わせを模擬
ており,進行波レジスタと後退波レジスタがある.その途中の
—3—
パルス反射回路のパラメータ設定によって,パルスの反射を行
がどのように変化するのかといったことへの対応付けである.
う.反射する長さを変えることで,図 2 のような口腔部の物理
日本語 5 母音の声道断面積とスペクトルの関連性はおおよそ示
的形状の変化を表現している.分岐演算では以下のパラメータ
されている [5] が,この通りにパラメータを調整しても所望す
で回路をコントロールする.
る音声は合成されない.これは人間の発音機構が複雑に関係し
•
分岐パラメータ:分岐する,しない
ており特定の要素だけに左右されにくいからだと考えられる.
•
分岐長さパラメータ:22 段レジスタの何段目か
従って,今回は現在の音声合成システムを用いてより人間らし
•
分岐反転パラメータ:反射の際に反転する,しない
い音声を合成するための手法を検証し,提案する.
b ) 声道回路合成演算部
合成演算部では,進行波・後退波をそれぞれ透過波と反射波
に分割し,足し合わせて流す処理を行う.図 9 に示すように,
前段からのパルスデータは透過反射分割回路によって,透過す
5. 検
証
5. 1 現状の合成波形
まず現在の回路からパラメータを変化させ/a/と/i/の音声を
るデータ(透過波)と反射するデータ(反射波)に分割される.
合成した.その波形,スペクトログラム,パワースペクトルを
透過波,反射波は進行・後退の各合成演算回路において論理演
示す(図 10)(図 11),
(図 16)(図 17).同時に比較のため,
算による重ね合わせを行い,次段へのパルスを生成する.進行
実音声/a/,/i/のそれらも示す(図 12)(図 13)(図 18)(図
波の合成波は,進行波の透過波と後退波の反射波によって,ま
19).
た後退波の合成波は,後退波の透過波と進行波の反射波によっ
/a/の現合成音(図 10)(図 11)と/a/の実音声(図 12)(図
て,演算を行う.さらに,口腔部レジスタへの分岐のコント
13)を比較して分かるように,波形,パワースペクトルともに
ロールも行う.
似ているとは言い難い.また,/i/の現合成音(図 16)(図 17)
3. 1. 3 PWM 変調回路
と/i/の実音声(図 18)
(図 19)の比較も/a/の場合と同様の結
PWM 回路では,調音処理されたパルス信号にパルス幅変調
果であった.また実際に音声を再生してみて,聴感上の比較も
(PWM)をかける.声道ブロックからの 1bit パルス信号をサ
行ってみたが,人間らしい音声が合成されたとは言い難い.こ
ンプリングレートに基づきカウントアップし,PCM 信号に戻
す.ノコギリ波と比較を行い,データの方が大きい間は 1 を,
小さいときは 0 を出力する.PWM 変調された信号は,GPIF
のような違いが生まれた原因には以下の点が考えられる.
•
いる
•
を通して D 級アンプ回路に出力される.
現合成音の方が実音声より高周波成分が多く含まれて
現合成音には母音の特徴を決定づける第 1,第 2 フォル
マント(以下 F1,F2 と表記)があまり現れていない
4. 音声合成パラメータ
•
本研究の音声合成システムにおいて課題とされていることは,
パラメータによって,どの周波数成分が強調され,また,波形
現合成音には母音ごとに異なるパワースペクトルの“ 谷 ”
が存在していない
5. 2 処理を行った合成音声波形
先に示した問題点を改善するためには特定の周波数成分にエ
ネルギーを集中させたり,また,周波数依存でエネルギーが減
衰するような機構が必要であるといえる.具体的な処理の手順
は以下のようになる.
•
合成された音声をフーリエ変換する
•
フォルマント成分を強調,また余分な成分をフィルタで
カットする
•
その音声を逆フーリエ変換する
以上の処理を行い,新たに合成した/a/と/i/の波形,スペクト
ログラムとパワースペクトルを示す(図 14)(図 15),
(図 20)
(図 21).尚,今回は波形に着目するよりも周波数レベルでの
図8
解析を主として行っている./a/の処理後合成音のパワースペ
声道回路口腔部分岐構成
iPDBIFTWRTN
クトル(図 15)は現合成音のそれ(図 11)よりも,実音声(図
13)に近くなっていることが分かる.また,それは/i/の処理後
oPDBIFTW
iPDATW
wPreviousSPDATATW
rTW 256
wPreviousSPDATATW
rBW 256
wRTW
wTWTRN
wTWREF
wRESEL
wSYREP
wBWTRN
wSYPRP
oSPDATATW
wPRSEL
合成音(図 21)に関しても同様なことがいえる.
wBWREF
wRBW
wPreviousPDABW
iSPDATABW
oPDABW
iPDBIFBWRTN
iRTTP
iDECP
iINVTBP
oPDBIFBW
iBIFP
図 9 パルスの合成演算
—4—
図 10
現合成音/a/ 波形,スペクトログラム
図 16
図 11 現合成音/a/ パワースペクトル
図 12 実音声/a/ 波形,スペクトログラム
図 13
図 14
図 17 現合成音/i/ パワースペクトル
図 18 実音声/i/ 波形,スペクトログラム
図 19
実音声/a/ パワースペクトル
処理後合成音/a/ 波形,スペクトログラム
図 15 処理後合成音/a/ パワースペクトル
現合成音/i/ 波形,スペクトログラム
図 20
実音声/i/ パワースペクトル
処理後合成音/i/ 波形,スペクトログラム
図 21 処理後合成音/i/ パワースペクトル
—5—
声/a/(図 13)を比較するとパワースペクトルの谷も実音声に
近いようになったことが確認出来る.また,/i/の処理後合成音
(図 21)にも”谷”が存在しているのが分かる.この処理によっ
て異母音どうしの聞き分けが行えるようになったといえる.
また,周波数での解析を行うと,当然波形も変化する.今回
図 22
母音調音とフォルマントの関係(文献 [5] より引用)
表 4 /a/と/i/の第 1,第 2 フォルマントの成人男性の平均値
F1
F2
/a/ 775[Hz] 1,163[Hz]
/i/
263[Hz] 2,263[Hz]
処理を行ったあとの合成音/a/(図 14)は実音声/a/(図 12)
よりも波形のピークが大きくなったようにも見られる.しかし,
母音として聞き分けるための聴感上の差異ということは特にな
く,どちらも/a/として認識できた.また/i/に関しても同様で,
波形の差異はあるものの,/i/の母音として認識できる結果と
なった.
6. 考
察
声道回路より適切な形状にすることによりパワースペクト
ルが実音声に近づいた.これについて考察する.まず,処理を
行った合成音/a/(図 14)
(図 15)と/i/(図 20)
(図 21)はノ
イズに近い高周波成分がカットされている.以前の合成音/a/
(図 10)と/i/(図 16)はスペクトログラム上でも明らかなよ
うに,どの周波数成分も同様にエネルギーが分布している.こ
のため,実音声に近い音声が合成出来なかったのではないかと
考えられる.この処理により聴覚上,機械音的な合成音から少
し人間らしい音声へと変化していた.
次に,フォルマントについての考察を述べる.成人男性の/a/
の F1,F2 はおよそ 775[Hz],1,163[Hz] であるがパワースペク
トル(図 15)ではその成分が強くなっていることが分かる.ま
たそれは/i/の処理後合成音(図 21)においても同様のことが
いえる.母音の識別には各フォルマントの周波数が特に重要で
あり実音声から F1,F2 を除去して再生すると,元の母音とは
認識が出来なくなる.フォルマントは F1,F2,F3……と続い
ていくが,母音の識別には F1,及び F2 によってほぼ行えると
言われている.処理の過程において,実際に音声を再生させな
がら変化を聞くと,このフォルマントの処理を行ったときに音
声が大幅に変化した.
最後にパワースペクトルの“ 谷 ”について考察する.まず,現
合成音の異母音どうしのパワースペクトル(/a/(図 11)と/i/
7. む す び
先行研究において用いられている音声合成システムのシフト
レジスタの中において,どのような物理現象を模擬して音声を
合成しているかということを周波数レベルでの解析により明ら
かにした.また以前のモデルではパワースペクトルの移動が上
手く行えていなかった為に実音声に近い音声が合成されていな
かったが,声道形状の変化を細かく捉え,パラメータとの対応
付けを行い,パワースペクトルを移動させることで以前より人
間らしい音声を合成することに成功した.今後はこの解析で得
た結果をもとに各パラメータを学習によってコントロールする
機能などを追加していく.
文
献
[1] 甘利俊一,中川聖一,鹿野清宏,東倉洋一“ 音声・聴覚と神経回
路網モデル ”オーム社,1990.
[2] 関根優年“ AND 素子の負入力でパルス半否定を実現したパルス
論理”電子情報通信学会論文誌,Vol.J89-D,No.3,pp.414-421,
2006.
[3] 宇佐美裕也,小瀧浩,高橋一志,関根優年“ hw/sw 複合体を用
いた音声認識回路 ”電子情報通信学会技術研究報告 EA 研究会,
EA2007-112∼127,pp.1-6,2008.
[4] 荒井英彦,高橋一志,長野利隆,曹越,宇佐美裕也,工藤健慈,
関根優年“ パルス密度変調によるディジタル音声合成回路 ”電子
情報通信学会技術研究報告,Vol.106,No.122,pp.7-12,2006.
[5] 田窪行則,前川喜久雄ら“ 音声 ”岩波書店,1998.
[6] 小瀧浩, 野中淳, 眞鍋慧太, 田向権, 関根優年“ パルス密度で口腔
部音声波形をモデル化した音声合成回路 ”電子情報通信学会技術
研究報告,Vol.109,No.389,EA2009-107,pp.49-54,2010.
(図 17))を比較してみる.異なった母音を合成しているのだ
が,このパワースペクトルでは主な違いが見られない.実音声
の異母音どうしのパワースペクトルの比較は(図 13)と(図
19)で行える.ここで特筆すべき点として,広母音である/a/
と狭母音である/i/には発声時に声道形状が相反的に変化し,そ
れがフォルマントにも反映され F1 と F2 が逆向きに移動する
(図 22).ここで表 4 に比較の為に/a/と/i/の実音声の F1,F2
について成人男性の平均値を示しておく.
この事実を考慮し,処理後の合成音の異母音どうし/a/(図
15)と/i/(図 21)の比較を行うと実音声と同様にそれが明確
に現れているといえる.
具体的には実音声/a/(図 13)には 1[kHz]∼3[kHz] 付近に
大きな谷が,また実音声/i/(図 19)には 500[Hz]∼2[kHz] 付
近にそれが見られる.そして処理後合成音/a/(図 15)と実音
—6—