スライド 1

スペクトルと韻律を特徴量とした
GMMによる感情音声変換
1-R-29
☆相原 龍,高島 遼一,滝口 哲也,有木 康雄(神戸大学)
研究背景・概要
従来研究
音声認識・合成を使ったシステムの一般化
ex.カーナビ、案内システム、歌声合成
音声の特徴量
感情音声合成によるシステムとの自然なコミュニケーション
GMMに基づく感情音声合成 [岩見, 2003]
声質
波形接続の必要なし
スペクトル
概要
怒り声
悲しみ声
平静声
喜び声
変換が容易
韻律
特徴量が限定的で不完全
ピッチ
パワー
GMMに基づく韻律変換 [Veaux, 2011]
duration
提案手法
スペクトルとピッチ、両方を特徴量とした感情音声変換
音節分離
AMAGAERUWA
学習段階
平静声
感情声
STRAIGHT
A
MA
GA
E
RU
WA
DCT
DCT
DCT
DCT
DCT
DCT
スペクトル
非周期成分 基本周波数
包絡
アライメント
音節分離
Spectrum
GMM
感情による基本周波数の変化
F0 GMM
GMM・最尤変換
実験結果
混合正規分布
M
( X, Y )
( X, Y )
T
T T
( X,Y )
P( Xt , Yt | λ
)  αm N ([Xt , Yt ] ; μ m , m
)
μ
( X, Y )
m
μ

μ
( X)
m
(Y)
m



m 1
( XX )

( X,Y )

m


m  (YX )
m


( XY )
m
( YY )
m



スペクトルのみ変換
目標\認知 怒り 悲しみ 喜び 平静
Xt :入力特徴量
Yt :出力特徴量
最尤変換
怒り
45
0
5
50
悲しみ
喜び
10
5
5
5
0
5
85
85
怒りはスペク
トルの影響大
悲しみは
基本周波数
の影響大
基本周波数のみ変換
目標\認知怒り
実験条件
男性俳優1名による20単語の感情音声データベース
収録感情:「平静」「怒り」「悲しみ」「喜び」
GMM:混合数64
成人男女20名による主観評価実験
問題点・今後の課題
収録数の多いデータベースの作成
スペクトル変換の精度向上
怒り
悲しみ
喜び
悲しみ喜び 平静
5
15
20
60
5
25
80
25
5
20
10
30
スペクトルと基本周波数、両方の変換
目標\認知怒り 悲しみ 喜び 平静
怒り
65
0
10
25
悲しみ
5
80
5
10
喜び
10
20
45
25
悲しみ以外の
感情で、認知
率が上昇