PSOLA 法を用いた極低ビットレート音声符号化に関する

PSOLA法を用いた極低ビットレート音声符号化
に関する検討
胡紅兵† 鈴木基之†† 伊藤彰則†† 牧野正三††
† 東北大学大学院情報科学研究科
†† 東北大学大学院工学研究科
はじめに

研究の目的


1kbit/s以下の極低ビットレート音声符号化の実現を目的
極低ビットレート符号化に関する研究

LZ符号化を応用したスペクトル情報(LSP係数)の効率的なセグメン
ト量子化(三ツ屋ら)
「LZ符号化方式を用いた音声符号化に関する検討」,2002年春季音講論
->1.9kbit/s で品質が高い音声が得られるが,更にビットレートを下げ
る必要がある

HMMに基づく音声符号化(広井ら)
「HMMに基づいた極低ビットレート音声符号化」,信学会論文誌
->音素ボコーダを用いて数百bit/sのビットレートで音声を符号化する
接続型音声合成を用いた音声符号化

HMMに基づく音声符号化


HMMに基づく音声ボコーダを用いて音素単位で音声を符号化
HMM音声合成方法を用いてHMMモデルからメルケプストラム列
を生成し、復号音声を求める
音質の向上が必要
PSOLA法音声合成による高品質の復元音声を求める

波形接続型音声合成を利用した音声符号化を提案する


音素ボコーダを用いて音声を音素単位に分割
感情音声等を含めた様々なスタイル音声の合成が可能
提案する音声符号化の概要
Speech
Encoder

HMMで音声特徴パラメータを
音素認識し、音素系列と時間
継続長情報を復号化側へ伝
送

音声素片波形データベースか
ら各音素に対応する最適な音
声波形素片を選択

PSOLAによる音声波形素片を
接続して音声合成
Mel-Cepstral
Analysis
Pitch&
Power
Recognition
Phoneme Sequence
Phone HMMS
Duration
PSOLA
Synthesized
Speech
Sub-word Units
Decoder
音声認識


HMMに基づく音素ボコーダで音素認識
 文脈依存を考慮するtriphone HMMモデルの利用
 言語情報は音素対の出現確率(音素バイグラム)
モデルの学習条件
学習用データ
480文章(ATR 日本語データベー
ス)
話者
男性話者1名
プリエンフィス
0.97
特徴パラメータ
MFCC(16次元)+ΔMFCC(16次元)
+pow+Δpow (計34次元)
分析窓長
20ms
窓間隔
5ms
音声波形素片データベースの作成

PSOLA法は音声素片を接続して音声合成


音素に対応する音声波形素片



各音素に対応音声波形素片が必要
音素モデルの状態に対応する音声波形素片
音素モデルに対応する音声波形素片
 合成音声の品質に影響する接続歪が少ない
データベースの作成方法


HMMモデルで学習データの音素認識を行い,認識音素に対応
する音声波形素片を求める
各音素には複数の波形素片が対応する
素片選択とPSOLA法音声合成

音素の時間継続長、パワーで波形素片の選択
CA (xt , ut )  Cd (xt , ut )  wpCp (xt , ut )

PSOLA法でピッチ、時間継続長の修正



ピッチマークを中心とした波形の間引き、繰返しによる時間継続
長の伸縮
ピッチ修正で,素片の平均ピッチでピッチの修正度を決める
ピッチ差の小さい素片(0.9<ピッチ差<1.1)はピッチ修正しない
主観評価

提案方式はDMOSによる主観評価を行った
比較対象はメルケプストラムのベクトル量子化

DMOS評価(差分平均オピニオンスコア)

評価値
評価語
5
(音質の劣化)わからない
4
(音質の劣化)わかるが気にならない
3
(音質の劣化)気になるが邪魔にならない
2
(音質の劣化)邪魔になる
1
(音質の劣化)非常に邪魔である
実験条件

波形素片データベース作成の条件
話者
男性話者1名
学習用データ
ATR 日本語データベース
480文章


主観評価条件
話者
同一話者
テストデータ
3文章
被験者
健聴者6名
提案方式のビットレート

音素系列の平均レートが9.56音素/sで,音素情報が6ビット、音
素時間継続長が7ビットで,全体のビットレートが125bit/s
主観評価結果


メルケプストラムベクトル量子化との比較結果
テスト文章
提案方式
ベクトル量子化
文章1
2.17
2.67
文章2
2
2.67
文章3
1.67
2.5
平均DMOS
1.94
2.61
両方式のビットレート(ピッチ情報が含まれていない)
ビットレート
提案方式
ベクトル量子化
125bit/s
200bit/s
提案方式は、パワー情報が含まれていない
メルケプストラムVQは、コードブックサイズが256
実験結果の考察

復元音声の内容が聞き取れるが,音質の改善が必要

音質劣化の原因
 素片の選択基準



時間継続長、パワーだけを利用した
ピッチ情報の利用、接続部分のコストを考慮した選択基準が
必要
接続部分で不連続が大きい

接続部分における素片の位相修正、スペクトル補間等が必
要
まとめ




PSOLA法を用いた極低ビットレート符号化の可能性につ
いて検討を行った
数百bit/s程度ビットレートの音声符号化が実現可能
素片の選択基準、合成方法を改善し,音質の向上が必
要
今後の予定
 不特定話者への拡張を検討する
 ピッチ情報の符号化を含めて全体ビットレートの低減
 HMM音声合成と比較し、提案方式の有効性を示す