PSOLA法を用いた極低ビットレート音声符号化 に関する検討 胡紅兵† 鈴木基之†† 伊藤彰則†† 牧野正三†† † 東北大学大学院情報科学研究科 †† 東北大学大学院工学研究科 はじめに 研究の目的 1kbit/s以下の極低ビットレート音声符号化の実現を目的 極低ビットレート符号化に関する研究 LZ符号化を応用したスペクトル情報(LSP係数)の効率的なセグメン ト量子化(三ツ屋ら) 「LZ符号化方式を用いた音声符号化に関する検討」,2002年春季音講論 ->1.9kbit/s で品質が高い音声が得られるが,更にビットレートを下げ る必要がある HMMに基づく音声符号化(広井ら) 「HMMに基づいた極低ビットレート音声符号化」,信学会論文誌 ->音素ボコーダを用いて数百bit/sのビットレートで音声を符号化する 接続型音声合成を用いた音声符号化 HMMに基づく音声符号化 HMMに基づく音声ボコーダを用いて音素単位で音声を符号化 HMM音声合成方法を用いてHMMモデルからメルケプストラム列 を生成し、復号音声を求める 音質の向上が必要 PSOLA法音声合成による高品質の復元音声を求める 波形接続型音声合成を利用した音声符号化を提案する 音素ボコーダを用いて音声を音素単位に分割 感情音声等を含めた様々なスタイル音声の合成が可能 提案する音声符号化の概要 Speech Encoder HMMで音声特徴パラメータを 音素認識し、音素系列と時間 継続長情報を復号化側へ伝 送 音声素片波形データベースか ら各音素に対応する最適な音 声波形素片を選択 PSOLAによる音声波形素片を 接続して音声合成 Mel-Cepstral Analysis Pitch& Power Recognition Phoneme Sequence Phone HMMS Duration PSOLA Synthesized Speech Sub-word Units Decoder 音声認識 HMMに基づく音素ボコーダで音素認識 文脈依存を考慮するtriphone HMMモデルの利用 言語情報は音素対の出現確率(音素バイグラム) モデルの学習条件 学習用データ 480文章(ATR 日本語データベー ス) 話者 男性話者1名 プリエンフィス 0.97 特徴パラメータ MFCC(16次元)+ΔMFCC(16次元) +pow+Δpow (計34次元) 分析窓長 20ms 窓間隔 5ms 音声波形素片データベースの作成 PSOLA法は音声素片を接続して音声合成 音素に対応する音声波形素片 各音素に対応音声波形素片が必要 音素モデルの状態に対応する音声波形素片 音素モデルに対応する音声波形素片 合成音声の品質に影響する接続歪が少ない データベースの作成方法 HMMモデルで学習データの音素認識を行い,認識音素に対応 する音声波形素片を求める 各音素には複数の波形素片が対応する 素片選択とPSOLA法音声合成 音素の時間継続長、パワーで波形素片の選択 CA (xt , ut ) Cd (xt , ut ) wpCp (xt , ut ) PSOLA法でピッチ、時間継続長の修正 ピッチマークを中心とした波形の間引き、繰返しによる時間継続 長の伸縮 ピッチ修正で,素片の平均ピッチでピッチの修正度を決める ピッチ差の小さい素片(0.9<ピッチ差<1.1)はピッチ修正しない 主観評価 提案方式はDMOSによる主観評価を行った 比較対象はメルケプストラムのベクトル量子化 DMOS評価(差分平均オピニオンスコア) 評価値 評価語 5 (音質の劣化)わからない 4 (音質の劣化)わかるが気にならない 3 (音質の劣化)気になるが邪魔にならない 2 (音質の劣化)邪魔になる 1 (音質の劣化)非常に邪魔である 実験条件 波形素片データベース作成の条件 話者 男性話者1名 学習用データ ATR 日本語データベース 480文章 主観評価条件 話者 同一話者 テストデータ 3文章 被験者 健聴者6名 提案方式のビットレート 音素系列の平均レートが9.56音素/sで,音素情報が6ビット、音 素時間継続長が7ビットで,全体のビットレートが125bit/s 主観評価結果 メルケプストラムベクトル量子化との比較結果 テスト文章 提案方式 ベクトル量子化 文章1 2.17 2.67 文章2 2 2.67 文章3 1.67 2.5 平均DMOS 1.94 2.61 両方式のビットレート(ピッチ情報が含まれていない) ビットレート 提案方式 ベクトル量子化 125bit/s 200bit/s 提案方式は、パワー情報が含まれていない メルケプストラムVQは、コードブックサイズが256 実験結果の考察 復元音声の内容が聞き取れるが,音質の改善が必要 音質劣化の原因 素片の選択基準 時間継続長、パワーだけを利用した ピッチ情報の利用、接続部分のコストを考慮した選択基準が 必要 接続部分で不連続が大きい 接続部分における素片の位相修正、スペクトル補間等が必 要 まとめ PSOLA法を用いた極低ビットレート符号化の可能性につ いて検討を行った 数百bit/s程度ビットレートの音声符号化が実現可能 素片の選択基準、合成方法を改善し,音質の向上が必 要 今後の予定 不特定話者への拡張を検討する ピッチ情報の符号化を含めて全体ビットレートの低減 HMM音声合成と比較し、提案方式の有効性を示す
© Copyright 2024 ExpyDoc