音声認識・音声合成を用いた 音声途切れ補間手法の評価

音声認識・音声合成を用いた
音声途切れ補間手法の評価
M1
小林 邦嘉
背景と目的

音声認識技術・音声合成技術の実用化
音声認識技術⇒天気予報案内,情報検索
 音声合成技術⇒メール内容等の読み上げ


VoIP技術の発展による,IP電話の普及

本質的な問題(特に無線区間がある場合)
⇒パケット損失による音声品質の劣化
音声途切れを復元し,音声品質劣化を抑制
従来手法

ITU G.711 Appendix I


パケットロス発生時に,パケットロス区間は
直前の音素が続いているという前提で,
直前の信号を繰り返す手法
問題点
復元するパケットロスは最大6フレーム
(60ms)まで
 原理的に2音素以上の欠落には
対応していない

提案手法

音声認識技術を用いて途切れ区間の
音声情報を推定し,音声合成技術を用いて
途切れ区間を合成音声で補間する
長い区間の音声信号の復元が可能
原理的に複数音素にも対応できる
提案手法(2)

提案手法の説明には以下の音声を用いる

発声内容
「元毎日新聞ワシントン特派員」


音声途切れ区間 1.0-1.2 (秒)
消失音素「mainichishiNbuN(毎日新聞)」の
「chishi」の部分(ch,iは前後とも状態の一部分
のみ)
Missing Feature Theory
を用いた音声途切れたの認識
音声途切れ区間の音声情報を推定する
⇒Missing Feature Theoryに基づく音声認識

拡大図
(途切れ区間付近)
n i ch SP
i sh i N
(ショートポーズ)
状態単位の状態時系列
HMM(隠れマルコフモデル)
(3状態)
n
i
ch
i
sh
i
N
ピッチの補間

途切れ音声からピッチを抽出
音声途切れ区間

途切れ区間前後のピッチを用いて線形補間
HMMに基づく音声合成

状態単位の音素時系列と補間したピッチよ
りHMM音声合成を行い合成音声を作成
合成音声
(途切れ区間付近の拡大図)

途切れ区間に対応する合成音声で途切れ
区間を補間することで音声を復元
復元した音声
(途切れ区間付近の拡大図)
接続方法

零交差点での接続
途切れ音声
零交差点
音声途切れ区間
原音
補間した音声
接続歪み
合成音声
パワーの調整

合成音声と途切れ音声の最大振幅時刻の
振幅値がほぼ同じになるように調整
最大振幅値
途切れ音声
合成音声
提案手法の評価




特定女性話者モデル(FAK)
主観評価実験
客観評価実験
評価実験データ


新聞記事読み上げ文 21 発声
途切れ音声



途切れ区間の長さ 0.2 (秒)
途切れ開始位置 0.5,1.0,1.5 (秒) 各7発声
補間した音声
評価実験に用いた音声例
途切れ音声
合成音声
補間した音声
主観評価実験


被験者 11名
実験目的


途切れ音声と補間した音声の聞き易さを調査
実験内容
1.
2.
3.
途切れ音声、補間した音声の順番で再生
補間した音声の品質を5段階で評価(1:非常
に悪くなった、2:やや悪くなった、3:変化なし、
4:やや良くなった、5:非常に良くなった)
平均スコアを求める
実験結果
客観評価実験

実験目的


途切れ音声と補間した音声の品質の調査
実験内容
音声品質を客観的に評価する手法PESQ
を用いて測定(PESQ値は -0.5~4.5 までの
値であり、値が大きい程良質な音声)
 補間に用いた合成音声も同時に測定

実験結果
結果・考察

主観評価実験より



途切れ位置に関係なく、補間音声の方が聞き易い
聞きにくくなったと評価された音声も 2 発声存在
⇒原音と合成音声の接続部に不連続が発生
客観評価実験より



途切れ位置に関係なく、音声が途切れると音声品質
は劣化する
合成音声の音声品質はあまり良くないが・・・
途切れ区間を合成音声で補間することで音声品質
は改善される
音声合成品質の改善

コンテキスト依存ラベルを用いての音声合成
モデルを作成

前後の発話内容に応じて細かく分類
従来
PESQ値

今回
2.3
ピッチのモデル化
→
1.9
まとめと今後の課題




音声途切れ区間を合成音声で補間するこ
とは有効である
合成音声の接続方法の検討
合成音声品質の改善
どのくらいまでの音声途切れに対応できる
かの調査(MFT適用、合成音声品質の観
点から)