音声認識・音声合成を用いた 音声途切れ補間手法の評価 M1 小林 邦嘉 背景と目的 音声認識技術・音声合成技術の実用化 音声認識技術⇒天気予報案内,情報検索 音声合成技術⇒メール内容等の読み上げ VoIP技術の発展による,IP電話の普及 本質的な問題(特に無線区間がある場合) ⇒パケット損失による音声品質の劣化 音声途切れを復元し,音声品質劣化を抑制 従来手法 ITU G.711 Appendix I パケットロス発生時に,パケットロス区間は 直前の音素が続いているという前提で, 直前の信号を繰り返す手法 問題点 復元するパケットロスは最大6フレーム (60ms)まで 原理的に2音素以上の欠落には 対応していない 提案手法 音声認識技術を用いて途切れ区間の 音声情報を推定し,音声合成技術を用いて 途切れ区間を合成音声で補間する 長い区間の音声信号の復元が可能 原理的に複数音素にも対応できる 提案手法(2) 提案手法の説明には以下の音声を用いる 発声内容 「元毎日新聞ワシントン特派員」 音声途切れ区間 1.0-1.2 (秒) 消失音素「mainichishiNbuN(毎日新聞)」の 「chishi」の部分(ch,iは前後とも状態の一部分 のみ) Missing Feature Theory を用いた音声途切れたの認識 音声途切れ区間の音声情報を推定する ⇒Missing Feature Theoryに基づく音声認識 拡大図 (途切れ区間付近) n i ch SP i sh i N (ショートポーズ) 状態単位の状態時系列 HMM(隠れマルコフモデル) (3状態) n i ch i sh i N ピッチの補間 途切れ音声からピッチを抽出 音声途切れ区間 途切れ区間前後のピッチを用いて線形補間 HMMに基づく音声合成 状態単位の音素時系列と補間したピッチよ りHMM音声合成を行い合成音声を作成 合成音声 (途切れ区間付近の拡大図) 途切れ区間に対応する合成音声で途切れ 区間を補間することで音声を復元 復元した音声 (途切れ区間付近の拡大図) 接続方法 零交差点での接続 途切れ音声 零交差点 音声途切れ区間 原音 補間した音声 接続歪み 合成音声 パワーの調整 合成音声と途切れ音声の最大振幅時刻の 振幅値がほぼ同じになるように調整 最大振幅値 途切れ音声 合成音声 提案手法の評価 特定女性話者モデル(FAK) 主観評価実験 客観評価実験 評価実験データ 新聞記事読み上げ文 21 発声 途切れ音声 途切れ区間の長さ 0.2 (秒) 途切れ開始位置 0.5,1.0,1.5 (秒) 各7発声 補間した音声 評価実験に用いた音声例 途切れ音声 合成音声 補間した音声 主観評価実験 被験者 11名 実験目的 途切れ音声と補間した音声の聞き易さを調査 実験内容 1. 2. 3. 途切れ音声、補間した音声の順番で再生 補間した音声の品質を5段階で評価(1:非常 に悪くなった、2:やや悪くなった、3:変化なし、 4:やや良くなった、5:非常に良くなった) 平均スコアを求める 実験結果 客観評価実験 実験目的 途切れ音声と補間した音声の品質の調査 実験内容 音声品質を客観的に評価する手法PESQ を用いて測定(PESQ値は -0.5~4.5 までの 値であり、値が大きい程良質な音声) 補間に用いた合成音声も同時に測定 実験結果 結果・考察 主観評価実験より 途切れ位置に関係なく、補間音声の方が聞き易い 聞きにくくなったと評価された音声も 2 発声存在 ⇒原音と合成音声の接続部に不連続が発生 客観評価実験より 途切れ位置に関係なく、音声が途切れると音声品質 は劣化する 合成音声の音声品質はあまり良くないが・・・ 途切れ区間を合成音声で補間することで音声品質 は改善される 音声合成品質の改善 コンテキスト依存ラベルを用いての音声合成 モデルを作成 前後の発話内容に応じて細かく分類 従来 PESQ値 今回 2.3 ピッチのモデル化 → 1.9 まとめと今後の課題 音声途切れ区間を合成音声で補間するこ とは有効である 合成音声の接続方法の検討 合成音声品質の改善 どのくらいまでの音声途切れに対応できる かの調査(MFT適用、合成音声品質の観 点から)
© Copyright 2024 ExpyDoc