こちら - 石川慎一郎

2014/12/31
神戸大学石川慎一郎研究室 ICNALE プロジェクト
発話音声変換システム ICNALE-ASMS の開発・公開について
神戸大学石川研究室では,科学研究費補助金を得て推進中のアジア圏国際英語学習者コーパス
ICNALE(International Corpus Network of Asian Learners of English)構築プロジェクトの一環として,収
集した発話音声の聴覚特徴を変更するソフトウェア ASMS(Automatic Speech Morphing System)を開
発・公開しました。
本ソフトウェアの使用により,ユーザーの設定したパラメタに基づき,元の音声の基本特性を保っ
たまま,たとえば男性の声を女性の声のように,あるいは女性の声を男性の声のように変換すること
が可能になります。これにより,コーパスを公開した場合にも,発話者の匿名性が保護されることに
なります。
本ソフトウェアは研究目的であればご自由に使用いただけますが,本ソフトウェアの使用によって
生じたいかなる損害・被害についても研究室は責任を負いません。本人の責任でご使用ください。な
お,研究倫理として,第三者から収集したデータの公開にあたっては,データ提供者本人による正式
な許諾を取る必要があります。本ソフトウェアは,公開許諾を得た発話データについてその匿名性を
強化するためのもので,許諾を取る手続きに置き換わるものではありませんのでご留意ください。
研究などでのご使用に当たっては,下記文献への言及をお願いします。
石川慎一郎(2014)「発話音声変換システム ICNALE-ASMS の開発・公開について」
Ishikawa, S. (2014). Design of the ICNALE-Spoken: A new database for multi-modal contrastive interlanguage
analysis. In S. Ishikawa (Ed.), Learner corpus studies in Asia and the world, Vol 2 (pp. 63-76). Kobe, Japan:
Kobe University.
■機能概要
ASMS は 発話をしている人の声を分析し、ノイズ除去、音声のピッチ変換、フォルマント変換を実現するソフトウェアであり、特に
男性→女性、女性→男性への声質変換をその主な目的としている。
主な機能は以下の通り、
・ノイズ除去
・ピッチ変換
・フォルマント変換
・保存時のサンプリングレート、ビット深度、圧縮形式( WAV または MP3 )指定。
■画面仕様
1. メニューバー
「Help」メニューのサブメニュー「Help」をクリックすると、Web ブラウザが起動し、
ASMS に
関する情報が記載された Web ページを参照することができる。
2. 入力ファイルエリア (Input Files)
「Add new files」 ボタンをクリックすることによりファイル指定ダイアログが開き、
変換対象
となる音声ファイル (WAV 形式のみ) を選択すると、右側のリストボックスに当該ファ
イル
パスが表示される。
左側のリストボックスに入力したい音声ファイルのアイコンをデスクトップなどから
ドラッグ
アンドドロップすることによっても入力ファイルを指定することも可能である。
「Clear all files」ボタンをクリックすると、左側のリストボックスに既に登録されて
いる入力
対象ファイルパスをすべて削除することができる。
左側のリストボックスに指定されたファイルパスのうち、特定のファイル指定だけを削除
したい場合は、当該ファイルのリストアイテムを右クリックし、表示される「Delete Input File」
ボタンをクリックして、当該ファイルパスを削除することができる。
3. 音声変換パラメータ設定エリア
3-1. ノイズ除去設定エリア
・ノイズ除去オン/オフ オプションボタン
ノイズ除去の オン/オフ を指定する。
・ノイズ音量しきい値
1~20dB の範囲において、除去対象となるノイズの最大音量を指定する。
3-2. 音声変換設定エリア
・声質変換
①男性→女性、②女性→男性、③変換しない の 3 種類より指定し、声質の変換を指定する。
・ピッチ変換パラメータ指定
ピッチ変換範囲を指定する。 ピッチを基となる音声から 50~200% の移動範囲で指定する。
・フォルマント変換パラメータ指定
フォルマントの移動範囲を指定する。 フォルマントを基となる音声から 50~200% の移動範囲で指定する。
4. 出力設定エリア
・出力フォルダパス指定テキストボックス
右側の「Browswe」ボタンをクリックすることにより、フォルダ選択ダイアログが開き、変換後の音声ファイルを保存するフォ
ルダを指定することができる。 また、フォルダパスを直接テキストボックスに記述入力することも可能。
・ファイル名接頭辞
変換後のファイル名に対して埋め込みたい特定の文字列を指定することができる。
5. 変換実行ボタン
入力ファイルが指定されると、有効化されクリック可能となる。入力ファイルパス及び、各種パラメータ指定後クリックする
と実際の変換処理が行なわれ、変換処理実行中は当該ボタンはキャンセルボタンとなる。 キャンセルボタンをクリックすることによ
り、現在変換中のファイル出力の取り消し、および後続のファイル変換処理はキャンセルされる。
■実装にあたってのアルゴリズムなど
1. ノイズ除去
ノイズ除去にあたっては、音声信号中の信号成分と雑音成分を分離することにより実現する。 ASMS では、GUI によって指定
されたノイズ dB 値をしきい値として、指定の dB 値よりも音量が小さい箇所を 無発話区間として判定する。実際のノイズ除去にあ
たっては、無発話区間の周波数成分を分析の上、ノイズプロファイルを作成し、発話区間からノイズプロファイルに記録された周波数
成分を除去することで実現する。
具体的な実装方法としては、オープンソースソフトウェアである AudaCity の内部処理と同等処理を行なっている。
2.ピッチ、フォルマント変換
2-1 波長伸縮+タイムストレッチ処理(実装は却下)
発話者の声の音程を上げたり下げたりするために、当初、線形補完法を用いて入力音声の波長を伸縮し、これにより音声の再生
スピードが変化してしまう問題に対してはタイムストレッチ処理を行い、声質変換の実現を試みた。 この場合、音声は非常にクリア
に変換されるものの、ピッチとフォルマントの両者の変化率は完全に同一となり、個別の変換を行なうことはできなかった。
2-2 ソース・フィルタモデル(男性→女性への変換に適用)
入力音声を分析し、ピッチを声の音源(声帯)の振動数として、また、フォルマントを声道フィルタ(声道および放射特性)に
分離し、それぞれを変換後、合成をする処理を用いた。
ピッチ抽出においては、snack アルゴリズム(*1)により実行し、フォルマント抽出においては、メル周波数ケプストラム
(MFCC)分析アルゴリズムを用いている。 これらのアルゴリズム実装においては、名古屋工業大学で開発された Speech Signal
Processing Toolkit (SPTK) (*2)を用いて実現している。
このソース・フィルタモデルでの音声変換にあたっては、分析時におけるピッチ抽出誤りや有声・無声判定誤り、合成時におけ
る音源信号をパルス列とする簡略化などにより、たとえピッチを変更しない場合であっても、原音声と同等の音質を持つ合成音を得る
ことは困難であることがわかっており、特にピッチ変換率 80%を下回る場合は、音質の劣化が顕著に認められ、女性→男性へのピッチ
変換(変換率 50%)では、発話内容が認識出来なくなるほどの音質劣化が認められた。
2-3 Straight 実装 (女性→男性への変換に適用)
ソース・フィルタモデルによる音声変換において、音声が劣化する原因の 1 つとして、分析時の短時間フーリエ変換時のパワー
スペクトルの位置依存性があげられ、これに対応する和歌山大学の河原英紀教授により開発された音声分析変換合成法 straight (*3)に着
目した。 こちらの適用により、女性→男性への音声変換において、非常にクリアな音声で変換が行なわれることを確認することがで
きた。 但し、男性→女性への声質変換においては正しく音声変換できない問題が認められた。 また、変換時の計算量が非常に多く、
約1分間の入力音声変換時に Intel i5 2.5GHz, 8GB Memory の環境において、約 5 分間の変換時間を要することが問題として挙げられ
た。
2-4 WORLD 実装 (女性→男性への変換、かつ入力音声がクリアな場合に適用)
straight による音声変換時の多大な計算量の問題にあたっては、山梨大学の森勢将雅氏が解決に取り組んでおり、ここでの成果
物 WORLD 音声分析変換合成システム(*4) に着目したところ、 straight と比較して変換時間は大幅に改善されたが、WORLD では
入力音声の低周波成分にノイズが混在している場合は正しく音声変換が行なわれない問題も認められた。
以上、 2-1 ~2-4 に渡り述べた 変換アルゴリズムやライブラリの適正を勘案し、ASMS における音声変換処理においては、こ
れらを以下の通り、適用した。
実装に利用した技術
男性→女性
ソース・フィルタモデル(SPTK)
女性→男性(入力音声品質:低)
straight
女性→男性(入力音声品質:高)
WORLD
以
(*1) The Snack Sound Toolkit
(*2) Speech Signal Processing Toolkit (SPTK)
(*3) 音声分析変換合成法 STRAIGHT
http://www.speech.kth.se/snack/
http://sp-tk.sourceforge.net/
http://www.wakayama-u.ac.jp/~kawahara/STRAIGHTadv/index_j.html
上