Document

Statistical Models of Machine Translation,
Speech Recognition, and Speech Synthesis
for Speech-to-Speech Translation
音声翻訳のための機械翻訳,音声認識,
音声合成の統計モデル
創成シミュレーション工学専攻
計算システム工学分野 徳田・李研究室
橋本 佳
背景(1/3)

音声翻訳システム

ある言語の音声を異なる言語の音声に直接翻訳
(Speech-to-Speech Translation)
日本語
英語
こんにちは。
Hello.


音声を入出力とした自然なコミュニケーション
言語の壁を越えた円滑なコミュニケーション
2
背景(2/3)

音声翻訳システムの構成
音声認識

音声合成
人間の知識に基づく手法



機械翻訳
入出力に関する人間の知識を導入
入出力の関係を完全に表現することは困難
統計モデルに基づく手法


学習データから入出力の関係を効率よく学習
多量の学習データ・高性能な計算機が必要
3
背景(3/3)

統計モデルに基づく音声翻訳
音声認識


機械翻訳
音声合成
理論的枠組みは言語によらず同一
⇒ あらゆる言語のシステムを構築可能
各要素の結果を統計的に利用可能
⇒ 音声翻訳全体を考慮した統計モデルの最適化
4
現状の性能

機械翻訳



音声認識



旅行会話を対象としたシステム ⇒ TOEIC600点
[Sugaya et al., ’01]
翻訳対象によって翻訳性能が低下
静音状況における特定話者 ⇒ 認識率90%以上
雑音・話者・内容によって認識性能が低下
音声合成


発話内容が限定 ⇒ 高品質な合成音声
発話内容によって合成音声の品質が劣化
5
目的

音声翻訳システムの高性能化
音声認識

音声合成
各要素の高性能化



機械翻訳
構文情報を用いた統計的機械翻訳
ベイズ基準による音声合成・音声認識
要素の統合手法

機械翻訳・音声合成の影響の調査および分析
6
機械翻訳

ルールベース型機械翻訳





適切なルールを大量に用意することで高性能化
言語対ごとに新たにルールを作成
翻訳ルールを人手で作成
新たな言語への対応が困難
統計的機械翻訳 [Brown et al., ’93]



翻訳データから統計モデルを自動学習
同様の枠組みからシステム構築が可能
新たな言語への対応が容易
7
統計的機械翻訳

翻訳モデル・言語モデルから構成 [Brown et al., ’93]
: 出力言語の単語列
: 入力言語の単語列
: 翻訳モデル(2言語間の翻訳対応)
: 言語モデル(出力言語の単語の並び)
8
単語ベースの統計的機械翻訳

単語対単語の翻訳モデル[Brown et al., ’93]

熟語などの翻訳が困難
Nice to meet you.

⇒
良い こと 会う あなたに 。
単語の並び替えが困難(長文ほど困難)
I go to ABC.
⇒
わたしは 行く へ ABC 。
9
フレーズベースの統計的機械翻訳


隣接する複数の単語 ⇒ フレーズ
フレーズ対フレーズの翻訳モデル [Koehn et al., 2003]

熟語などの翻訳が可能
Nice to meet you.


はじめまして。
単語の並び替え性能が改善
I go to ABC.

⇒
⇒
わたしは へ 行く ABC 。
現在の標準的な手法
文全体を考慮した単語並び替え手法が必要
10
構文木を制約とした統計的機械翻訳

IST-ITG[Yamamoto et al., ’08]
(Imposing Source Tree on Inversion Transduction Grammar)
仮定:入力文の構文木を回転させることにより
出力文の構文を表現可能
⇒
This
is
a
pen
これは _
ペン です
⇒ どのような回転が最適かは表現不可能
11
構文木の回転モデル

構文木の回転を品詞を用いてモデル化
入力構文木
部分木
S
s1
VP
NP
s2
AUX
NP
s3
This
is
単語並び替え確率
NN
DT

s1 = S+NP+VP
s 2 = VP+AUX+NP
s3 = NP+DT+NN
a
pen
Pr   P(t | sk )
k
英語-日本語翻訳実験
BLEU-4
Baseline
27.87
IST-ITG
29.31
Proposed
29.80
12
翻訳結果例

Source:
From results of the consideration, it was pointed that
radiation from the loop elements was weak.

Reference:
考察結果より,ループ素子からの放射が弱いことを指摘する。

IST-ITG:
考察の結果から,ことを指摘し,ループの要素からの放射は弱か
った。

Proposed:
考察の結果から,ループ素子からの放射は弱いことを示した。
13
目的

音声翻訳システムの高性能化
音声認識

音声合成
各要素の高性能化



機械翻訳
構文情報を用いた統計的機械翻訳
ベイズ基準による音声合成・音声認識
要素の統合手法

機械翻訳・音声合成の影響の調査および分析
14
音声合成

素片接続型音声合成 [Black et al., ’96]



素片に分割された音声データをつなぎ音声を合成
高品質だが大量の音声データが必要
統計モデルに基づく音声合成 [Tokuda et al., ’00]
統計モデルを用いて音声をモデル化(音響モデル)
 多様な音声を合成可能
 少量の音声データからモデルの学習が可能
⇒ 合成音声の品質は音響モデルに強く依存

15
音響モデル

隠れマルコフモデル(Hidden Markov Model; HMM)


時間による変動を考慮したモデル
⇒ 音声に適したモデル
コンテキスト依存モデル[Lee, ’90]

音響的特徴は文脈要因(コンテキスト)に影響


先行音素,後続音素,品詞,音節の数,アクセント等
コンテキストを考慮したモデル


詳細な音響的特徴をモデル化
各モデルに割り当てられる学習データは減少
⇒ モデル推定精度が低下
16
コンテキストクラスタリング[Young, ’94]

決定木に基づくクラスタリング手法

コンテキストに関する質問を適用
当該音素は母音?
yes
no
先行音素は破裂音?
yes

品詞は名詞?
no
yes
no
リーフノードごとに音響モデルを共有
決定木の大きさ
学習データ量
モデルの表現能力
小さい
多量
低い
大きい
少量
高い
17
モデル学習基準

尤度最大化(Maximum Likelihood; ML)基準



音響モデルの学習基準として広く利用
モデルパラメータを点推定
⇒ 学習データが少量の場合に過学習
ベイズ基準



モデルパラメータの事後分布を推定
事前情報を利用可能
データ量を考慮したモデル構造(決定木)選択が可能
⇒ 学習データが少量の場合にも高い汎化性能
⇒ 多くのコンテキストを考慮することが可能
18
ベイズ基準による音声合成(1/2)
モデル学習・音声合成基準
⇒ 学習
ML
⇒ 合成
⇒ 学習・合成
Bayes
: 合成データ
: 学習データ
: モデルパラメータ
: 合成ラベル
: 学習ラベル
19
ベイズ基準による音声合成(2/2)
ベイズ基準における予測分布(周辺尤度関数)
:
:
:
:
:
合成データの状態遷移を表す隠れ変数
学習データの状態遷移を表す隠れ変数
合成データの尤度関数
学習データの尤度関数
モデルパラメータの事前分布
変分ベイズ法による近似 [Attias; ’99]
20
変分ベイズ法(1/2)

対数周辺尤度の下限
を定義
(Jensenの不等式)
:
に関する期待値
: 近似事後分布
下限の最大化による対数周辺尤度の近似
⇒ を最大化する近似事後分布を推定
21
変分ベイズ法(2/2)

近似事後分布の独立性を仮定

変分法による事後分布推定
: 正規化項
交互に更新することで
を最大化
22
主観評価実験による提案法の評価

ベイズ基準の特徴ごとに分析


モデルパラメータの事後分布推定
データ量を考慮したモデル構造選択
モデル学習基準 モデル構造選択基準
ML-MDL
ML基準
MDL基準
Bayes-MDL
ベイズ基準
ML-Bayes
ML基準
ベイズ基準
Bayes-Bayes
ベイズ基準


評価者10人
20文を自然性について5段階評価
23
主観評価実験
リーフノード数
1,128
1,128
9,485
9,485
ベイズ基準を用いることで合成音声の品質を改善
24
音素認識実験
リーフノード数
5,429
5,429
14,610
14,610
ベイズ基準を用いることで高精度な音響モデルを推定
25
学習・合成過程の統合
モデル学習・音声合成基準
⇒ 学習
ML
⇒ 合成
⇒ 学習・合成
Bayes
: 合成データ
: 学習データ
: モデルパラメータ
: 合成ラベル
: 学習ラベル
26
従来の事後分布推定

変分ベイズ法による事後分布推定

事後分布
は合成データに依存
⇒ 合成データは観測されていない
⇒ 直接計算することは困難

学習データのみから
を推定
27
近似を用いたベイズ音声合成
事後分布
の更新
(学習データの隠れ変数系列)
事後分布
の更新
(モデルパラメータ)
事後分布
の更新
(合成データの隠れ変数系列)
合成データ
の生成
学習データ
学習部
合成部
合成データ
ベイズ音声合成の性質を十分に表現できていない
28
提案法
事後分布
の更新
(学習データの隠れ変数系列)
学習データ
事後分布
の更新
(モデルパラメータ)
事後分布
の更新
(合成データの隠れ変数系列)
合成データ
の生成
合成データ
学習・合成過程が統合されたベイズ音声合成
29
更新回数の比較
事後分布・合成データの更新回数の比較

Iteration0
Iteration1
事後分布推定に用いたデータ
学習データ
学習データとIteration0の合成データ
Iteration2
Iteration3
学習データとIteration1の合成データ
学習データとIteration2の合成データ
事後分布推定に用いる合成データは1発話
30
主観評価実験
事後分布・合成データの更新回数の比較
学習・合成過程の統合により合成音声の品質を改善
31
目的

音声翻訳システムの高性能化
音声認識

音声合成
各要素の高性能化



機械翻訳
構文情報を用いた統計的機械翻訳
ベイズ基準による音声合成・音声認識
要素の統合手法

機械翻訳・音声合成の影響の調査および分析
32
音声翻訳のための統合手法

音声認識と機械翻訳の統合[Ney, ’99]



統計的アプローチ
複数の認識結果と統計モデルのスコアを利用
⇒ 翻訳結果を大きく改善
機械翻訳と音声合成の統合


合成音声の品質は音声翻訳システムに大きく影響
音声合成部を考慮した統合手法が必要
⇒ 各要素がどのように影響しているかを分析
33
主観評価実験

Amazon Mechanical Turkを用いて実験

Section 1: 音声合成の評価


Section 2: 音声翻訳の評価




単語聞き取り誤り率(WER)
聞き取った翻訳文の妥当性(S2ST-Adequacy)
聞き取った翻訳文の流暢性(S2ST-Fluency)
Section 3: 機械翻訳の評価



合成音声の自然性(Naturalness)
翻訳文の妥当性(MT-Adequacy)
翻訳文の流暢性(MT-Fluency)
評価者150人
34
システム

音声翻訳システム(Finnish-to-English)

音声認識部


機械翻訳部




HiFST (統計的機械翻訳システム)
865,732翻訳文による学習
機械翻訳部は上位20位までの翻訳候補を出力
音声合成部



正解認識結果を出力すると仮定
統計モデルに基づく音声合成
単一男性話者による8,129発話による学習
入力文として100文使用
35
システム出力例

翻訳候補(上位5位)とその合成音声
N-best
MT output sentence
1
We support what you have said.
2
We support what you said.
3
We are in favour of what you have said.
4
We support what you said about.
5
We are in favour of what you said.
Speech
正解翻訳文 We can support what you said.
36
機械翻訳との相関

合成音声の自然性との相関係数
Naturalness

MT-Fluency
0.24
評価者の単語聞き取り誤り率との相関係数
WER

MT-Adequacy
0.12
MT-Adequacy
MT-Fluency
-0.17
-0.25
翻訳文の流暢性との相関がより高い
37
合成音声

機械翻訳の流暢性と合成音声の自然性
38
単語聞き取り誤り率

機械翻訳の流暢性と単語聞き取り誤り率
39
単語N-gramと流暢性の相関

単語N-gram

直前のN-1単語が与えられた際の単語出現確率
単語3-gramの例
P(天気|今日,の)=0.3


P(献立|今日,の)=0.2
単語N-gramによる文の流暢性の評価
単語N-gramと翻訳文の流暢性との相関

単語N-gramは機械翻訳部の学習データから推定
MT-Fluency
1-gram
2-gram
3-gram
4-gram
5-gram
0.28
0.39
0.42
0.43
0.44
40
単語5-gram

単語5-gramごとの流暢性の平均
相関係数: 0.87
41
音素N-gramと合成音声の相関

合成音声の品質は発話内容に大きく影響

発話内容が学習データに近いとき高い自然性




口語調,文語調
新聞記事,小説
音素N-gramによる学習データとの類似度評価
音素N-gramと合成音声の自然性の相関

音素N-gramは音声合成部の学習データから推定
1-gram 2-gram 3-gram 4-gram 5-gram
Naturalness
0.05
0.15
0.19
0.20
0.18
42
音素4-gram

音素4-gramごとの自然性の平均
相関係数: 0.81
43
分析結果のまとめ

機械翻訳部と音声合成部の関係

翻訳文の流暢性が音声合成部に強く影響



高品質な合成音声
高い聞き取り精度
客観評価値による主観評価値の予測


単語N-gramのスコア
⇒ 翻訳文の流暢性の予測に利用可能
音素N-gramのスコア
⇒ 合成音声の自然性の予測に利用可能
44
むすび

音声翻訳システムの性能改善

構文情報を用いた統計的機械翻訳


ベイズ基準による音声合成・音声認識


従来法よりも高精度な音響モデルを推定
機械翻訳・音声合成の評価および分析


先行研究からBLEUを0.49改善
翻訳文の流暢性が合成音声の品質に大きく影響
今後の課題


音声合成部を考慮した統合手法の検討
音声翻訳システム全体を考慮した最適化手法
45