スライド 1

ドメイン内の信頼度と談話の整合性
を用いた音声認識誤りの検出
Detection of Speech Recognition Errors using
In-domain Confidence and
Discourse Coherence Measures
レーン イアン, 河原 達也
ATR音声言語コミュニケーション研究所
京都大学 情報学研究科
1
研究の背景
• 現在の音声認識技術は頑健ではない:
– 音響的なミスマッチ: 雑音, チャンネル, 話者の分散
– 言語的なミスマッチ: 非流暢現象, OOV, OOD
• 音声認識結果の信頼度を推定する必要がある
適切なユーザーフィードバック
• 信頼度のレベルに応じて適切な回復戦略を選択する
2
信頼度尺度に関する従来研究
• デコーダから得た特徴に基づく手法
– [Kemp] 特徴:word-duration, AM/LM back-off
• モデル比較
– [Rahim] コーホートモデルとの対数尤度比
• 事後確率
– [Komatani, Soong, Wessel] word-graphの中の全ての
競合仮説を用いて事後確率を推定
音声認識デコーダから直接得られる“低次の”
情報しか用いていない
3
提案手法
• 音声認識デコーダより“高次の”知識を用いて
認識結果の信頼度を推定
例: アプリケーションのドメイン, 談話フローに関する知識
“高次の“知識に基づく信頼度尺度の導入
• ドメイン内の信頼度尺度 (in-domain confidence)
– 発話がシステムの扱うドメイン内である信頼度
• 談話の整合性に関する信頼度尺度 (discourse coherence)
– 対話における発話の関連性・一貫性に関する尺度
4
発話検証システムの概要
入力発話
Xi-1
音声認識
テコーダ
ドメイン外発話の検出
トピックへの
分類
ドメイン内
検証
dist(Xi,Xi-1)
Xi
音声認識
テコーダ
CMin-domain(Xi-1)
CMdiscourse(Xi|Xi-1)
ドメイン外発話の検出
トピックへの
分類
ドメイン内
検証
CMin-domain(Xi)
CM(Xi)
CMgpp(Xi)
CMin-domain(Xi):
ドメイン内の信頼度
CMdiscourse(Xi|Xi-1): 談話の整合性
CM(Xi):
総合的な信頼度尺度
(以上の二つの尺度と一般化事後確率(GPP) を組み合わせたもの)
5
ドメイン内信頼度尺度
(In-domain Confidence)
• アプリケーションドメインのトピックの関連性に基づく尺度
– 以前ドメイン外発話検出に用いた尺度
[Lane ICASSP’04]
ドメイン外の発話 [ドメイン: 旅行]
REF: How can I print this WORD file double-sided
ASR: How can I open this word on the pool-side
トピックの一貫性がない ドメイン内信頼度が低い
音声認識誤りがある仮説
REF: I want to go to Kyoto, can I go by bus
ASR: I want to go to Kyoto, can I take a bath
トピックの一貫性がない ドメイン内信頼度が低い
6
REF: 書き起こし
ASR: 音声認識結果
ドメイン内信頼度尺度
(In-domain Confidence)
入力発話 (Xi)
e.g. ‘could I have a non(音声認識仮説)
単語ベクトル空間への写像
smoking seat’
単語ベクトル
(a, …, room, …, seat, …, I+have, …
(1, …, 0 , …, 1 , …,
1
,…
複数トピックへの分類
SVM (1~m)
ドメイン内検証
Vin-domain(Xi)
CMin-domain(Xi)
トピック分類の信頼度
(C(t1|Xi), ... ,C(tm|Xi))
accom. airplane airport …
0.05
0.36
0.94
ドメイン内の検証スコア
90 %
7
ドメイン内信頼度尺度
(In-domain Confidence)
• ドメイン内の検証スコアにシグモイド関数を用いる
CM in-domain  X i   sigmoid Vin-domain Xi 
Vin-domain ( X i )    j C t j | X i 
m
where
i 1
C(tj|Xi): 発話 Xi に対するトピック tj の信頼度
j: トピック tj の重み
8
談話の整合性尺度
(Discourse Coherence)
• 対話の一つ前の発話とのトピックの関連性
誤りがある音声認識結果
話者 A: 一つ前の発話 [Xi-1]
REF: What type of shirt are you looking for?
ASR: What type of shirt are you looking for?
話者 B: 現在の発話 [Xi]
REF: I’m looking for a T-shirt.
ASR: I’m looking for a teacher.
発話間のトピック一貫性がない
 談話の整合性尺度 が低い
REF: 書き起こし
ASR: 音声認識結果
9
談話の整合性尺度
(Discourse Coherence)
• 現在の発話(Xi)と一つ前の発話 (Xi-1)のトピック信頼度
空間での重み付きユークリッド距離
dist Euclidean( X i , X i 1 ) 
2








C
t
|
X

C
t
|
X
 j
j
i
j
i 1
m
j 1
j: ドメイン内検証モデルのトピック tj の重み
CM discourse  X i | X i 1   sigmoid distEuclidean X i , X i 1 
• Xi, Xi-1 関連がある  CMdiscourse 高い
10
総合的な信頼度尺度
(Joint Confidence Score)
• 提案した二つの尺度を音声認識結果のGPP(一般化
事後確率) [Lo & Soong] と組み合わせる
CM ( X i )  gpp CM gpp ( X i )  in-domain CM in-domain ( X i )
 discourse CM discourse ( X i | X i 1 )
where gpp  in-domain  discourse  1
• CM(Xi) を閾値 ()と比較して発話検証を行う
• 開発データを用いて gpp, in-domain, discourse と  を学習
11
評価実験
学習データ
• ATR BTEC コーパス(旅行会話ドメイン)
– トピック分類とドメイン内検証のモデルを学習
– 14個のトピック (accommodation, shopping, transit, …)
– 400k 文 (日本語/英語ペア)
評価データ
• ATR MAD (machine aided dialogue)
– ATRの日英音声翻訳システムを介した自然な対話
– 与えられたシナリオに基づいて対話
12
音声認識性能
# dialogues
Set-1
Set-2
184
185
日本語側
# utterances
1808
1761
WER
10.8%
10.2%
SER
45.0%
42.7%
英語側
# utterances
1857
1791
WER
14.2%
13.7%
SER
54.5%
52.2%
• Cross Evaluation:
Set-1で重み、閾値を学習して、Set-2で評価
Set-2で重み、閾値を学習して、Set-1で評価
13
評価結果はこの二つの平均
評価尺度
• 発話検証
– 音声翻訳では“keyword”のセットが定義できない
– 音声認識誤りが起きれば (一つ以上の単語誤り)
全体の発話を言い直す必要がある
• CER (confidence error rate)
– FA: 音声認識結果が誤っているが、正しいと判別された数
– FR: 音声認識結果が正しいが、誤りであると判別された数
# FA  # FR
CER 
# utterances
14
ドメイン内信頼度と
談話の整合性尺度の導入
(English)
GPP: 一般化事後確率
IC: ドメイン内信頼度
DC: 談話の整合性尺度
CER (%)
20.0


18.0
16.0
GPP
GPP
+IC
GPP
+DC
GPP
+IC
+DC
14.0
“GPP+IC” と“GPP+DC” でCER減少 (9.1% and 6.5% relative)
15
“GPP+IC+DC” においてさらにCER減少18.2%16.1%(11.4% relative)
ドメイン内信頼度と
談話の整合性尺度の導入
(Japanese)
GPP: 一般化事後確率
IC: ドメイン内信頼度
DC: 談話の整合性尺度
CER (%)
20.0
18.0
16.0
GPP
GPP
+IC
GPP
+DC
GPP
+IC
+DC
14.0
“GPP+IC” と“GPP+DC” でCER減少 (6.4% and 4.2% relative)
16
 “GPP+IC+DC” においてさらにCER減少 20.7%19.0% (8.1% relative)

まとめ

“高次の”知識に基づいた信頼度尺度を用いる 発話検
証手法を提案した
ドメイン内の信頼度尺度 (in-domain confidence)
発話がシステムの扱うドメイン内である信頼度
談話の整合性に関する信頼度尺度 (discourse coherence)
対話における発話の一貫性に関する尺度

音声翻訳システムを介した自然な対話で評価

提案した二つの尺度を導入すると
発話検証性能を向上することができた
(日本語=8.1%/英語=11.4%)
17
Thank You
[email protected]
18