ドメイン内の信頼度と談話の整合性 を用いた音声認識誤りの検出 Detection of Speech Recognition Errors using In-domain Confidence and Discourse Coherence Measures レーン イアン, 河原 達也 ATR音声言語コミュニケーション研究所 京都大学 情報学研究科 1 研究の背景 • 現在の音声認識技術は頑健ではない: – 音響的なミスマッチ: 雑音, チャンネル, 話者の分散 – 言語的なミスマッチ: 非流暢現象, OOV, OOD • 音声認識結果の信頼度を推定する必要がある 適切なユーザーフィードバック • 信頼度のレベルに応じて適切な回復戦略を選択する 2 信頼度尺度に関する従来研究 • デコーダから得た特徴に基づく手法 – [Kemp] 特徴:word-duration, AM/LM back-off • モデル比較 – [Rahim] コーホートモデルとの対数尤度比 • 事後確率 – [Komatani, Soong, Wessel] word-graphの中の全ての 競合仮説を用いて事後確率を推定 音声認識デコーダから直接得られる“低次の” 情報しか用いていない 3 提案手法 • 音声認識デコーダより“高次の”知識を用いて 認識結果の信頼度を推定 例: アプリケーションのドメイン, 談話フローに関する知識 “高次の“知識に基づく信頼度尺度の導入 • ドメイン内の信頼度尺度 (in-domain confidence) – 発話がシステムの扱うドメイン内である信頼度 • 談話の整合性に関する信頼度尺度 (discourse coherence) – 対話における発話の関連性・一貫性に関する尺度 4 発話検証システムの概要 入力発話 Xi-1 音声認識 テコーダ ドメイン外発話の検出 トピックへの 分類 ドメイン内 検証 dist(Xi,Xi-1) Xi 音声認識 テコーダ CMin-domain(Xi-1) CMdiscourse(Xi|Xi-1) ドメイン外発話の検出 トピックへの 分類 ドメイン内 検証 CMin-domain(Xi) CM(Xi) CMgpp(Xi) CMin-domain(Xi): ドメイン内の信頼度 CMdiscourse(Xi|Xi-1): 談話の整合性 CM(Xi): 総合的な信頼度尺度 (以上の二つの尺度と一般化事後確率(GPP) を組み合わせたもの) 5 ドメイン内信頼度尺度 (In-domain Confidence) • アプリケーションドメインのトピックの関連性に基づく尺度 – 以前ドメイン外発話検出に用いた尺度 [Lane ICASSP’04] ドメイン外の発話 [ドメイン: 旅行] REF: How can I print this WORD file double-sided ASR: How can I open this word on the pool-side トピックの一貫性がない ドメイン内信頼度が低い 音声認識誤りがある仮説 REF: I want to go to Kyoto, can I go by bus ASR: I want to go to Kyoto, can I take a bath トピックの一貫性がない ドメイン内信頼度が低い 6 REF: 書き起こし ASR: 音声認識結果 ドメイン内信頼度尺度 (In-domain Confidence) 入力発話 (Xi) e.g. ‘could I have a non(音声認識仮説) 単語ベクトル空間への写像 smoking seat’ 単語ベクトル (a, …, room, …, seat, …, I+have, … (1, …, 0 , …, 1 , …, 1 ,… 複数トピックへの分類 SVM (1~m) ドメイン内検証 Vin-domain(Xi) CMin-domain(Xi) トピック分類の信頼度 (C(t1|Xi), ... ,C(tm|Xi)) accom. airplane airport … 0.05 0.36 0.94 ドメイン内の検証スコア 90 % 7 ドメイン内信頼度尺度 (In-domain Confidence) • ドメイン内の検証スコアにシグモイド関数を用いる CM in-domain X i sigmoid Vin-domain Xi Vin-domain ( X i ) j C t j | X i m where i 1 C(tj|Xi): 発話 Xi に対するトピック tj の信頼度 j: トピック tj の重み 8 談話の整合性尺度 (Discourse Coherence) • 対話の一つ前の発話とのトピックの関連性 誤りがある音声認識結果 話者 A: 一つ前の発話 [Xi-1] REF: What type of shirt are you looking for? ASR: What type of shirt are you looking for? 話者 B: 現在の発話 [Xi] REF: I’m looking for a T-shirt. ASR: I’m looking for a teacher. 発話間のトピック一貫性がない 談話の整合性尺度 が低い REF: 書き起こし ASR: 音声認識結果 9 談話の整合性尺度 (Discourse Coherence) • 現在の発話(Xi)と一つ前の発話 (Xi-1)のトピック信頼度 空間での重み付きユークリッド距離 dist Euclidean( X i , X i 1 ) 2 C t | X C t | X j j i j i 1 m j 1 j: ドメイン内検証モデルのトピック tj の重み CM discourse X i | X i 1 sigmoid distEuclidean X i , X i 1 • Xi, Xi-1 関連がある CMdiscourse 高い 10 総合的な信頼度尺度 (Joint Confidence Score) • 提案した二つの尺度を音声認識結果のGPP(一般化 事後確率) [Lo & Soong] と組み合わせる CM ( X i ) gpp CM gpp ( X i ) in-domain CM in-domain ( X i ) discourse CM discourse ( X i | X i 1 ) where gpp in-domain discourse 1 • CM(Xi) を閾値 ()と比較して発話検証を行う • 開発データを用いて gpp, in-domain, discourse と を学習 11 評価実験 学習データ • ATR BTEC コーパス(旅行会話ドメイン) – トピック分類とドメイン内検証のモデルを学習 – 14個のトピック (accommodation, shopping, transit, …) – 400k 文 (日本語/英語ペア) 評価データ • ATR MAD (machine aided dialogue) – ATRの日英音声翻訳システムを介した自然な対話 – 与えられたシナリオに基づいて対話 12 音声認識性能 # dialogues Set-1 Set-2 184 185 日本語側 # utterances 1808 1761 WER 10.8% 10.2% SER 45.0% 42.7% 英語側 # utterances 1857 1791 WER 14.2% 13.7% SER 54.5% 52.2% • Cross Evaluation: Set-1で重み、閾値を学習して、Set-2で評価 Set-2で重み、閾値を学習して、Set-1で評価 13 評価結果はこの二つの平均 評価尺度 • 発話検証 – 音声翻訳では“keyword”のセットが定義できない – 音声認識誤りが起きれば (一つ以上の単語誤り) 全体の発話を言い直す必要がある • CER (confidence error rate) – FA: 音声認識結果が誤っているが、正しいと判別された数 – FR: 音声認識結果が正しいが、誤りであると判別された数 # FA # FR CER # utterances 14 ドメイン内信頼度と 談話の整合性尺度の導入 (English) GPP: 一般化事後確率 IC: ドメイン内信頼度 DC: 談話の整合性尺度 CER (%) 20.0 18.0 16.0 GPP GPP +IC GPP +DC GPP +IC +DC 14.0 “GPP+IC” と“GPP+DC” でCER減少 (9.1% and 6.5% relative) 15 “GPP+IC+DC” においてさらにCER減少18.2%16.1%(11.4% relative) ドメイン内信頼度と 談話の整合性尺度の導入 (Japanese) GPP: 一般化事後確率 IC: ドメイン内信頼度 DC: 談話の整合性尺度 CER (%) 20.0 18.0 16.0 GPP GPP +IC GPP +DC GPP +IC +DC 14.0 “GPP+IC” と“GPP+DC” でCER減少 (6.4% and 4.2% relative) 16 “GPP+IC+DC” においてさらにCER減少 20.7%19.0% (8.1% relative) まとめ “高次の”知識に基づいた信頼度尺度を用いる 発話検 証手法を提案した ドメイン内の信頼度尺度 (in-domain confidence) 発話がシステムの扱うドメイン内である信頼度 談話の整合性に関する信頼度尺度 (discourse coherence) 対話における発話の一貫性に関する尺度 音声翻訳システムを介した自然な対話で評価 提案した二つの尺度を導入すると 発話検証性能を向上することができた (日本語=8.1%/英語=11.4%) 17 Thank You [email protected] 18
© Copyright 2024 ExpyDoc