2-P-59(a) CRFとConfusion Networkを用いた音声認識誤り訂正 中谷 良平,滝口 哲也,有木 康雄 (神戸大) CRFによる誤り検出モデル 研究背景 従来の大語彙連続音声認識 言語モデル : N-gramモデル 正解部分、誤り部分を特徴付けるN-gramを学習 入力単語列から音声認識誤りを検出する N-gramモデル 前後数単語との連鎖確率 広範囲の文脈情報を考慮していない 不自然なN-gramの発生 (例:と/思う/ます) 学習 : 素性の重要度 λ 1 p ( y | x) exp a f a (y, x) Z ( x) a λ : 素性重み Confusion Network 特徴的な素性 ⇒ 重み大 例 : 「神戸 / 県」 入力音声 : “私 達 は” “私”:0.8 “-”:0.9 “い”:0.1 ある出現単語を周辺の単語と比較したときの自然さ w “-”:0.1 音声 多くの単語列候補を表現可能 ヌル遷移を選択 ⇒挿入誤りを訂正可能 Confusion Set Speech Data Speech Recognition Large Corpus 会話 大根 発話 話者 c(w) SC(w) sim(w, c(w)) Latent Semantic Analysis (LSA) 提案手法 Corresponding 特徴的でない素性 ⇒ 重み小 例 : 「これ / は」 長距離文脈情報 “が”:0.4 “が”:0.2 Z(x) : 分配関数 様々な素性を自由に設計できる → 長距離文脈情報の追加 “は”:0.5 “価値”:0.5 “達”:0.3 “渡し”:0.2 f : 素性関数 C y E 実験条件 Learning Correct Recognition Result Confusion Network Calculate Semantic Score Latent Semantic Analysis コーパス : 日本語話し言葉コーパス(CSJ) 音声認識器 : Julius-4.1.4 Labeling Learning of error detection model by CRF Error Detection Model 用いた素性 : 表層単語unigram、bigram、trigram 意味スコア、Confusion Network上の信頼度 評価値 : 単語誤り率 (WER) 実験結果 単語誤り率による評価 改善例 誤り種類別による評価 不自然なN-gramによって誤りを検出・訂正できた例 “実際 の あ 発話 に” ⇒ “実際 の 発話 に” 不自然なN-gramによって誤りを検出できなかったが、長距離文脈情報によって訂正できた例 “イルカ の 東部 表面 に” ⇒ “イルカ の 頭部 表面 に” 考察 意味スコアは主に置換誤りに有効 ややヌル遷移の選ばれやすいモデルになっている 今後の課題 より有効な意味スコアの調査 意味スコアのみを用いて誤り訂正を行い評価する
© Copyright 2024 ExpyDoc