3-P-17 文脈特徴を用いたCRFによる音声認識誤り訂正 中谷 良平,滝口 哲也,有木 康雄 (神戸大) 研究背景 CRFによる誤り検出モデル 従来の大語彙連続音声認識 言語モデル : N-gramモデル 正解部分、誤り部分を特徴付けるN-gramを学習 入力単語列から音声認識誤りを検出する N-gramモデル 前後数単語との連鎖確率 広範囲の文脈情報を考慮していない 不自然なN-gramの発生 (例:と/思う/ます) 学習 : 素性の重要度 λ λ : 素性重み 提案手法 Correct Recognition Result Corresponding Speech Data f : 素性関数 特徴的な素性 ⇒ 重み大 例 : 「神戸 / 県」 Learning of error tendency by CRF 特徴的でない素性 ⇒ 重み小 例 : 「これ / は」 長距離文脈情報 ある出現単語を周辺の単語と比較したときの自然さ Error Detection Model w Maximum likelihood words of Confusion Confusion Network Calculate Error Network Speech Semantic Confusion Correction Recognition Score Network Test 音声 会話 大根 発話 話者 c(w) SC(w) sim(w, c(w)) Latent Semantic Analysis (LSA) Recognition Result 実験条件 Confusion Network 入力音声 : “私 達 は” Z(x) : 分配関数 様々な素性を自由に設計できる → 長距離文脈情報の追加 Labeling Latent Semantic Analysis Large Corpus Input Speech Learning Confusion Calculate Network Semantic Speech Score Recognition C y E 1 p ( y | x) exp a f a (y, x) Z ( x) a “私”:0.8 “-”:0.9 多くの単語列候補を 表現可能 ヌル遷移を選択 “渡し”:0.2 ⇒挿入誤りを訂正可能 “い”:0.1 “価値”:0.5 “は”:0.5 コーパス : 日本語話し言葉コーパス(CSJ) 音声認識器 : Julius-4.1.4 “達”:0.3 “が”:0.4 用いた素性 : 表層単語unigram、bigram、trigram 意味スコア、Confusion Network上の信頼度 “が”:0.2 “-”:0.1 評価値 : 単語誤り率 (WER) Confusion Set 実験結果 8000 35 30.84 27.36 7000 27.11 25 20 15 CN-oracle CN-best Nonsemantic Proposed method 11.88 10 5 The number of errors Word error rate [%] 30 6000 5000 CN-oracle CN-best Nonsemantic Proposed method 4000 3000 2000 0 CN-oracle CN-best Nonsemantic Proposed method 単語誤り率による評価 1000 0 SUB DEL 改善例 誤り種類別による評価 不自然なN-gramによって誤りを検出・訂正できた例 “実際 の あ 発話 に” ⇒ “実際 の 発話 に” 不自然なN-gramによって誤りを検出できなかったが、長距離文脈情報によって訂正できた例 “イルカ の 東部 表面 に” ⇒ “イルカ の 頭部 表面 に” 考察 意味スコアは主に置換誤りに有効 ややヌル遷移の選ばれやすいモデルになっている 今後の課題 より有効な意味スコアの調査 未知語による認識誤りの訂正 INS
© Copyright 2025 ExpyDoc