2014年度 人工知能学会全国大会 Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in 概要 エンフボロル ビャムバヒシグ,田中 克幸,相原 龍, 滝口 哲也,有木 康雄(神戸大) Confusion Networkとは? 入力音声:「私達は」 研究背景 N-best 現在の音声認識精度(書き言葉 : 95% 話し言葉 : 80%)から, 音声認識誤りは避けられない 人間が言語的に不自然だと思うような音声認識誤りを 識別モデルを用いて訂正し,音声認識精度を向上させる. “私”:0.8 “-”:0.9 “価値”:0.5 “は”:0.5 アプローチ “渡し”:0.2 “い”:0.1 “が”:0.2 “-”:0.1 Confusion Set N-bestより多くの単語列候補を表現 Confusion Setごとに単語を選択⇒より多くの誤りを訂正可能 “達:0.3” “が”:0.4 大語彙連続音声認識においてConfusion Network上での誤り訂正 N-gramモデルへの長距離文脈スコア導入で,訂正精度を向上. 識別モデルによる誤り訂正 Normalized Web Distance 条件付確率が最大になるようなラベル付け 1 p(label | word ) exp a f a (label, word ) Z ( x) a f a :素性関数 a :重み Z (x) :分配関数 label :正or誤 word :入力単語 学習データ (labeli , wordi ) について条件付確率 分布の対数尤度最大化 L log p(labeli | wordi ) max(logf ( wi ), log f ( wk )) log f (wi , wk ) 意味の関 NWD ( wi , wk ) NWD(w , w ) =1 i k log N min(log f ( wi ), log f (wk )) わりがない wi を検索エンジンで検索したときのヒット数 f (wi , wk ):単語 wi かつ単語 wk を検索エンジンで検索したときのヒット数 f (wi ):単語 N :単語エンジンがインデックスした総ページ数 長距離スコア うち は どこまで広がっ− 家 人 話 声 NWD (wi , wk ) 訂正結果 “私 達 は” 単語“価値”における素性 単語“価値”における素性 単語“価値”における素性 単語N-gram 単語N-gram 単語N-gram CN上信頼度:0.5 CN上信頼度:0.5 CN上信頼度:0.5 LSA文脈スコア:1.8 LSA文脈スコア:1.8 LSA文脈スコア:1.8 誤り訂正の流れ c(wi ) K words 道 従来手法の概略 道 家 人 話 声 NWD (wi , wk ) …NWD (wi , wi 1 )… NWD avg (wi ) 識別 モデル 問題点 単語N-gramでは短距離でしか見れない LSA文脈スコアは大きな学習コーパスに不向き Null遷移による素性数の減少,学習効率低下 実験条件 認識システム 日本語話し言葉コーパス(CSJ) 大語彙連続音声認識システム:Julius 素性 表層単語1-gram,2-gram,3-gram CN上信頼度 NWDによる文脈スコア 日本語話言葉コーパス(2,672講義分) Yahoo!知恵袋 (2004年~2010年分の回答数) データ数 学習 評価 301 講演数 150 単語数 311,374 113,289 比較対象 N-gram:単語N-gram,CN信頼度を素性 LSA model:文脈スコアとしてLSAを用 いた手法(ベースライン) NWD model:ヌル遷移ありの検出モデ ルで一回だけ訂正 意味的に NWD(wi, wk ) = 0 一致 単語間の類似度を求める手法として提案されている wi i 認識結果 “私 価値 は” 私 価値 は 私 価値 が 渡し 価値 は 渡し 達 は 私いが NWDを用いた文脈スコアの導入 Conditional Random Fields y 1. 2. 3. 4. 5. 距離が近い ゲノム 計画 科 国語 印象 残る 0.05 0.09 0.1 距離が遠い 遷移 途中 置く 原子 美容 音素 1 1 1 宇宙 が 誤り検出 うち 誤 − 正 は 正 どこ 正 まで 正 広がっ 正 − 誤 − 正 れ 誤 − 正 − 正 いる 正 だろ 正 う 正 − れ − − いる だろ う で広まっつ て え い 言え だ − 誤り訂正後 Null遷移削除 誤り訂正後 宇宙 正 宇宙 正 宇宙 正 は 正 は 正 − 正 は 正 どこ 正 どこ 正 どこ 正 まで 正 まで 正 まで 正 広がっ正 広がっ正 広がっ 正 − 誤 − 誤 れ 誤 て 正 − 誤 いる 正 いる 正 − 正 れ 誤 だろ 正 だろ 正 う 正 う − 正 − 正 いる 正 だろ 正 う 正 実験結果 誤りの種類別評価とWER 提案手法では置換誤りと挿入誤りが最少 WERで4.45%の改善 CN-best N-gram LSA(Baseline) Proposed method 置換誤り 削除誤り 挿入誤り 正解単語 WER[%] 28,446 5,453 14,751 63,871 42.94 21,522 7,848 8,204 68,400 33.17 21,049 8,324 7,757 68,397 32.77 15,118 13,534 3,431 68,794 28.32 改善例 トピックの ある単語 正解文 宇宙 は 今日 より も 昨日 の 方 が 昨日 より おととい の 方が 小さかっ たが訂正 CN-best っちゅう は 許容 より 昨日 の 方 が に の L 音 と の 方 が 近かっ た 短距離 Nullあり訂正 宇宙 は 許容 より 昨日 の 方 よる おととい と の 方 が 近かっ た での訂正 Null削除後訂正 宇宙 は 今日 より 昨日 の 方 今 に よる おととい と の 方 が 近かっ た まとめ Normalized Web Distanceによる文脈スコアの有効性を確認 ヌル遷移を効率的に削除する提案手法を従来の音声認識器が出力した認識結果と比較 ⇒単語誤り率で4.45%の改善 今後の課題:識別モデルを改善,トピックを持たない単語へのNWDスコアを付与
© Copyright 2024 ExpyDoc