asj2008s

2-P-59(a)
CRFとConfusion Networkを用いた音声認識誤り訂正
中谷 良平,滝口 哲也,有木 康雄 (神戸大)
CRFによる誤り検出モデル
研究背景
従来の大語彙連続音声認識
 言語モデル : N-gramモデル
 正解部分、誤り部分を特徴付けるN-gramを学習
 入力単語列から音声認識誤りを検出する
N-gramモデル
 前後数単語との連鎖確率
 広範囲の文脈情報を考慮していない
 不自然なN-gramの発生 (例:と/思う/ます)
 学習 : 素性の重要度 λ
1
p ( y | x) 
exp a f a (y, x)
Z ( x)
a
λ : 素性重み
Confusion Network
 特徴的な素性 ⇒ 重み大
例 : 「神戸 / 県」
 入力音声 : “私 達 は”
“私”:0.8
“-”:0.9
“い”:0.1
ある出現単語を周辺の単語と比較したときの自然さ
w
“-”:0.1
音声
 多くの単語列候補を表現可能
 ヌル遷移を選択
⇒挿入誤りを訂正可能
Confusion Set
Speech
Data
Speech
Recognition
Large
Corpus
会話
大根
発話 話者
c(w)
SC(w)  sim(w, c(w))
Latent Semantic Analysis (LSA)
提案手法
Corresponding
特徴的でない素性 ⇒ 重み小
例 : 「これ / は」
長距離文脈情報
“が”:0.4
“が”:0.2
Z(x) : 分配関数
 様々な素性を自由に設計できる → 長距離文脈情報の追加
“は”:0.5
“価値”:0.5
“達”:0.3
“渡し”:0.2
f : 素性関数
C
y 
E 
実験条件
Learning
Correct Recognition
Result
Confusion
Network
Calculate
Semantic
Score
Latent
Semantic
Analysis
コーパス : 日本語話し言葉コーパス(CSJ)
音声認識器 : Julius-4.1.4
Labeling
Learning of error
detection model
by CRF
Error Detection
Model
用いた素性 :
表層単語unigram、bigram、trigram
意味スコア、Confusion Network上の信頼度
評価値 : 単語誤り率 (WER)
実験結果
単語誤り率による評価
改善例
誤り種類別による評価
 不自然なN-gramによって誤りを検出・訂正できた例
“実際 の あ 発話 に” ⇒ “実際 の 発話 に”
 不自然なN-gramによって誤りを検出できなかったが、長距離文脈情報によって訂正できた例
“イルカ の 東部 表面 に” ⇒ “イルカ の 頭部 表面 に”
考察
 意味スコアは主に置換誤りに有効
 ややヌル遷移の選ばれやすいモデルになっている
今後の課題
 より有効な意味スコアの調査
 意味スコアのみを用いて誤り訂正を行い評価する