asj2008s

3-P-17
文脈特徴を用いたCRFによる音声認識誤り訂正
中谷 良平,滝口 哲也,有木 康雄 (神戸大)
研究背景
CRFによる誤り検出モデル
従来の大語彙連続音声認識
 言語モデル : N-gramモデル
 正解部分、誤り部分を特徴付けるN-gramを学習
 入力単語列から音声認識誤りを検出する
N-gramモデル
 前後数単語との連鎖確率
 広範囲の文脈情報を考慮していない
 不自然なN-gramの発生 (例:と/思う/ます)
 学習 : 素性の重要度 λ
λ : 素性重み
提案手法
Correct Recognition Result
Corresponding
Speech
Data
f : 素性関数
 特徴的な素性 ⇒ 重み大
例 : 「神戸 / 県」
Learning
of error
tendency
by CRF
特徴的でない素性 ⇒ 重み小
例 : 「これ / は」
長距離文脈情報
ある出現単語を周辺の単語と比較したときの自然さ
Error Detection
Model
w
Maximum likelihood words
of Confusion
Confusion
Network
Calculate
Error
Network
Speech
Semantic Confusion
Correction
Recognition
Score
Network
Test
音声
会話
大根
発話 話者
c(w)
SC(w)  sim(w, c(w))
Latent Semantic Analysis (LSA)
Recognition Result
実験条件
Confusion Network
入力音声 : “私 達 は”
Z(x) : 分配関数
 様々な素性を自由に設計できる → 長距離文脈情報の追加
Labeling
Latent
Semantic
Analysis
Large
Corpus
Input
Speech
Learning
Confusion Calculate
Network Semantic
Speech
Score
Recognition
C
y 
E 
1
p ( y | x) 
exp a f a (y, x)
Z ( x)
a
“私”:0.8
“-”:0.9
 多くの単語列候補を
表現可能
 ヌル遷移を選択
“渡し”:0.2
⇒挿入誤りを訂正可能
“い”:0.1
“価値”:0.5
“は”:0.5
コーパス : 日本語話し言葉コーパス(CSJ)
音声認識器 : Julius-4.1.4
“達”:0.3
“が”:0.4
用いた素性 :
表層単語unigram、bigram、trigram
意味スコア、Confusion Network上の信頼度
“が”:0.2
“-”:0.1
評価値 : 単語誤り率 (WER)
Confusion Set
実験結果
8000
35
30.84
27.36
7000
27.11
25
20
15
CN-oracle
CN-best
Nonsemantic
Proposed method
11.88
10
5
The number of errors
Word error rate [%]
30
6000
5000
CN-oracle
CN-best
Nonsemantic
Proposed method
4000
3000
2000
0
CN-oracle
CN-best
Nonsemantic
Proposed
method
単語誤り率による評価
1000
0
SUB
DEL
改善例
誤り種類別による評価
 不自然なN-gramによって誤りを検出・訂正できた例
“実際 の あ 発話 に” ⇒ “実際 の 発話 に”
 不自然なN-gramによって誤りを検出できなかったが、長距離文脈情報によって訂正できた例
“イルカ の 東部 表面 に” ⇒ “イルカ の 頭部 表面 に”
考察
 意味スコアは主に置換誤りに有効
 ややヌル遷移の選ばれやすいモデルになっている
今後の課題
 より有効な意味スコアの調査
 未知語による認識誤りの訂正
INS