スライド 1

2014年度
人工知能学会全国大会
Normalized Web Distanceを用いた音声認識の誤り訂正法
301-4in
概要
エンフボロルビャムバヒシグ,田中克幸，相原龍，
滝口哲也,有木康雄(神戸大)
Confusion Networkとは？
入力音声：「私達は」
研究背景
N-best
現在の音声認識精度（書き言葉 : 95% 話し言葉 : 80%）から，
音声認識誤りは避けられない
人間が言語的に不自然だと思うような音声認識誤りを
識別モデルを用いて訂正し，音声認識精度を向上させる．
“私”：0.8 “-”：0.9 “価値”：0.5 “は”：0.5
アプローチ
“渡し”：0.2 “い”：0.1 “が”：0.2 “-”：0.1
Confusion Set
N-bestより多くの単語列候補を表現
Confusion Setごとに単語を選択⇒より多くの誤りを訂正可能
“達：0.3” “が”：0.4
大語彙連続音声認識においてConfusion Network上での誤り訂正
N-gramモデルへの長距離文脈スコア導入で，訂正精度を向上．
識別モデルによる誤り訂正
Normalized Web Distance
条件付確率が最大になるようなラベル付け
1
p(label | word ) 
exp a f a (label, word )
Z ( x)
a
f a ：素性関数 a ：重み Z (x) ：分配関数
label ：正or誤 word ：入力単語
学習データ (labeli , wordi ) について条件付確率
分布の対数尤度最大化
L   log  p(labeli | wordi )
max(logf ( wi ), log f ( wk ))  log f (wi , wk )
意味の関
NWD ( wi , wk ) 
NWD(w
,
w
)
=1
i
k
log N  min(log f ( wi ), log f (wk ))
わりがない
wi を検索エンジンで検索したときのヒット数
f (wi , wk )：単語 wi かつ単語 wk を検索エンジンで検索したときのヒット数
f (wi )：単語
N ：単語エンジンがインデックスした総ページ数
長距離スコア
うちはどこまで広がっ−
家
人
話
声
NWD (wi , wk )
訂正結果
“私達は”
単語“価値”における素性
単語“価値”における素性
単語“価値”における素性
単語N-gram
単語N-gram
単語N-gram
CN上信頼度：0.5
CN上信頼度：0.5
CN上信頼度：0.5
LSA文脈スコア：1.8
LSA文脈スコア：1.8
LSA文脈スコア：1.8
誤り訂正の流れ
c(wi ) K words
道
従来手法の概略
道
家
人
話
声
NWD (wi , wk ) …NWD (wi , wi 1 )…
NWD avg (wi )
識別
モデル
問題点
単語N-gramでは短距離でしか見れない
LSA文脈スコアは大きな学習コーパスに不向き
Null遷移による素性数の減少，学習効率低下
実験条件
認識システム
日本語話し言葉コーパス（CSJ）
大語彙連続音声認識システム：Julius
素性
表層単語1-gram，2-gram，3-gram
CN上信頼度
NWDによる文脈スコア
日本語話言葉コーパス（2,672講義分）
Yahoo！知恵袋
(2004年～2010年分の回答数)
データ数
学習
評価
301
講演数 150
単語数 311,374 113,289
比較対象
N-gram：単語N-gram，CN信頼度を素性
LSA model：文脈スコアとしてLSAを用
いた手法（ベースライン）
NWD model：ヌル遷移ありの検出モデ
ルで一回だけ訂正
意味的に
NWD(wi, wk ) = 0
一致
単語間の類似度を求める手法として提案されている
wi
i
認識結果
“私価値は”
私価値は
私価値が
渡し価値は
渡し達は
私いが
NWDを用いた文脈スコアの導入
Conditional Random Fields
y
1.
2.
3.
4.
5.
距離が近い
ゲノム計画
科
国語
印象残る
0.05
0.09
0.1
距離が遠い
遷移途中
置く原子
美容音素
1
1
1
宇宙が
誤り検出
うち誤
− 正
は正
どこ正
まで正
広がっ正
− 誤
− 正
れ誤
− 正
− 正
いる正
だろ正
う正
− れ
−
− いるだろう
で広まっつ
てえい言えだ −
誤り訂正後 Null遷移削除誤り訂正後
宇宙正
宇宙正
宇宙正
は正
は正
− 正
は正
どこ正
どこ正
どこ正
まで正
まで正
まで正
広がっ正
広がっ正
広がっ正
− 誤
− 誤
れ誤
て正
− 誤
いる正
いる正
− 正
れ誤
だろ正
だろ正
う正
う
− 正
− 正
いる正
だろ正
う正
実験結果
誤りの種類別評価とWER
提案手法では置換誤りと挿入誤りが最少
WERで4.45％の改善
CN-best
N-gram
LSA(Baseline)
Proposed method
置換誤り削除誤り挿入誤り
正解単語 WER[%]
28,446
5,453
14,751
63,871
42.94
21,522
7,848
8,204
68,400
33.17
21,049
8,324
7,757
68,397
32.77
15,118
13,534
3,431
68,794
28.32
改善例
トピックの
ある単語
正解文
宇宙は今日よりも昨日の方が昨日よりおとといの方が小さかったが訂正
CN-best
っちゅうは許容より昨日の方がにの L 音との方が近かった
短距離
Nullあり訂正
宇宙は許容より昨日の方よるおとといとの方が近かった
での訂正
Null削除後訂正宇宙は今日より昨日の方今によるおとといとの方が近かった
まとめ
Normalized Web Distanceによる文脈スコアの有効性を確認
ヌル遷移を効率的に削除する提案手法を従来の音声認識器が出力した認識結果と比較
⇒単語誤り率で4.45％の改善
今後の課題：識別モデルを改善，トピックを持たない単語へのNWDスコアを付与

Download Report