スライド 1

2014年度
人工知能学会全国大会
Normalized Web Distanceを用いた音声認識の誤り訂正法
301-4in
概要
エンフボロル ビャムバヒシグ,田中 克幸,相原 龍,
滝口 哲也,有木 康雄(神戸大)
Confusion Networkとは?
入力音声:「私達は」
研究背景
N-best
現在の音声認識精度(書き言葉 : 95% 話し言葉 : 80%)から,
音声認識誤りは避けられない
人間が言語的に不自然だと思うような音声認識誤りを
識別モデルを用いて訂正し,音声認識精度を向上させる.
“私”:0.8 “-”:0.9 “価値”:0.5 “は”:0.5
アプローチ
“渡し”:0.2 “い”:0.1 “が”:0.2 “-”:0.1
Confusion Set
N-bestより多くの単語列候補を表現
Confusion Setごとに単語を選択⇒より多くの誤りを訂正可能
“達:0.3” “が”:0.4
大語彙連続音声認識においてConfusion Network上での誤り訂正
N-gramモデルへの長距離文脈スコア導入で,訂正精度を向上.
識別モデルによる誤り訂正
Normalized Web Distance
条件付確率が最大になるようなラベル付け
1
p(label | word ) 
exp a f a (label, word )
Z ( x)
a
f a :素性関数 a :重み Z (x) :分配関数
label :正or誤 word :入力単語
学習データ (labeli , wordi ) について条件付確率
分布の対数尤度最大化
L   log  p(labeli | wordi )
max(logf ( wi ), log f ( wk ))  log f (wi , wk )
意味の関
NWD ( wi , wk ) 
NWD(w
,
w
)
=1
i
k
log N  min(log f ( wi ), log f (wk ))
わりがない
wi を検索エンジンで検索したときのヒット数
f (wi , wk ):単語 wi かつ単語 wk を検索エンジンで検索したときのヒット数
f (wi ):単語
N :単語エンジンがインデックスした総ページ数
長距離スコア
うち は どこまで広がっ−
家
人
話
声
NWD (wi , wk )
訂正結果
“私 達 は”
単語“価値”における素性
単語“価値”における素性
単語“価値”における素性
単語N-gram
単語N-gram
単語N-gram
CN上信頼度:0.5
CN上信頼度:0.5
CN上信頼度:0.5
LSA文脈スコア:1.8
LSA文脈スコア:1.8
LSA文脈スコア:1.8
誤り訂正の流れ
c(wi ) K words
道
従来手法の概略
道
家
人
話
声
NWD (wi , wk ) …NWD (wi , wi 1 )…
NWD avg (wi )
識別
モデル
問題点
単語N-gramでは短距離でしか見れない
LSA文脈スコアは大きな学習コーパスに不向き
Null遷移による素性数の減少,学習効率低下
実験条件
認識システム
日本語話し言葉コーパス(CSJ)
大語彙連続音声認識システム:Julius
素性
表層単語1-gram,2-gram,3-gram
CN上信頼度
NWDによる文脈スコア
日本語話言葉コーパス(2,672講義分)
Yahoo!知恵袋
(2004年~2010年分の回答数)
データ数
学習
評価
301
講演数 150
単語数 311,374 113,289
比較対象
N-gram:単語N-gram,CN信頼度を素性
LSA model:文脈スコアとしてLSAを用
いた手法(ベースライン)
NWD model:ヌル遷移ありの検出モデ
ルで一回だけ訂正
意味的に
NWD(wi, wk ) = 0
一致
単語間の類似度を求める手法として提案されている
wi
i
認識結果
“私 価値 は”
私 価値 は
私 価値 が
渡し 価値 は
渡し 達 は
私いが
NWDを用いた文脈スコアの導入
Conditional Random Fields
y
1.
2.
3.
4.
5.
距離が近い
ゲノム 計画
科
国語
印象 残る
0.05
0.09
0.1
距離が遠い
遷移 途中
置く 原子
美容 音素
1
1
1
宇宙 が
誤り検出
うち 誤
− 正
は 正
どこ 正
まで 正
広がっ 正
− 誤
− 正
れ 誤
− 正
− 正
いる 正
だろ 正
う 正
− れ
−
− いる だろ う
で広まっつ
て え い 言え だ −
誤り訂正後 Null遷移削除 誤り訂正後
宇宙 正
宇宙 正
宇宙 正
は 正
は 正
− 正
は 正
どこ 正
どこ 正
どこ 正
まで 正
まで 正
まで 正
広がっ正
広がっ正
広がっ 正
− 誤
− 誤
れ 誤
て 正
− 誤
いる 正
いる 正
− 正
れ 誤
だろ 正
だろ 正
う 正
う
− 正
− 正
いる 正
だろ 正
う 正
実験結果
誤りの種類別評価とWER
提案手法では置換誤りと挿入誤りが最少
WERで4.45%の改善
CN-best
N-gram
LSA(Baseline)
Proposed method
置換誤り 削除誤り 挿入誤り
正解単語 WER[%]
28,446
5,453
14,751
63,871
42.94
21,522
7,848
8,204
68,400
33.17
21,049
8,324
7,757
68,397
32.77
15,118
13,534
3,431
68,794
28.32
改善例
トピックの
ある単語
正解文
宇宙 は 今日 より も 昨日 の 方 が 昨日 より おととい の 方が 小さかっ たが訂正
CN-best
っちゅう は 許容 より 昨日 の 方 が に の L 音 と の 方 が 近かっ た
短距離
Nullあり訂正
宇宙 は 許容 より 昨日 の 方 よる おととい と の 方 が 近かっ た
での訂正
Null削除後訂正 宇宙 は 今日 より 昨日 の 方 今 に よる おととい と の 方 が 近かっ た
まとめ
Normalized Web Distanceによる文脈スコアの有効性を確認
ヌル遷移を効率的に削除する提案手法を従来の音声認識器が出力した認識結果と比較
⇒単語誤り率で4.45%の改善
今後の課題:識別モデルを改善,トピックを持たない単語へのNWDスコアを付与