スライド 1

未知語モデルを用いた
CRFに基づく音声認識誤り訂正
2012年 春季音響学会(2012/3/14)
中谷良平(神戸大),
岩橋直人(NICT),
中野幹生(HRI-JP),
滝口哲也,有木康雄(神戸大)
発表の概要
研究背景
従来手法
従来手法の問題点と研究目的
研究内容
評価実験・考察
まとめと今後の課題
www.***.com
研究背景
現在の音声認識技術
何か曲を再生してください
わかりました…
 音声認識精度は80%~90%程度
 音声認識誤りは不可避
www.***.com
CRFを用いた音声認識誤り訂正
音声認識誤りは避けられない
 音声認識誤り訂正が提案されている
従来手法
 CRFによる音声認識誤り訂正[1]
 音声認識の誤り傾向をCRFによって学習しておき,後から
音声認識誤りを訂正する
[1]中谷良平,滝口哲也,有木康雄(神戸大),
Confusion Networkを用いたCRFによる音声認識誤り訂正,
sdpws2011
www.***.com
CRFを用いた音声認識誤り訂正
学習プロセス
Speech
“私 は 神戸 から 来 まし た”
Corresponding
認識誤り
Speech Recognition
You say
“渡し は 神戸 から 来 まし た”
E C C
C C C C
 誤りの傾向を学習
 素性としては単語N-gramや長距離言語情報を用いる
www.***.com
CRFを用いた音声認識誤り訂正
誤り訂正プロセス
Recognition result
Correction result
“渡し は 神戸 から 来 まし た”
E C C
C C C C
“私 は 神戸 から 来 まし た”
C C C
C C C C
“渡し”:0.8
“神戸”:0.5
“は”:1.0
“私”:0.2
“から”:0.7
“頭”:0.3
“工場”:0.2
…
“-”:0.3
www.***.com
問題点
未知語に対しては,音声認識誤りを訂正できない
“頭”:0.8
Speech
“私 は 神戸 から 来 まし た”
…
…
“工場”:0.2
未知語
Speech Recognition
You say
“私 は 頭 腹 来 まし た”
www.***.com
提案手法
Word/Syllableのハイブリッドな認識を導入
 既知語を単語として,未知語を音節列として出力する
Speech
“私 は 神戸 から 来 まし た”
音節認識
未知語
Speech Recognition
You say
“私 は ko: be から 来 まし た”
www.***.com
従来のCRFを用いた音声認識誤り訂正
Transcription data
Speech
data
Speech
recognition
Learning
Labeling
Training
By CRF
Discriminative
language
model
Input
speech
Speech
recognition
Confusion
Network
Word
re-ranking
Output
result
www.***.com
未知語モデリングを用いた音声認識誤り訂正
Transcription data
Speech
data
Speech
(Word/Syllable)
recognition
Learning
Labeling
Training
By CRF
Discriminative
language
model
Input
speech
Speech
(Word/Syllable)
recognition
Confusion
Network
Word
re-ranking
Output
result
www.***.com
提案手法の狙い
今まで100%誤認識していた未知語を認識可能にす
る
未知語を既知語に誤認識しても,Confusion Network
上に正解が現れる可能性が生まれる
“頭”:0.6
“頭”:0.8
…
…
“工場”:0.2
…
“ko: be”:0.3
…
“工場”:0.1
www.***.com
未知語モデリングの概要
通常の単語N-gramの中に未知語をモデリングする
 名詞・固有名詞をランダムに未知語にする
音節unigram/bigram/trigram
これは
未知語
です
あ
い
う
……
ん
www.***.com
クラスN-gramを用いた実装(1/2)
未知語は未知語クラス cOOV からのみ発生するとし
て,単語N-gramとクラスN-gramの混合モデルを作成
 cOOV 以外のクラスは1クラス1既知語とすることで実現
Q
P(w)   P(ci | ci 1 ,, ci  N 1 ) P(wi | ci )
i 1
もし ci  cOOV なら,Pwi | ci は各音節の発生確率
(ただし,どの音節に対しても等確率を与えている)
それ以外なら Pwi | ci   1
 Pwi | ci  が1に近いとき,未知語の発生しやすいモデルに
 Pwi | ci  が0に近いとき,未知語の発生しにくいモデルに
www.***.com
クラスN-gramを用いた実装(2/2)
クラスN-gramと単語N-gramの混合モデルを作成
 cOOV からは1音節のみが発生する
私 / は / cOOV /cOOV / から /来/まし /た
ko:
be
 複数音節の未知語は cOOV のN-gramとして表現される
www.***.com
評価実験
予備実験
 前述の未知語認識の精度
パラメータ P( wi | ci ) ,つまり未知語の発生しやすさを操作しなが
ら実験
 未知語認識を追加した場合と,追加していない従来の音声
認識の精度の比較
本実験
 未知語認識を用いた音声認識誤り訂正
www.***.com
実験条件(1/2)
コーパス
 日本語話し言葉コーパス(CSJ)
 名詞から未知語にする単語をランダムに選ぶ
評価データの未知語率は2%
音声認識器
 Julius-4.1.4
www.***.com
実験条件(2/2)
学習セット,評価セット
Training
Test
Number of lectures
106
4
Number of speeches
50,780
1,618
Number of words
513,281
17,594
学習した素性
 単語unigram/bigram/trigram
 Confusion Network上の信頼度
www.***.com
予備実験結果1:未知語検出精度
Recall,Precisionで評価
正しく認識できた未知 語の数
Recall 
正解ファイルに含まれ る未知語数
正しく認識できた未知 語の数
P recision
未知語と認識したもの の数
www.***.com
予備実験結果1:未知語検出精度
未知語検出のRecall曲線,Precision曲線
1.2
1
0.8
0.6
0.4
Recall
Precision
0.2
-5
-4.5
-4
-3.5
-3
-2.5
-2
-1.5
-1
0
-0.5 -0.01
logarithmic probability of syllable occurrence
www.***.com
予備実験結果2:音声認識精度
評価指標:単語誤り率(WER)
 未知語については,認識した音節列が間違っていても,出
現場所さえ合っていれば正解とした
www.***.com
予備実験結果2:音声認識精度
単語誤り率による評価
45
44
42
41
40
Word Error Rate [%]
43
Base
OOV modeling
Oracle
39
38
-5
-4.5
-4
-3.5
-3
-2.5
-2
-1.5
-1
37
-0.5 -0.01
logarithmic probability of syllable occurrence
 -1.7付近,-2.1以降でBaseより良くなった
www.***.com
誤り訂正結果(1/3)
単語誤り率による評価
45
44
42
41
40
Word Error Rate [%]
43
Base
OOV modeling
Oracle
Proposed method
39
38
-5
-4.5
-4
-3.5
-3
-2.5
-2
-1.5
-1
37
-0.5 -0.01
Logarithmic probability of syllable occurrence
 単語誤り率が改善した
www.***.com
誤り訂正結果(2/3)
単語誤り率による評価
41
Word Error Rate [%]
40.5
40.42
40.25
40
39.5
38.86
39
38.37
38.5
38
37.5
37
Base
OOV modeling
Base corrected
Proposesd
method
 Baseと比較して,2.05ポイントの改善
 Base correctedと比較しても,0.49ポイントの改善
www.***.com
誤り訂正結果(3/3)
訂正前(OOV modeling)と訂正後(Proposed method)
のRecall,Precisionの変化
0.45
0.38
0.4
0.4
0.35
0.3
0.25
0.22 0.22
Before
After
0.2
0.15
0.1
0.05
0
Recall
Precision
www.***.com
考察
Recallが変わらなかった一方で,Precisionが改善した
正しく認識できた未知 語の数
Recall 
正解ファイルに含まれ る未知語数
正しく認識できた未知 語の数
P recision
未知語と認識したもの の数
 Recallは分母が変わらないので,分子も変わっていない
 Precisionの分子はRecallと同じため,分母が減少した
→訂正後は訂正前と比べて、正しく認識できた未知語はそ
のままに,既知語を未知語に誤認識するケースが減った
www.***.com
考察
既知語を未知語に誤認識するケースが減った
 未知語検出精度が低いため,既知語を未知語として誤認
識してしまうケースが多く,学習段階で未知語自体が誤り
傾向を示す語として学習されてしまった
 そのため,既知語を未知語に誤認識したものは訂正できた
→Precisionの向上
 一方で、未知語を既知語であると誤認識したものに対して
はほとんど訂正できなかった
→Recallは変化しない
www.***.com
まとめと今後の課題
まとめ
 未知語を認識可能にして誤り訂正を行うことで,さらなる音
声認識精度の向上を確認した
 以前提案していた手法よりも0.49ポイント改善した
今後の課題
 音声認識精度の向上
 未知語認識精度の向上
 誤り検出をする際の素性の選定・追加
 Confusion Networkの作り直し
www.***.com
ご清聴ありがとうございました
www.***.com
今後の課題(1/4)
音声認識精度の向上
 テストデータの選定
 音声認識精度はWERで10%~20%程度であるべき
45
44
42
41
40
Word Error Rate [%]
43
Base
OOV modeling
Oracle
39
38
-5
-4.5
-4
-3.5
-3
-2.5
-2
-1.5
-1
37
-0.5 -0.01
logarithmic probability of syllable occurrence
www.***.com
今後の課題(2/4)
未知語検出精度の向上
 Recall,Precisionが低い
 Juliusのコードをいじらない,言語モデルのみのアプローチ
のため
1.2
1
0.8
0.6
0.4
Recall
Precision
0.2
-5
-4.5
-4
-3.5
-3
-2.5
-2
-1.5
-1
0
-0.5 -0.01
logarithmic probability of syllable occurrence
www.***.com
今後の課題(3/4)
誤り検出をする際の素性の選定・追加
 単語unigram/bigram/trigram
 Confusion Network上の信頼度
長距離言語情報の追加
www.***.com
今後の課題(4/4)
Confusion Networkの作り直し
 現在:1音節1単語のConfusion Network
“ko:”:0.5
神戸
“be”:0.7
“頭”:0.3
ko: be
“工場”:0.2
“-”:0.3
 未知語が2つのConfusion Setにまたがっている
www.***.com
今後の課題(4/4)
Confusion Networkの作り直し
 現在:1音節1単語のConfusion Network
“ko:”:0.5
“be”:0.7
“頭”:0.3
“工場”:0.2
“ko: be”:0.5
“頭”:0.3
“-”:0.3
“工場”:0.2
www.***.com
今後の課題(4/4)
Confusion Networkの作り直し
 現在:1音節1単語のConfusion Network
 Word latticeの時点で連続音節を1単語としてから
Confusion Networkをつくる
www.***.com
誤りタイプごとの評価
4500
4000
The number of error
3500
3000
Base
2500
OOV modeling
2000
Base corrected
Proposed method
1500
1000
500
0
SUB
DEL
INS
 削除誤りの増加→正解単語の減少
www.***.com
CRF (Conditional Random Field)(2/2)
入力 x について、ラベル y が付与される確率
1
p ( y | x) 
exp a f a (y, x)
Z ( x)
a
C
y 
E 
fa : 素性関数 Z(x) : 分配関数
学習データ (xi , yi) について条件付確率の対数尤度
L  log  p(y i | xi )
i
を最大にするように計算する
www.***.com
CRFの学習
正解部分,誤り部分を特徴づける素性の重みを学習
 特徴的な素性→重み大
例:「神戸/県」:明らかに誤りだとわかる
→誤り部分のみでよく出現
 特徴的でない素性→重み小
例:「これ/は」:ここだけでは正解か誤りかを識別できない
→正解、誤りのどちらでも出現
素性を柔軟に設計できる
www.***.com