スライド 1

未知語モデルを用いた
CRFに基づく音声認識誤り訂正
2012年春季音響学会（2012/3/14）
中谷良平（神戸大），
岩橋直人（NICT），
中野幹生（HRI-JP），
滝口哲也，有木康雄（神戸大）
発表の概要
研究背景
従来手法
従来手法の問題点と研究目的
研究内容
評価実験・考察
まとめと今後の課題
www.***.com
研究背景
現在の音声認識技術
何か曲を再生してください
わかりました…
 音声認識精度は80%～90%程度
 音声認識誤りは不可避
www.***.com
CRFを用いた音声認識誤り訂正
音声認識誤りは避けられない
 音声認識誤り訂正が提案されている
従来手法
 CRFによる音声認識誤り訂正[1]
 音声認識の誤り傾向をCRFによって学習しておき，後から
音声認識誤りを訂正する
[1]中谷良平，滝口哲也，有木康雄（神戸大），
Confusion Networkを用いたCRFによる音声認識誤り訂正，
sdpws2011
www.***.com
CRFを用いた音声認識誤り訂正
学習プロセス
Speech
“私は神戸から来ました”
Corresponding
認識誤り
Speech Recognition
You say
“渡しは神戸から来ました”
E C C
C C C C
 誤りの傾向を学習
 素性としては単語N-gramや長距離言語情報を用いる
www.***.com
CRFを用いた音声認識誤り訂正
誤り訂正プロセス
Recognition result
Correction result
“渡しは神戸から来ました”
E C C
C C C C
“私は神戸から来ました”
C C C
C C C C
“渡し”：0.8
“神戸”：0.5
“は”：1.0
“私”：0.2
“から”：0.7
“頭”：0.3
“工場”：0.2
…
“-”：0.3
www.***.com
問題点
未知語に対しては，音声認識誤りを訂正できない
“頭”：0.8
Speech
“私は神戸から来ました”
…
…
“工場”：0.2
未知語
Speech Recognition
You say
“私は頭腹来ました”
www.***.com
提案手法
Word/Syllableのハイブリッドな認識を導入
 既知語を単語として，未知語を音節列として出力する
Speech
“私は神戸から来ました”
音節認識
未知語
Speech Recognition
You say
“私は ko: be から来ました”
www.***.com
従来のCRFを用いた音声認識誤り訂正
Transcription data
Speech
data
Speech
recognition
Learning
Labeling
Training
By CRF
Discriminative
language
model
Input
speech
Speech
recognition
Confusion
Network
Word
re-ranking
Output
result
www.***.com
未知語モデリングを用いた音声認識誤り訂正
Transcription data
Speech
data
Speech
(Word/Syllable)
recognition
Learning
Labeling
Training
By CRF
Discriminative
language
model
Input
speech
Speech
(Word/Syllable)
recognition
Confusion
Network
Word
re-ranking
Output
result
www.***.com
提案手法の狙い
今まで100%誤認識していた未知語を認識可能にす
る
未知語を既知語に誤認識しても，Confusion Network
上に正解が現れる可能性が生まれる
“頭”：0.6
“頭”：0.8
…
…
“工場”：0.2
…
“ko: be”：0.3
…
“工場”：0.1
www.***.com
未知語モデリングの概要
通常の単語N-gramの中に未知語をモデリングする
 名詞・固有名詞をランダムに未知語にする
音節unigram/bigram/trigram
これは
未知語
です
あ
い
う
……
ん
www.***.com
クラスN-gramを用いた実装（1/2）
未知語は未知語クラス cOOV からのみ発生するとし
て，単語N-gramとクラスN-gramの混合モデルを作成
 cOOV 以外のクラスは1クラス1既知語とすることで実現
Q
P(w)   P(ci | ci 1 ,, ci  N 1 ) P(wi | ci )
i 1
もし ci  cOOV なら，Pwi | ci は各音節の発生確率
（ただし，どの音節に対しても等確率を与えている）
それ以外なら Pwi | ci   1
 Pwi | ci  が1に近いとき，未知語の発生しやすいモデルに
 Pwi | ci  が0に近いとき，未知語の発生しにくいモデルに
www.***.com
クラスN-gramを用いた実装（2/2）
クラスN-gramと単語N-gramの混合モデルを作成
 cOOV からは1音節のみが発生する
私 / は / cOOV /cOOV / から /来/まし /た
ko:
be
 複数音節の未知語は cOOV のN-gramとして表現される
www.***.com
評価実験
予備実験
 前述の未知語認識の精度
パラメータ P( wi | ci ) ，つまり未知語の発生しやすさを操作しなが
ら実験
 未知語認識を追加した場合と，追加していない従来の音声
認識の精度の比較
本実験
 未知語認識を用いた音声認識誤り訂正
www.***.com
実験条件（1/2）
コーパス
 日本語話し言葉コーパス（CSJ）
 名詞から未知語にする単語をランダムに選ぶ
評価データの未知語率は2%
音声認識器
 Julius-4.1.4
www.***.com
実験条件（2/2）
学習セット，評価セット
Training
Test
Number of lectures
106
4
Number of speeches
50,780
1,618
Number of words
513,281
17,594
学習した素性
 単語unigram/bigram/trigram
 Confusion Network上の信頼度
www.***.com
予備実験結果1：未知語検出精度
Recall，Precisionで評価
正しく認識できた未知語の数
Recall 
正解ファイルに含まれる未知語数
正しく認識できた未知語の数
P recision
未知語と認識したものの数
www.***.com
予備実験結果1：未知語検出精度
未知語検出のRecall曲線，Precision曲線
1.2
1
0.8
0.6
0.4
Recall
Precision
0.2
-5
-4.5
-4
-3.5
-3
-2.5
-2
-1.5
-1
0
-0.5 -0.01
logarithmic probability of syllable occurrence
www.***.com
予備実験結果2：音声認識精度
評価指標：単語誤り率（WER）
 未知語については，認識した音節列が間違っていても，出
現場所さえ合っていれば正解とした
www.***.com
予備実験結果2：音声認識精度
単語誤り率による評価
45
44
42
41
40
Word Error Rate [%]
43
Base
OOV modeling
Oracle
39
38
-5
-4.5
-4
-3.5
-3
-2.5
-2
-1.5
-1
37
-0.5 -0.01
logarithmic probability of syllable occurrence
 -1.7付近，-2.1以降でBaseより良くなった
www.***.com
誤り訂正結果（1/3）
単語誤り率による評価
45
44
42
41
40
Word Error Rate [%]
43
Base
OOV modeling
Oracle
Proposed method
39
38
-5
-4.5
-4
-3.5
-3
-2.5
-2
-1.5
-1
37
-0.5 -0.01
Logarithmic probability of syllable occurrence
 単語誤り率が改善した
www.***.com
誤り訂正結果（2/3）
単語誤り率による評価
41
Word Error Rate [%]
40.5
40.42
40.25
40
39.5
38.86
39
38.37
38.5
38
37.5
37
Base
OOV modeling
Base corrected
Proposesd
method
 Baseと比較して，2.05ポイントの改善
 Base correctedと比較しても，0.49ポイントの改善
www.***.com
誤り訂正結果（3/3）
訂正前（OOV modeling）と訂正後（Proposed method）
のRecall，Precisionの変化
0.45
0.38
0.4
0.4
0.35
0.3
0.25
0.22 0.22
Before
After
0.2
0.15
0.1
0.05
0
Recall
Precision
www.***.com
考察
Recallが変わらなかった一方で，Precisionが改善した
正しく認識できた未知語の数
Recall 
正解ファイルに含まれる未知語数
正しく認識できた未知語の数
P recision
未知語と認識したものの数
 Recallは分母が変わらないので，分子も変わっていない
 Precisionの分子はRecallと同じため，分母が減少した
→訂正後は訂正前と比べて、正しく認識できた未知語はそ
のままに，既知語を未知語に誤認識するケースが減った
www.***.com
考察
既知語を未知語に誤認識するケースが減った
 未知語検出精度が低いため，既知語を未知語として誤認
識してしまうケースが多く，学習段階で未知語自体が誤り
傾向を示す語として学習されてしまった
 そのため，既知語を未知語に誤認識したものは訂正できた
→Precisionの向上
 一方で、未知語を既知語であると誤認識したものに対して
はほとんど訂正できなかった
→Recallは変化しない
www.***.com
まとめと今後の課題
まとめ
 未知語を認識可能にして誤り訂正を行うことで，さらなる音
声認識精度の向上を確認した
 以前提案していた手法よりも0.49ポイント改善した
今後の課題
 音声認識精度の向上
 未知語認識精度の向上
 誤り検出をする際の素性の選定・追加
 Confusion Networkの作り直し
www.***.com
ご清聴ありがとうございました
www.***.com
今後の課題（1/4）
音声認識精度の向上
 テストデータの選定
 音声認識精度はWERで10%~20%程度であるべき
45
44
42
41
40
Word Error Rate [%]
43
Base
OOV modeling
Oracle
39
38
-5
-4.5
-4
-3.5
-3
-2.5
-2
-1.5
-1
37
-0.5 -0.01
logarithmic probability of syllable occurrence
www.***.com
今後の課題（2/4）
未知語検出精度の向上
 Recall，Precisionが低い
 Juliusのコードをいじらない，言語モデルのみのアプローチ
のため
1.2
1
0.8
0.6
0.4
Recall
Precision
0.2
-5
-4.5
-4
-3.5
-3
-2.5
-2
-1.5
-1
0
-0.5 -0.01
logarithmic probability of syllable occurrence
www.***.com
今後の課題（3/4）
誤り検出をする際の素性の選定・追加
 単語unigram/bigram/trigram
 Confusion Network上の信頼度
長距離言語情報の追加
www.***.com
今後の課題（4/4）
Confusion Networkの作り直し
 現在：1音節1単語のConfusion Network
“ko:”：0.5
神戸
“be”：0.7
“頭”：0.3
ko: be
“工場”：0.2
“-”：0.3
 未知語が2つのConfusion Setにまたがっている
www.***.com
今後の課題（4/4）
Confusion Networkの作り直し
 現在：1音節1単語のConfusion Network
“ko:”：0.5
“be”：0.7
“頭”：0.3
“工場”：0.2
“ko: be”：0.5
“頭”：0.3
“-”：0.3
“工場”：0.2
www.***.com
今後の課題（4/4）
Confusion Networkの作り直し
 現在：1音節1単語のConfusion Network
 Word latticeの時点で連続音節を1単語としてから
Confusion Networkをつくる
www.***.com
誤りタイプごとの評価
4500
4000
The number of error
3500
3000
Base
2500
OOV modeling
2000
Base corrected
Proposed method
1500
1000
500
0
SUB
DEL
INS
 削除誤りの増加→正解単語の減少
www.***.com
CRF (Conditional Random Field)（2/2）
入力 x について、ラベル y が付与される確率
1
p ( y | x) 
exp a f a (y, x)
Z ( x)
a
C
y 
E 
fa : 素性関数 Z(x) : 分配関数
学習データ (xi , yi) について条件付確率の対数尤度
L  log  p(y i | xi )
i
を最大にするように計算する
www.***.com
CRFの学習
正解部分，誤り部分を特徴づける素性の重みを学習
 特徴的な素性→重み大
例：「神戸/県」：明らかに誤りだとわかる
→誤り部分のみでよく出現
 特徴的でない素性→重み小
例：「これ/は」：ここだけでは正解か誤りかを識別できない
→正解、誤りのどちらでも出現
素性を柔軟に設計できる
www.***.com

Download Report