asj2007autumn

1-Q-26
LSA に基づくOne-Class SVM を用いた音声認識仮説の検証
松本 智彦, 佐古 淳, 滝口 哲也, 有木 康雄 (神戸大)
研究背景・目的
アプローチ
・音声認識器による不適切な文書の湧き出し
・現在の音声認識は音響モデルと言語モデルのみに基づく
・自動的に不適切な文書を検出し,訂正する手法を提案
・書き起こし文書を適切な文書とし,その特徴ベクトルを
One-Class SVMにより学習
・仮説文が学習で求まったクラスに含まれるかどうかで
適切な文書か識別
入力音声
今 の 段階 で は 犯罪 の 凶悪 性
音声認識結果 今 の 段階 で は 犯罪 の 軌道 惑星
検証
音声
Latent Semantic Analysis (LSA)
学習
・大量のテキストを統計的に解析することで特徴空間を得る
・学習データに存在しなかった単語の共起関係も予測できる
書き起こし文
書
複数の仮説文
LSA
LSA空間に射影
One-Class SVMによる
適切な文書の学習
適切な文書か検証
κij:文書cjにおける単語riの出現回数
λj :文書cjに含まれる全単語数
τi :全文書中での単語riの出現回数
N :全文書数
 ij
wij  (1   i )
j
音声認識
×
ふさわしい仮説文を選択
 ij
 ij
1
i  
log

log N j 1  i
i
N
ストップワードの
指定にも利用
認識結果
文書
r1
c1・・・ cj・・・ cN
v1T・・・ vjT・・・ vNT
適切な文書
u1
・
・
単・
r
語 i
・
・
・
・
・
・u
= i
・
・
・
W
rM
U
uM
M ×R
M×N
VT
S
R×R
R×N
特異値分解による
次元圧縮
不適切な文書
O
・ vjS を文書の特徴ベクトルと考えることができる
実験条件
音声認識タスク
学習により
求まった境
界
学習データ
仮説文
実験結果
対話
音声認識器
CSJ
Julius
LSAの学習デー
タ
7対話+片方の話者
2697講演
語彙数
1700語程度
30128語
文書数
1300発話程度
208194発話
LSAの次元数
30次元
30次元
評価データ
1対話
5講演
Juliusの出力した1-bestと,提案手法により得られた
認識結果を,ストップワードとしなかった単語のみの
単語誤り率(WER)で比較
対話
WER
対話A
1-best 85.34
提案手法 87.46
CSJ
WER
講演A
1-best 61.08
提案手法 60.67
対話タスクはかなりくだけた発話であるため
認識率が著しく低い
講演B
42.21
41.71
講演C
26.88
26.62
講演D
50.29
49.12
講演E
39.38
39.38
改善例
正解文書 なお 組み合し た 音声 に 注目 し た 場合
1-best 治っ 組み合し た 音声 に 注目 し た 場合
提案手法 なお 組み合し た 音声 に 注目 し た 場合
考察
・認識率の低いタスクにおいて提案手法は有効ではない
・文書数が膨大になるとLSAによりトピックを捉えきれない
・n-bestではキーワードとなる単語の変化が少ない
・挿入誤りの湧き出し
今後の予定
・読み上げ音声に対する提案手法の適用
・Confusion Networkを用いた検証
・音声認識スコアとOne-Class SVMスコアの統合
合計
41.84
41.43