asj2008s

3-Q-10
複数の言語情報を用いたCRFによる音声認識誤りの検出
松本 智彦, 佐古 淳, 滝口 哲也, 有木 康雄 (神戸大)
研究背景・目的
意味スコアによる誤り検出
周辺の内容語との類似度の平均: SC(w)
音声認識結果を用いた処理(音声検索など)
⇒音声認識誤りが性能に悪影響を与える
誤り訂正へ
入力音声
民主党 は 早急 に 解散 する よ
う ・・・
音声認識結果 民主党 は 野球 に 解散 する よ
う ・・・
誤り検出
正
正
誤
正
正
正
誤り傾向を示す言語情報
正 ・・・
正解部分,誤り部分で出現しやすい特徴を学習する
文脈窓:N単語
wi
犯罪
w
裁判
大根
弁護士
sim(w, wi )
LSA:単語共起を用いた類似度
例
不自然なn-gram :「と-いう-ます」「し-き-まし」
不自然な接続 :「未然形-名詞(言わ-年)」
音素数の多い単語は正解の可能性が高い
1
SC(w)   sim(w, wi )
N wi
SC(w)を窓内のSC(wi)の平均で正規化:SS(w)
1
SCavg ( w)   SC(wi )
N wi
問題点
学習には音声認識結果と対応する正解文書が必要
⇒出現頻度の低いn-gramは適切に学習することが困難
SS(w)  SC(w)  SCavg (w)
問題点
機能語のような頻出単語に対しては意味をなさない
CRFによる誤り検出
表層単語 所望 の 基本 周波 で おば
ラッ
パー
信頼度
0.7 0.2 0.8 0.2 0.0 0.1 0.1
品詞
名詞 助詞 名詞 名詞 助詞 名詞 名詞
・・・ ・・ ・・ ・・ ・・ ・・ ・・ ・・・
・ ・ ・ ・ ・ ・
SS
0
*
0 0.05 * -0.1 -0.1
idf
9
*
3
6
*
6
8
素性
正解ラベル
正 正 正 正 正 誤
誤
ある特徴とラベルのペアが存在するかしないか
各素性の重みを学習
重み
□(信頼度0=“0.1”,”誤”)
⇒ 0.315
□(表層-1=“基本” && 表層0=“周波” ,”正”) ⇒ 0.119
□(SS0=“-0.1” && idf0=“8”,”誤”)
⇒ 0.359
意味スコアと単語重みの組み合わ
せ
・・・
内容語として動詞、形容詞、名詞のみに意味スコアを与える
⇒内容語の中にも「こと」「する」のような頻出単語が含まれる
・・・
・・・
・・・
・・・
・・・
・・・
単語重みidfの利用
全文書数
idfi  log
単語iの出現する文書数
idfが大きな単語
⇒意味スコアの効果が大きい
実験結果
実験条件
講演数
発話数
単語数
語彙数
内容語数
機能語数
誤り率
無罪
学習
150
52,692
484,405
10,418
187,154
297,251
23.6%
評価
10
2,667
22,522
2,348
8,782
13,740
25.8%
用いた素性
音声認識スコア:信頼度
言語情報:n-gram、読み、音素数、など
意味情報:意味スコア+単語重み
評価値:誤り検出の適合率、再現率、F値で比較
誤り検出性能
素性
全単語
内容語
機能語
CM 言語 意味 idf 適合率再現率 F値 適合率再現率 F値 適合率再現率
○
×
×
× 0.661 0.507 0.574 0.650 0.459 0.538 0.667 0.531
×
○
×
× 0.726 0.571 0.640 0.682 0.546 0.607 0.750 0.585
0.69 0.22 0.33
×
×
○ ○ 0.694 0.076 0.138
4
1
6
○
○
×
× 0.736 0.679 0.706 0.701 0.671 0.686 0.754 0.683
○
○
○ × 0.754 0.684 0.717 0.745 0.690 0.717 0.758 0.680
○
○
○ ○ 0.753 0.687 0.718 0.748 0.700 0.723 0.756 0.680
改善例
周辺に「接尾」「活用」「語彙」「助詞」
⇒「丹後(単語)」「イチゴ(一語)」に誤りのラベル
周辺に「音楽」「歌っ」「弾い」
⇒「ギター」に正解のラベル
考察
意味スコアを加えることで誤り検出性能の改善が見られた
意味スコアを加えたことによる改善率は小さい
周辺に頻出単語や認識誤りが多いと意味スコアの性能が落ち
る
今後の予定
認識誤りに頑健な意味スコア
他に誤り検出に有効な素性がないか検討
誤り検出から誤り訂正へ
F値
0.592
0.657
0.717
0.717
0.716