スライド 1

Confusion Networkを用いた
CRFによる音声認識誤り訂正
第５回音声ドキュメント処理ワークショップ (2011/3/7)
神戸大学工学部情報知能工学科
中谷良平，滝口哲也，有木康雄
研究背景
音声認識精度
 ニュースなどの正しい書き言葉→およそ95％
 学会講演音声などの自由な話し言葉→およそ80％
 話し言葉でストレスのない音声認識を行うために、さらなる音
声認識精度の向上が期待される
www.***.com
従来の音声認識
P( X | w)
P (w)
Language Model
Acoustic Model
Input speech
X
Feature
Extraction
Search
wˆ
wˆ  arg max P( X | w)  P( w)
w
www.***.com
従来の音声認識の問題点
従来の音声認識では、言語モデルとして自然なbigram、
trigramを学習する
 例）「神戸/大学」、「研究/を/する」
問題点１
スムージングにより不自然なN-gramが発生してしまう
問題点２
N-gramが自然でも、文章として不自然な場合がある
例）
冷蔵庫の中に、目薬を入れてある。
冷たいものが食べたくなったからだ。
www.***.com
問題点の解決法
問題点１ : スムージングによる問題
⇒あらかじめ不自然なN-gramを学習しておく
問題点２ : N-gramではわからない不自然さ
⇒bi/trigramよりも広範囲の文脈情報（長距離文脈情報）
を取り入れる
www.***.com
提案手法
長距離文脈情報を用いたCRFによる音声認識誤り
訂正
 自然/不自然なN-gramをCRFを用いて学習する
 あらかじめ各単語には正誤ラベリングを行っておく
 素性のひとつとして長距離文脈情報を追加することで、音
声ドキュメントの話題を考慮する
 誤りと識別された語をConfusion Networkを用いて訂正す
る
www.***.com
Confusion Network
 誤り訂正を行うための仮説集合としてConfusion Networkを用いる
 Word Latticeをクラスタリング、圧縮することで得られる
 またその過程で各リンクには信頼度が付与される
 CRFによる誤り検出を用いてConfusion Setから正解を探す
www.***.com
CRF (Conditional Random Field)（1/2）
誤り検出モデルに用いる
渡しは神戸から来た
E C C C C C
学習には単語列に正誤ラベルが貼られたものが必要
正誤それぞれの特徴を学習するために、多くの素性を
自由に追加できる
⇒自然なN-gramとともに不自然なN-gramが学習可能
www.***.com
CRF (Conditional Random Field)（2/2）
入力 x について、ラベル y が付与される確率
1
p ( y | x) 
exp a f a (y, x)
Z ( x)
a
C
y 
E 
fa : 素性関数 Z(x) : 分配関数
学習データ (xi , yi) について条件付確率の対数尤度
L  log  p(y i | xi )
i
を最大にするように計算する
www.***.com
CRFの学習
正解部分，誤り部分を特徴づける素性の重みを学習
 特徴的な素性→重み大
例：「神戸/県」：明らかに誤りだとわかる
→誤り部分のみでよく出現
 特徴的でない素性→重み小
例：「これ/は」：ここだけでは正解か誤りかを識別できない
→正解、誤りのどちらでも出現
素性を柔軟に設計できる
⇒長距離文脈情報も素性として取り入れられる
www.***.com
長距離文脈情報
長距離文脈情報
 周辺の認識結果単語を参照したときに、識別対象単語が
不自然でないかという情報
音声
会話
大根
話者
対話
 出現単語の自然さを意味スコアとして算出する
 bi/trigramよりも広範囲の文脈情報を考慮できる
 動詞、形容詞、名詞に意味スコアを与える
www.***.com
意味スコアの算出
 周辺の単語集合 c(w) との類似度を求める
K 単語
音声
会話
w
wi
大根
話者
対話
c(w)
SC(w)  sim(w, c(w))
 周辺の単語の c(w) 内での類似度の平均を計算する
1
SCavg ( w) 
K
 SC(w )
i
i
 正規化を行い、それを意味スコア SS(w) とする
SS(w)  SC(w)  SCavg (w)
 sim(w,c(w)) の計算には LSA (Latent Semantic Analysis) を用いる
www.***.com
LSA (Latent Semantic Analysis) (1/3)
 LSAは大量のテキストにおける単語の共起関係を統計的に
解析することで、学習データに直接の共起がない単語間の類
似度についても求めることができる
巨大でスパース
文書＼単語
打席
ホームラン
肉
野菜
分母
二
・・・
二打席連続ホームランを打った
1
1
0
0
0
1
・・・
肉と野菜をバランスよく食べる
0
0
1
1
0
0
・・・
分母が二倍になると
0
0
0
0
1
1
・・・
次元圧縮
LSA
文書＼トピック
野球
食事
数学
・・・
二打席連続ホームランを打った
0.93
0.01
0.01
・・・
肉と野菜をバランスよく食べる
0.04
0.79
0.03
・・・
分母が二倍になると
0.05
0.01
0.71
・・・
出現頻度
 次元圧縮により、関連性の強い単語は同一次元に圧縮される
www.***.com
LSA (Latent Semantic Analysis) (2/3)
 N 個の文書から作る単語文
書行列 W の要素 wij として
tf-idf を用いる
wij  tfij  idfi
tf ij 
nij
cj
idfi  log
N
dfi
 tf : 単語の出現頻度
 idf : 単語の逆出現頻度
 nij : 文書 cj における単語 ri の出現頻度
 | cj | : 文書 cj に含まれる単語の総数
 dfi : 単語 ri が出現する文書の総数
 idfi は単語 ri の単語重みと考えることができ、多くの文書で出現する単語
では小さく、特定の文書でしか出現しない単語では大きくなる
www.***.com
LSA (Latent Semantic Analysis) (3/3)
 語彙数を M とすると W は M×N のスパースな行列になる
 特異値分解により、特異値の大きなものから R だけ用いて近似を行う
c1・・・ cj・・・ cN
v1T・・・ vjT・・・ vNT
r1
u1
・
・
・
ri
・
・
・
・
・
・
W
 u・
i
U
・
・
rM
S
VT
R×R
R ×N
uM
M×R
M× N
 単語 ri と文書 cj の類似度は以下のように求める
sim(ri , c j ) 
ui SvTj
ui S 1 / 2 v j S 1 / 2
 この値が 1 に近いほど類似度が高く、-1 に近いほど類似度が低くなる
www.***.com
提案手法の流れ
 従来の音声認識器によりConfusion Networkを出力
 長距離文脈情報としての意味スコアの付与
 書き起こし文書を用いて正誤ラベリング
 CRFによる誤り検出モデルの学習
 Confusion Network上での音声認識誤り訂正
www.***.com
提案手法の流れ
 従来の音声認識器によりConfusion Networkを出力
 長距離文脈情報としての意味スコアの付与
 書き起こし文書を用いて正誤ラベリング
 CRFによる誤り検出モデルの学習
 Confusion Network上での音声認識誤り訂正
「私達は」
0.77
“私”：0.8 C
0.01
“渡し”：0.2
E
“-”：0.9 C
0.01
“い”：0.1
E
0.30
“価値”：0.5 E
“は”：0.5 C
0.65
“達”：0.3 C
“が”：0.4 E
E
“が”：0.2
E
“-”：0.1
学習
www.***.com
音声認識誤り訂正（1/2）
 Confusion Networkの候補からCRFをもとに正解を探す
“私”：0.8
“渡し”：0.2
“-”：0.9
“い”：0.1
“価値”：0.5
“は”：0.5
“達”：0.3
“が”：0.4
“が”：0.2
“-”：0.1
 この最尤候補列に対して誤り検出を行う
私 – 価値は
C C E C
訂正
www.***.com
音声認識誤り訂正（2/2）
 Confusion Networkの候補からCRFをもとに正解を探す
“私”：0.8
“渡し”：0.2
“-”：0.9
“い”：0.1
“価値”：0.5
“は”：0.5
“達”：0.3
“が”：0.4
“が”：0.2
“-”：0.1
 「価値」を第二候補である「達」と置き換えて誤り検出を行う
私 – 達は
C C C C
訂正完了
www.***.com
評価実験
 比較対象
 CN-best : 信頼度最大の単語列（ベースライン）
 NonSemantic : 提案手法の素性として意味スコアを用いない場合
 Proposed method : 提案手法
 Oracle : Confusion Network上の正解単語を全て選んだ場合（上限）
www.***.com
評価指標
単語誤り率（WER）
 正解：「私は豊橋に行く」
SUB
DEL
 認識：「渡し
WER 
INS
豊橋にへ行く」
SUB  DEL  SUB
全単語数
 SUB : 置換誤り
 DEL : 削除誤り
 INS : 挿入誤り
www.***.com
実験条件（1/2）
コーパス
 日本語話し言葉コーパス（CSJ）
 様々な講演音声を収録したコーパス
音声認識器
 Julius-4.1.4
 音響モデル：CSJ講演音声953講演から学習
 言語モデル：CSJ書き起こし文書2,596講演から学習
www.***.com
実験条件（2/2）
誤り検出モデル
 学習
CSJの150講演
 評価
CSJの13講演
 学習に用いた素性
表層単語unigram，bigram，trigram
Confusion Network上の信頼度
意味スコア
www.***.com
実験結果
誤り種類別の評価と単語誤り率
置換誤り削除誤り挿入誤り正解単語
WER
Oracle
1,855
2,467
831
35,491
12.94 %
CN-best
7,246
2,141
3,423
30,453
32.17 %
NonSemantic
6,531
2,633
2,242
30,658
28.64 %
Proposed
method
6,451
2,631
2,253
30,740
28.46 %
 意味スコアを用いない場合でも3.53ポイントの改善
 意味スコアを追加した提案手法は3.71ポイントの改善
www.***.com
まとめ
まとめ
 Confusion Networkを用いてCRFによる誤り訂正を行った
 素性として意味スコアを導入した
 提案手法によって単語誤り率で3.71ポイント改善
意味スコアは主に削除誤りに有効
Oracleと比べて改善の余地が多く残っているのは削除誤り
今後の課題
 誤り検出精度の改善
品詞情報の追加、パラメータ推定法の変更など
 未知語検出手法への応用
www.***.com
ご清聴ありがとうございました
www.***.com
改善例(1/2)
不自然なN-gramの改善
正解文
CN-best
実際の発話に
実際のあ発話に
NonSemantic 実際の発話に
Proposed
method
実際の発話に
www.***.com
改善例(2/2)
意味的に不自然な誤りの改善
 イルカの特徴に関する講演で
正解文
イルカの頭部表面に
CN-best
イルカの東部表面に
NonSemantic イルカの東部表面に
Proposed
method
イルカの頭部表面に
 N-gramで改善できなかった誤りが周辺のトピックから訂正
できた
www.***.com
提案手法の流れ
Correct Recognition Result
Corresponding
Speech
Data
Speech
Recognition
Confusion
Network
Speech
Recognition
Calculate
Semantic
Score
Labeling
Learning
of error
tendency
by CRF
Latent
Semantic
Analysis
Large
Corpus
Input
Speech
Learning
Confusion
Network
Calculate
Semantic
Score
Error Detection
Model
Maximum likelihood words
of Confusion
Network
Error Correction
Confusion
Network
Recognition www.***.com
Result
従来の音声認識技術
 入力音声：“私達は”
単語ラティス
N-best
1.
2.
3.
4.
5.
私価値は
私価値が
渡し価値は
渡し達は
私いが
“が”
“は”
“価値”
“私”
“が”
“達”
“渡し”
“い”
www.***.com
従来手法
パーセプトロンアルゴリズムを用いた誤り訂正モデル
w*  arg max{ RecScore(a, wi )    (wi )}
wi
 音声認識結果を仮説集合(N-bestなど)として出力し、対応
する書き起こしデータと比較する
正解部分で現れやすいN-gram → α は正の方向へ
誤り部分で現れやすいN-gramを学習する → α は負の方向へ
 学習した誤り訂正モデルを用いて誤認識を訂正する
www.***.com

Download Report