未知語とその周辺単語の音声認識誤りを 考慮したCRFによる音声認識誤り訂正 第13回音声言語シンポジウム(2011/12/20) 中谷良平(神戸大), 岩橋直人(NICT), 中野幹生(HRI-JP), 滝口哲也,有木康雄(神戸大) 発表の概要 研究背景 従来手法 従来手法の問題点と研究目的 研究内容 評価実験・考察 今後の課題 www.***.com 研究背景 現在の音声認識技術 I love you. You hardly know me. 音声認識精度は80%~90%程度 音声認識誤りは不可避 www.***.com CRFを用いた音声認識誤り訂正 音声認識誤りは避けられない 音声認識誤り訂正が提案されている 従来手法 CRFによる音声認識誤り訂正[1] 音声認識の誤り傾向をCRFによって学習しておき,後から 音声認識誤りを訂正する [1]中谷良平,滝口哲也,有木康雄(神戸大), Confusion Networkを用いたCRFによる音声認識誤り訂正, sdpws2011 www.***.com CRFを用いた音声認識誤り訂正 学習プロセス Speech “私 は 神戸 から 来 まし た” Corresponding 認識誤り Speech Recognition You say “渡し は 神戸 から 来 まし た” E C C C C C C 誤りの傾向を学習 素性としては単語N-gramや長距離言語情報を用いる www.***.com CRFを用いた音声認識誤り訂正 誤り訂正プロセス Recognition result Correction result “渡し は 神戸 から 来 まし た” E C C C C C C “私 は 神戸 から 来 まし た” C C C C C C C “渡し”:0.8 “神戸”:0.5 “は”:1.0 “私”:0.2 “から”:0.7 “頭”:0.3 “工場”:0.2 … “-”:0.3 www.***.com 問題点 未知語に対しては,音声認識誤りを訂正できない 未知語の後ろの単語もつられて誤認識してしまう “頭”:0.8 Speech “私 は 神戸 から 来 まし た” … … “工場”:0.2 未知語 Speech Recognition You say “私 は 頭 腹 来 まし た” www.***.com 提案手法 Word/Syllableのハイブリッドな認識を導入 既知語を単語として,未知語を音節列として出力する Speech “私 は 神戸 から 来 まし た” 音節認識 未知語 Speech Recognition You say “私 は ko: be から 来 まし た” www.***.com 従来のCRFを用いた音声認識誤り訂正 Transcription data Speech data Speech recognition Learning Labeling Training By CRF Discriminative language model Input speech Speech recognition Confusion Network Word re-ranking Output result www.***.com 未知語モデリングを用いた音声認識誤り訂正 Transcription data Speech data Speech (Word/Syllable) recognition Learning Labeling Training By CRF Discriminative language model Input speech Speech (Word/Syllable) recognition Confusion Network Word re-ranking Output result www.***.com 提案手法の狙い 今まで100%誤認識していた未知語を認識可能にす る 未知語を既知語に誤認識しても,Confusion Network 上に正解が現れる可能性が生まれる “頭”:0.6 “頭”:0.8 … … “工場”:0.2 … “ko: be”:0.3 … “工場”:0.1 www.***.com 未知語モデリングの概要 通常の単語N-gramの中に未知語をモデリングする 名詞・固有名詞をランダムに未知語にする 音節unigram/bigram/trigram これは 未知語 です あ い う …… ん www.***.com クラスN-gramを用いた実装(1/2) 未知語は未知語クラス cOOV からのみ発生するとして, 単語N-gramとクラスN-gramの混合モデルを作成 cOOV 以外のクラスは1クラス1既知語とすることで実現 Q P(w) P(ci | ci 1 ,, ci N 1 ) P(wi | ci ) i 1 もし ci cOOV なら,Pwi | ci は各音節の発生確率 (ただし,どの音節に対しても等確率を与えている) それ以外なら Pwi | ci 1 Pwi | ci が1に近いとき,未知語の発生しやすいモデルに Pwi | ci が0に近いとき,未知語の発生しにくいモデルに www.***.com クラスN-gramを用いた実装(2/2) クラスN-gramと単語N-gramの混合モデルを作成 cOOV からは1音節のみが発生する 私 / は / cOOV /cOOV / から /来/まし /た ko: be 複数音節の未知語は cOOV のN-gramとして表現される www.***.com 評価実験 予備実験 前述の未知語認識の精度 パラメータ P( wi | ci ) ,つまり未知語の発生しやすさを操作しなが ら実験 未知語認識を追加した場合と,追加していない従来の音声 認識の精度の比較 本実験 未知語認識を用いた音声認識誤り訂正 www.***.com 実験条件(1/2) コーパス 日本語話し言葉コーパス(CSJ) 名詞から未知語にする単語をランダムに選ぶ 評価データの未知語率は2% 音声認識器 Julius-4.1.4 www.***.com 実験条件(2/2) 学習セット,評価セット Training Test Number of lectures 106 4 Number of speeches 50,780 1,618 Number of words 513,281 17,594 学習した素性 単語unigram/bigram/trigram Confusion Network上の信頼度 www.***.com 予備実験結果1:未知語検出精度 Recall,Precisionで評価 正しく認識できた未知 語の数 Recall 正解ファイルに含まれ る未知語数 正しく認識できた未知 語の数 P recision 未知語と認識したもの の数 www.***.com 予備実験結果1:未知語検出精度 未知語検出のRecall曲線,Precision曲線 1.2 1 0.8 0.6 0.4 Recall Precision 0.2 -5 -4.5 -4 -3.5 -3 -2.5 -2 -1.5 -1 0 -0.5 -0.01 logarithmic probability of syllable occurrence www.***.com 予備実験結果2:音声認識精度 評価指標:単語誤り率(WER) 正解:「私 は 豊洲 に 行く」 SUB DEL 認識:「渡し WER INS 豊洲 に へ 行く」 111 SUB DEL INS 0.6 5 全単語数 SUB : 置換誤り DEL : 削除誤り INS : 挿入誤り 未知語については,認識した音節列が間違っていても,出 現場所さえ合っていれば正解とした www.***.com 予備実験結果2:音声認識精度 単語誤り率による評価 45 44 42 41 40 Word Error Rate [%] 43 Base OOV modeling Oracle 39 38 -5 -4.5 -4 -3.5 -3 -2.5 -2 -1.5 -1 37 -0.5 -0.01 logarithmic probability of syllable occurrence -1.7付近,-2.1以降でBaseより良くなった www.***.com 誤り訂正結果(1/2) 単語誤り率による評価 41 Word Error Rate [%] 40.5 40.42 40.25 40 39.5 38.86 39 38.37 38.5 38 37.5 37 Base OOV modeling Base corrected Proposesd method Baseと比較して,2.05ポイントの改善 Base correctedと比較しても,0.49ポイントの改善 www.***.com 誤り訂正結果(2/2) 訂正前(OOV modeling)と訂正後(Proposed method) のRecall,Precisionの変化 0.45 0.38 0.4 0.4 0.35 0.3 0.25 0.22 0.22 Before After 0.2 0.15 0.1 0.05 0 Recall Precision www.***.com 考察 Recallが変わらなかった一方で,Precisionが改善した 正しく認識できた未知 語の数 Recall 正解ファイルに含まれ る未知語数 正しく認識できた未知 語の数 P recision 未知語と認識したもの の数 Recallは分母が変わらないので,分子も変わっていない Precisionの分子はRecallと同じため,分母が減少した →訂正後は訂正前と比べて、正しく認識できた未知語はそ のままに,既知語を未知語に誤認識するケースが減った www.***.com 考察 既知語を未知語に誤認識するケースが減った 未知語検出精度が低いため,既知語を未知語として誤認 識してしまうケースが多く,学習段階で未知語自体が誤り 傾向を示す語として学習されてしまった そのため,既知語を未知語に誤認識したものは訂正できた →Precisionの向上 一方で、未知語を既知語であると誤認識したものに対して はほとんど訂正できなかった →Recallは変化しない www.***.com まとめと今後の課題 まとめ 未知語を認識可能にして誤り訂正を行うことで,さらなる音 声認識精度の向上を確認した 以前提案していた手法よりも0.49ポイント改善した 今後の課題 音声認識精度の向上 未知語認識精度の向上 誤り検出をする際の素性の選定・追加 実験結果の検定 Confusion Networkの作り直し www.***.com 今後の課題(1/4) 音声認識精度の向上 テストデータの選定 音声認識精度はWERで10%~20%程度であるべき 45 44 42 41 40 Word Error Rate [%] 43 Base OOV modeling Oracle 39 38 -5 -4.5 -4 -3.5 -3 -2.5 -2 -1.5 -1 37 -0.5 -0.01 logarithmic probability of syllable occurrence www.***.com 今後の課題(2/4) 未知語検出精度の向上 Recall,Precisionが低い Juliusのコードをいじらない,言語モデルのみのアプローチ のため 1.2 1 0.8 0.6 0.4 Recall Precision 0.2 -5 -4.5 -4 -3.5 -3 -2.5 -2 -1.5 -1 0 -0.5 -0.01 logarithmic probability of syllable occurrence www.***.com 今後の課題(3/4) 誤り検出をする際の素性の選定・追加 単語unigram/bigram/trigram Confusion Network上の信頼度 長距離言語情報の追加 www.***.com 今後の課題(4/4) Confusion Networkの作り直し 現在:1音節1単語のConfusion Network “ko:”:0.5 神戸 “be”:0.7 “頭”:0.3 ko: be “工場”:0.2 “-”:0.3 未知語が2つのConfusion Setにまたがっている www.***.com 今後の課題(4/4) Confusion Networkの作り直し 現在:1音節1単語のConfusion Network “ko:”:0.5 “be”:0.7 “頭”:0.3 “工場”:0.2 “ko: be”:0.5 “頭”:0.3 “-”:0.3 “工場”:0.2 www.***.com 今後の課題(4/4) Confusion Networkの作り直し 現在:1音節1単語のConfusion Network Word latticeの時点で連続音節を1単語としてから Confusion Networkをつくる www.***.com ご清聴ありがとうございました www.***.com 誤りタイプごとの評価 4500 4000 The number of error 3500 3000 Base 2500 OOV modeling 2000 Base corrected Proposed method 1500 1000 500 0 SUB DEL INS 削除誤りの増加→正解単語の減少 www.***.com CRF (Conditional Random Field)(2/2) 入力 x について、ラベル y が付与される確率 1 p ( y | x) exp a f a (y, x) Z ( x) a C y E fa : 素性関数 Z(x) : 分配関数 学習データ (xi , yi) について条件付確率の対数尤度 L log p(y i | xi ) i を最大にするように計算する www.***.com CRFの学習 正解部分,誤り部分を特徴づける素性の重みを学習 特徴的な素性→重み大 例:「神戸/県」:明らかに誤りだとわかる →誤り部分のみでよく出現 特徴的でない素性→重み小 例:「これ/は」:ここだけでは正解か誤りかを識別できない →正解、誤りのどちらでも出現 素性を柔軟に設計できる www.***.com
© Copyright 2025 ExpyDoc