1-Q-26 LSA に基づくOne-Class SVM を用いた音声認識仮説の検証 松本 智彦, 佐古 淳, 滝口 哲也, 有木 康雄 (神戸大) 研究背景・目的 アプローチ ・音声認識器による不適切な文書の湧き出し ・現在の音声認識は音響モデルと言語モデルのみに基づく ・自動的に不適切な文書を検出し,訂正する手法を提案 ・書き起こし文書を適切な文書とし,その特徴ベクトルを One-Class SVMにより学習 ・仮説文が学習で求まったクラスに含まれるかどうかで 適切な文書か識別 入力音声 今 の 段階 で は 犯罪 の 凶悪 性 音声認識結果 今 の 段階 で は 犯罪 の 軌道 惑星 検証 音声 Latent Semantic Analysis (LSA) 学習 ・大量のテキストを統計的に解析することで特徴空間を得る ・学習データに存在しなかった単語の共起関係も予測できる 書き起こし文 書 複数の仮説文 LSA LSA空間に射影 One-Class SVMによる 適切な文書の学習 適切な文書か検証 κij:文書cjにおける単語riの出現回数 λj :文書cjに含まれる全単語数 τi :全文書中での単語riの出現回数 N :全文書数 ij wij (1 i ) j 音声認識 × ふさわしい仮説文を選択 ij ij 1 i log log N j 1 i i N ストップワードの 指定にも利用 認識結果 文書 r1 c1・・・ cj・・・ cN v1T・・・ vjT・・・ vNT 適切な文書 u1 ・ ・ 単・ r 語 i ・ ・ ・ ・ ・ ・u = i ・ ・ ・ W rM U uM M ×R M×N VT S R×R R×N 特異値分解による 次元圧縮 不適切な文書 O ・ vjS を文書の特徴ベクトルと考えることができる 実験条件 音声認識タスク 学習により 求まった境 界 学習データ 仮説文 実験結果 対話 音声認識器 CSJ Julius LSAの学習デー タ 7対話+片方の話者 2697講演 語彙数 1700語程度 30128語 文書数 1300発話程度 208194発話 LSAの次元数 30次元 30次元 評価データ 1対話 5講演 Juliusの出力した1-bestと,提案手法により得られた 認識結果を,ストップワードとしなかった単語のみの 単語誤り率(WER)で比較 対話 WER 対話A 1-best 85.34 提案手法 87.46 CSJ WER 講演A 1-best 61.08 提案手法 60.67 対話タスクはかなりくだけた発話であるため 認識率が著しく低い 講演B 42.21 41.71 講演C 26.88 26.62 講演D 50.29 49.12 講演E 39.38 39.38 改善例 正解文書 なお 組み合し た 音声 に 注目 し た 場合 1-best 治っ 組み合し た 音声 に 注目 し た 場合 提案手法 なお 組み合し た 音声 に 注目 し た 場合 考察 ・認識率の低いタスクにおいて提案手法は有効ではない ・文書数が膨大になるとLSAによりトピックを捉えきれない ・n-bestではキーワードとなる単語の変化が少ない ・挿入誤りの湧き出し 今後の予定 ・読み上げ音声に対する提案手法の適用 ・Confusion Networkを用いた検証 ・音声認識スコアとOne-Class SVMスコアの統合 合計 41.84 41.43
© Copyright 2025 ExpyDoc