1-Q-6b ランダムプロジェクションを用いた 構音障害音声の認識および誤り単語検出 ☆吉岡利也,高島遼一,滝口哲也,有木康雄(神戸大) 研究背景・目的 NETファイル 近年,音声認識が新たな入力インタフェースとして注目されている. 構音障害者の発話スタイルは健常者と大きくことなる ⇒ 認識率10%以下 改善ポイント:①データベース,②音素体系,③特徴量 ランダムプロジェクション: 空間写像の手法.変換行列の各要素がある確率分布に従うランダムな値として 定義される. ⇒ 音声特徴量変換に応用.ノイズ音声で効果あり. ⇒ ランダム写像行列によって認識率にばらつきがある. 提案手法: 複数のRMを用いて特徴量変換.各々の特徴量で学習・認識を行い,各認識結 果に対して多数決をとることで最適な認識結果を得る.さらに,その投票結果に 基づいて認識結果の自動正誤判定を行う. ランダムプロジェクション y Rx : reduced-dimensional vector, : original-dimensional vector, : random matrix, n k x R /a k e g a t a/ <構音障害者> ランダム写像行列 R n次元ユークリッド空間からk次元ユークリッド空間に写像する. y <健常者> 1. 標準正規分布N(0,1)に従うn×kの行列Rを作成. 2. Gram-Schmidtの直交化手法を用いてRを直交化. 3. 列ベクトルを大きさ1で正規化. yR k xR n 元の空間上における任意の2点間のユークリッド距離が変換後も 高い確率で保存されるという性質がある. 提案手法 ① ランダムプロジェクションによる音声特徴量変換 実験条件 構音障害者1名を対象とした孤立単語認識,および正誤判定実験 Speech feature Random matrix ASR Result ② ROVER法を用いた特徴量統合(投票によって最適な認識結果を得る) 実験データ: - ATR音素バランス単語(210単語),各単語5回連続発話 - 第2~5発話を学習データ,第1発話を評価データに用いる Random matrix 1 Speech feature ASR Random matrix 2 ASR ・ ・ ・ Random matrix N ・ ・ ・ ASR ROVER module Best Result 音響モデル:monophone-HMM(5状態8混合) ③ 投票結果に基づく正誤判定 A) 正解の場合, ⇒ 少数の候補に票が集まる. B) 不正解の場合,⇒ 複数の候補に票がばらける. ⇒ 投票結果の第1候補と第2候補の投票数で正誤判定. 音声特徴量: ① MFCC[12dim.] + ΔMFCC[12dim.] ② MFCC[12dim.] to RP[12dim.] + ΔMFCC[12dim.] 実験結果・考察 単語認識実験 ランダム写像行列の数:20, 40, 60, 80, 100と変化 ベースライン:76.67% 82 80 Word Accuracy [%] 80 79.05 79.52 80.48 正誤判定実験 1. 第2~5発話に対して提案手法②を適用(leave-one-out). 2. 各単語の投票結果を用いて非線形SVMを学習. 3. 第1発話に対して正解か誤りかを判定. 80.48 Number of random matrices 78 76 Min. Mean Max. Rover Baseline 74 72 70 68 66 64 20 40 60 80 Number of random matrices 100 平均認識率(Mean.)ではベースラインに及ばない. ROVER用いて認識結果を統合 ⇒ 安定して高い認識率が得られる. 20~40個程度の統合で十分. 20 40 60 80 100 T/P Rate [%] 92.3 95.8 92.8 92.9 92.3 T/N Rate [%] 42.9 43.2 60.5 58.5 56.1 Acc. [%] 82.4 84.8 86.2 86.2 85.2 正解単語に関しては高い精度で分類可能. 不正解単語の場合,分類精度が大きく劣化 ⇒ 投票数だけでは困難? 今後の予定 •音声認識に適したランダム写像行列の選択・生成 •不正解単語に関する,分類精度の向上
© Copyright 2024 ExpyDoc