スパース表現に基づく構音障害者の発話スタイル変動に ロバストな特徴量抽出 1-P-4 ☆吉岡利也,高島遼一,滝口哲也,有木康雄(神戸大) 研究背景・目的 構音障害 構音障害とは 言葉を正しく明瞭に発音できない症状 音声認識技術の様々な状況での利用 ・カーナビゲーションの操作,駅での音声案内 ・スマートフォンの音声検索システム 本研究では,脳性マヒによる構音障害者を対象 意図的動作時にアテトーゼ(不随意運動)が生じる しかし,言語障害者を対象としているものは少ない 手足が不自由などで音声に頼るしかない 構音障害者を対象とした音声認識システムの実現 不安定になる 提案手法 比較的安定 NMF アプローチ 非負行列Vを,2つの非負行列W,Hの積に分解する手法 スパース特徴量の推定 判別に有効な少量の特徴量のみを抽出 W V ① 前もって安定した発話のスペクトルを学習 ② スパースな線形結合(結合係数がほぼ0)で近似表現 ③ 結合係数の情報を特徴量に用いる H 音響信号に適用すると, アクティビティ行列 結合係数の情報を含む 観測スペクトル 基底行列 提案手法の流れ 既知 様々なスペクトルパターンを含む 推定 H V W 安定した発話 のスペクトルを 学習 アクティビティ行列 観測スペクトル 特徴的な 基底だけを 抽出 基底行列 教師ありNMFで結合係数を推定 DE V, WH H 1 更新ルール L1ノルム項 ⇒非負制約を強める ⇒スパース性を向上 H H. * W V. /WH . / W 1 評価実験 実験データ 50単語×5回発話 認識 モデル作成(学習) 比較手法 ① MFCC+ΔMFCC(24次元) ② 提案手法(14次元) ③ MFCC+提案手法(26次元) T 実験結果 各発話における単語認識精度 Recognition rate [%] T 教師ありNMF と 主成分分析 を用いて 特徴量抽出 100 90 80 70 60 50 40 30 20 10 0 MFCC+Δ Sparse MFCC+Sparse 予備実験 最適な次元数を決定 Recognition rate [%] 目的関数 基底行列 を学習 100 80 60 74 60 66 64 68 66 62 66 40 20 0 12 13 14 15 16 17 18 19 Number of dimensions 1st 78 74 88 2nd 88 68 88 3rd 94 74 96 4th 90 72 84 5th 88 74 84 まとめ・課題 不安定な第一発話において10%の改善 基底行列の作成方法を工夫
© Copyright 2024 ExpyDoc