1-R-10 局所特徴量を用いた構音障害者の音声認識の検討 宮本 千琴,滝口 哲也,有木 康雄(神戸大),李 義昭(追手門大),中林 稔堯(神戸大) 研究背景・目的 構音障害 音声認識技術の様々な状況での利用 カーナビゲーションの操作、駅での音声案内 子供や高齢者 福祉分野における情報技術の発展の重要性 超高齢社会(2800万人)、身体障害者(366万人) しかし、言語障害者を対象としているものは少ない 手足の不自由などで音声に頼るほかない場合 構音障害とは 言葉を正しく明瞭に発音できない症状 構音障害の原因の一つ:脳性麻痺 出生前や出生時に受けた外傷のため筋肉の制御が難しい アテトーゼ(不随意運動)が生じる 特にアテトーゼの生じやすい状況 -意図的動作時 -緊張状態 構音障害者を対象とした音声認識システムの実現 健常者 構音障害者 構音障害者の発話が健常者に比べて不安定 ΔMFCCでは時間変化がうまく表現できない 時間特徴をよりよく表すことで認識率の改善が期待される 時間-デルタケプストラム平面上の幾何学的な特徴に注目 時間-デルタケプストラム平面上で局所特徴を抽出 特徴量抽出 局所特徴量 時間-デルタケプストラム平面上の各点において 3×3局所領域で計35種類の局所パターンを適用 点rでの局所パターンkの局所特徴量 全ての点で35種類の 局所パターンに対応する 特徴量を求める 局所パターンの例 時間-デルタケプストラム平面 処理の流れ 音声特徴量ベクトル 局所特徴量をフレーム内で縦につなげたベクトル 時間tにおけるベクトル:(K×(Dー2))次元ベクトル 音声信号 DCT FFT 局所特徴量 Mel PCA K:局所パターンの数 D:次元数 35×(12-10)=350次元となり高次元なので PCAで次元圧縮 実験結果 各特徴量での認識結果 実験条件 サンプリング周波数 16kHz 25msec フレーム窓長 フレーム周期 10msec 音響モデル Monophone (3状態54音素) 混合数 8 実験データ 210単語×5回発話 特定話者モデルでの認識結果 特徴量 健常者 MFCC 99.2% ΔMFCC 98.4% MFCC+ΔMFCC 99.6% Log|| 構音障害者 78.5% 49.2% 89.5% 特徴量 MFCC Proposed(MFCC) ΔMFCC Proposed(ΔMFCC) FBANK Proposed(FBANK) 局所特徴量(PCAなし) 音声特徴ベクトル 局所特徴量(PCAあり) 認識率 78.5% 81.5% 49.2% 52.6% 78.5% 82.1% まとめ・課題 局所特徴量を用いることで認識率の改善が得られた 対象者を増やす 単一の特徴量として使える認識率ではないので複数 少量データでの音声認識手法の検討 の特徴量を組み合わせる必要がある 構音障害者音声の音質改善の検討 構音障害者特有の特徴量の検討
© Copyright 2024 ExpyDoc