AAMを用いた顔方位にロバストな唇領域特徴抽出と音声特徴による 構音障害者の音声認識 宮本 千琴,駒井 祐人,滝口 哲也,有木 康雄(神戸大),李 義昭(追手門大),中林 稔堯(神戸大) 研究背景・目的 構音障害 構音障害とは 言葉を正しく明瞭に発音できない症状 構音障害の原因の一つ:脳性麻痺 出生前や出生時に受けた外傷のため筋肉の制御が難しい アテトーゼ(不随意運動)が生じる 特にアテトーゼの生じやすい状況 -意図的動作時 -緊張状態 音声認識技術の様々な状況での利用 カーナビゲーションの操作、駅での音声案内 子供や高齢者 福祉分野における情報技術の発展の重要性 超高齢社会(2800万人)、身体障害者(366万人) しかし、言語障害者を対象としているものは少ない 手足の不自由などで音声に頼るほかない場合 健常者 構音障害者 構音障害者を対象とした音声認識システムの実現 アプローチ 構音障害者の発話が健常者に比べて不安定 ΔMFCCでは時間変化がうまく表現できない 時間特徴をよりよく表すことで認識率の改善が期待される セグメント特徴量 雑音の多い実環境下では音声特徴のみを用いて発話内容を 認識することは難しい 音声特徴と同時に画像特徴を用いる 構音障害者は発話時に頭が動いてしまう Active Appearance Modelを用いた唇領域特徴抽出を行う AAM s (x1, y1,, xn , yn ) T Shape PCA g (g1,, gm )T ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・・・・・・ ・・ ・・・・・ 前後のフレームの情報を考慮 欠落した情報を補う 広い範囲で見ることができる ・・・ ・ ・ ・ PCA ・ ・ ・ Acoustic feature (order N) ・ ・ ・ サンプリング周波数:16kHz フレーム窓長:25msec フレーム周期:10msec 音響モデル:Monophone (3状態54音素) 解像度:720 ×480 フレームレート:30fps 画像モデル: Monophone (3状態54音素) 特徴量 MFCC ΔMFCC MFCC+ΔMFCC 健常者 構音障害者A 構音障害者B 99.2% 78.5% 94.6 98.4% 49.2% 89.7 99.6% 89.5% 97.4 セグメント特徴を用いた認識結果 話者A:210単語×5 話者B:216単語×5,2620単語×2 画像特徴抽出 Adaboost Input movie Movie frame Face detect AAM Lip detect 音声と画像の統合 Word recognition 特徴量 ΔMFCC セグメント特徴量 MFCC+ΔMFCC MFCC+セグメント 認識率 49.2% 62.1% 85.9% 90.3% 特徴量 ΔMFCC セグメント特徴量 MFCC+ΔMFCC MFCC+セグメント 認識率 0.93% 58.9% 68.6% 68.8% 音声・画像特徴を用いた認識結果 Feature extraction 構音障害者の認識精度の改善 音響的な雑音にロバストな認識 + Training 画像 特定話者モデルでの認識結果(210単語×5回発話) ・ ・ ・ Concatenated Delta-Cepstrum vector (order 12×n) Visual model パラメータベクトル bs , bg , c Ws 正規化行列 実験条件 音声 n frames Delta-Cepstrum (order 12) Visual feature Wsbs s shapeベクトル Qc bg textureベクトル g Ps , Pg , Q 基底ベクトル 実験結果 前後数フレーム分の ΔMFCCから特徴量を構成 Acoustic model s s Psbs Combined g g Pgbg PCA Texture PCA セグメント特徴量 Acoustic feature 顔形状(shape)と輝度値(texuture)を それぞれPCAすることによって 少ないパラメータで顔の形状の変化と テクスチャの変化を表現できるようにしたモデル SNR clean 20dB 10dB 5dB 0dB 音声のみ 画像のみ 音声+画像(重みα) 68.8% 35.9% 74.1% (0.15) 68.0% 35.9% 73.7% (0.15) 57.7% 35.9% 64.3% (0.1) 51.6% 35.9% 58.9% (0.3) 4.9% 35.9% 35.9% (1.0) Result 今後の課題 Word recognition Test Lacovid (1 ) Laco Lvid 重みの最適化 結果統合→初期統合 構音障害者特有の特徴量の検討 他の障害者での有効性の確認 構音障害者音声の音質改善の検討
© Copyright 2024 ExpyDoc