スライド 1

AAMを用いた顔方位にロバストな唇領域特徴抽出と音声特徴による
構音障害者の音声認識
宮本 千琴,駒井 祐人,滝口 哲也,有木 康雄(神戸大),李 義昭(追手門大),中林 稔堯(神戸大)
研究背景・目的
構音障害
構音障害とは
言葉を正しく明瞭に発音できない症状
構音障害の原因の一つ:脳性麻痺
出生前や出生時に受けた外傷のため筋肉の制御が難しい
アテトーゼ(不随意運動)が生じる
特にアテトーゼの生じやすい状況
-意図的動作時
-緊張状態
音声認識技術の様々な状況での利用
カーナビゲーションの操作、駅での音声案内
子供や高齢者
福祉分野における情報技術の発展の重要性
超高齢社会(2800万人)、身体障害者(366万人)
しかし、言語障害者を対象としているものは少ない
手足の不自由などで音声に頼るほかない場合
健常者
構音障害者
構音障害者を対象とした音声認識システムの実現
アプローチ
構音障害者の発話が健常者に比べて不安定
ΔMFCCでは時間変化がうまく表現できない
時間特徴をよりよく表すことで認識率の改善が期待される
セグメント特徴量
雑音の多い実環境下では音声特徴のみを用いて発話内容を
認識することは難しい
音声特徴と同時に画像特徴を用いる
構音障害者は発話時に頭が動いてしまう
Active Appearance Modelを用いた唇領域特徴抽出を行う
AAM
s  (x1, y1,, xn , yn )
T
Shape PCA
g  (g1,, gm )T
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・
・・・・・・ ・・ ・・・・・
前後のフレームの情報を考慮
欠落した情報を補う
広い範囲で見ることができる
・・・
・
・
・
PCA
・
・
・
Acoustic feature
(order N)
・
・
・
サンプリング周波数:16kHz
フレーム窓長:25msec
フレーム周期:10msec
音響モデル:Monophone
(3状態54音素)
解像度:720 ×480
フレームレート:30fps
画像モデル: Monophone
(3状態54音素)
特徴量
MFCC
ΔMFCC
MFCC+ΔMFCC
健常者 構音障害者A 構音障害者B
99.2%
78.5%
94.6
98.4%
49.2%
89.7
99.6%
89.5%
97.4
セグメント特徴を用いた認識結果
話者A:210単語×5
話者B:216単語×5,2620単語×2
画像特徴抽出
Adaboost
Input
movie
Movie frame
Face detect
AAM
Lip detect
音声と画像の統合
Word
recognition
特徴量
ΔMFCC
セグメント特徴量
MFCC+ΔMFCC
MFCC+セグメント
認識率
49.2%
62.1%
85.9%
90.3%
特徴量
ΔMFCC
セグメント特徴量
MFCC+ΔMFCC
MFCC+セグメント
認識率
0.93%
58.9%
68.6%
68.8%
音声・画像特徴を用いた認識結果
Feature
extraction
構音障害者の認識精度の改善
音響的な雑音にロバストな認識
+
Training
画像
特定話者モデルでの認識結果(210単語×5回発話)
・
・
・
Concatenated
Delta-Cepstrum vector
(order 12×n)
Visual
model
パラメータベクトル bs , bg , c
Ws
正規化行列
実験条件
音声
n frames
Delta-Cepstrum
(order 12)
Visual
feature
 Wsbs 
s
shapeベクトル

  Qc
 bg 
textureベクトル g


Ps , Pg , Q
基底ベクトル
実験結果
前後数フレーム分の
ΔMFCCから特徴量を構成
Acoustic
model
s  s  Psbs Combined
g  g  Pgbg
PCA
Texture PCA
セグメント特徴量
Acoustic
feature
顔形状(shape)と輝度値(texuture)を
それぞれPCAすることによって
少ないパラメータで顔の形状の変化と
テクスチャの変化を表現できるようにしたモデル
SNR
clean
20dB
10dB
5dB
0dB
音声のみ 画像のみ 音声+画像(重みα)
68.8%
35.9%
74.1% (0.15)
68.0%
35.9%
73.7% (0.15)
57.7%
35.9%
64.3% (0.1)
51.6%
35.9%
58.9% (0.3)
4.9%
35.9%
35.9% (1.0)
Result
今後の課題
Word
recognition
Test
Lacovid  (1   )  Laco    Lvid
重みの最適化
結果統合→初期統合
構音障害者特有の特徴量の検討
他の障害者での有効性の確認
構音障害者音声の音質改善の検討