スライド 1

1-R-10
局所特徴量を用いた構音障害者の音声認識の検討
宮本 千琴,滝口 哲也,有木 康雄(神戸大),李 義昭(追手門大),中林 稔堯(神戸大)
研究背景・目的
構音障害
音声認識技術の様々な状況での利用
カーナビゲーションの操作、駅での音声案内
子供や高齢者
福祉分野における情報技術の発展の重要性
超高齢社会(2800万人)、身体障害者(366万人)
しかし、言語障害者を対象としているものは少ない
手足の不自由などで音声に頼るほかない場合
構音障害とは
言葉を正しく明瞭に発音できない症状
構音障害の原因の一つ:脳性麻痺
出生前や出生時に受けた外傷のため筋肉の制御が難しい
アテトーゼ(不随意運動)が生じる
特にアテトーゼの生じやすい状況
-意図的動作時
-緊張状態
構音障害者を対象とした音声認識システムの実現
健常者
構音障害者
構音障害者の発話が健常者に比べて不安定
ΔMFCCでは時間変化がうまく表現できない
時間特徴をよりよく表すことで認識率の改善が期待される
時間-デルタケプストラム平面上の幾何学的な特徴に注目
時間-デルタケプストラム平面上で局所特徴を抽出
特徴量抽出
局所特徴量
時間-デルタケプストラム平面上の各点において
3×3局所領域で計35種類の局所パターンを適用
点rでの局所パターンkの局所特徴量
全ての点で35種類の
局所パターンに対応する
特徴量を求める
局所パターンの例
時間-デルタケプストラム平面
処理の流れ
音声特徴量ベクトル
局所特徴量をフレーム内で縦につなげたベクトル
時間tにおけるベクトル:(K×(Dー2))次元ベクトル
音声信号
DCT
FFT
局所特徴量
Mel
PCA
K:局所パターンの数
D:次元数
35×(12-10)=350次元となり高次元なので
PCAで次元圧縮
実験結果
各特徴量での認識結果
実験条件
サンプリング周波数 16kHz
25msec
フレーム窓長
フレーム周期
10msec
音響モデル
Monophone
(3状態54音素)
混合数
8
実験データ
210単語×5回発話
特定話者モデルでの認識結果
特徴量
健常者
MFCC
99.2%
ΔMFCC
98.4%
MFCC+ΔMFCC 99.6%
Log||
構音障害者
78.5%
49.2%
89.5%
特徴量
MFCC
Proposed(MFCC)
ΔMFCC
Proposed(ΔMFCC)
FBANK
Proposed(FBANK)
局所特徴量(PCAなし)
音声特徴ベクトル
局所特徴量(PCAあり)
認識率
78.5%
81.5%
49.2%
52.6%
78.5%
82.1%
まとめ・課題
局所特徴量を用いることで認識率の改善が得られた 対象者を増やす
単一の特徴量として使える認識率ではないので複数 少量データでの音声認識手法の検討
の特徴量を組み合わせる必要がある
構音障害者音声の音質改善の検討
構音障害者特有の特徴量の検討