www.me.cs.scitec.kobe

3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
松政 宏典 滝口 哲也 有木 康雄 (神戸大・工) 李 義昭 (追手門大) 中林 稔堯 (神戸大・発達)
研究背景・目的
構音障害者とは?
・脳性麻痺による随意筋障害をもつ
→構音(調音)が困難、不安定
・福祉分野での情報技術の重要性
・言語障害者は3万4000人
- 障害者を対象とした音声認識が少ない。
- 音声に頼るしかない場合は?
音声例
/a k e g a t a/
音声認識の実現
<健常者>
音声認識を用いた有効的な使用方法は?
<構音障害者>
・知能障害の程度が軽いケースも多い
環境制御装置
課題と対策
・重度障害者の自立支援に重要な役割
・赤外線装置による家電の操作が可能
・操作方法 → → → 呼気、押しボタン、音声認識
構音障害者では、発話スタイルが健常者と異
なるため、従来のモデルでは認識が困難
構音障害者モデルの作成
など
脳性麻痺のため、発話スタイルが変動する場合が
ある。
MLLR法、MAP法を用いた
変動に対する適応
発話に障害がない人の音声を対象としているため、
構音障害者の音声認識が困難
タスク内容
MLLR法&MAP法
・対象機器(テレビ・CDプレーヤ・照明)
・7シーン、41コマンド
MLLR法(複数の分布を一まとめにして、クラスとして適応)
b ;バイアス
 ;基の平均ベクトル
X ;適応データ
W  arg max p [ X W ]
W
MAP法
機器選択
テレビ操作
CD操作
照明操作
Ch操作
戻る
テレビ
CDプレーヤ
照明1
戻る
次のページ
電源
Ch操作
Chアップ
Chダウン
音量アップ
音量ダウン
番組表操作
メニュー操作
消音
音声切り替え
オフタイマー
戻る
再生する
電源
電源オフ
一時停止
停止
次の曲
前の曲
戻る
照明をつける
照明を消す
豆球にする
明るさを調整する
戻る
次のページ
NHK
サンテレビ
毎日放送
テレビ大阪
ABCテレビ
関西テレビ
読売テレビ
NHK教育
(予め作成された音響モデルを事前情報として、事後確率の最大化を行う)
ˆ jm  argmaxp[ jm|X ]
ˆ jm 
j;状態数
N;尤度
N jm
N jm  

 jm 
N jm  
m;混合分布要素
 ;適応データ
 jm
MLLR法で求める
 ;重み

;基の平均
実験結果
音声認識システム
健常者モデル
100
CD/○○テレビ
94.1
(リクエスト)
認識率 [%]
現在の状態
音声認識結果
60
環境制御装置
環境制御装置「みてら」に音声認識
「julian」を組み込む。
認識
72.7
51.0
38.1
40
24.1
76.5
69.9
戻る
メニューの表示
上へ移動
下へ移動
右へ移動
左へ移動
決定
・100%の認識精度
-コマンドの絞込み
-モデルの強化
69.8
40.4
27.9
19.3
15.1
機器選択 TV操作 CD操作 照明操作
ハミング窓長
分析周期
25msec
音響モデル
633発話
HMM-3状態(54音素)
番組表操作 メニュー操作
平均
MLLR + MAP法
88
10msec
25次元
(12MFCC+Δ+Δpower)
テストデータ
Ch操作
・環境音への配慮
-ノイズキャンセラなど
28.8
0
特徴量
操作
戻る
番組表
上へ移動
下へ移動
右へ移動
左へ移動
決定
・非コマンド発話への対応
20
家電操作
78.5
72.8
80
Julian
構音障害者モデル
92.1
音量アップ/ 電源etc
番組表操作 メニュー操作
今後の取り組み
認識率 [%]
ˆ  W
μ
W  [b A]
ξ  [1 1 2 n ]
81.7
84
80
76.5
76
84.5
baseline
72
68
2発話適応
•健常者モデル(健常者の音声を用いて作成)
•構音障害者モデル(構音障害者の音声を用いて作成)
5発話適応
10発話適応
まとめ
・構音障害者の音響モデルを
用いることで制御装置の実
現へ前進
・状態に影響を受けやすく、
発話スタイルが変動しやす
いため、適応などによる対
処が必要である
・音声だけではなく非音声へ
の取り組みを行う
•
•
•
重度障害者の自立支援に重要な役割
赤外線装置による家電の操作が可能
操作方法
–
呼気、押しボタン、音声認識 など
発話に障害がない人の音声を対象としているため、
構音障害者の音声認識が困難
構音障害者の音声認識が可能な環境制御
装置の実現を目指す!
Each example of spectrogram
CD/○○テレビ
音量アップ/ 電源etc
Julian
音声認識結果
現在の状態
(リクエスト)
家電操作
環境制御装置
機器選択
テレビ操作
CD操作
照明操作
Ch操作
番組表操作
メニュー操作
戻る
テレビ
CDプレーヤ
照明1
戻る
次のページ
電源
Ch操作
Chアップ
Chダウン
音量アップ
音量ダウン
番組表操作
メニュー操作
消音
音声切り替え
オフタイマー
戻る
再生する
電源
電源オフ
一時停止
停止
次の曲
前の曲
戻る
照明をつける
照明を消す
豆球にする
明るさを調整する
戻る
次のページ
NHK
サンテレビ
毎日放送
テレビ大阪
ABCテレビ
関西テレビ
読売テレビ
NHK教育
戻る
番組表
上へ移動
下へ移動
右へ移動
左へ移動
決定
戻る
メニューの表示
上へ移動
下へ移動
右へ移動
左へ移動
決定
健常者モデル
100
76.5
認識率 [ %]
80
構音障害者モデル
100
94.1
72.8
80
60
健常者モデル
92.1
78.5
72.7
51.0
38.1
40
24.1
20
構音障害者モデル
76.5
69.9
69.8
15.1
27.9
28.8
0
機器選択
TV操作
CD操作
照明操作
チャンネル操作
メニュー操作
番組表操作
40
28.8
20
0
健常者モデル
40.4
19.3
60
平均
構音障害者モデル
//a k e g a t a//
3-Q-29 脳性麻痺構音障がい者の音声認識による情報家電操作の検討
松政 宏典 滝口 哲也 有木 康雄 (神戸大学院・工) 李 義昭 (追手門大) 中林 稔堯 (神戸大・発達)
課題と対策
研究背景・目的
構音障害者では、発話スタイルが健常者と異
なるため、従来のモデルでは認識が困難
・福祉分野での情報技術の重要性
・言語障害者は3万4000人
- 障害者を対象とした音声認識が少ない。
- 音声に頼るしかない場合は?
構音障害者モデルの作成
構音障害者において、最初の発話スタイルが、
他発話に比べ、変動する場合がある。
音声認識の実現
PCAを用いた発話スタイル変動に
ロバストな特徴量抽出法
脳性マヒ・収録データ
不特定話者モデルでの認識&話者適応
89.7
認識率[%]
100
アテトーゼ(不随意運動)が生じる。
・アテトーゼの生じやすい状況
- 意図的な動作を行う際
- 緊張状態
・ 収録形式
- 連続発話 (5回連続)
60
80
60
40
20
3.5
0
構音障害者
1
2
3
健常者
Ex) h a n a h a d a
提案手法
音声データ
4
X n ( ) ; 観測音声
S n ( ) ; 安定した音声
H n ( ) ; 発話スタイル成分
7
8
9
10
1回目発話
91.4
89.1
n ;フレーム
 ;周波数
X n ( )  S n ( )
X n ( )  S n ( )  H n ( )
Mel
90
6
log X n ( )  log S n ( ) 
モデル作成(学習)
100
95
5
適応回数
2回目以降
FFT
認識率[%]
20
0
<作成例>
80
40
0
構音障害者モデル
85
210使用
150使用
100使用
80使用
60使用
40使用
20使用
不特定話者モデルでの認識は困難、
適応には大量のデータが必要である。
Ex) a k e g a t a
認識
MLLR + MAP推定
認識率 [%]
・大脳基底核の損傷のため、随意筋の
機能障害
91.0
87.6
2回目以降の発話
Log | |
77.1
∥
写像
log H n ( )
1回目発話
∥
調音不安定音声
安定した音声
ˆ
S  VX
75
70
65
PCA
DCT
1回目
2回目
3回目
4回目
5回目
(提案手法)
→最初の意図的な動作のため
発話スタイルが不安定
空間の低次に安定した音声成分が、
高次には発話スタイル成分が集まる。
実験結果(1回目発話)
25 msec
分析周期
10 msec
音響モデル
monophone(54音素)
音声データ
210単語×5回
・PCAには2~5回目発話の安定
した音声のフィルタバンク
出力 24 次元を用いる。
・用いた主成分数
11,13,15,17,19 個
90
認識率 [%]
ハミング窓長
安定した音声を用いて、PCAで求めた
主軸Vの部分空間に写像する。
80
79.1
85.2
まとめ・今後の方向性
1回目の不安定な発話に対して、
PCAを用いて特徴量を抽出するこ
とで、より有効的な特徴量が得ら
れる。
70
福祉機器の開発
60
MFCC
PCA
PCAを用いることで 6.1 %の改善
対象者を増やす
少量データでの声質変換、話者適応