www.me.cs.scitec.kobe

構音障害者の音声認識の検討
神戸大学工学部
松政宏典，滝口哲也，有木康雄
追手門学院大学経済学部
李義昭
神戸大学発達科学部
中林稔堯
研究背景

音声認識の多様化



子供、高齢者
車内
福祉分野への情報技術の適用



音声合成
手話認識
文字認識
研究目的

言語障害者は３万４０００人
（平成１３年度
厚生労働省）

障害者(聴覚・言語障害)を対象とした音声認識が
少ない。

音声に頼るしかない場合は？
音声認識の実現
課題

構音障害者では、発話スタイルが異なるため、
従来のモデルでは認識が困難
構音障害者モデルの作成

構音障害者において、最初の発話スタイルが、
他発話に比べ、変動する場合がある。
変動成分の抑圧のための
PCAを用いた徴量抽出方法
脳性マヒとは

受胎から生後4週以内の新生児までの間に生じた、
脳の非進行性病変に基づく、永続的な、しかし
変化しうる運動および姿勢の異常である。その
症状は満2歳までに発現する。(厚生省)
＊分類
1)痙直型
2)アテトーゼ型（１０～１５％）
3)失調型
4)緊張低下型
5)固縮型
6)混合型
アテトーゼ型とは



大脳基底核に損傷を受けたことによる、随意筋機
能障害であり、アテトーゼ（不随意運動）が生じ
る。
意図的な動作を行う際や緊張状態においてアテ
トーゼが出やすい。
アテトーゼ型脳性マヒでは、知能障害を合併して
いないケースや比較的知能障害の程度が軽いケー
スも多い。
収録データ

210単語 (ATR音素バランス単語)

連続発話

音声例
・あけがた
・はなはだ
図差し替え
汎用モデルでの認識
100
90.0
90
認識率[%]
80
70
60
50
40
30
20
10
2.9
0
構音障害者
健常者
→従来の汎用モデルでは構音障害者の音声認識が困難
構音障害者モデルでの発話毎の認識率
100
認識率[%]
95
89.1
90
91.4
91.0
87.6
85
80
77.1
75
70
65
1回目
２回目
３回目
４回目
５回目
→最初の意図的な動作のため発話スタイルが不安定
提案手法
DCTではなく、スペクトル上でPCAを用いる。
PCAによる発話スタイル変動成分の抑圧(1)
X n (w); 観測音声
Sn (w) ; 安定した音声
H n (w) ; 発話スタイル変動成分
2回目以降
X n (w)  Sn (w)
1回目発話
X n (w)  Sn (w)  H n (w)
抑圧
log X n (w)  log Sn (w)  log H n (w)
PCAによる発話スタイル変動成分の抑圧(2)
2回目以降の発話
∥
安定した音声
１回目発話
写像
Sˆ  VX n
∥
調音不安定音声
安定した音声を用いて、PCAで求めた主軸Ｖの部
分空間に写像する。
空間の低次に音声成分が、高次には発話スタイ
ル変動成分が集まる。
実験内容
 MLLR+MAP推定による話者適応
 PCAを用いた発話スタイル変動にロバスト
な特徴量抽出法
実験条件
ハミング窓長
分析周期
音響モデル


25msec
10msec
monophone
モデル適応には2回目の発話を用いる。
PCAには2~5回目発話の安定した音声のフィ
ルタバンク出力 24 次元を用いる。
モデル適応結果
70
60
認識率 [%]
50
210使用
150使用
100使用
80使用
60使用
40使用
20使用
40
30
20
10
0
0
1
2
3
4
5
6
7
適応回数
少量データでの適応が困難
8
9
10
PCAとMFCCの比較（1回目発話）
より有効的な特徴量抽出
が可能である。
85.2
86
84
認識率 [%]
PCAを用いることで
6.1%の改善
（79.1%→85.2％）
82
80
79.1
MFCC
78
PCA
76
MFCC
PCA
発話毎の認識率比較（17次元）
95
92.9
90.5
認識率[%]
90
87.6
85
80
92.9
88.1
89.5
90.5
83.8
MFCC
78.6
PCA
75
1回目
２回目
３回目
４回目
５回目
まとめ・課題

1回目の不安定な発話に対して、PCAを用いて特
徴量を抽出することで、より有効的な特徴量が
得られる。
ＰＣＡのカーネル化
 構音障害者用の音素モデル
 対象者を増やす

END
→ → → →補助
1回目と他発話の違い
＜例＞
 はっぴゃく
 はんぎゃく
PCA（Principal Component Analysis）
x2
y
空間選択；分散が最大空間
を順次選択
有効性
低次-------高次
大 ------- 小
X1
図図
発話毎の認識率
構音障害者の場合１回目の認識率が著しく低下する。
１回目は最初の意図的な動作であり緊張状態のため
アテトーゼが生じ、調音が困難となっているため
発話スタイルが不安定と考えられる。
単語認識結果
99.2
100
87.2
90.0
認識率 [%]
80
60
40
20
汎用モデル
2.9
特定話者モデル
構音障害者
健常者
0
特定話者モデルの作成
音素数
混合分布数
テストデータ
54 音素
6
1050（210単語×５回）
<作成例>
認識
モデル作成(学習)
従来手法での問題点

汎用モデルでは認識が困難
適応データ数
（2回目発話）
0
40
100
210
認識率 [%]
2.9
22.5
42.9
61.3
少量データでの適応が困難
 精度の向上には大量のデータが必要

モデル適応

MLLR(Maximum Likelihood Linear Regression)法
ˆ  Aμ b
μ

ˆ ；適応後平均ベクトル
 ；適応前平均ベクトル
MAP(Maximum A Posteriori)推定法
ˆ  arg max g (｜)
 arg max f (｜ ) g ( )
 ;適応データ
ˆ ;推定パラメータ
 ;パラメータ（既知）←MLLR法で求めたものを使用
PCAとMFCCの比較（1回目発話）
85.2
認識率[%]
86
82
78
80.0
81.9
79.1
83.8
83.3
78.6
78.1
77.1
76.2
74
MFCC
PCA
70
１１次元
１３次元
１５次元
１７次元
１９次元
全発話での結果
認識率[%]
90
89.6
89.0
89
88
87
87.4
86.8
87.6
89.1
89.1
87.8
88.0
87.4
MFCC
PCA
86
85
１１次元
１３次元
１５次元
１７次元
１９次元
MFCC（Mel Frequency Cepstrum Coefficient）
f
Mel ( f )  2595 log10 (1 
)
700

音の高さに対する人間の感覚尺度 → メル尺度（Mel Scale）
周波数の対数におおよそ対応

人間の周波数に対する音の高さの感覚

低周波数 → 細かい
レ
ベ
ル
高周波数 → 粗い
・・・
・・・
m1
m2
各帯域フィルタの出力 m j と，
離散コサイン変換（DCT）を
用いて，MFCC係数が計算さ
れる．
mj
m j 1
mN
メル周波数
2 N
  i



cMFCC (i) 
m
cos
j

0
.
5



j
N j 1
 N

想定される質問
 一度写像した音声を逆写像したら、安定
した音声と同じように聞こえるのか？
 今後･･･
 今回でも約４０分ほどのデータ収録をし
ている。負担が大きいので話者適応を目
指した方がよいのでは？
 今回はアプローチ方法の一つとして特定話者モデ
ルを作成した。
音素数による違い
母音・子音に違いは無い。
54音素の場合はより音は細かく表示可能。
<例>こんにゃく
54音素；k oN ny a- k u+
43音素 ; k o N ny a
ku

Download Report