スライド 1

3-P-9
構音障害者の音素認識誤りの傾向
☆吉岡利也,高島遼一,滝口哲也,有木康雄(神戸大),李義昭(追手門学院大)
研究背景と課題
NETファイル
• 脳性麻痺による不随意運動(アテトーゼ)が伴う
⇒構音(調音)が困難,不安定
/a k e g a t a/
• 音声認識技術の様々な状況での利用
• 言語障害者を対象としているものは少ない
• 手足が不自由などで音声に頼るしかない場合は?
• 入力音声を構成する音素毎に用意
/i e d e/
$all_phonemes = a | i | u | ・・・ | z | pau;
1.( (pau)($all_phonemes)(e)(d)(e)(pau) )
音声認識の実現
<健常者>
 課題と対策
• 健常者と構音障害者の発声方法は大きく異なる
• 両者の音素体系は一致しないのでは?
音素認識実験
構音障害者に適した音素体系の構築
3. ( (pau)(i)(e)($all_phonemes)(e)(pau) )
音素認識の誤り傾向
4.( (pau)(i)(e)(d)($all_phonemes)(pau) )
 解決法1
 実験条件
ハミング窓長
25 msec
分析周期
10 msec
 音素認識結果
 構音障害者は子音が欠落しやすい
 /子音/+/母音/の音節での間違い(誤り傾向4,5)
⇒音節単位でモデルを作成(音素のマージ)
音響モデル
Monophone(54音素)
音声データ
210単語×5回 (1050発話)
/r a/
/r/
+
/a/
子音から母音への
遷移をモデル化
/ra/
 音素正解率(phone correct)で評価
 被験者:構音障害者3名
 学習,評価データ共に1050発話全てを用いる
(クローズ条件)
 マージした音素を辞書に登録(新しい音素体系)
 学習・正解ラベルの音素系列を書き換える
例:/a t a r i m a e/ ⇒ /a t a ri m a e/
 音素誤り傾向
 共通して正解率で悪かった音素について,
その誤り傾向を調べる
1. 周波数スペクトルが近似している母音同士の誤り(/a/と/e/)
2. 長母音と短母音の誤り(/uu/と/u/)
3. 二重母音と短母音の誤り(/ou/と/o/)
長母音
音素ルール
a, a ⇒ aa
a, i ⇒ ai
a, N ⇒ aN
sh, a ⇒ sh, a- (母音に-が付く)
k, k, u ⇒ Q, k, u (Qに変換)
二重母音
母音+撥音(ん)
幼音(ゃ,ゅ,ょ)
促音(っ)
4. 子音/r/と母音の誤り(/r/と/a/)
5. 鼻音/m/,/n/と母音の誤り(/n/と/a/)
6. 母音+撥音の音素における撥音の欠落(/aN/と/a/)
分析周期
10 msec
音響モデル
Monophone(64音素)
音声データ
210単語×5回 (1050発話)
 単語認識で評価
 被験者:構音障害者1名
 追加した音素(/r/,/n/についてマージした10音素)
/ra/, /ri/, /ru/, /re/, /ro/, /na/, /ni/, /nu/, /ne/, /no/
誤り傾向よりマージが必要と判断された子音のみ
第1発話の認識を行う場合は,第2~5発話を用いて
音響モデルを作成する.これを各発話に対して行う.
 実験結果2
サンプ
ル数
音素
正解率
正解率
/e/4.01
/i/2.14
/r/2.14
i
85.8
/e/4.35
/r/1.74
/a/1.45
u
79.73
/o/4.38
/a/3.01
/uu/2.47
e
83.38
/i/5.54
/a/3.69
/r/2.46
o
85.79
/a/3.16
/u/3.16
/ou/1.58
uu
88.42
/u/1.58
/r/1.58
/a/1.58
ou
91.02
/uu/2.86
/u/1.63
/o/1.22
r
76
/o/4
/a/3.33
/i/2
n
91.03
/a/1.38
/u/1.38
/e/1.38
aN
96
/a/4
-
-
構音障害者B
音素
正解率
誤認識結果(/音素/誤り率[%])
[%]
/u/1.36
i
85.22
/r/2.32
/n/1.45
/uu/1.45
u
80.82
/r/3.56
/i/2.19
/uu/1.64
e
90.77
/r/2.16
/i/1.54
/a/0.92
o
87.63
/ou/4.21
/u/2.11
/a/1.84
90
uu
86.32
/r/2.63
/u/2.11
/i/1.58
85
ou
91.02
/u/3.27
/uu/1.22
/o/1.22
80
r
82
/u/2.33
/e/2.33
/n/2
n
88.28
/r/4.83
/i/3.45
/m/1.38
aN
98.67
/a/1.33
-
-
各発話毎の認識率
75
70
65
1st
base 75.24
merge 77.14
2nd
83.33
85.71
3rd
90
89.05
4th
84.76
84.29
5th
83.33
84.29
⇒第1,2,5発話で認識率の改善
認識結果例
音素
78.64
/o/2.33
音素認識結果
サンプ
ル数
a
/e/3.11
95
recognition rate [%]
25 msec
音素
正解率
誤認識結果(/音素/誤り率[%])
[%]
85.44
 実験結果1
ハミング窓長
構音障害者A
a
評価実験
 実験条件
2. ( (pau)(i)($all_phonemes)(d)(e)(pau) )
<構音障害者>
構音障害者C
音素
正解率
誤認識結果(/音素/誤り率[%])
[%]
a
93.01
/o/2.14
/a-/1.96 /aN/0.78
/e/1.16 /pau/1.16 /ii/0.87
発話内容
認識結果(base)
認識結果(merge)
i
92.75
/あたりまえ/
/a t e i i m a e/
/a t a ri m a e/
u
89.32
/i/2.8
/o/1.64
/u+/1.64
e
92.62
/i/3.69
/r/1.85
/a-/0.31
300
r
76
65
ra
87.692
145
n
91.034
55
ri
98.182
/あるみにうむ/
/a r u m i i i uu m u/
/a ru m u+ ni u m
N/
75
ru
92
/えぷろん/
/e p u o oN/
/e p u ro N/
o
90.79
/u/3.68
/a/1.05
/ou/0.79
60
re
98.333
/えねるぎー/
/a a e r u g ii/
/a ne ru g ii/
45
ro
97.778
uu
95.26
/u+/1.58
/u/0.53
/i/0.53
50
na
100
ou
97.14
/o/1.63
/u/0.41
/uu/0.41
25
ni
100
r
91.67
/i/1.33
/b/1.33
/e/1
15
nu
100
25
ne
100
n
91.03
30
no
93.333
aN
98.67
今後の予定
 個人レベルでの傾向
 認識時の抑圧
 構音障害者に適したモデル作り
/pau/2.07 /u/1.38
/a/1.33
-
/m/0.69
-