3-P-9 構音障害者の音素認識誤りの傾向 ☆吉岡利也,高島遼一,滝口哲也,有木康雄(神戸大),李義昭(追手門学院大) 研究背景と課題 NETファイル • 脳性麻痺による不随意運動(アテトーゼ)が伴う ⇒構音(調音)が困難,不安定 /a k e g a t a/ • 音声認識技術の様々な状況での利用 • 言語障害者を対象としているものは少ない • 手足が不自由などで音声に頼るしかない場合は? • 入力音声を構成する音素毎に用意 /i e d e/ $all_phonemes = a | i | u | ・・・ | z | pau; 1.( (pau)($all_phonemes)(e)(d)(e)(pau) ) 音声認識の実現 <健常者> 課題と対策 • 健常者と構音障害者の発声方法は大きく異なる • 両者の音素体系は一致しないのでは? 音素認識実験 構音障害者に適した音素体系の構築 3. ( (pau)(i)(e)($all_phonemes)(e)(pau) ) 音素認識の誤り傾向 4.( (pau)(i)(e)(d)($all_phonemes)(pau) ) 解決法1 実験条件 ハミング窓長 25 msec 分析周期 10 msec 音素認識結果 構音障害者は子音が欠落しやすい /子音/+/母音/の音節での間違い(誤り傾向4,5) ⇒音節単位でモデルを作成(音素のマージ) 音響モデル Monophone(54音素) 音声データ 210単語×5回 (1050発話) /r a/ /r/ + /a/ 子音から母音への 遷移をモデル化 /ra/ 音素正解率(phone correct)で評価 被験者:構音障害者3名 学習,評価データ共に1050発話全てを用いる (クローズ条件) マージした音素を辞書に登録(新しい音素体系) 学習・正解ラベルの音素系列を書き換える 例:/a t a r i m a e/ ⇒ /a t a ri m a e/ 音素誤り傾向 共通して正解率で悪かった音素について, その誤り傾向を調べる 1. 周波数スペクトルが近似している母音同士の誤り(/a/と/e/) 2. 長母音と短母音の誤り(/uu/と/u/) 3. 二重母音と短母音の誤り(/ou/と/o/) 長母音 音素ルール a, a ⇒ aa a, i ⇒ ai a, N ⇒ aN sh, a ⇒ sh, a- (母音に-が付く) k, k, u ⇒ Q, k, u (Qに変換) 二重母音 母音+撥音(ん) 幼音(ゃ,ゅ,ょ) 促音(っ) 4. 子音/r/と母音の誤り(/r/と/a/) 5. 鼻音/m/,/n/と母音の誤り(/n/と/a/) 6. 母音+撥音の音素における撥音の欠落(/aN/と/a/) 分析周期 10 msec 音響モデル Monophone(64音素) 音声データ 210単語×5回 (1050発話) 単語認識で評価 被験者:構音障害者1名 追加した音素(/r/,/n/についてマージした10音素) /ra/, /ri/, /ru/, /re/, /ro/, /na/, /ni/, /nu/, /ne/, /no/ 誤り傾向よりマージが必要と判断された子音のみ 第1発話の認識を行う場合は,第2~5発話を用いて 音響モデルを作成する.これを各発話に対して行う. 実験結果2 サンプ ル数 音素 正解率 正解率 /e/4.01 /i/2.14 /r/2.14 i 85.8 /e/4.35 /r/1.74 /a/1.45 u 79.73 /o/4.38 /a/3.01 /uu/2.47 e 83.38 /i/5.54 /a/3.69 /r/2.46 o 85.79 /a/3.16 /u/3.16 /ou/1.58 uu 88.42 /u/1.58 /r/1.58 /a/1.58 ou 91.02 /uu/2.86 /u/1.63 /o/1.22 r 76 /o/4 /a/3.33 /i/2 n 91.03 /a/1.38 /u/1.38 /e/1.38 aN 96 /a/4 - - 構音障害者B 音素 正解率 誤認識結果(/音素/誤り率[%]) [%] /u/1.36 i 85.22 /r/2.32 /n/1.45 /uu/1.45 u 80.82 /r/3.56 /i/2.19 /uu/1.64 e 90.77 /r/2.16 /i/1.54 /a/0.92 o 87.63 /ou/4.21 /u/2.11 /a/1.84 90 uu 86.32 /r/2.63 /u/2.11 /i/1.58 85 ou 91.02 /u/3.27 /uu/1.22 /o/1.22 80 r 82 /u/2.33 /e/2.33 /n/2 n 88.28 /r/4.83 /i/3.45 /m/1.38 aN 98.67 /a/1.33 - - 各発話毎の認識率 75 70 65 1st base 75.24 merge 77.14 2nd 83.33 85.71 3rd 90 89.05 4th 84.76 84.29 5th 83.33 84.29 ⇒第1,2,5発話で認識率の改善 認識結果例 音素 78.64 /o/2.33 音素認識結果 サンプ ル数 a /e/3.11 95 recognition rate [%] 25 msec 音素 正解率 誤認識結果(/音素/誤り率[%]) [%] 85.44 実験結果1 ハミング窓長 構音障害者A a 評価実験 実験条件 2. ( (pau)(i)($all_phonemes)(d)(e)(pau) ) <構音障害者> 構音障害者C 音素 正解率 誤認識結果(/音素/誤り率[%]) [%] a 93.01 /o/2.14 /a-/1.96 /aN/0.78 /e/1.16 /pau/1.16 /ii/0.87 発話内容 認識結果(base) 認識結果(merge) i 92.75 /あたりまえ/ /a t e i i m a e/ /a t a ri m a e/ u 89.32 /i/2.8 /o/1.64 /u+/1.64 e 92.62 /i/3.69 /r/1.85 /a-/0.31 300 r 76 65 ra 87.692 145 n 91.034 55 ri 98.182 /あるみにうむ/ /a r u m i i i uu m u/ /a ru m u+ ni u m N/ 75 ru 92 /えぷろん/ /e p u o oN/ /e p u ro N/ o 90.79 /u/3.68 /a/1.05 /ou/0.79 60 re 98.333 /えねるぎー/ /a a e r u g ii/ /a ne ru g ii/ 45 ro 97.778 uu 95.26 /u+/1.58 /u/0.53 /i/0.53 50 na 100 ou 97.14 /o/1.63 /u/0.41 /uu/0.41 25 ni 100 r 91.67 /i/1.33 /b/1.33 /e/1 15 nu 100 25 ne 100 n 91.03 30 no 93.333 aN 98.67 今後の予定 個人レベルでの傾向 認識時の抑圧 構音障害者に適したモデル作り /pau/2.07 /u/1.38 /a/1.33 - /m/0.69 -
© Copyright 2024 ExpyDoc