構音障害者の音声認識の検討 神戸大学工学部 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯 研究背景 音声認識の多様化 子供、高齢者 車内 福祉分野への情報技術の適用 音声合成 手話認識 文字認識 研究目的 言語障害者は3万4000人 (平成13年度 厚生労働省) 障害者(聴覚・言語障害)を対象とした音声認識が 少ない。 音声に頼るしかない場合は? 音声認識の実現 課題 構音障害者では、発話スタイルが異なるため、 従来のモデルでは認識が困難 構音障害者モデルの作成 構音障害者において、最初の発話スタイルが、 他発話に比べ、変動する場合がある。 変動成分の抑圧のための PCAを用いた徴量抽出方法 脳性マヒとは 受胎から生後4週以内の新生児までの間に生じた、 脳の非進行性病変に基づく、永続的な、しかし 変化しうる運動および姿勢の異常である。その 症状は満2歳までに発現する。(厚生省) *分類 1)痙直型 2)アテトーゼ型 (10~15%) 3)失調型 4)緊張低下型 5)固縮型 6)混合型 アテトーゼ型とは 大脳基底核に損傷を受けたことによる、随意筋機 能障害であり、アテトーゼ(不随意運動)が生じ る。 意図的な動作を行う際や緊張状態においてアテ トーゼが出やすい。 アテトーゼ型脳性マヒでは、知能障害を合併して いないケースや比較的知能 障害の程度が軽いケー スも多い。 収録データ 210単語 (ATR音素バランス単語) 連続発話 音声例 ・あけがた ・はなはだ 図差し替え 汎用モデルでの認識 100 90.0 90 認識率[%] 80 70 60 50 40 30 20 10 2.9 0 構音障害者 健常者 →従来の汎用モデルでは構音障害者の音声認識が困難 構音障害者モデルでの発話毎の認識率 100 認識率[%] 95 89.1 90 91.4 91.0 87.6 85 80 77.1 75 70 65 1回目 2回目 3回目 4回目 5回目 →最初の意図的な動作のため発話スタイルが不安定 提案手法 DCTではなく、スペクトル上でPCAを用いる。 PCAによる発話スタイル変動成分の抑圧(1) X n (w); 観測音声 Sn (w) ; 安定した音声 H n (w) ; 発話スタイル変動成分 2回目以降 X n (w) Sn (w) 1回目発話 X n (w) Sn (w) H n (w) 抑圧 log X n (w) log Sn (w) log H n (w) PCAによる発話スタイル変動成分の抑圧(2) 2回目以降の発話 ∥ 安定した音声 1回目発話 写像 Sˆ VX n ∥ 調音不安定音声 安定した音声を用いて、PCAで求めた主軸Vの部 分空間に写像する。 空間の低次に音声成分が、高次には発話スタイ ル変動成分が集まる。 実験内容 MLLR+MAP推定による話者適応 PCAを用いた発話スタイル変動にロバスト な特徴量抽出法 実験条件 ハミング窓長 分析周期 音響モデル 25msec 10msec monophone モデル適応には2回目の発話を用いる。 PCAには2~5回目発話の安定した音声のフィ ルタバンク出力 24 次元を用いる。 モデル適応結果 70 60 認識率 [%] 50 210使用 150使用 100使用 80使用 60使用 40使用 20使用 40 30 20 10 0 0 1 2 3 4 5 6 7 適応回数 少量データでの適応が困難 8 9 10 PCAとMFCCの比較(1回目発話) より有効的な特徴量抽出 が可能である。 85.2 86 84 認識率 [%] PCAを用いることで 6.1%の改善 (79.1%→85.2%) 82 80 79.1 MFCC 78 PCA 76 MFCC PCA 発話毎の認識率比較(17次元) 95 92.9 90.5 認識率[%] 90 87.6 85 80 92.9 88.1 89.5 90.5 83.8 MFCC 78.6 PCA 75 1回目 2回目 3回目 4回目 5回目 まとめ・課題 1回目の不安定な発話に対して、PCAを用いて特 徴量を抽出することで、より有効的な特徴量が 得られる。 PCAのカーネル化 構音障害者用の音素モデル 対象者を増やす END → → → →補助 1回目と他発話の違い <例> はっぴゃく はんぎゃく PCA(Principal Component Analysis) x2 y 空間選択;分散が最大空間 を順次選択 有効性 低次-------高次 大 ------- 小 X1 図図 発話毎の認識率 構音障害者の場合1回目の認識率が著しく低下する。 1回目は最初の意図的な動作であり緊張状態のため アテトーゼが生じ、調音が困難となっているため 発話スタイルが不安定と考えられる。 単語認識結果 99.2 100 87.2 90.0 認識率 [%] 80 60 40 20 汎用モデル 2.9 特定話者モデル 構音障害者 健常者 0 特定話者モデルの作成 音素数 混合分布数 テストデータ 54 音素 6 1050(210単語×5回) <作成例> 認識 モデル作成(学習) 従来手法での問題点 汎用モデルでは認識が困難 適応データ数 (2回目発話) 0 40 100 210 認識率 [%] 2.9 22.5 42.9 61.3 少量データでの適応が困難 精度の向上には大量のデータが必要 モデル適応 MLLR(Maximum Likelihood Linear Regression)法 ˆ Aμ b μ ˆ ;適応後平均ベクトル ;適応前平均ベクトル MAP(Maximum A Posteriori)推定法 ˆ arg max g (|) arg max f (| ) g ( ) ;適応データ ˆ ;推定パラメータ ;パラメータ(既知)←MLLR法で求めたものを使用 PCAとMFCCの比較(1回目発話) 85.2 認識率[%] 86 82 78 80.0 81.9 79.1 83.8 83.3 78.6 78.1 77.1 76.2 74 MFCC PCA 70 11次元 13次元 15次元 17次元 19次元 全発話での結果 認識率[%] 90 89.6 89.0 89 88 87 87.4 86.8 87.6 89.1 89.1 87.8 88.0 87.4 MFCC PCA 86 85 11次元 13次元 15次元 17次元 19次元 MFCC(Mel Frequency Cepstrum Coefficient) f Mel ( f ) 2595 log10 (1 ) 700 音の高さに対する人間の感覚尺度 → メル尺度(Mel Scale) 周波数の対数におおよそ対応 人間の周波数に対する音の高さの感覚 低周波数 → 細かい レ ベ ル 高周波数 → 粗い ・・ ・ ・・・ m1 m2 各帯域フィルタの出力 m j と, 離散コサイン変換(DCT)を 用いて,MFCC係数が計算さ れる. mj m j 1 mN メル周波数 2 N i cMFCC (i) m cos j 0 . 5 j N j 1 N 想定される質問 一度写像した音声を逆写像したら、安定 した音声と同じように聞こえるのか? 今後・・・ 今回でも約40分ほどのデータ収録をし ている。負担が大きいので話者適応を目 指した方がよいのでは? 今回はアプローチ方法の一つとして特定話者モデ ルを作成した。 音素数による違い 母音・子音に違いは無い。 54音素の場合はより音は細かく表示可能。 <例>こんにゃく 54音素;k oN ny a- k u+ 43音素 ; k o N ny a ku
© Copyright 2024 ExpyDoc