メタモデルと音響モデルの 統合による構音障害者の音声認識 神戸大学工学研究科 松政 宏典,滝口 哲也,有木 康雄 追手門学院大学経済学部 李 義昭 神戸大学発達科学部 中林 稔堯 構音障害者とは? 母親 明るさを調整する NHK教育 <平常時> <発話時> 構音 [調音] が困難である。 緊張時 [意図的な動作時] に、 不随意運動が現れる場合がある。 研究背景 福祉分野での情報技術の重要性 音声合成 手話認識 文字認識 音声認識の多様化 子供、高齢者 車内、会議室 研究目的 言語障害者は3万4000人 (平成19年版 障害者白書) ユニバーサルデザイン音声認識の実現! 障害者(聴覚・言語障害)を対象とした音声認識 が少ない。 音声に頼るしかない場合は? 音声認識への期待 職域開発 音声認識ツールの使用による、 障害者の雇用機会増加への期待! コミュニケーションの広がり 音声合成・STT (Speech To Text)による相互理解 講演の補助等への活用 関連研究 重度障害者のための音声認識電動車いすの開発 (産総研 07’音響学会) 喉頭摘出者データを用いた人工音声変換システムの評価 (奈良先端大 07’ 電子情報通信学会 WIT) アプローチ 構音障害者において、最初の発話スタイルが、 他発話に比べ、変動する場合がある。 PCAを用いた発話スタイル変動に ロバストな特徴量抽出法 Metamodel との統合 100 95 認識率[%] 89.1 90 91.4 91.0 87.6 85 80 77.1 75 70 65 1回目 2回目 3回目 4回目 5回目 Metamodel Confusion Matrix を音声認識のモデルに組み込むことに より、音の変化(削除・挿入・置換)を確率的に表現可能 各状態に離散出力確率・遷移確率(離散型HMM) 入力特徴量は音素認識列 学習は Baum Welch アルゴリズムで行う 削除 各音素に Metamodel を作成 入 力 A B C 挿入 置換 挿入 出 力 Metamodel モデル[a]の例 削除 入力 [i] の場合 A B C 挿入 置換 挿入 [i] A B C 置換 出力分布例 Phoneme / State A B C a 0.1 0.7 0.2 i 0.4 0.1 0.3 u 0.3 0.05 0.3 e 0.1 0.05 0.1 o 0.1 0.1 0.1 入力 [a u] の場合 A [a] [u] B C 正解 (置換) 挿入 Metamodel A B w:単語 p:音素 P r(w | A) P r(w | C A :信号 p *:音素認識結果 p) P r(p | A) p p* arg m ax P r(p | A) pP arg m ax P r(A | p ) P r(p ) pP P r(w | A) P r(w | p*) P r(p* | A) w' arg max Pr( w | p*) Pr( p* | A) wW arg max Pr( w | p*) wW Metamodel Metamodel認識 入力音声 ある単語(例;she)を構成する 音素列に対応するMetamodel列 音素認識 she ch sh [ch] [er] er iy ax hh hh [hh] [ax] 提案手法-Metamodelとの統合- <特徴量-数値> 1.138 1.283 <PCA method> -1.024 -1.424 -0.123 0.432 1.175 0.187 -0.854 2回目,-0.002 3回目 … ・・・・・・ (安定音声) PCA t ˆ S V X 学習 1回目発話 (不安定音声) Acoustic Model [音素HMM] 単語認識 <Metamodel> <特徴量-文字> o k a sh r aN ii + 音素認識 音素例[あかい-a k a i] 学習 Metamodel 音の変化(置換・挿入・削除)を考慮 Training Meta 認識 New Confidence measure (Proposed method) Test 提案手法-Metamodelとの統合- <PCA method> PCA 2回目, 3回目 … (安定音声) t ˆ S V X 学習 1回目発話 (不安定音声) Acoustic model [音素HMM] 単語認識 <Metamodel> + 音素認識 音素例[あかい-a k a i] 学習 Metamodel Meta 認識 New Confidence measure (Proposed method) Training Test PCAによる発話不安定成分の抑圧(1) X n ( ) ; 観測音声 S n ( ) ; 安定した音声 H n ( ) ; 発話不安定成分 2回目以降 X n ( ) S n ( ) 1回目発話 X n ( ) n ;フレーム番号 ;周波数 S n ( ) H n ( ) 抑圧 log X n () log Sn ( ) log H n ( ) PCAによる発話不安定成分の抑圧(2) *空間の低次に安定した音声成分が集まる。 2回目、3回目・・・発話 •1回目に比べ安定している •認識精度が安定 *固有ベクトル集合を主軸(変換行列)Vと する PCA ˆ S VX … … × 1回目発話 •緊張のために不安定 •認識に悪影響 提案手法-Metamodelとの統合- <PCA method> PCA 2回目, 3回目 … (安定音声) t ˆ S V X 学習 1回目発話 (不安定音声) Acoustic model [音素HMM] 単語認識 <Metamodel> + 音素認識 音素例[あかい-a k a i] 学習 Metamodel Meta 認識 New Confidence measure (Proposed method) Training Test 統合例 Aco Japan Aco Italy Aco America 100 85 … 単 語 認 識 … … Test data 音 響 モ デ ル Aco France 30 1 = weight N-Best 87 MetaAco Italy MetaAco America 80 77 MetaAco Turkey + MetaAco France Meta Turkey 100 Meta Italy Meta America 80 … Meta France 90 30 … … M e t a 認 識 Correct! … Italy メ タ モ デ ル 80 30 実験概要 音響モデルとメタモデルの統合による音声認識 <実験条件> ハミング窓長 25 msec 分析周期 10 msec 音響モデル 構音障害者音声データ monophone 210単語×5回 (1050発話) PCAには2~5回目発話の安定した音声のフィルタバンク 出力 24 次元を用いる。 用いた主成分数・・・15個 [24次元から15次元へ] 3Best単語に対して統合 従来法との比較 [α=0.15] 95 認識率 [%] 95 89.0 90 89.1 85 85.2 85 90 90.5 80 80 79.1 75 75 70 MFCC PCA Meta-PCA 1回目のみ [test:210単語] PCA Meta-PCA 5回平均 [test:1050単語] まとめ・今後の方向性 Metamodel との統合によって、音の変化への 考慮が可能となった。 今後の方向性 明瞭度の向上 [高域パワーの強調など] 話者適応 他者の構音障害者モデル vs 健常者不特定話者モデル 音素体系作り,,,etc 単語内SPの考慮 例;ひょうほん 音声認識の利用例;環境制御装置 従来製品との違い 多くは認識が困難、コマンド限定で適応 コマンドへの自由度が高い、操作を個人に特化可能 環境制御装置「みてら」に音声認識「julian」 を組み込む。 認識 操作 システムの流れ CD/○○テレビ 音量アップ/ 電源etc 音声認識 現在の状態 音声認識結果 (リクエスト) 家電操作 環境制御装置 システム動作映像 発話可能コマンド 対話画面(指示&認識) ご清聴ありがとうございました。 …END 補助資料 1回目発話[α= 0~0.4] Recognition rate[%] 95 90 85 MFCC 80 PCA Meta-PCA 75 0 0.05 0.1 0.15 0.2 Weight 0.25 0.3 0.35 0.4 PCAとMFCCの比較(1回目発話) 85.2 認識率[%] 86 82 78 83.8 83.3 81.9 80.0 79.1 78.6 78.1 77.1 76.2 74 MFCC PCA 70 11次元 13次元 15次元 17次元 19次元 構音障害者音声 Aさん(男性) Bさん(男性) 母親 アルミニウム Cさん(女性) アルミニウム(a r u m i n i u m u) 構 健 音 常 障 者 害 者 Metamodel検証実験 提案手法(1)を用いて音素認識実験 210単語 1回目 2回目 3回目 4回目 5回目 認識率 69.6 71.95 73.38 72.84 71.11 精度 36.03 43.24 47.59 46.69 44.31 精度の低下が大きい。 音の変化 [置換・挿入・削除]が生じている と考えられる。 Baum Welch アルゴリズム パラメータ推定 出力確率 状態iから状態jへ遷 移する回数の期待値 aij 状態iから遷移する回 数の期待値 遷移確率 状態jにとどまりシン ボルv kを観測する回数の期待 値 bij 状態jにとどまる回数 の期待値 変換行列Ⅴ 非 音 声 音 非 声 音 声 音声は全て使用 固有ベクトルが変換行列V <DCT> ci 2 N i m j cos ( j 0.5) N j 1 N <PCA> 分散の最大空間から選択 低次-------高次 音韻性-------話者性 モデル適応結果(MLLR+MAP推定) 70 認識率 [%] 60 50 210使用 40 150使用 100使用 30 80使用 20 60使用 10 40使用 0 20使用 0 1 2 3 4 5 6 7 適応回数 少量データでの適応が困難 8 9 10 関連研究-音声特徴量 windowing STDFT メル軸上で 三角窓の適用 |S|’ IDFT log |S|’ MFCC Amplitude 音波形 DFT 係数 |S| Log Frequency MFCC (Mel Frequency Cepstrum Coefficient)にて調音フィルタの 特性を音声特徴量として取り出す アテトーゼ型脳性マヒとは 大脳基底核の損傷のため、随意筋の機能障害 アテトーゼ(不随意運動)が生じる。 アテトーゼの生じやすい状況 意図的な動作を行う際 緊張状態 収録データ (1名) 連続発話 Confusion Matrix [Pr(Pout|Pin)] 入 力 音 素 認識音素 環境制御装置 株式会社日本シュータ 「NSシーケアパイロット 」 特定話者の単語モデルで適応を行う。 Windows98のため販売終了 旭化成 「ライフタクト」 頚椎損傷・リウマチ・筋ジストロフィーなど 手足に障害を持つ方の自立した生活を支援
© Copyright 2024 ExpyDoc