3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討 松政 宏典 滝口 哲也 有木 康雄 (神戸大・工) 李 義昭 (追手門大) 中林 稔堯 (神戸大・発達) 研究背景・目的 構音障害者とは? ・脳性麻痺による随意筋障害をもつ →構音(調音)が困難、不安定 ・福祉分野での情報技術の重要性 ・言語障害者は3万4000人 - 障害者を対象とした音声認識が少ない。 - 音声に頼るしかない場合は? 音声例 /a k e g a t a/ 音声認識の実現 <健常者> 音声認識を用いた有効的な使用方法は? <構音障害者> ・知能障害の程度が軽いケースも多い 環境制御装置 課題と対策 ・重度障害者の自立支援に重要な役割 ・赤外線装置による家電の操作が可能 ・操作方法 → → → 呼気、押しボタン、音声認識 構音障害者では、発話スタイルが健常者と異 なるため、従来のモデルでは認識が困難 構音障害者モデルの作成 など 脳性麻痺のため、発話スタイルが変動する場合が ある。 MLLR法、MAP法を用いた 変動に対する適応 発話に障害がない人の音声を対象としているため、 構音障害者の音声認識が困難 タスク内容 MLLR法&MAP法 ・対象機器(テレビ・CDプレーヤ・照明) ・7シーン、41コマンド MLLR法(複数の分布を一まとめにして、クラスとして適応) b ;バイアス ;基の平均ベクトル X ;適応データ W arg max p [ X W ] W MAP法 機器選択 テレビ操作 CD操作 照明操作 Ch操作 戻る テレビ CDプレーヤ 照明1 戻る 次のページ 電源 Ch操作 Chアップ Chダウン 音量アップ 音量ダウン 番組表操作 メニュー操作 消音 音声切り替え オフタイマー 戻る 再生する 電源 電源オフ 一時停止 停止 次の曲 前の曲 戻る 照明をつける 照明を消す 豆球にする 明るさを調整する 戻る 次のページ NHK サンテレビ 毎日放送 テレビ大阪 ABCテレビ 関西テレビ 読売テレビ NHK教育 (予め作成された音響モデルを事前情報として、事後確率の最大化を行う) ˆ jm argmaxp[ jm|X ] ˆ jm j;状態数 N;尤度 N jm N jm jm N jm m;混合分布要素 ;適応データ jm MLLR法で求める ;重み ;基の平均 実験結果 音声認識システム 健常者モデル 100 CD/○○テレビ 94.1 (リクエスト) 認識率 [%] 現在の状態 音声認識結果 60 環境制御装置 環境制御装置「みてら」に音声認識 「julian」を組み込む。 認識 72.7 51.0 38.1 40 24.1 76.5 69.9 戻る メニューの表示 上へ移動 下へ移動 右へ移動 左へ移動 決定 ・100%の認識精度 -コマンドの絞込み -モデルの強化 69.8 40.4 27.9 19.3 15.1 機器選択 TV操作 CD操作 照明操作 ハミング窓長 分析周期 25msec 音響モデル 633発話 HMM-3状態(54音素) 番組表操作 メニュー操作 平均 MLLR + MAP法 88 10msec 25次元 (12MFCC+Δ+Δpower) テストデータ Ch操作 ・環境音への配慮 -ノイズキャンセラなど 28.8 0 特徴量 操作 戻る 番組表 上へ移動 下へ移動 右へ移動 左へ移動 決定 ・非コマンド発話への対応 20 家電操作 78.5 72.8 80 Julian 構音障害者モデル 92.1 音量アップ/ 電源etc 番組表操作 メニュー操作 今後の取り組み 認識率 [%] ˆ W μ W [b A] ξ [1 1 2 n ] 81.7 84 80 76.5 76 84.5 baseline 72 68 2発話適応 •健常者モデル(健常者の音声を用いて作成) •構音障害者モデル(構音障害者の音声を用いて作成) 5発話適応 10発話適応 まとめ ・構音障害者の音響モデルを 用いることで制御装置の実 現へ前進 ・状態に影響を受けやすく、 発話スタイルが変動しやす いため、適応などによる対 処が必要である ・音声だけではなく非音声へ の取り組みを行う • • • 重度障害者の自立支援に重要な役割 赤外線装置による家電の操作が可能 操作方法 – 呼気、押しボタン、音声認識 など 発話に障害がない人の音声を対象としているため、 構音障害者の音声認識が困難 構音障害者の音声認識が可能な環境制御 装置の実現を目指す! Each example of spectrogram CD/○○テレビ 音量アップ/ 電源etc Julian 音声認識結果 現在の状態 (リクエスト) 家電操作 環境制御装置 機器選択 テレビ操作 CD操作 照明操作 Ch操作 番組表操作 メニュー操作 戻る テレビ CDプレーヤ 照明1 戻る 次のページ 電源 Ch操作 Chアップ Chダウン 音量アップ 音量ダウン 番組表操作 メニュー操作 消音 音声切り替え オフタイマー 戻る 再生する 電源 電源オフ 一時停止 停止 次の曲 前の曲 戻る 照明をつける 照明を消す 豆球にする 明るさを調整する 戻る 次のページ NHK サンテレビ 毎日放送 テレビ大阪 ABCテレビ 関西テレビ 読売テレビ NHK教育 戻る 番組表 上へ移動 下へ移動 右へ移動 左へ移動 決定 戻る メニューの表示 上へ移動 下へ移動 右へ移動 左へ移動 決定 健常者モデル 100 76.5 認識率 [ %] 80 構音障害者モデル 100 94.1 72.8 80 60 健常者モデル 92.1 78.5 72.7 51.0 38.1 40 24.1 20 構音障害者モデル 76.5 69.9 69.8 15.1 27.9 28.8 0 機器選択 TV操作 CD操作 照明操作 チャンネル操作 メニュー操作 番組表操作 40 28.8 20 0 健常者モデル 40.4 19.3 60 平均 構音障害者モデル //a k e g a t a// 3-Q-29 脳性麻痺構音障がい者の音声認識による情報家電操作の検討 松政 宏典 滝口 哲也 有木 康雄 (神戸大学院・工) 李 義昭 (追手門大) 中林 稔堯 (神戸大・発達) 課題と対策 研究背景・目的 構音障害者では、発話スタイルが健常者と異 なるため、従来のモデルでは認識が困難 ・福祉分野での情報技術の重要性 ・言語障害者は3万4000人 - 障害者を対象とした音声認識が少ない。 - 音声に頼るしかない場合は? 構音障害者モデルの作成 構音障害者において、最初の発話スタイルが、 他発話に比べ、変動する場合がある。 音声認識の実現 PCAを用いた発話スタイル変動に ロバストな特徴量抽出法 脳性マヒ・収録データ 不特定話者モデルでの認識&話者適応 89.7 認識率[%] 100 アテトーゼ(不随意運動)が生じる。 ・アテトーゼの生じやすい状況 - 意図的な動作を行う際 - 緊張状態 ・ 収録形式 - 連続発話 (5回連続) 60 80 60 40 20 3.5 0 構音障害者 1 2 3 健常者 Ex) h a n a h a d a 提案手法 音声データ 4 X n ( ) ; 観測音声 S n ( ) ; 安定した音声 H n ( ) ; 発話スタイル成分 7 8 9 10 1回目発話 91.4 89.1 n ;フレーム ;周波数 X n ( ) S n ( ) X n ( ) S n ( ) H n ( ) Mel 90 6 log X n ( ) log S n ( ) モデル作成(学習) 100 95 5 適応回数 2回目以降 FFT 認識率[%] 20 0 <作成例> 80 40 0 構音障害者モデル 85 210使用 150使用 100使用 80使用 60使用 40使用 20使用 不特定話者モデルでの認識は困難、 適応には大量のデータが必要である。 Ex) a k e g a t a 認識 MLLR + MAP推定 認識率 [%] ・大脳基底核の損傷のため、随意筋の 機能障害 91.0 87.6 2回目以降の発話 Log | | 77.1 ∥ 写像 log H n ( ) 1回目発話 ∥ 調音不安定音声 安定した音声 ˆ S VX 75 70 65 PCA DCT 1回目 2回目 3回目 4回目 5回目 (提案手法) →最初の意図的な動作のため 発話スタイルが不安定 空間の低次に安定した音声成分が、 高次には発話スタイル成分が集まる。 実験結果(1回目発話) 25 msec 分析周期 10 msec 音響モデル monophone(54音素) 音声データ 210単語×5回 ・PCAには2~5回目発話の安定 した音声のフィルタバンク 出力 24 次元を用いる。 ・用いた主成分数 11,13,15,17,19 個 90 認識率 [%] ハミング窓長 安定した音声を用いて、PCAで求めた 主軸Vの部分空間に写像する。 80 79.1 85.2 まとめ・今後の方向性 1回目の不安定な発話に対して、 PCAを用いて特徴量を抽出するこ とで、より有効的な特徴量が得ら れる。 70 福祉機器の開発 60 MFCC PCA PCAを用いることで 6.1 %の改善 対象者を増やす 少量データでの声質変換、話者適応
© Copyright 2024 ExpyDoc