話者正規化に基づく 構音障害者の音声認識

メタモデルと音響モデルの
統合による構音障害者の音声認識
神戸大学工学研究科
松政 宏典,滝口 哲也,有木 康雄
追手門学院大学経済学部
李 義昭
神戸大学発達科学部
中林 稔堯
構音障害者とは?
母親
明るさを調整する
NHK教育
<平常時>


<発話時>
構音 [調音] が困難である。
緊張時 [意図的な動作時] に、
不随意運動が現れる場合がある。
研究背景
福祉分野での情報技術の重要性




音声合成
手話認識
文字認識
音声認識の多様化



子供、高齢者
車内、会議室
研究目的

言語障害者は3万4000人
(平成19年版 障害者白書)
ユニバーサルデザイン音声認識の実現!

障害者(聴覚・言語障害)を対象とした音声認識
が少ない。

音声に頼るしかない場合は?
音声認識への期待

職域開発


音声認識ツールの使用による、
障害者の雇用機会増加への期待!
コミュニケーションの広がり


音声合成・STT (Speech To Text)による相互理解
講演の補助等への活用
関連研究

重度障害者のための音声認識電動車いすの開発
(産総研

07’音響学会)
喉頭摘出者データを用いた人工音声変換システムの評価
(奈良先端大 07’ 電子情報通信学会 WIT)
アプローチ
構音障害者において、最初の発話スタイルが、
他発話に比べ、変動する場合がある。
PCAを用いた発話スタイル変動に
ロバストな特徴量抽出法
Metamodel との統合
100
95
認識率[%]

89.1
90
91.4
91.0
87.6
85
80
77.1
75
70
65
1回目
2回目
3回目
4回目
5回目
Metamodel

Confusion Matrix を音声認識のモデルに組み込むことに
より、音の変化(削除・挿入・置換)を確率的に表現可能

各状態に離散出力確率・遷移確率(離散型HMM)

入力特徴量は音素認識列

学習は Baum Welch アルゴリズムで行う
削除
各音素に Metamodel を作成
入
力
A
B
C
挿入
置換
挿入
出
力
Metamodel
モデル[a]の例
削除
入力 [i] の場合
A
B
C
挿入
置換
挿入
[i]
A
B
C
置換
出力分布例
Phoneme /
State
A
B
C
a
0.1
0.7
0.2
i
0.4
0.1
0.3
u
0.3
0.05
0.3
e
0.1
0.05
0.1
o
0.1
0.1
0.1
入力 [a u] の場合
A
[a]
[u]
B
C
正解
(置換)
挿入
Metamodel
A
B
w:単語
p:音素
P r(w | A) 
 P r(w |
C
A :信号
p *:音素認識結果
p) P r(p | A)
p
p*  arg m ax P r(p | A)
pP
 arg m ax P r(A | p ) P r(p )
pP
P r(w | A)  P r(w | p*) P r(p* | A)
w'  arg max Pr( w | p*) Pr( p* | A)
wW
 arg max Pr( w | p*)
wW
Metamodel
Metamodel認識
入力音声
ある単語(例;she)を構成する
音素列に対応するMetamodel列
音素認識
she
ch
sh
[ch]
[er]
er
iy
ax
hh
hh
[hh]
[ax]
提案手法-Metamodelとの統合-
<特徴量-数値>
1.138
1.283
<PCA method>
-1.024 -1.424
-0.123
0.432
1.175
0.187
-0.854
2回目,-0.002
3回目 …
・・・・・・
(安定音声)
PCA
t
ˆ
S V X
学習
1回目発話
(不安定音声)
Acoustic Model [音素HMM]
単語認識
<Metamodel>
<特徴量-文字>
o k a sh r aN ii
+
音素認識
音素例[あかい-a k a i]
学習
Metamodel
音の変化(置換・挿入・削除)を考慮
Training
Meta 認識
New
Confidence measure
(Proposed method)
Test
提案手法-Metamodelとの統合-
<PCA method>
PCA
2回目, 3回目 …
(安定音声)
t
ˆ
S V X
学習
1回目発話
(不安定音声)
Acoustic model [音素HMM]
単語認識
<Metamodel>
+
音素認識
音素例[あかい-a k a i]
学習
Metamodel
Meta 認識
New
Confidence measure
(Proposed method)
Training
Test
PCAによる発話不安定成分の抑圧(1)
X n ( ) ; 観測音声
S n ( ) ; 安定した音声
H n ( ) ; 発話不安定成分
2回目以降
X n ( )  S n ( )
1回目発話
X n ( ) 
n ;フレーム番号
;周波数
S n ( )  H n ( )
抑圧
log X n () 
log Sn ( )  log H n ( )
PCAによる発話不安定成分の抑圧(2)
*空間の低次に安定した音声成分が集まる。
2回目、3回目・・・発話
•1回目に比べ安定している
•認識精度が安定
*固有ベクトル集合を主軸(変換行列)Vと
する
PCA
ˆ
S  VX
…
…

×
1回目発話
•緊張のために不安定
•認識に悪影響
提案手法-Metamodelとの統合-
<PCA method>
PCA
2回目, 3回目 …
(安定音声)
t
ˆ
S V X
学習
1回目発話
(不安定音声)
Acoustic model [音素HMM]
単語認識
<Metamodel>
+
音素認識
音素例[あかい-a k a i]
学習
Metamodel
Meta 認識
New
Confidence measure
(Proposed method)
Training
Test
統合例
Aco Japan
Aco Italy
Aco  America
100
85
…
単
語
認
識
…
…
Test data
音
響
モ
デ
ル
Aco  France
30
1
 = weight
N-Best
87
MetaAco Italy
MetaAco  America 80
77
MetaAco Turkey
+
MetaAco  France
Meta  Turkey 100
Meta  Italy
Meta  America
80
…
Meta  France
90
30
…

…
M
e
t
a
認
識
Correct!
…
Italy
メ
タ
モ
デ
ル
80
30
実験概要

音響モデルとメタモデルの統合による音声認識
<実験条件>
ハミング窓長
25 msec
分析周期
10 msec
音響モデル
構音障害者音声データ



monophone
210単語×5回 (1050発話)
PCAには2~5回目発話の安定した音声のフィルタバンク
出力 24 次元を用いる。
用いた主成分数・・・15個 [24次元から15次元へ]
3Best単語に対して統合
従来法との比較 [α=0.15]
95
認識率
[%]
95
89.0
90
89.1
85
85.2
85
90
90.5
80
80
79.1
75
75
70
MFCC
PCA
Meta-PCA
1回目のみ [test:210単語]
PCA
Meta-PCA
5回平均 [test:1050単語]
まとめ・今後の方向性


Metamodel との統合によって、音の変化への
考慮が可能となった。
今後の方向性
明瞭度の向上 [高域パワーの強調など]
話者適応 他者の構音障害者モデル vs 健常者不特定話者モデル
音素体系作り,,,etc
単語内SPの考慮
例;ひょうほん
音声認識の利用例;環境制御装置

従来製品との違い



多くは認識が困難、コマンド限定で適応
コマンドへの自由度が高い、操作を個人に特化可能
環境制御装置「みてら」に音声認識「julian」
を組み込む。
認識
操作
システムの流れ
CD/○○テレビ
音量アップ/ 電源etc
音声認識
現在の状態
音声認識結果
(リクエスト)
家電操作
環境制御装置
システム動作映像
発話可能コマンド
対話画面(指示&認識)
ご清聴ありがとうございました。
…END
補助資料
1回目発話[α= 0~0.4]
Recognition rate[%]
95
90
85
MFCC
80
PCA
Meta-PCA
75
0
0.05
0.1
0.15
0.2
Weight
0.25
0.3
0.35
0.4
PCAとMFCCの比較(1回目発話)
85.2
認識率[%]
86
82
78
83.8
83.3
81.9
80.0
79.1
78.6
78.1
77.1
76.2
74
MFCC
PCA
70
11次元
13次元
15次元
17次元
19次元
構音障害者音声
Aさん(男性) Bさん(男性)
母親
アルミニウム
Cさん(女性)
アルミニウム(a r u m i n i u m u)
構
健
音
常
障
者
害
者
Metamodel検証実験

提案手法(1)を用いて音素認識実験
210単語
1回目
2回目
3回目
4回目
5回目
認識率
69.6
71.95
73.38
72.84
71.11
精度
36.03
43.24
47.59
46.69
44.31
精度の低下が大きい。
音の変化 [置換・挿入・削除]が生じている
と考えられる。
Baum Welch アルゴリズム

パラメータ推定

出力確率
状態iから状態jへ遷 移する回数の期待値
aij 
状態iから遷移する回 数の期待値

遷移確率
状態jにとどまりシン ボルv kを観測する回数の期待 値
bij 
状態jにとどまる回数 の期待値
変換行列Ⅴ
非
音
声


音
非
声
音
声
音声は全て使用
固有ベクトルが変換行列V
<DCT>
ci 
2 N
 i

 m j cos ( j  0.5) 
N j 1
N

<PCA>
分散の最大空間から選択
低次-------高次
音韻性-------話者性
モデル適応結果(MLLR+MAP推定)
70
認識率 [%]
60
50
210使用
40
150使用
100使用
30
80使用
20
60使用
10
40使用
0
20使用
0
1
2
3
4
5
6
7
適応回数
少量データでの適応が困難
8
9
10
関連研究-音声特徴量
windowing
STDFT
メル軸上で
三角窓の適用
|S|’
IDFT
log |S|’
MFCC
Amplitude
音波形
DFT
係数
|S|
Log
Frequency

MFCC (Mel Frequency Cepstrum Coefficient)にて調音フィルタの
特性を音声特徴量として取り出す
アテトーゼ型脳性マヒとは

大脳基底核の損傷のため、随意筋の機能障害
アテトーゼ(不随意運動)が生じる。

アテトーゼの生じやすい状況
 意図的な動作を行う際
 緊張状態

収録データ (1名)
 連続発話
Confusion Matrix [Pr(Pout|Pin)]
入
力
音
素
認識音素
環境制御装置

株式会社日本シュータ




「NSシーケアパイロット 」
特定話者の単語モデルで適応を行う。
Windows98のため販売終了
旭化成


「ライフタクト」
頚椎損傷・リウマチ・筋ジストロフィーなど
手足に障害を持つ方の自立した生活を支援