asj2007autumn - CS17 Ariki Laboratory, Kobe

1ーQー18
音声特徴量抽出のための音素部分空間統合法の検討
朴 玄信, 滝口 哲也, 有木 康雄 (神戸大)
ICAによる音素部分空間の統
合
研究背景・目的・アプローチ
音素部分空間とは、各音素データに対してPCAを
行うことで得られる、射影行列(基底ベクトル集合)
全音素部分空間 Φ
Φ/a/
Φ/i/
O2
Observed
data
●共分散行列Sの固有値分解
s1
S  PP
T
s2
●分散(固有値)が大きい基底ベクト
ルをPから選び、分空間Vとする
PCA
/i/
/u/
/o/
ICAを用いて、各音素部分空間の統合を行う。
各音素部分空間(射影行列)をつなげた空間へ観測ベクトル
を射影し、射影されたベクトル集合に対してICAを行うこと
で、各音素部分空間を統合する射影行列Φ`が得られる。
y V x
全音素部分空間 Φ
ICAによる特徴量抽出
特徴量抽出フロー
●お互い独立な成分による観測信号生成モデル
x

As
統合した固有音素空間は
●観測信号xの集合だけを用い、Aとsを同時に推定
Speech
signal
大きい空間(音素数*各
部分空間次元)になる。さ
らにPCAを用いて次元圧
●復元行列Wにより復元されるベクトルの独立性(非ガウス性)
縮を図る。
ˆ  Wx
s
xt
を最大化することで、sの近似解が求まる
●本研究では、独立性基準をネゲントロピーとし、不動点アル
ゴリズムを用いて独立成分を推定するFastICAを用いた。
フレーム
処理
FFT
音素/a/
PCA
yta
音素/i/
PCA
yti
音素/o/
PCA
yto
ICA
Mel
filter bank
Yt’
正
規
化
・
+Δ
統合した空間
(射影行列 Φ’)
log
HMM
学習と認識
孤立単語認識
音声信号
サンプリング周波数 12kHz
フレーム処理
フレーム幅 32ms, 窓シフト 8ms
認識対象話者
4名(男2名、女2名)
学習データ
4x2620単語(クリーン)
評価データ
4x1000単語(x6 残響条件)
54個のモノフォンHMM
(3状態、4混合分布)
比較特徴量
次元数
元の次元数
(元の特徴量)
MFCC
16
32 (FBANK)
PCA
16
32 (FBANK)
音素部分空間
16 x 54
32 (FBANK)
16
16 x 54
(音素部分空間射影)
4人平均認識率[%]
実験結果
音声認識タスク
音響モデル
|.|2
音素部分空間
(射影行列 Φ)
実験条件
PCA-PCA
PCA-ICA
統合した空間 Φ’
ICA
射影されたベクトル集合
T
O1
/a/
観測空間 O
●観測ベクトルxを部分空間Vへ射影
Observed
space O
PCA
観測空間上のデータ分布(構造)をうまく表す新たな空
間(正規直交基底ベクトル)を求め、観測信号をこの空
間へ射影することで、情報抽出ができる
Φ/o/
PCA
PCAによる特徴量抽出
Φ/u/
PCA
音声認識システムの実用化には、実環境に頑健である必要
実環境に頑健な音声認識システムのための特徴量抽出
アプローチ (データ依存特徴量抽出)
主成分分析(PCA)により、観測信号から音素情報だけを抽出
独立成分分析(ICA)により、互いに独立で、音素間の関係を表
わす成分を抽出
100
90
80
70
60
50
40
30
20
10
0
MFCC
PCA
PCA-PCA
PCA-ICA
Clean
120ms
300ms
380ms
470ms
600ms
残響時間
考察・まとめ
提案特徴量PCA-ICAは全ての残響条件において、MFCC
より高い認識率を示した。
残響時間が短い場合、PCAやPCA-PCAより性能低下
音素部分空間の最適化が行われなかった。
全ての独立成分を一つのベクトルとし、HMMで学習・評価
予定1 各音素部分空間の最適化
予定2 独立成分のHMMベースモデリング手法の検討
補足
ICAの拡張としての提案手法
生成モデル
従来ICA
提案手法
x  As
y  V x  V As
T
T
復元モデル
従来ICA
提案手法
ˆ  Wx
s
sˆ  W (V x)  Wy
T
生成モデルで、従来ICAのAは、ノイズの影響で変動
提案手法では、AにV転置行列をかけることで、
変動が抑えられ、音素相関情報が付加される
復元モデルでは、観測信号xを音素部分空間(V)へ射影
観測信号のノイズが除去され、各音素との相関情報が取り
出される。そこから独立成分が抽出される。