発話位置依存ケプストラム平均正規化に基づく 遠隔発話話者認識の評価

発話位置依存ケプストラム平均正規化に基づく
遠隔発話話者認識の評価 ∗
◎王 龍標
北岡 教英
中川 聖一 (豊橋技科大)
1 はじめに
1.85 m
遠隔環境において,伝送歪みは話者認識の性能を大きく
劣化させる。文献 [1][2] で,発話位置依存ケプストラム平
均正規化(Cepstral Mean Normalization : CMN)に基
づく遠隔発話の話者認識手法を提案し,シミュレーション
環境において東北大・松下単語データベースにより話者認
識実験を行った。本稿では,シミュレーション環境と実環
境において東北大・松下孤立単語データベース及び NTT
データベースによる話者認識の評価を行った。遠隔環境下
における話者認識性能への影響と各手法の有効性を実験的
に分析した。提案手法は,環境の変化と評価データの違い
に対して頑健な認識結果が得られた。
1.0 m
1.15 m
表 1. ケプストラムユークリッドの距離
話者 1 と話者 2 (母音/a/, 近接)
話者 1 と話者 2 (母音/i/, 近接)
母音/a/と母音/i/ (母音, 話者 1)
母音/a/と母音/i/ (母音, 話者 2)
区域 5 と区域 10 (母音/a/, 話者 1)
区域 5 と区域 10 (母音/i/, 話者 1)
区域 5 と区域 10 (母音/a/, 話者 2)
区域 5 と区域 10 (母音/i/, 話者 2)
0.393
0.604
0.989
0.924
0.182
0.259
0.212
0.322
一般的な CMN[3] には次の欠点がある:(1) 実時間処理
ができない。(2) 認識する発話が短い場合,ケプストラム
平均が正確に推定できない。(3) ケプストラム平均にも話
者性が多く含まれるが,一般的な CMN では,話者の特徴
が除去され,話者認識性能が劣化する。
これらの問題を解決するために,文献 [1] [2] で,位置依
存 CMN (Position-Dependent CMN:PDCMN) による遠
隔発話の話者認識法を提案した。PDCMN では,乗算性雑
音はケプストラム領域で,ある位置 i のケプストラム Ct
は,
¯position−i − C
¯train ),
C˜t = Ct − (C
(t = 0, ..., T ) (1)
¯position−i と C
¯train はそれ
として補正される。ここで,C
ぞれ位置 i で発声された発話のケプストラムの平均と話者
モデルトレーニング音声の複数話者全体のケプストラムの
平均である。本稿では,部屋は図 1 のように 12(3 × 4)の
区域に分割した。
3 遠隔環境下の話者認識実験
3.1 実験条件
実験は 3.45m × 3m × 2.6m の部屋で行った。特に障害
物のない環境(シミュレーション環境)と様々な障害物を
配置して実環境を再現した環境(実環境)を用意した。シ
ミュレーション環境では,部屋の中で,マイクロフォンと
音源以外に何もない。実環境では,白板やテーブルや椅子
やテレビなどを置き,ゼミ室を模した。図 1 の各区域の中
心位置からマイクロフォンまでの伝達特性(位置依存の補
正パラメータ)をスピーカーから再生した音声のケプスト
1.15 m
microphone array
1
2
3
0.6 m
4
5
6
0.6 m
7
8
9
0.6 m
10
11
12
1.0 m
0.6 m
0.6 m
4.45 m
2 位置依存ケプストラム平均正規化
遠隔環境下で,発声は空間や話者などの特性により影響
され,話者認識の性能が急激に悪くなる。異なる話者、母
音と位置間のケプストラムユークリッド距離の比較を表 1
に示す。母音/a/と/i/は図 1 のような実環境で収録した。
この結果より,位置の違いは母音間や話者間の差に十分影
響しうること,特に話者認識影響のあることがわかる。
0.3 m
0.2 m
3.45 m
0.6 m
3.0 m
図 1. 部屋の構造図
ラム平均を求めることにより事前に計測しておいた。すべ
ての発話は各区域の中心位置においてスピーカーから再生
することにより各位置において発声した発話をシミュレー
トした。実験条件の詳細は文献 [1] を参照されたい。テス
トデータは以下の 2 種類を使用した。
— 東北大・松下単語データベース —
男性 20 話者の発話を用いた。各単語の平均時間は約 0.6
秒である。発話内容は各話者 200 個の孤立単語であり,最
初の 100 単語はテストデータとして使用し,残りの 100 単
¯position−i の推定及び話者モデルの
語は式 (1) における C
学習/適応に使用した。HMM による話者認識法の特徴量
は 32 次元 MFCC,Δ,ΔΔ,Δ pow,ΔΔ pow であり,
他の分析条件と話者モデルは文献 [1] と同じである。
— NTT 文データベース —
男性 22 名が約十ヶ月にわたる 5 時期に,普通速度で発声
した文データを利用した。各文の平均時間は約 4 秒である。
¯position−i の推定及び話者モデルの
最初の 1 時期の 5 文は C
学習/適応に使用した。その他の 4 時期の各 5 文はテスト
データとして利用した。サンプリング周波数は 16 kHz,フ
レーム長は 25 ms,フレーム周期は 10 ms である。GMM
の混合数は 32 である。HMM に基づく手法では,116 個
の 4 状態 left-to-right 音節 HMM を使用した。GMM に
よる話者認識法の特徴パラメータとして,Δ対数パワーと
12 次元の MFCC,およびそれらの 1 次回帰係数を用いた
(計 25 次元)。HMM による話者認識法の特徴量は 12 次元
MFCC とそれらのΔ,ΔΔ係数および対数パワーのΔ,Δ
Δ係数から構成される計 38 次元である。
3.2 話者モデル
特定話者 GMM を用いた方法と話者適応化 HMM を用
いた方法を行った。GMM は,近接マイクで収録した各話
者の音声単語データベースの 100 単語 (約 60 秒) あるいは
NTT データベースの 5 文 (約 20 秒) を用いて ML 学習に
より作成した。また HMM は,不特定話者モデルを上と同
じデータを用いて MAP 適応 [4] で適応化した。
CMN な し ,一 般 的 な CMN,PICMN と PDCMN
を 比 較 し た 。位 置 独 立 CMN (Position Independent
CMN:PICMN) では,すべての 12 区域の補正パラメータ
を平均して算出し,位置に関わらず同一の補正パラメータ
を用いてケプストラム係数を補正した。なお,PDCMN
と PICMN では,20 人に対してそれぞれ共通な補正値
(∆Ci , ∆C )を用いた。
∗Evaluation of distant speaker recognition based on Position-Dependent CMN
By Longbiao WANG, Norihide KITAOKA and Seiichi NAKAGAWA (Toyohashi University of Technology)
表 2. GMM による話者認識エラー率 (%)
区域
1
2
3
4
5
6
7
8
9
10
11
12
平均
単語データベース(障害物なし)
CMN 発声毎 PI − PD −
なし
CMN
CMN CMN
2.90
7.93
2.29
1.83
2.13
7.16
0.91
0.76
2.74
8.23
1.83
1.22
6.40
11.74
3.20
2.90
6.25
13.72
4.12
2.44
7.16
13.87
3.66
3.51
9.91
13.26
4.73
2.13
5.49
15.09
4.12
4.27
9.60
16.16
4.27
3.05
12.80
15.09
4.73
4.42
10.98
15.09
6.55
3.51
18.90
16.77
8.84
4.27
7.94
13.01
4.10
2.86
単語データベース(障害物あり)
CMN 発声毎 PI − PD −
なし
CMN
CMN CMN
6.10
12.04
4.42
2.74
5.95
7.47
1.98
1.83
7.62
9.30
2.90
1.83
11.74
14.02
5.03
4.73
9.15
10.98
3.51
3.05
8.23
12.80
4.73
2.74
21.19
12.96
9.45
3.05
28.05
18.75
12.50
7.01
10.06
11.89
3.51
2.29
31.40
17.38
10.52
6.86
21.04
14.79
6.71
4.12
31.71
16.31
13.57
5.49
16.02
13.22
6.57
3.81
NTT 文データベース(障害物あり)
CMN 発声毎 PI −
PD −
なし
CMN
CMN
CMN
12.05
4.55
6.14
5.23
5.91
5.00
5.68
4.55
9.09
5.45
5.68
5.00
13.18
8.18
8.64
5.68
7.95
8.86
5.68
5.68
9.77
9.32
6.82
5.91
17.73
6.59
10.68
5.68
17.05
7.95
10.91
7.73
12.50
13.86
12.27
8.18
27.73
15.23
16.82
8.64
27.05
16.36
16.36
8.86
27.50
11.82
13.41
6.82
15.63
9.43
9.92
6.50
表 3. 異なる発話数 CMN による話者認識エラー率(GMM,単語データベース: %)
障害物なし (シミュレーション環境)
障害物あり (実環境)
CMN なし
7.94
16.02
1 発話
13.01
13.22
2 発話
9.18
10.77
3 発話
8.71
9.50
5 発話
8.59
8.73
7 発話
6.62
7.65
10 発話
8.17
8.74
20 発話
5.96
5.73
表 4. GMM と HMM の組み合わせ手法による話者認識エラー率 (%)
テスト環境 1: 単語データベース(シミュレーション環境)
; テスト環境 2: NTT 文データベース(実環境)
テスト
GMM
HMM
組合せ話者認識手法
環境
CMN 発声毎 PI − PD − CMN 発声毎 PI − PD − CMN 発声毎 PI − PD −
なし
CMN
CMN CMN
なし
CMN
CMN CMN
なし
CMN
CMN CMN
1
7.94
13.01
4.10
2.86
6.07
9.36
4.04
3.30
3.98
6.21
2.06
1.18
2
15.63
9.43
9.92
6.50
9.26
7.60
8.45
4.91
8.86
4.87
5.85
3.01
3.3 実験結果
3.3.2 組み合わせた手法による話者認識結果
単語データベースによる話者認識では,各発話の平均時
間は約 0.6 秒と短いため一発話のみを用いて識別するのは
難しい。従って,話者を識別するために 3 発話(約 1.8 秒)
の尤度を加算して,話者認識実験を行った。NTT 文データ
ベースでは,一文(約 4 秒)の音声を用いて,話者認識実
験を行った。
文献 [2] に提案した GMM と音節 HMM を組み合わせ
た話者認識手法を用いて遠隔発話の話者認識も評価した。
GMM,HMM,および組み合わせた手法の結果を表 4 に
示す。表 4 により,テスト環境 1 と 2 いずれも,組合せ話
者認識手法は GMM あるいは HMM よりも非常に良くなっ
た。組み合わせた手法と PDCMN を統合すると,認識性
能をさらに大幅に改善した。
3.3.1 GMM による話者認識結果
GMM による話者認識結果を表 2 に示す。CMN なしで
は,実環境とシミュレーション環境において認識結果の差が
非常に大きい。発声毎 CMN では,この差が小さくなった
が,話者の特徴が除去されてしまうため,シミュレーション
環境 (単語データベース) においてほぼ全ての区域で CMN
なしよりも悪化した。実環境 (単語データベース) では,特
に遠い区域からの伝達特性が補正されて,話者の特徴の除
去の影響が相殺され,CMN なしより良い性能が得られた。
NTT データベース (実環境) で,約 4 秒の音声を使って (ケ
プストラム平均が精確に求められる) ほぼ全ての区域で一
般的な CMN は CMN なしより改善ができた。提案手法の
PDCMN では,区域毎の伝達特性差も補正され,他の方法
より区域毎の認識率の差が小さくなり,非常に良い結果と
なった。
一般的な発声毎 CMN における異なる発話長による CMN
の話者認識性能への影響を話者認識に用いる単語数を変え
た実験で調べた結果を表 3 に示す。シミュレーション環境
では,5 発話以内の CMN では CMN なしより結果が悪い。
実環境でも,空間の伝達特性の補正能力は同等のため,シ
ミュレーション環境の結果と近い結果が得られた。両方と
も,発話が長いほど結果が良いが,20 発話(約 12 秒)を
用いても通常の CMN は提案手法よりも非常に悪い結果と
なった。
4 まとめ
本稿では,位置依存ケプストラム平均正規化に基づく頑
健な遠隔発話の話者認識手法を提案した。シミュレーショ
ン環境と実環境において東北大・松下孤立単語データベー
ス及び NTT データベースによる話者認識の評価を行った。
提案手法は,環境の変化と評価データの違いに対して頑健
な認識結果が得られた。
参 考 文 献
[1] 王 龍標, 北岡 教英, 中川 聖一,“発話位置依存
ケプストラム平均正規化に基づく GMM と話者適応
化音節 HMM の併用による遠隔発話の話者認識”,日
本音響学会講論集, 1-5-7, pp. 13-14, Mar. 2005.
[2] L. Wang, N. Kitaoka and S. Nakagawa, “Robust
distant speech recognition based on position dependent CMN using a novel multiple microphone processing technique,” Proc. of EUROSPEECH-2005,
pp. 2661-2664, 2005.
[3] S. Furui, “Cepstral analysis technique for automatic speaker verification”,J. Acoust. Soc. Amer.,
Vol. 55, pp. 1204–1312, June, 1974.
[4] 中川 聖一,越川 忠, “最大事後確率推定法を用い
た連続出力分布型 HMM の適応化”,日本音響学会誌,
Vol.49, No.10, pp.721-728,1993.