音声認識のための条件付き確率場に基づく仮説の早期確定 1 はじめに 2

平成 25 年度創成シミュレーション工学専攻修士論文梗概集
計算システム工学分野
音声認識のための条件付き確率場に基づく仮説の早期確定
学籍番号２４４１３５０４氏名伊神陽介
指導教員名李晃伸
1
はじめに
近年，音声認識技術の発展に伴い，音声対話システムや音
声リモコンなど音声インターフェースを用いたシステムが増
えてきた．声を入力インターフェースとすることで，難しい操
作は必要なく簡単に扱うことができるため，音声インタフェー
スは今後ますますの普及が期待される．しかし，音声インタ
フェースにはまだ多くの課題も残っている．そのひとつとし
て，応答遅延の問題が挙げられる．ユーザビリティ（使いやす
さ）の研究においては，応答の遅延がユーザビリティに大き
な影響を及ぼすことが知られている．例えば音声リモコンの
ような単語発話では，素早い反応が必要とされるが，話し終
わってからの反応速度がボタン等に比べ遅いことが多く，音
声入力の快適さを阻害してしまっていると考えられる．
このような応答遅延の問題に対して，音声認識処理のアル
ゴリズムにより解決しようするアプローチがある．その中で，
仮説ネットワーク（木構造化辞書）の構造および認識処理中
のフレームごとの状態尤度を用いて入力の途中で探索を打ち
切り，発話の終了を待たずして仮説を早期確定する手法 [1] が
提案されており，音声インタフェースの素早い応答を実現す
ることでユーザビリティの向上が確認されている．
本研究では，従来法 [1] における仮説の確定判定に識別モデ
ルの一つである条件付き確率場 (Conditional Random Fields;
CRF) を用いる手法を提案する．この手法では，各フレーム
ごとに得られる特徴量を CRF の入力として与え，仮説をそ
のフレームで確定してするかどうかの判定を行う．従来法で
は人手による閾値設定に基づいて判定を行うのに対し，提案
法では統計学習を用いた判定を行うことで，データに基づく
最適な早期確定を行うことが可能となる．また, 複数の有効
な特徴量を用いた判定を行うことでより正確な判定を行うこ
とができると考えられる．
2
条件付き確率場に基づく仮説の早期確定
従来法 [1] では各フレームにおいて得られる単語単位の信頼
度に対する閾値判定によって仮説の確定判定を行うが，提案
法では信頼度などの特徴量を CRF に入力して識別的に判定
を行う．本システムの概略図を図 1 に示す．このシステムは
学習部と認識部の 2 つのパートから構成されている．学習部
では，音声データをデコーダで認識して特徴量を抽出し，正
解ラベルを付加した学習データを CRF によりモデル化する．
認識部では，音声データが入力されるとデコーダがフレーム
同期探索を開始し，各認識フレームにおいて信頼度などの特
徴量を出力する．その特徴量を CRF の入力として仮説の確
定判定を行い，確定ラベルが出力されると，そのフレームに
おける最尤仮説が認識結果として出力される．
学習部
学習データ
音声
言語モデル
デコーダ
正解ラベル
特徴量
特徴量
音響モデル
信頼度
単語辞書
NBノード情報
特徴量
etc.
判定結果
認識データ
音声
CRF
学習
CRF
モデル
出⼒
認識部
単語
図 1: CRF に基づく仮説の早期確定
状態ノード n が属する単語を Wn とすると，NB ノードは
W を一意に定め得るノードであるということができる．
単語認識において，入力 xt1（1, · · · , t フレームの入力）に
対する単語 w の信頼度は式 (1) のように表される．g(n; t) は
各ノードに伝搬してきた Viterbi パスの累積対数尤度，Nbeam
はビーム処理によって残ったすべての NB ノード集合，Nw
は Nbeam のうち単語 w に属する NB ノード集合，α はスムー
ジング係数を表す．
∑
eα·g(n,t)
C(w|xt1 ) =
n∈Nw
∑
eα·g(n,t)
(1)
n∈Nbeam
2.2
条件付き確率場に基づく仮説の確定判定
式 (1) で得られる信頼度などの特徴量を CRF に入力して，
仮説を確定すべきかどうかを確定/非確定ラベルとして出力す
る．出力系列 y = (y1 , . . . , yT ) の入力系列 x = (x1 , . . . , xT )
に対する条件付確率は以下の式 (2) で定義される．
P (y | x, Λ)
[ T {K
∑ ∑ (a) (a)
1
exp
=
λk,d fk,d (xt,d , yt−1 , yt )
Z(x)
t=1 k=1
}]
L ∑
D
∑
(b) (b)
λl,d fl,d (xt,d , yt )
+
(2)
l=1 d=1
ここで，yt ∈ {0, 1} は時刻 t における確定/非確定ラベルを表
し，xt = [xt,1 , . . . , xt,D ]T は時刻 t に観測された特徴量を表
す．また，f は素性関数，λ は素性関数の重み，Z(x) は正規
化項である．素性関数とは入力と出力における特徴を表した
(a)
関数である．本研究では，素性関数として fk,d (xt,d , yt−1 , yt )
2.1 事後確率に基づく単語単位の信頼度計算
特徴量には事後確率に基づいて計算された単語単位の信頼
(b)
度を用いる．探索途中の各フレームにおいて，木構造化辞書と fl,d (xt,d , yt ) の 2 種類の関数を用いる．ただし，k, l はク
(a)
における各ノードの入力始端からの累積尤度を用いて，単語ラス番号を表す．素性 fk,d
(xt,d , yt−1 , yt ) は yt−1 から yt への
単位の信頼度を計算する．信頼度の計算には「木構造化辞書状態遷移に対応する関数であり，次式で定義される．
において単語固有のノード，すなわち “リーフノードまで分
{
1
((yt−1 , yt ) = (k, k ′ ))
岐点がないノード”（以下，Non-Branch Node; NB ノード）」
(a)
fk,d (xt,d , yt−1 , yt ) =
の尤度情報を用いる．木構造化辞書において，HMM のある
0
(otherwise)
平成 25 年度創成シミュレーション工学専攻修士論文梗概集
100
95
Word Accuracy (%)
つまり，ある素性に依存する状態遷移を起こすときのみ 1 を
とり，それ以外は 0 を返すことを意味している．本稿ではこ
れを Bigram と呼び，yt−1 からの依存関係を棄却した場合
(a)
(b)
(fk,d (xt,d , yt )) を Unigram と呼ぶ．ここで，fl,d (xt,d , yt ) は
直前フレームの状態を考慮しない素性関数であり，次式で定
義される．
{
1
(yt = l)
(b)
fl,d (xt,d , yt ) =
0
(otherwise)
計算システム工学分野
3
80
Bigram
Unigram
70
-0.4
-0.35
-0.3
-0.25
-0.2
-0.15
-0.1
Determination Delay (sec)
図 2: 状態遷移情報の有効性の評価
100
Word Accuracy (%)
95
90
Proposed (delay = 2)
Proposed (delay = 3)
Proposed (delay = 4)
85
80
Conventional (rapidcm = 0.8)
Conventional (rapidcm = 0.7)
Conventional (rapidcm = 0.6)
Conventional (rapidcm = 0.5)
75
評価実験
提案した手法の有効性を示すために，Julius-rev4.2.2 を用
いて性能評価実験を行った．音響モデルは，JNAS PTM モ
デル（状態数 2000，混合数 16）を用い，実験データには東
北大・松下単語音声データベース [3] より，駅名や鉄道路線名
の孤立単語発話の音声を用いた．語彙数を 1000 とし，6 話者
各 300 発話を CRF の学習データに，各 40 発話をテストデー
タとした．CRF の特徴量には，最尤仮説の信頼度と第二位
仮説の信頼度を用いた．単語認識の評価においては，各音声
データの末尾無音区間の始点を発話終了時刻と定義し，実際
に各単語の確定が行われた時刻とその発話終了時刻の差の平
均を Determination Delay (sec) とした．この実験での最大
の単語認識精度は 98.7%である．
85
75
パラメータ推定には勾配法を使用する．学習データの正解ラ
ベルは，フレームごとの最尤仮説について末端から遡って，
入力全体の最尤仮説と連続して等しい区間を確定 (1)，それ
以前の区間を非確定 (0) とする．
2.3 オンライン処理における条件付き確率場の適用
CRF による早期確定判定を行うとき，入力系列全体に対
し，最尤な状態系列を Viterbi アルゴリズムにより求める．し
かし，オンライン処理での実装を考えたとき，入力データの
終点が不明であるため，通常の Viterbi アルゴリズムを用い
ることはできない．そこで本研究では，オンライン処理を行
うために Delayed Decision Viterbi アルゴリズム [2] を用い
る．このアルゴリズムでは，状態遷移素性の依存関係を数フ
レーム先までに限定した状態で，確定・非確定状態を決定す
る．これにより，限られた遅延の中で状態遷移を考慮した検
出が可能となり，その中で連続性を考慮した判定が行なえる．
90
70
-0.4
-0.35
-0.3
-0.25
-0.2
-0.15
-0.1
Determination Delay (sec)
図 3: 性能比較
が-0.31 秒，単語認識精度が 95.3%であり，従来法の最適値と
ほぼ同等の性能が得られた．
4
むすび
本稿では CRF を用いて音声認識仮説の早期確定を行なう
手法を提案，検討を行った．全系列を入力としたオフライン
での比較では，状態遷移情報を用いた手法の有効性が確認で
きた．また，Delayed Decision Viterbi アルゴリズムを用い
たオンライン処理の手法については高い認識率を維持した低
3.1 状態遷移情報の有効性
現在のフレーム情報のみを用いて判定を行う Unigram と，遅延な早期確定が実現でき，オンライン処理での有効性が確
1 つ前のフレーム情報を考慮して判定を行う Bigram の比較認された．なお，本システムは仮説の信頼度情報のみでなく
実験を行った．本実験では，入力に全系列を与えたオフライデコーダの内部情報など複数の特徴量を判定に用いることで
ンでの判定において，重みを変化させることで各手法の比較より正確な確定判定を行うことが可能となるが，本研究にお
を行った．結果を図 2 に示す．Bigram では Unigram と比較いては辞書やデコーダの内部情報に対する依存度が低い情報
して高い認識率を維持した確定判定が行われていることから，のみを用いて統計的に判定を行うことで従来法との差異を検
証した．今後の課題として，判定に有効な特徴量についての
状態遷移情報を用いた確定判定の有効性が確認できた．
調査などが挙げられる．
3.2 オンライン処理での性能比較
参考文献
Delayed Decision Viterbi を組み入れた提案法と，従来法
[1] 大野博之他，” 音声認識における発話終了前確定のアルゴリズ
である第一位仮説の信頼度と持続フレーム数の閾値を定める
ムの評価および改善”，日本音響学会春季研究発表会講演論文集,
手法の比較評価実験を行なった．なお，素性は Bigram を用
pp.67-―68, 2010.
いた．結果を図 3 に示す．図中の delay は Delayed Decision [2] H. Zen, et. al., A Viterbi algorithm for a trajectory model
derived from HMM with explicit relationship between static
Viterbi において何フレーム先まで依存関係を考慮し遅延を許
and dynamic features. In Proc. of ICASSP, pp. 837–840,
すかを示している．また rapidcm は従来法における信頼度の
2004.
閾値 (0.5–0.8) を示し，各点は閾値を越えた後の持続フレーム [3] 牧野正三他，“東北大-松下単語音声データベース”，日本音響学
会誌，48 巻 12 号，pp.899–905，1992.
数 (2 フレーム刻み 1–15 フレーム) を変化させた結果である．
Delay 幅が 2 フレーム (20ms) のとき，Determination Delay

Download Report