中間発表 2006年 7月

ワードグラフを考慮したシステム要求検出
神戸大学大学院 自然科学研究科
佐古淳,山形知行,滝口哲也,有木康雄
日本音響学会2007年秋期研究発表会
背景・目的

音声による機器の操作
– ロボット・カーナビなど

雑談に反応してシステムが誤動作
– スイッチを用いた音声入力制御
– 使いにくい・音声を使うメリットが減少
スイッチレスで
自動的にシステム要求と雑談を判別
目的

システム要求と雑談の判別
「どうやって
「こっちに、
動かすの?」
えーと、来て」
「こっちに来て」
って言うと動くよ
……
了解
従来の発表

Boostingによるシステム要求検出
– 音響学会[2007’03]
音声認識結果
認識誤りを含む
えーこっちに来て、とか
単純に認識結果を用いるのではなく
投票
音声認識とシステム要求検出の統合を行う
システム要求 or 雑談
Boostingにより投票重みを学習
提案手法

音声認識とシステム要求検出の統合
音声認識
Wˆ  arg max P(W | O)  arg max P(W ) P(O | W )
W
提案手法
sˆ,Wˆ  arg max P( s,W | O)
W
要求依存の
言語モデル
O  観測信号
W  単語列
s  要求
s ,W
 arg max P( s) P(W | s) P(O | W , s)
手法1
s ,W
 arg max P(W ) P(O | W ) P( s | W , O)
s ,W
手法2
認識仮説から
の要求推定
手法1

要求依存の言語モデルを利用
sˆ,Wˆ  arg max P(s) P(W | s) P(O | W , s)
s ,W


システム要求依存のtrigram
雑談依存のtrigram
尤度の高い方を選択
提案手法:手法2

認識仮説からの要求推定
sˆ,Wˆ  arg max P(W ) P(O | W ) P(s | W , O)
s ,W


仮説単語列から要求推定
本研究では言語情報のみ利用
Boostingのスコアをsigmoid関数により疑似確率化
sˆ,Wˆ  arg max P(W ) P(O | W )
s ,W
1
1  exp(w1 t  t f t (W , O)  w0 )
提案手法:手法2

認識仮説からの要求推定
sˆ,Wˆ  arg max P(W ) P(O | W ) P(s | W , O)
s ,W
ワードグラフ
こっちに
来て
して
Boosting
Score
2.35
確率
要求:0.9
雑談:0.1
ー0.35
要求:0.4
雑談:0.6
音声認識尤度と確率を統合
ワードグラフ上での探索
sˆ,Wˆ  arg max P(W ) P(O | W ) P(s | W , O)
s ,W
– 単語列の確率
– 要求推定の確率
総合的に評価
計算コスト大
ワードグラフ上での探索に限定
実験
音声認識結果に対する要求検出
コーパス

収録環境
– 2人とロボットが存在
– 人同士で会話しながら任意にシステム要求
– マイクは発話者2人の胸元に設置
– コマンドは8種
– 異なり単語数:約700語

規模
– 1時間程度(実質発話時間は20分程度)
– 切り出し後にラベル付与
– 330発話(うち49発話がシステム要求)
音声認識結果の判別

実験条件
– 音響モデル: CSJベースにMLLR+MAP適応
– 言語モデル: 書き起こしから学習


未知語なし(語彙数700語)
話者Aの認識に、話者Bのモデルを利用
– 認識結果


単語正解精度:42.1%
キーワードF値:0.76 (Boostingで選択された単語)
音声認識結果の判別

音響分析条件・HMM
サンプリング周波数
特徴パラメータ
フレーム長
フレーム周期
窓タイプ
タイプ
H 混合数
M
母音(V)
M
子音+母音(CV)
音
響
分
析
条
件
16KHz
MFCC(25次元)
20ms
10ms
ハミング窓
244音節
32混合
5状態3ループ
7状態5ループ
比較手法

従来発表内容 [音響学会’07]
– 認識結果を用いたBoostingによる識別

認識結果の単語信頼度を用いた手法
– 受理可能なコマンドのみでtrigram構築
– 認識結果の単語信頼度の平均を閾値で識別
 0 雑談
1 N
CM (wi )  threshold 

N i 1
 0 システム要求
実験結果
10 folds cross validation



識別能力は高くない
Precision
システム要求と雑談が
混ざると雑談と判定
1.00
Recall

構築コストが低い
F-Measure

コマンド+否定語に弱い
– ×こっちに来てとか
0.95
0.90
0.85

0.80

0.75
認識結果を用いた
Boostingと同等
認識誤りによるキー
ワード欠落が改善
0.70
0.65
手法1
手法2
Boosting
要求依存LM 仮説からの要求識別
Confidence
まとめ


音声認識とシステム要求検出の統合
提案手法により性能改善
– 認識誤りによるキーワード欠落が改善
– F値においてBoosting (0.95)  (0.96)

今後の課題
– 音響からの推定との統合
– 柔軟な表現の受理
従来手法

キーワード・スポッティング
ネットワーク文法
ガベージ・モデル

問題点
– 柔軟な表現の受理が困難
 単語ベース
– ネットワークの構築コスト
 自動的に学習
– ガベージ・モデルの構築方法
単語ベースでの要求検出

単語ベースで受理(検出)
– 「えー こっちに 来て ちょうだい」
– 「こっちに えーと 来て」

問題点
– 「こっちに 来て って言うと」
– わき出しに弱い
提案手法

単語ベースで受理+拒否
– えー こっちに 来て ちょうだい
– こっちに えーと 来て
– こっちに 来て って言うと
投票
システム要求
雑談
単語による要求・雑談への重み付き投票で判別
– どの単語を用いるか - 投票の重みは?
ブースティングにより学習
ブースティング

ブースティングによるテキスト分類
– Decision Stumps [Schapire,98]
単語ベースの単純・高速な手法
単語Aがある
true
単語Aがない
false
システム要求
雑談
注目する単語と投票重みをコーパスから学習
コーパス

収録環境
– 2人とロボットが存在
– 人同士で会話しながら任意にシステム要求
– マイクは発話者2人の胸元に設置
– コマンドは8種
– 異なり単語数:約700語

規模
– 1時間程度(実質発話時間は20分程度)
– 切り出し後にラベル付与
– 330発話(うち49発話がシステム要求)
コーパス

具体例
ラベル
-1
-1
+1
-1
+1
-1
+1
+1:システム要求
-1:雑談
発話内容
こっち 、 こっち で よかっ た っけ
こっち に 来 て 、 とか 言う と
こっち に 来 て ください
ふふふ 来 た
こっち おいでー
あと 写真 を 撮っ て が ある なあ
写真 を 撮っ て
実験
音声認識結果に対する要求検出
音声認識結果の判別

音響分析条件・HMM
サンプリング周波数
特徴パラメータ
フレーム長
フレーム周期
窓タイプ
タイプ
H 混合数
M
母音(V)
M
子音+母音(CV)
音
響
分
析
条
件
16KHz
MFCC(25次元)
20ms
10ms
ハミング窓
244音節
32混合
5状態3ループ
7状態5ループ
音声認識結果の判別

実験条件
– 音響モデル: CSJベースにMLLR+MAP適応
– 言語モデル: 書き起こしから学習


未知語なし(語彙数700語)
話者Aの認識に、話者Bのモデルを利用
– 認識結果


単語正解精度:42.1%
キーワードF値:0.76
音声認識結果の判別

AdaBoostにより選択された素性語例
素性語例(キーワード)
システム
要
求
ください 写真 来て
おいで 場所 止まっ
雑
で たら
とか の
談
ん って
あー よ
素性語数:約40語
/700語
向こう
が ない
ちょっと
音声認識結果の判別

実験結果
– Leave-one-out 法により実験
– 結果はF値が最大のケース
適合率
再現率
F値
unigram
0.92
0.92
0.92
bi-gram
0.94
0.92
0.93
高精度に判別可能
従来手法

キーワード・スポッティング
ネットワーク文法
ガベージ・モデル


問題点
問題点
–
– 柔軟な表現の受理が困難
柔軟な表現の受理が困難
– ネットワーク文法の構築コスト
– ネットワーク文法の構築コスト
– ガベージ・モデルの構築方法
– ガベージ・モデルの構築方法
キーワード・フィルタリング

ブースティングによる学習の結果……
システム要求素性
雑談素性
約20語
約20語
ガベージ・モデル
語彙全体
約660語
– 未知語発話時……



ガベージ単語と認識
:判別に影響無し
雑談素性と認識
:問題低
システム要求素性と認識:問題あり
未知語を含む要求検出
– 辞書から単語を削除(キーワード以外)
要求検出F値
1
0.9
0.8
0.7
F 0.6
値 0.5
0.4
0.3
0.2
未知語がある場合でも頑健に動作
0.1
0
10% 20%
30%
40%
50%
辞書未知語率
まとめ


システム要求と雑談の判別
音声認識結果(言語情報)を利用
– 単語認識精度:42.1%において
– 適合率:0.94 再現率:0.92 F値:0.93
– 未知語に対しても頑健に動作

今後の課題
– タスクの規模・難易度の向上
– 言語のみで判別不能なケースへの対応