スライド 1

音声認識との統合によるシステム要求検出
佐古淳,山形知行,滝口哲也,有木康雄(神戸大)
目的

音声による機器の操作
– ロボット・カーナビなど

雑談に反応してシステムが誤動作
– スイッチを用いた音声入力制御
– 使いにくい・音声を使うメリットが減少
「こっちに、
えーと、来て」
「こっちに来て」
って言うと動くよ
了解
スイッチレスで
自動的にシステム要求と雑談を判別
従来手法
音声対話認識率や状況の違いによる音声対話の言語的・音響的特徴の比較 [伊藤ら,2005]
発話検証用モデルを用いた音声操作プロジェクタ [石塚ら,1998]
AdaBoostを用いたシステムへの問い合わせと雑談の判別 [佐古ら,2006]
弱識別器
音声認識結果からのシステム要求判別
音声認識結果
えーこっちに来て、とか
投票
システム要求 or 雑談
ブースティングにより投票重みを学習
こっち
来て
写真
ください
とか
なあ
えー
まあ
システム
がある 
要求
がある 
問題点
音声認識誤りの影響を受けて要求と雑談の判別を誤る
システム要求検出を音声認識に統合
認識仮説まで用いることにより認識誤りの影響を軽減
雑談
提案手法
音声認識との統合
言語
モデル
音響
モデル
音声認識
ˆ
W  arg max P(W | O)  arg max P(W ) P(O | W )
W
W
提案手法
O  観測信号
W  単語列
要求依存の
言語モデル
ˆs,Wˆ  arg max P( s,W | O)
s  要求
s ,W
 arg max P( s) P(W | s) P(O | W , s)
手法1
s ,W
 arg max P(W ) P(O | W ) P( s | W , O)
手法2(提案手法)
s ,W
認識仮説から
の要求推定
要求推定モデル
ˆs,Wˆ  arg max P(W ) P(O | W ) P(s | W , O)
s ,W
仮説単語列から識別的に sを推定
ブースティングを利用
ブースティングの出力:
f (W , O) 
1
||  ||1
t

h
(
W
,
O
)
 tt
t 1
ht (W , O) : 弱識別器
 t : 投票重み
ブースティングの出力は確率ではない(値域も0~1でない)
sigmoid関数を用いて疑似確率化
疑似確率
ワードグラフ
来て
Boosting
Score
2.35
こっちに
して
-0.35
1
確率
要求: 0.9
雑談: 0.1
0.5
1
sigm oid( x) 
1  exp(w1 x  w0 )
要求: 0.4
雑談: 0.6
0
x
(boosting score)
実験
音声認識条件
コーパス


収録環境
– 2人とロボットが存在
– 人同士で会話しながら任意にシステム要求
– マイクは発話者2人の胸元に設置
– コマンドは8種
– 異なり単語数:約700語
規模
– 1時間程度(実質発話時間は20分程度)
– 切り出し後にラベル付与
– 330発話(うち49発話がシステム要求)



音響モデル:CSJベースにMLLR+MAP適応
言語モデル:書き起こしから学習
– 未知語なし(語彙数700語)
– 話者Aの認識に話者Bのモデルを利用
認識結果
– 単語正解制度:42.1%
– キーワードF値:0.76(ブースティングで選択さ
れた単語)
実験結果
Recall
Precision
F-measure
1.00

0.95
0.90
0.85

0.80
0.75
0.70
0.65
手法1
提案手法
Boosting
Confidence

要求依存LM 仮説からの要求識別
※Confidence:受理可能なコマンドのみでtrigram構築
認識結果の単語信頼度の平均を閾値で識別
N
 0  雑談
1
CM (wi )  threshold 

N i 1
 0  システム要求
提案手法
– 認識結果を用いたBoostingと同等
– 認識誤りによるキーワード欠落が改善
手法1
– 識別能力は高くない
– 雑談に引きずられる
Confidence
– 構築コストが低い
– 要求+否定後に弱い
(例:こっちに来てとか)
まとめ
まとめ


システム要求検出を音声認識に統合
音声認識誤りの影響を軽減し性能改善
今後の課題




大規模コーパスでの実験
コンテキストの利用
より柔軟な表現の受理
音響による手法との統合
第9回 音声言語シンポジウム 2007年12月20日(木)・21日(金) NTT CS研