スライド 1

話者交替を考慮したシステムへの問い合わせと雑談の判別
3-Q-28
山形知行 佐古淳 滝口哲也 有木康雄 (神戸大)
目的
• 音声入力システムの用途
雑談
カーナビ等の手を使うことが困難な機器での利用が顕著.
• 問題点
システム要求
入力される音声がシステムに向かっての発話か,他の人との雑談かを区別できない.
コマンドを入力する際にはボタンを押す必要がある (カーナビ).
システム (カーナビ,ロボット等)
物理的なスイッチを使うことなく,システム要求と雑談を判別したい.
• 関連研究
• 全体構成
ユーザーの(音響的な)発話の特徴は,話す対象に応じて無意
識に変わる.
音声
音響特徴量生成
S
[Shinya Yamada, “Linguistic and Acoustic Features Depending on Different
Situations”, Interspeech 2005]
システム要求
V
人同士の会話ではラッチングに見られるようなスムーズなター
ンテイキングが行われる.
話者交替
or
雑談
M
特徴量生成
[Tomoko Ohsuga, "Investigation of the Relationship between Turn-taking
and Prosodic Features in Spontaneous Dialogue“, Interspeech 2005]
コーパス
• データ数
• 収録条件
• 人間2人 + ロボット の対話
全発話
1025
人同士で雑談をしながら任意に
ロボットにシステム要求発話をす
る.
• システム要求発話の例
「 こっち に 来 て ください 。 」
「向こう へ 行っ て」
「 こっち 来 て ー 」
「 写真 を 撮っ て 」
「 止まっ て ください 。 」
胸元にマイクを設置し収録
•
システム要求発話
108
対話型移動ロボット
音声コマンドにより室内を移動
音響特徴量
Amplitude
自然発話とシステム要求発話の音響的な違いは主に発話の前
や後ろに現れる.
自然な発話ではフィラーや言い淀み等が多い.
Margin
Detected Utterance Section
Margin
Time
a) 自然発話
検出された発話区間からだけではなく,前後のマージンからも下
記の音響特徴量を求める.
Amplitude
• 音響特徴量
Margin
Detected Utterance Section
Margin
Time
b) システム要求発話
※ VADはJulius Adintoolを使用
Power
平均
偏差
最大
最大 – 最小
Pitch
平均
偏差
最大
最大 – 最小
話者交替特徴量
人同士の会話では,ある人が話し終わるまでに次の人が話し始めるラッチ
ングがよく起こる. このため,2人が同時に発声している場合はシステム要
求発話でないと考えられる.
マイク入力のパワー等を用いる方法では,隣の人の声が入ってしまうため
にどちらの人が発話しているか判別しにくい.
例えば,マイク間距離が近い,
もしくは声が大きい場合はa)の
場合も話者数が2人と誤検出さ
れる.
Recorder
Recorder
b) 話者数: 2
a) 話者数: 1
*
2
X 1[n] X [n]
CSP[k ]  IDFT(
)
X 1[n] X 2 [n]
CSP係数を用いることに
より話者数をより正確に
検出できる.
pi  max(CSP[k ])
k in  i
N 1
1 : 0  k 
2
N
2 :
kN
2
k
N
1 speaker
2 speakers
N/2
1 speaker
0
time
p2:
high
high
low
p1:
low
high
high
CSP Peak Trace
実験結果
適合率
音響 8 dim. (1区間)
0.584
音響 24 dim. (3区間)
0.756
音響 24 dim. + 交替 6 dim. 0.832
再現率
0.806
0.889
0.870
F値
0.677
0.817
0.851
10 foldsでF値最大の結果.
ただしSVMのKernelにはGaussian Kernel
を用いた.
結果はF値が最大となった場合.
まとめ
• 考察
• 音響特徴によりシステム要求判別
をする場合,明確な発話区間の前
後の情報を利用することが有益で
ある.
• 発話区間前後での話者の交替を
考慮することで,判別精度が上がる.
• 今後の課題
• ノイズ環境下での評価
• カーナビ等のコマンドの複雑な環
境での評価