講演スライド - 情報科学研究科

サイレント音声コミュニケーション
サイレント音声コミ
ニケ シ ンのための
非可聴つぶやきマイクロフォンを用いた
体内伝導音声情報処理
体
導 声情報
戸田 智基
奈良先端科学技術大学院大学 情報科学研究科
2014年8月8日
音声コミュニケーションは十分に便利?
• 携帯電話が広まり便利になった(全く異なる環境下にいる人
とも会話
きる う な た)が
とも会話できるようになった)が・・・
騒音環境下では音声が 周囲に人がいると秘匿性の 静かな環境下で声を出すと
高い内容は話しづらい・・・ 他人に迷惑をかける・・・
伝わりづらい・・・
音声 ミ
音声コミュニケーションには様々な障壁が存在する!
ケ シ ンには様々な障壁が存在する
1
サイレント音声コミュニケーション
• 声を周囲に漏らさずに発声できるようにしたい!
• テレパシーのように,話し手と聞き手の間のみで意思
伝達が可能な ミ
伝達が可能なコミュニケーション形態を実現したい!
ケ ション形態を実現したい
話し手側
聞き手側
周囲に聞こえないように
ぼそぼそ話しても・・・
・・・
自然な声が聞こえる!
口座の暗証
番号は・・・
音声入力が行える!
○○の場所を
検索・・・
検索
2
アプローチ
話し手側
聞き手側
周囲に聞こえないぐらい
小さな声を収録したい・・・
小さな声を収録したい
通話したい・・・
○○○・・・
・・・
体内伝導音声強調
体内伝導音声強調により
自然な音声へと変換!
音声入力を行いたい・・・
非可聴つぶやき(NAM)
非可聴つぶやき(NAM
)
マイクロフォンを用いて
マイクロフォン
体内伝導音声を収録!
○○○・・・
体内伝導音声認識
体内伝導音声認識により
テキスト情報へと変換!
3
アプローチ
話し手側
聞き手側
周囲に聞こえないぐらい
小さな声を収録したい・・・
小さな声を収録したい
通話したい・・・
○○○・・・
・・・
体内伝導音声強調
体内伝導音声強調により
自然な音声へと変換!
音声入力を行いたい・・・
非可聴つぶやき(NAM)
非可聴つぶやき(NAM
)
マイクロフォンを用いて
マイクロフォン
体内伝導音声を収録!
○○○・・・
体内伝導音声認識
体内伝導音声認識により
テキスト情報へと変換!
Outline
NAM(N
Non‐A
Audible M
Murmur)マイクロフォン
[中島 他, 2004]
他 2004]
• NAMを収録するために開発されたマイクロフォン
• NAM:まわりに聞こえないほどの小さなささやき声
• 軟組織を伝わる音(体内伝導音)を体表から直接収録
筋肉
声道内の
空気振
空気振動
腔
口腔
血管
骨
皮膚
軟シリコン
電極
振動
センサー
遮音カバ
遮音カバー
4
収録可能な体内伝導音声
無声音声
NAM
ささやき声
有声音声
小声
通常音声
サイレント音声
秘匿性の高い 騒音化での発声
コミュニケーションに効果的! 発声に効果的! に効果的!
体内伝導通常音声
体内伝導
通常音声
10k
‐10k
300
200
100
4
‐10k
300
200
100
4
Freeq. [Hz]
10k
F006A08Spnrm s480e880.lspg
4000
Freq. [kHz]
Frequency [Hz]
3500
3000
2500
2
2000
1500
1000
500
0
0
F006
08
A
TOS
B
rm
n
s
480e880.lspg
4000
3500
0
0
0.2
0.4
0.6
0.8
1
Time [s]
1
Time [s]
1.2
1.4
1.6
1.8
Freq. [kHz]
Frequency [Hz]
Freeq. [Hz]
空気伝導通常音声
空気伝導
通常音声
3000
2500
2
2000
1500
高周波数成分
0
2
0
が大きく減衰
2
1000
500
0
0
0.2
0.4
0.6
0.8
1
Time [s]
1
Time [s]
1.2
1.4
1.6
1.8
2
2
5
アプローチ
話し手側
聞き手側
周囲に聞こえないぐらい
小さな声を収録したい・・・
小さな声を収録したい
通話したい・・・
○○○・・・
・・・
体内伝導音声強調
体内伝導音声強調により
自然な音声へと変換!
音声入力を行いたい・・・
非可聴つぶやき(NAM)
非可聴つぶやき(NAM
)
マイクロフォンを用いて
マイクロフォン
体内伝導音声を収録!
○○○・・・
体内伝導音声認識
体内伝導音声認識により
テキスト情報へと変換!
Outline
統計的手法に基づく体内伝導音声強調
[T d t al., 2005]
[Toda et
l 2005]
• ある話者の体内伝導音声から同一話者による空気伝導音声への
変換処 を統計的
変換処理を統計的にモデル化
デ
まずは同じ内容の
文を収録する.
まずは同じ内容
の文を収録する
の文を収録する.
体内伝導
音声
1.体内伝導音声と空気
1
体内伝導音声と空気
伝導音声の同一発話
データを用いて学習
デ
タを用いて学習
空気伝導音声
どんな文も
変換できる.
どんな文も変換
できる.
体内伝導音声から空気伝導音声への変換モデル
2.体内伝導音声を空気伝導音声へと変換可能
6
学習処理と変換処理
• 学習処理
•
入力特徴量系列と出力特徴量系列の同時確率密度関数のモデル化
モデルパラメータセット
デ
ラ
タ ッ
の最尤推定値
λˆ  arg max
λ
(n)
(n)
P
(
x
,
y
| λ)

n 1
n発話目の
入力特徴量系列
• 変換処理
•
N
モデルパラメータ
セット
n発話目の
出力特徴量系列
条件付き確率密度関数に基づく出力特徴量系列の生成
推定された
出力特徴量系列
yˆ  arg max P ( y | x , λˆ )
y
例.NAMから通常音声への変換
例.NAMから通常音声
の変換
NAMのスペクトル
セグメント特徴量
変換する入力特徴量系列
通常音声の
スペクトル特徴量
通常音声の
音源特徴量
7
各種体内伝導音声強調処理
• 個々の体内伝導音声を適切な種類の空気伝導音声へと変換
体内伝導音声
空気伝導音声
[3]
通常音声
スペクトルセグメント
音源特徴量
小声
スペクトルセグメント
音源特徴量
ささやき声
スペクトルセグメント
通常音声
スペクトルセグメント
音源特徴量
[4]
小声
[4]
[1]
[2]
[2]
スペクトルセグメント
音源特徴量
ささやき声
スペクトルセグメント
[2]
NAM
スペクトルセグメント
変換音声
[1] Toda et al., 2005
[2] Nakagiri et al., 2006
永 他, 2006
[3] 岩永
[4] 関本 他, 2006
8
リアルタイム強調処理
[M i hi ett al., 2013]
[Moriguchi
l 2013]
• 音声コミュニケーションではリアルタイム処理が必要不可欠
• 出力特徴量系列の生成処理(非線形最適化)をカルマンフィルタと
ポストフィルタを用いて近似
• 50~70 ms 程度のアルゴリズム遅延での処理を実現
• PC上(例えば,Intel Core 2 Duo P8400, 2.26 GHz 搭載のノートPC)で
リアルタイム動作可能
• DSP上への実装も実現
• 近似処理による計算量削減
• 浮動小数点版DSP(TI社,
TMS320C6748,375 MHz)上で実装可能
9
環境変化への自動適応
[Mi
[Miyamoto et
t t al., 2009]
l 2009] [Deguchi
[D
hi ett al., 2010]
l 2010]
• 体内伝導音声の音響特性は収録環境に大きく依存
•
•
NAMマイクロフォンの圧着位置
NAMマイクロフォンの種類やアンプの設定
• 事前に構築した変換モデルを新たな収録環境に自動適応
•
•
新たな環境下で収録される体内伝導音声のみを使用
任意かつ極少量の発話文のみを用いて教師無し適応
変換モデル
Wˆ  arg max
W
適応 ラ
適応パラメータ
タ
の最尤推定値
適応後の変換モデル
ˆ | W )) dy

P
(
x
,
y
|
f
(
λ

新たな環境下に
おける入力特徴量
適応後の デル
適応後のモデル
パラメータセット
10
アプローチ
話し手側
聞き手側
周囲に聞こえないぐらい
小さな声を収録したい・・・
小さな声を収録したい
通話したい・・・
○○○・・・
・・・
体内伝導音声強調
体内伝導音声強調により
自然な音声へと変換!
音声入力を行いたい・・・
非可聴つぶやき(NAM)
非可聴つぶやき(NAM
)
マイクロフォンを用いて
マイクロフォン
体内伝導音声を収録!
○○○・・・
体内伝導音声認識
体内伝導音声認識により
テキスト情報へと変換!
Outline
体内伝導音声認識
[H
[Heracleous
l
ett al., 2004]
l 2004]
• 通常音声とは異なる体内伝導音声の音響的特徴への対応
事後確率が最大となる単語列を検索
wˆ  arg max P ( x | w , λ) P ( w | θ )
w
体内伝導音声
x
単語列に対応した
音声の音響的
特徴量をモデル化
こんにちは
デコーダ
wˆ
音響モデル
P ( x | w , λ)
言語モデル
単語列の生起
確率をモデル化
P(w | θ )
体内伝導音声用の音響モデルを構築すれば
従来システムを用いて体内伝導音声認識が可能
11
様々な発話様式への対応
[貝野 他, 2005]
他 2005]
• 様々な体内伝導音声に対応した特定話者用認識システムの構築
発話様式依存モデル による並列デコーディング
発話様式混合モデル
NAM
混合モデル
NAM
NAM用モデル
ささやき声
ささやき声
ささやき声用モデル
通常音声
通常音声
通常音声用モデル
並列
デコーディング
+
音響尤度による
結果選択
大語彙連続音声認識タスクにおける単語認識精度[%]
通常音声
声
小声
声
ささやき声
声
NAM
発話様式依存モデル
89.41
84.18
86.67
77.90
混合モデル
87.40
84.74
81.04
75.80
並列デコーディング
89.41
84.18
86.67
77.90
12
様々な話者に対するモデル構築
[長井 他, 2009]
他 2009]
• モデル適応に基づくNAM用特定話者モデルの構築
• 他話者のNAMを活用することで精度改善
通常音声用
不特定話者モデル
モデル適応①
デ
①
NAM用目標話者
依存モデル
②
最尤学習
NAM用不特定
話者モデル
話者適応学習
複数話者による
NAMデータ
NAM適応用
標準話者モデル
③
目標話者の
NAMデータ
単語認識精度
①

64.43 14.81%
②

67.61 12.09%
③

72.58 11.24%
13
通常音声を用いたNAMモデル学習
[B b i ett al., 2011]
[Babani
l 2011]
• 大規模な通常音声データも活用(通常音声をNAMに変換して
使
使用)することで精度改善
す
精度改善
(S )
(S )
W
通常音声における話者適応学習
((S )
1
W
((SS )
o
6
1
o6
(S )
ok k番目話者の通常音声データ
W2( S )
((S )
((SS )
Wk((S ) k番目話者に対する適応
(
S
)
o
o5 W
2
パラメータ
5
発話様式適応学習
W ( S 2 N ) NAM用標準モデルを
o
(S )
(S
4
通常音声用 変換
通常音声用に変換
する適応パラメータ
W
W
(N )
j
j番目話者のNAMデータ
j番目話者に対する適応
パラメータ
o3((S )
W (S 2N )
標準モデル
NAMにおける話者適応学習
o (j N )
W3(S )
(S )
(S
4
o3( N ) W ( N )
3
λ
W1( N )
W2( N )
o1( N )
o2( N )
14
ステレオNAMを用いた動作雑音抑圧
[I hii t al., 2011]
[Ishii et
l 2011]
• 発話者の動作に伴い生じる雑音を抑圧
• 2つのNAMマイクロフォンを用いることで
ステレオ信号処理を適用
仮定する混合過程
各チャンネルの
時不変な伝達関数
体内伝達前の
NAM信号
s0 ( f ,  )
f : 周波数
 : フレーム番号
a1 ( f )
a2 ( f )
チャネル1の雑音信号
n1 ( f , )
混合信号
x1 ( f , )
NAM
マイクロフォン
x2 ( f ,  )
n2 ( f , )
チャネル2の雑音信号
ブラインド音源分離
による雑音推定
非線形雑音
抑圧処理
チャネル選択
15
アプローチ
話し手側
聞き手側
周囲に聞こえないぐらい
小さな声を収録したい・・・
小さな声を収録したい
通話したい・・・
○○○・・・
・・・
体内伝導音声強調
体内伝導音声強調により
自然な音声へと変換!
音声入力を行いたい・・・
非可聴つぶやき(NAM)
非可聴つぶやき(NAM
)
マイクロフォンを用いて
マイクロフォン
体内伝導音声を収録!
○○○・・・
体内伝導音声認識
体内伝導音声認識により
テキスト情報へと変換!
Outline
まとめと今後の課題
• サイレント音声コミュニケーションの実現に向けて
• 人対人のコミュニケーション
人対人
NAMマイクロフォン+体内伝導音声強調=サイレント音声通話
• 人対機械
人対機械のコミュニケーション
NAMマイクロフォン+体内伝導音声認識=サイレント音声入力
• 解決すべき課題
• NAMマイクロフォンの改良
• 実環境下への適用
Q.受聴者が雑音環境下にいる場合にどうするか?
「サイレント音声コミュニケーションのための非可聴つぶやき強調に
サイレント音声コミュニケーションのための非可聴つぶやき強調に
おける雑音環境下受聴を想定した目標音声の評価」 鶴田さくら 他
おける雑音環境下受聴を想定した目標音声の評価
• Q.発話者が雑音環境下にいる場合にどうするか?
「雑音環境下におけるサイレント音声コミ
「雑音環境下におけるサイレント音声コミュニケーションのための
雑音環境下におけるサイレント音声コミ
雑音環境下におけるサイレント音声コミュニケーションのための
ニケ ションのための
2チャネル非可聴つぶやき強調法の検討」 田尻祐介 他
2チャネル非可聴つぶやき強調法の検討
•
16