スライド 1

狭帯域包絡線間相関を用いた
話者識別における帯域と識別率の検討
小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学)
西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学)
柳川博文(千葉工業大学 )
狭帯域包絡線間相関を用いた話者識別
 e1 (t ) 
e(t )  e2 (t )   
amp.(dB)
c1 (t ) 
c(t )  c2 (t )   
amp.(dB)
amp.(dB)
v(t)  e(t)  c(t)
1
0.5
0
-0.5
-1
1
0.5
0
-0.5
-1
1
0.5
0
-0.5
-1
vb (t )
20
20
20
40
40
40
60
60
60
80
80
80
time (ms)
100
100
100
120
120
120
cb (t )
 c1c2  0
eb (t )
 e1e2  0
処理の流れ
amplitude
1/4 Oct.分割した音声時間波形
0.04
0.02
0
-0.02
-0.04
vb1 (n)
0
0.2
0.4
0.6
time (s )
0.8
0.04
0.02
0
-0.02
-0.04
1
0
0.2
0.4
0.6
time (s )
b : 39バンド
28.9Hz~
vb2 (n) 20749Hz
0.8
1
amplitude
ヒルベルト変換して求めた包絡線
0.04
0.02
0
-0.02
-0.04
eb1 (n)
0
0.2
0.4
0.6
time (s )
0.8
0.04
0.02
0
-0.02
-0.04
1
eb2 (n)
0
0.2
0.4
0.6
time (s )
0.8
1
amplitude(dB)
dB変換(-30dBで打ち切り)
0
0
-10
-10
db1 (n)
-20
-30
0
0.2
0.4
0.6
time (s )
0.8
1
db2 (n)
-20
-30
0
0.2
time (s )
0.4
0.6
0.8
1
狭帯域包絡線間相関係数
d
b1 db2
狭帯域包絡線間相関係数行列
  1,1  2,1

 1,2  2,2


 


 1,39  2,39
DB
A
 
  39,1 


 

 

  39,39 
帯域を制限
↓
正解率の
変化を調べる
X 識別対象
X A
識別候補: X A の最大値
正解率=識別候補が本人となった回数/識別条件数
登録語と識別語の音素分布
Vowel
a
i
u
e
o
11
11
33
68
11 0 11 11
0 1 10 8
0 0 22 11
8 3 10 5
77 0 0 11
8 22 10 12
22
31
11 11
0 27
0 11 0 0
8 0 9 9
22 0 0
19 35 2
11 0 0 11
11 11 20 0
11
8
11 0 0 11 11 11
0 19 21 0 0 9
0 11
14 26
0 11
15 10
0
3
22 0
1 17
27
11
0
11
0
3
0
8
0
9
0
2
V N’ n nymmys sh h hy f z j k ky t ts p pych g gy d dyb byry y r w Q-
N
Fl
Fv
Sl
Consonant
Sv
Ca
V:Vowel
母音
N:Nasal
鼻音
Fl:Fricative voiceless
摩擦音(無声)
Fv:Fricative voiced
摩擦音(有声)
Sl:Stop voiceless
閉鎖音(無声)
Sv:Stop voiced
閉鎖音(有声)
Ca:Central
approximant
中央近接音
Q:Geminate
consonant
促音
-:Long vowel 長音
+:登録語(個数は上段の数) A
×:識別語(個数は下段の数) X 分布に偏りがない
帯域増加と平均正解率
1
14
0.9
0.8
0.7
0.6
C
31
0.5
6
0.4
22
0.3
0.2
0.1
0
2
5
10
15
20
25
30
35
39
Stop band number
重要帯域:帯域番号6~14,22~31
帯域減少と平均正解率
1
0.9
0.8
0.7
C
0.6
0.5
6
14
0.4
22
0.3
31
0.2
0.1
0
1
5
10
15
20
25
Starting band number
30
35
38
重要帯域:帯域番号6~14,22~
帯域増加と帯域減少の平均正解率
帯域増加
1
帯域減少
1
14
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
6
0.4
0.5
22
0.3
0.2
0.2
0.1
0.1
2
5
10
15
20
25
14
0.4
0.3
0
6
C
C
31
0.5
30
35
39
0
1
22
5
10
Stop band number
15
20
31
25
Starting band number
30
35
38
変化した点が同じ
重要帯域:帯域番号6~14,22~31
全39帯域を使用した正解率の比較
100
90
80
70
%
60
50
40
30
平均正解率 C
20
fs 範囲
10
0
band 数
1-39
6-31
6-14 22-31
band number
C
fs 範囲
band数
88%
100%
100%
86%
25%
67%
83%
21%
49%
The second formant F 2 (kHz)
結果の検討(高い周波数範囲の検討)
帯域番号22~31(1091Hz~5187Hz)
4.0
3.8
3.4
3.0
/i/
2.5
2.2
2.0
1.8
1.5
1.4
/e/
/a/
第2フォルマント
周波数の
1091Hz~4000Hz
(帯域番号22~30)
/u/
1.0
0.8
0.6
0.2
/o/
0.5
1.0
The first formant F 1 (kHz)
1.4
結果の検討(高い周波数範囲の検討)
帯域番号22~31(1091Hz~5187Hz)
高い周波数範囲
副鼻腔共振周波数
約3100Hz~5400Hz
(帯域番号28~31)
前頭洞
約8cm3
上顎洞
低い周波数範囲(6~14)
蝶形骨洞
声帯音源基本周波数
男性:約100Hz~150Hz
女性:約250Hz~300Hz
(帯域番号6~14)
副鼻腔共振周波数・声帯音源基本周波数
データによるばらつきの検討
1
0.95
Band No.
CA
88% 0.9
86%
0.85
83%
+ 1-39
0.8
× 6-31
0.75
□ 6-14
22-31
0.7
0.65
0.6
0.55
0.5
All A
E
K
M
N SA SB SC TA TB Y
Talker
識別語に共通性
amplitude (dB)
ne
0
to s
a
fi n'
-5
ne
n’
-10
-15
0
0.2
0.4
time(s )
0.6
0.8
平均時間(s)
0.132
0.109
1
amplitude (dB)
正解率が高い識別語(ネットサーフィン:上段)
0
mi
to
ko
mo n'
-5
-10
-15
0
0.2
0.4
0.6
time(s )
0.8
1
mi
mo
n’
平均時間(s)
0.096
0.095
0.072
正解率が低い識別語(水戸黄門:下段)
鼻音の継続時間
まとめ
声帯音源基本周波数
約100~300Hz
帯域番号6~14
100
90
80
70
%
60
50
40
第2フォルマント周波数・
副鼻腔共振周波数
約1100Hz~5400Hz
帯域番号22~31
30
平均正解率 C
20
fs 範囲
10
band 数
0
1-39
6-31
6-14 22-31
band number
C
fs 範囲
band数
88%
100%
100%
86%
25%
67%
83%
21%
49%
正解率のばらつき
鼻音の継続時間に関連
周波数範囲で21%,帯域数で49%に制限
1/4オクターブバンドの中心周波数
Band Center Freq. Band Center Freq.
No.
(Hz)
No.
(Hz)
1
28.9
21
917
2
34.4
22
1090.5
3
40.9
23
1296.8
4
48.6
24
1542.2
5
57.3
25
1834
6
68.1
26
2181
7
81
27
2593.7
8
96.3
28
3084.4
9
114.6
29
3668
10
136.3
30
4362
11
162.1
31
5187.4
12
192.7
32
6168.8
13
229.2
33
7336
14
272.6
34
8724.1
15
324.2
35
10375
16
385.5
36
12338
17
458.5
37
14672
18
545.2
38
17448
19
648.4
39
20749
20
771.1
1/4オクターブバンド狭帯域フィルタ
狭帯域フィルタ:FIRフィルタ
長さ:2048サンプル
fs :44100Hz
0
amplitude (dB)
-5
周波数分解:21.5Hz
フィルタ長:約46ms
-10
-15
-20
音声の狭帯域包絡
線を100msで区切る
-25
-30
-35
-40
2
10
3
10
Freq. (Hz)
4
10
⇒声帯音源波
約4周期が対象
話者を識別するシステムに用いた登録語・識別語
識別語:登録語と異なる語
登録語
1)青い空
2)映画鑑賞
3)石田一成
4)マイホーム計画
5)無人島探索
(aoisora)
(eigaka n‘shou)
(ishida issei)
(mai ho-mu keikaku)
(muji n’tou tansaku)
1語/約1秒
1人/約5語
計55語(登録者全員共通)
1)松坂大輔
2)メール機能
3)目から鱗
4)水戸黄門
5)モーニング娘
6)中山きんにくん
7)ネットサーフィン
8)猫死んじゃった
9)猫踏んじゃった
10)日本沈没
11)忍たま乱太郎
12)ノストラダムス
13)のんびり屋
14)上田晋也
(matsuzaka daisuke)
(me-ru kinou)
(mekara uroko)
(mito koumo n‘)
(mo-ni n’gu musume)
(nakayama kin‘niku n’)
(netto sa-fi n‘)
(neko shi n’jatta)
(neko fu n‘jatta)
(niho n’ chi n‘botsu)
(ni n’tama ra n‘tarou)
(nosutora damusu)
(no n’biriya)
(ueda shi n‘ya)
1語/約1秒
1人/約8語
計82語(登録者により異なる)
corrective judgement ratio
100%
netto sa-fi n'
nosutora damusu
90%
mo-ni n'gu
musume
mekara uroko neko fu n'jatta
nakayama kin'niku n'
ueda shi n'ya
neko shi n'jatta
matsuzaka daisuke
80%
70%
60%
mito koumo n'
no n'biriya
50%
40%
niho n' chi n'botsu
30%
1
2
3
4
5
6
7
8
number of subjective word
9
10
11
狭帯域分割した音声時間波形のスペクトル
N 1
Vb (k )   vb (n)e
 j 2
kn
N
n 0
片側スペクトルとなる
vb (n) の解析的信号表現
N/2
Vb (0) 1
~
vb (k ) 
 [Vb (k )  jVb (k )]e
2
2 k 1
j
 vb (n) e
j 2
kn
N
狭帯域分割した音声時間波形の包絡線
eb (n)  v~b (n)
ヒルベルト包絡線
全39帯域を使用した正解率の比較
1
約2%
0.95
約5%
C
0.9
0.85
0.8
88%
86%
0.75
0.7
83%
1-39
6-31
band number
6-14 22-31
データによるばらつきの検討
1
0.95
88% 0.9
86%
0.85
83%
CA
0.8
0.75
0.7
Band No.
+ 1-39
0.65
× 6-31
0.6
□ 6-14
22-31
0.55
0.5
All
All
A
E
K
M
N SA SB SC TA TB Y
Talker
識別語に共通性
The second formant F(kHz)
4.0
3.8
3.4
3.0
/i/
2.5
2.2
2.0
1.8
1.5
1.4
/e/
/a/
/u/
1.0
0.8
0.6
0.2
/o/
0.5
1.0
The first formant F(kHz)
ne
amplitude (dB)
0
to
s
a
fi
161
ms
-5
n'
139
ms
-10
-15
0
0.2
0.4
0.6
0.8
1
正解率が高い識別語(ネットサーフィン:上段)
mi
amplitude (dB)
0
to
ko
mo
n'
95
ms
-5
-10
-15
0
0.2
0.4
0.6
time (s )
0.8
1
93 61
ms ms
正解率が低い識別語(水戸黄門:下段)
鼻音の継続時間
登録語と識別語の音素分布
a
Vowel
i
u
e
o
11
11
33
68
11 0 11 11
0 1 10 8
0 0 22 11
8 3 10 5
77 0 0 11
8 22 10 12
22
31
11 11
0 27
0 11 0 0
8 0 9 9
22 0 0
19 35 2
11 0 0 11
11 11 20 0
11
8
11 0 0 11 11 11
0 19 21 0 0 9
0 11
14 26
0 11
15 10
0
3
22 0
1 17
27
11
0
11
0
3
0
8
0
9
0
2
V N’ n nymmy s sh h hy f z j k ky t ts p pych g gy d dy b byry y r w Q -
N
Fl
Fv
Sl
Consonant
Sv
+:登録語(個数は上段の数)
×:識別語(個数は下段の数)
Ca
V:Vowel
母音
N:Nasal
鼻音
Fl:Fricative voiceless
摩擦音(無声)
Fv:Fricative voiced
摩擦音(有声)
Sl:Stop voiceless
閉鎖音(無声)
Sv:Stop voiced
閉鎖音(有声)
Ca:Central
approximant
中央近接音
Q:Geminate
consonant
促音
-:Long vowel 長音
amplitude
0.05
0.04
0.03
0.02
0.01
0
-0.01
-0.02
-0.03
-0.04
-0.05
time (s )
amplitude(dB)
0
amplitude
0.6
time (s )
0.8
1
0.04
0.02
0
-0.02
-0.04
0
0 0.10.20.30.40.50.60.70.80.9 1
0.4
amplitude
time (s )
0.2
0.2
0.4
0.6
time (s )
0.8
-10
-20
0
0.2
0.4
0.6
time (s )
0.8
1
-5
-10
-15
0 0.10.20.30.40.50.60.70.80.9 1
-20
-25
-30
0 0.10.20.30.40.50.60.70.80.9 1
time (s )
0
0.2
0.4
0.6
0.8
1
0
0.2
0.4
0.6
0.8
1
0.2
0.4
0.6
0.8
1
time (s )
0.04
0.02
0
-0.02
-0.04
1
0
-30
0.04
0.02
0
-0.02
-0.04
amplitude(dB)
amplitude
0 0.10.20.30.40.50.60.70.80.9 1
帯域番号22
0.04
0.02
0
-0.02
-0.04
0
amplitude
0.05
0.04
0.03
0.02
0.01
0
-0.01
-0.02
-0.03
-0.04
-0.05
amplitude(dB)
amplitude
帯域番号12
time (s )
0
-10
-20
-30
0
time (s )
処理の流れ
1/4 Oct.分割した音声時間波形
vb (n)  v(n)  hb (n)
b : 39バンド(28.9Hz~20749Hz)
ヒルベルト変換して求めた包絡線
eb (n)  hilbert_ env(vb (n))
dB変換
db (n)  20log10 (eb (n) / emax)
狭帯域包絡線間相関係数
d
b1 db2

d
N 1
1
d d
b1
emax : eb (n) の最大値
b2
n0
b1
(n)db2 (n)  db1 db2
