資料2(説明用資料)

狭帯域包絡線間相関を用いた
話者識別における帯域と識別率の検討
小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学)
西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学)
柳川博文(千葉工業大学 )
狭帯域包絡線間相関を用いた話者識別
 e1 (t ) 
e(t )  e2 (t )   
amp.(dB)
 c1 (t ) 
c(t )  c2 (t )   
amp.(dB)
amp.(dB)
v(t )  e(t )  c(t )
1
0.5
0
-0.5
-1
1
0.5
0
-0.5
-1
1
0.5
0
-0.5
-1
vb (t )
20
40
60
80
100
120
cb (t )
20
20
40
40
60
60
80
80
time (s)
100
100
120
120
cc  0
1 2
eb (t )
 e1e2  0
処理の流れ
1/4 Oct.分割した音声時間波形
vb (n)  vb( n )  hb(n)
ヒルベルト包絡
eb (n)  hilbert _ env(vb (n))
dB変換
d b (n)  20 log 10 (eb (n) / emax )
emax : eb (n) の最大値
d b (n) :-30dBで打切り
狭帯域包絡線間相関係数
d
b1 d b2

 d
N 1
1
d d
b1
b2
n 0
b1
(n)db2 (n)  db1 db2

狭帯域包絡線間相関行列
  1,1

 1, 2


 

 1,39
 2,1
 2, 2

 2,39

 39,1 


 

 

  39,39 
帯域を制限
→ 正解率の変化を調べる
 XA  X  A
識別候補:  XA の最大値  max
正解率=識別候補が本人となった回数/識別条件数
登録語と識別語の音素分布
Vowel
a
i
u
11
11
33
68
11 0 11 11
0 1 10 8
0 0 22 11
8 3 10 5
77 0 0 11
8 22 10 12
22
31
11 11
0 27
0 11 0 0
8 0 9 9
22 0 0
19 35 2
0 11
15 10
0
3
22 0
1 17
0
11
11 0 0 11
11 11 20 0
11
8
11 0 0 11 11 11
0 19 21 0 0 9
0 11
14 26
0
3
0
8
e
0
9
0
2
o
V N’ N NYMMYS SHH HY F Z J K KY T TS P PYCHG GYD DYB BYRYY R W Q -
N
Fl
Fv
Sl
Sv
Ca
Consonant
+:登録語(個数は上段の数)
×:識別語(個数は下段の数)
27
11
V:Vowel
母音
N:Naal 鼻音
Fl:Fricative voiceless
摩擦音(無声)
Fv:Fricative voiced
摩擦音(有声)
Sl:Stop voiceless
閉鎖音(無声)
Sv:Stop voiced
閉鎖音(有声)
Ca:Central
approximant
中央近接音
Q:Geminate
consonant
促音
-:Long vowel 長音
帯域増加と平均正解率
1
14
0.9
0.8
0.7
0.6
C
31
0.5
0.4
6
22
0.3
0.2
0.1
5
10
15
20
25
30
35
Last band number
帯域番号6~14,22~31
帯域減少と平均正解率
1
0.9
0.8
0.7
C
0.6
0.5
6
14
0.4
22
0.3
31
0.2
0.1
5
10
15
20
25
30
35
first band number
帯域番号6~14,22~31
全39帯域を使用した正解率の比較
1
約7%
約3%
0.95
C
0.9
0.85
0.8
88.3%
85.9%
82.5%
0.75
0.7
1-39
6-31
band number
6-14 22-31
第2フォルマント
周波数
600Hz~4000Hz
(帯域番号18~30)
The second formant F(kHz)
調査結果の検討(高い周波数範囲の検討)
帯域番号22~31(1091Hz~5187Hz)
4.0
3.8
3.4
3.0
/i/
2.5
2.2
2.0
1.8
1.5
1.4
/e/
/a/
/u/
1.0
0.8
0.6
0.2
/o/
0.5
1.0
The first formant F(kHz)
1.4
調査結果の検討(高い周波数範囲の検討)
帯域番号22~31(1091Hz~5187Hz)
maxillary
sinus
frontal sinus
sphenoidal
sinus
副鼻腔共振周波数
3103~5398Hz
(帯域番号28~31)
声帯音源基本周波数
成人男性:100~150Hz
成人女性:250~300Hz
(帯域番号6~14)
鼻腔概略図・声帯音源基本周波数
データによるばらつきの検討
1
Band No.
0.95
0.9
+ 1-39
CA
0.85
× 6-31
0.8
0.75
0.7
□ 6-14
0.65
22-31
0.6
0.55
0.5
All
All
A
E
K
M
N SA SB SC TA TB Y
Talker
識別語に共通性
amplitude (dB)
0
-5
ne
n'
161ms
139ms
-10
-15
0
0.2
0.4
0.6
0.8
1
正解率が高い識別語(ネットサーフィン:上段)
mo n'
amplitude (dB)
0
mi
95ms
-5
-10
-15
0
0.2
0.4
0.6
time (s )
0.8
1
93ms 61ms
正解率が低い識別語(水戸黄門:下段)
鼻音の継続時間
まとめ
声帯音源基本周波数
成人男性:100~150Hz
成人女性:250~300Hz
帯域番号6~14 → 声帯音源
第2フォルマント周波数
600Hz~4000Hz
帯域番号18~30 → 第2フォルマント
副鼻腔共振周波数
前頭洞:3103~5398Hz
帯域番号28~31 → 副鼻腔形状
個人のばらつきは継続時間に関連
1/4オクターブバンドの中心周波数
Band Center Freq. Band Center Freq.
No.
(Hz)
No.
(Hz)
1
28.9
21
917
2
34.4
22
1090.5
3
40.9
23
1296.8
4
48.6
24
1542.2
5
57.3
25
1834
6
68.1
26
2181
7
81
27
2593.7
8
96.3
28
3084.4
9
114.6
29
3668
10
136.3
30
4362
11
162.1
31
5187.4
12
192.7
32
6168.8
13
229.2
33
7336
14
272.6
34
8724.1
15
324.2
35
10375
16
385.5
36
12338
17
458.5
37
14672
18
545.2
38
17448
19
648.4
39
20749
20
771.1
1/4オクターブバンド狭帯域フィルタ
狭帯域フィルタ:FIRフィルタ
長さ:2048サンプル
fs :44100Hz
0
Amplitude (dB)
-5
周波数分解:21.5Hz
フィルタ長:約46ms
-10
-15
-20
音声の狭帯域包絡
線を100msで区切る
-25
-30
-35
-40
2
10
3
10
Freq. (Hz)
4
10
⇒声帯音源波
約4周期が対象
M 1
vb (n)   v(n  p)hb ( p)
p 0
vb (n):b帯域の音声時間波形
hb (n):狭帯域フィルタ
b :帯域番号
n :離散時刻に相当するサンプル番号
M :狭帯域フィルタの長さ
1
0.8
0.6
0.4
0.2
0
-0.2
-0.4
0
5
10
15
20
25
30
35
40
図8 鼻腔概略図
maxillary
sinus
frontal sinus
sphenoidal
sinus
狭帯域包絡線間相関係数
d
b1 d b2

 d
N 1
1
d d
b1
b2
n 0
b1
(n)db2 (n)  db1 db2

 x : x の分散
: X の平均
X N : d x の長さに相当するサンプル番号