授業資料

音情報処理 第6回
音声認識理論と音声認識システム
2014/11/13
環境知能学研究室 川波弘道
1
第1回 音情報基礎:中村
第2回 音声の特徴抽出:猿渡
第3回 音響信号処理基礎:猿渡
第4回 音声符号化基礎:戸田
第5回 音声合成理論と音声合成システム:戸田
第6回 11/13 音声認識理論と音声認識システム:川波
Speech recognition theory and system
第7回 11/20 音声対話システム理論と音声対話システム:中村
第8回 11/27 試験
2
講義内容
音声認識システム
アプリケーション
構成
テンプレートマッチングによる音声認識
DTWマッチング
演習:Level Building法による2語彙2単語認識
確率モデルによる音声認識
HMM音響モデル
N-グラム言語モデル
大語彙連続音声認識システム
3
音声認識システム
発話をテキストに変換
訓練不要,姿勢拘束なし
便利さ,福祉
安価
マイク,スマートフォンかPC
ただし
• 認識誤りはなくならない
未知語
• 確率的アプローチの限界
• 発話の背景にある文脈や知識の与える影響
•
• 確実なBackspaceキーやEnterキーはない
4
分類
音声認識
単語音声認識
Speech
recognition
(ASR; Automatic
Speech recognition)
孤立単語音声認識
(単語発声)
ワードスポッティング
(長い発話から特定の単語を抽出)
連続音声認識
大語彙連続音声認識
(ディクテーション=口述筆記)
Large vocabulary continuous
speech recognition (LVCSR)
言語認識
話者識別
(登録者のうちの誰であるかを識別する)
話者認識
Speaker
recognition
話者照合・認証
(申告者本人かどうかを照合する)
いずれも基本的に物理特徴量は周波数振幅スペクトル包絡を表す,
なんらかの音韻的特徴量が用いられる.韻律的特徴量は基本的に使用されない.
5
(韻律的特徴も声調言語の音声認識で研究はされている.)
アプリケーション
ディクテーション(口述筆記)
電子秘書,議事録作成,テレビ字幕自動生成
インタフェイス
受付ロボット,カーナビ,音声検索
音声リモコン
バイオメトリクス
話者認証,話者照合
CALL (Computer Aided Language Learning)
発音評価
超低ビットレートデータ通信
送信テキストを受信側で音声合成
6
音声認識システムの構成
音素の物理的特徴モデル
入力の物理的特徴を評価する
認識結果の言語的制約
探索空間を絞り込み評価する
音響モデル
単語辞書
(音素列)
言語モデル
入力音声
特徴量
抽出
デコーダ
振幅スペクトル包絡
時系列データ
言語的制約と音響的マッチング
を用いて単語列を推測
7
認識結果
テンプレートマッチングと確率モデルによる音声認識
【小語彙定型発声の認識に向くパターンマッチング】
単語テンプレート
音声入力
特徴量
抽出
単語辞書
記述文法(網羅的,等確率)
テンプレートのスペクトル距離を算出
累積距離が最小の単語を選択する.
認識結果
【大語彙連続音声の認識に向く確率モデル】
音素HMM
音声入力
特徴量
抽出
単語辞書
音響尤度,単語列生起確率の積が
最大となる単語列を探索する.
単語3-gram
認識結果
8
テンプレートマッチングによる音声認識
基本方針
入力音声と単語テンプレートのスペクトル距離
の総和を求め,フレーム数で正規化
一般に音響スコアのみでの評価可能な用途
コマンド認識,数字認識,ワードスポッティング
スペクトル距離を評価するフレームの組をどの
ようにして得るか?
DTW(Dynamic Time Warping)マッチング
対応付けるべきフレーム同士を動的に探索しな
がら比較を行うパターンマッチング手法
9
DTWマッチングの意義
同一話者の同一発話でも発話長はさまざま
f
u
k
u
o
k
a
k
e
N
10
線形伸縮による発話時間長正規化はNG
音素や位置による伸縮のされやすさ,されにくさ
f
u
k
u
o
k
a
k
e
N
→時間軸伸縮マッチングの利用
11
DTWマッチング
(Dynamic Time Warping, 時間軸伸縮マッチング)
時系列データの“対応する区間”同士を比較しな
がら全体の類似度のスコアを求める.
音声認識では
入力音声の分析フレームのスペクトルデータ時系列と
単語テンプレートのデータの時系列距離の比較
距離が小さい(似たスペクトルを持っている)フレーム
同士を対応付けながら距離の総和を求める.
スペクトル距離の総和の最小値をそのテンプレートの
距離とする.
12
マッチングパス
単語テンプレートB
入力音声と単語テンプレートの分析フレームの時系
列を2軸とした平面を考える.
対応づけてフレームの座標(=格子点)を結んだもの
.
・・・
・
・・
分析フレーム
のシフト間隔
入力音声A
13
単語テンプレートB (フレーム数:J)
マッチングパスは,何番目の格子点か: k を与えると格子点の座
標を返す,時間伸縮関数(Warping function)として記述できる.
Cn
bJ J
bj
格子点始端:
C1= (1, 1),
格子点終端:
Cn= (I, J).
Ck
j
Ck-1
C4
C2
b2 2
C3
b1 1 C1
1
2
a1 a2
C5
i
ai
I
aI
入力音声A (フレーム数I)
14
入力音声の時系列 A  a1 , a2 , , aI (aiはi番目のフレーム)
テンプレートの時系列 B  b1 , b2 , , bJ (b jはj番目のフレーム)
マッチングパスは格子点 Ck  (ik , jk )の系列として表現する.
Warp  {C1 , C2, , Ck , , Cn } (ik , jkはk番目の格子点で入力音声, テンプレートのそれぞれ何番目の
フレームを対応付けているかを示す.)
縦・横・斜めに進めるパスの格子点 Ck , Ck 1 間の制約
ik 1  {ik  1, or , ik }, jk 1  { jk  1, or , jk }
• フレーム時系列を逆行しない
• フレームをスキップしない.
ただし,入力音声かテンプレートか少なくとも一方のフレー
ムは進行させる.
15
正規化累積距離
必要性と手法
格子点のスペクトル距離の総和(累積距離)が小さい単語
テンプレートが認識結果となる
ただし,パスの取り方やテンプレートのフレーム数によって
加算回数が異なるため正規化が必要
パス重み wk による重みづけ和をパス重み和で正規化する.

正規化累積距離 D( A : B) 
n
k 1
d (ik , jk )  wk

n
k 1
wk
d (ik , jk ) : 格子点Ckでの
スペクトル距離
市街地距離(city block distance)
格子点Ckへのパス重み wk を次式で与えるもの
どのパスを通っても,最終格子点での重みの総和は同じ
wk  ik  ik 1  jk  jk 1
16
累積距離の最小値の求め方
動的計画法(dynamic programming)
格子点 Ck までの累積距離の最小値は(候補が複数ある)
直前の格子点Ck-1での累積距離から求めることができる.
漸化式:
g (Ck )  d (ik , jk )  wk  min{g (Ck 1 )}
{Ck 1 }
g (Ck :格子点
)
Ck  (ik , jk )までの累積距離の最小値
を用いて,最後の格子点での累積距離が得られるまで
g(Ck) を順次求める.
最後に累積距離を正規化し,単語テンプレート間で正規化
累積距離を比較する.
17
テンプレートマッチング単語認識のながれ
時間
単語テンプレート
3.いやし
フ入
レ力
ー音
ム声
間と
距単
離語
マテ
トン
リプ
ッレ
ク
スー
をト
準の
備
正
規
化
累
積
距
離
の
比
較
非
線
形
伸
縮
マ
ッ
チ
ン
グ
単語テンプレート
入
力
音
声
音
(
ス声
ペ
ク分
ト析
ル
系
列
抽
出
)
10
8
9
4
2
0
9
7
8
3
0
2
5
6
4
0
3
4
4
3
4
1
5
6
2
3
0
2
8
9
1.こんにちは
入力音声
4.ああ
2.いたい
0 0
2 2
1 1
4 4
9 9
10 10
認
識
結
果
単語テンプレートB (フレーム数: J =6)
格子点のスペクトル距離 d (i, j )マトリックス作成
J=6
j
2
1
5
6
4
5
6
5
4
2
5
5
8
1
1
2
5
4
3
4
5
3
5
8
5
1
6
5
7
5
5
2
2
5
6
5
6
3
1
5
2
2
5
8
1
2
i
I=7
入力音声A (フレーム数 I =7)
19
格子点までの累積距離の最小値 g (Ck ) を
求める.
簡単のため,パスの制約として入力とテンプレートの
一方を1フレームのみ進めることができるパスを用いる
g (ik , jk )  1 d (ik , jk )  min{ g (ik  1, jk ), g (ik , jk  1)}
初期条件:
g(1,1) = 2d(1,1)
jk
jk-1
g(ik-1,jk)
g(ik,jk)
d(ik,jk)
前段候補1
g(ik,jk-1)
(前格子点
候補1)
前段候補2
ik-1
ik
20
単語テンプレートB (フレーム数: J =6)
漸化式にもとづいて g (Ck ) (格子点までの最小の累積
距離,右肩の数字)を求めていく
J=6
j
2
1
531
629
4
24
5
29
6 31
5
31
4
32
226
523
5
20
8
27
1
25
1
26
2
28
5
24
4
18
3
15
4
19
5
24
3
27
5
32
8
19
5
14
1
12
6
18
5
23
7
30
5
35
5
11
2
9
2
11
5
16
6
32
2
14
3
1
6
1
2
7
5
12
6
2
22
16
5
5
i
26
21
8
29
I=7
入力音声A (フレーム数 I =7)
21
終端の g (Ck )に対してパス重み和を用いて正規化を行い,
単語テンプレートの正規化累積距離 D(A:B)を求める.
市街地距離が7+6=13, 正規化前の累積距離が32なので, D(A:B) = 32 / 13
単語テンプレートB (フレーム数: J =6)
終端からパスをバックトレースすることでマッチングパスも得られる.
J=6
j
2
1
531
629
4
24
5
29
6 31
5
31
4 32
226
523
5
20
8
27
1
25
1
26
2
28
5
24
4
18
3
15
4
19
5
24
3
27
5
32
8
19
5
14
1
12
6
18
5
23
7
30
5
35
5
11
2
9
2
11
5
16
2
14
3
1
6
1
2
7
5
12
6
2
22
16
5
5
i
26
21
6
8
32
29
I=7
入力音声A (フレーム数 I =7)
22
パス重みの改良
斜めを許可するパス
入力かテンプレートのいずれかのフレームし
か進められないという前項の制約を除外
傾斜制限つきパス
入力音声とテンプレートの極端な対応を回避
23
斜めのパスを許可
入力音声と単語テンプレートのフレームのいず
れかまたは両方を1つ進めるパスを許容する.(
パス重みは市街地距離に基づく)
g (ik , jk )  min{2  d (ik , jk )  g (ik  1, jk  1),
1 d (ik , jk )  min{ g (ik  1, jk ), g (ik , jk  1)}}
初期条件:
g(1,1) = 2d(1,1)
jk
1
g(ik-1,jk)
2
g(ik,jk)
d(ik,jk)
1
jk-1
g(ik-1,jk-1)
ik-1
g(ik,jk-1)
ik
24
1
1
5
2
26
5
24
8
19
5
11
3
6
6
29
5
23
4
18
5
14
2
9
1
7
4
23
5
19
3
14
1
11
2
11
5
12
5
28
26
6
8
26
20
1
4
18
23
5
6
17
22
5
5
16
22
6
2
14
16
2
しかし,ここまでのパスではまだ,
右のような極端な対応付けが回避できない.
5
26
4
27
1
21
2
23
3
26
5
31
7
29
5
34
5
26
6
32
5
21
8
29
お や ま
2
31
お お お か や ま
25
傾斜制限つきパス
局所的な制限により極端な対応を避ける
一方のフレームだけを進めるのは,斜めのパ
スを取った後に限定→傾きは 0.5 から 2
g (ik , jk )  min{2  d (ik , jk )  g (ik  1, jk  1),
1 d (ik , jk )  min{2  d (ik  1, jk )  g (ik  2, jk  1),
2  d (ik , jk  1)  g (ik  1, jk  2)}
初期条件:
g(1,1) = 2d(1,1)
g(ik-1,jk)
jk
jk-1
2
g(ik-2,jk-1)
d(ik-1,jk)
g(ik-1,jk-1) 1
g(ik-1,jk-2)
jk-2
ik-2
ik-1
1
g(ik,jk)
d(ik,jk)
1 g(ik,jk-1)
d(ik,jk-1)
2
ik
26
1
2
2
1
5
-
6
-
-
5
36
28
6
5
26
8
28
3
15
4
1
12
6
2
12
4
5
31
22
1
20
25
5
18
29
5
-
-
6
-
-
2
4
31
1
23
2
29
3
31
5
40
2
傾斜制限の
範囲外なので
格子点に
なり得ない
2
5
8
5
×
-
-
-
6
×
3
-
5
4
-
-
5
15
2
10
1
-
5
-
5
2
7
5
5
-
-
-
5
6
8
-
-
-
27
パス重みの更なる改良
整合窓
極端なパスになる領域を大局的に除外する.
計算量も削減できる.
端点フリー
入力音声の認識対象区間を自由にする.
発話前後の雑音を無視することができる.
非対称パス
入力音声のフレーム数のみで決まるパス重み
フレーム同期音声認識
テンプレートのフレーム数のみで決まるパス重み
端点フリーと併用してワードスポッティング
28
整合窓
累積距離の漸化式を計算する領域を制限する.
極端な対応付けを大局的に防ぎ,計算量も削減できる.
単語テンプレートB (フレーム数:J)
計算不要領域
bJ
整合窓
Cn
J
時間伸縮関数
(Warp)
j=i+r
bj j
d(i,j):スペクトル距離
C4
b2 2
b1 1
j=i-r
C5
C2
計算不要領域
C3
C1= (1,1)
1
a1
i
ai
a2
入力音声A (フレーム数I)
2
I
aI
i
29
端点フリー
入力の開始フレームや終端フレームを自由にする
単語テンプレートB (フレーム数:J)
入力音声の発話前後の不要箇所を無視できる.
I-M
J
Cn
終端フリー領域
この領域で累積距離の
最小値を探す。つまり、
入力音声の途中で終
わってもよい。
時間伸縮関数
(Warp)
j
d(i,j):スペクトル距離
C3
2
1
g(i, 1)= d(i, 1)
C4
C2
始端フリー領域
C1
1
2
N
i
I
入力音声A (フレーム数I)
※テンプレートの端点フリーを導入すると,発話の文頭落ちや語末落ちに対応できる.
30
非対称パス
入力音声と単語テンプレートのパス制約を非対
称にしたもの
フレーム同期逐次認識を行う場合に有効
例えば,格子点を進めるときに一方のフレームは定数
パス重み和は注目する側のフレーム数だけで決定する
累積距離の正規化が不要
使用例
ワードスポッティング
特定区間:キーワード発声
長時間データ中のキーワード発声長はさまざま
フレーム同期認識
特定区間:ある時間までの入力音声
テンプレート長はさまざま
31
非対称パス(1)
テンプレート基準でデータの任意区間を評価
探索したい音声 B (フレーム数:J)
端点フリーと併用してワードスポッティング
テンプレート終端 J で閾値以下の累積距離が現れたら,パスをバックトレースする.
そのパスの開始~終了までの間はその単語を検出したとする。
J
② 途中で閾値を超えたら
探索は中止
×
g(i, 1)= d(i, 1)
1
1
1
③ テンプレートの最終フレーム
で閾値以下の累積距離が検出
されたらパスをバックトレース
① 入力音声は始端,終端とも端点フリー.
(入力音声の任意の区間でテンプレートと似た
区間を探す.)
④この区間にテンプレートの単語があると推定
探索対象となる音声コーパス A (フレーム数I)
I
32
d(ik, jk)
jk
g(ik,jk)=d(ik,jk)+min{g(ik-2,jk-1),
g(ik-1,jk-1),
g(ik,jk-1) }
1
単
語
テ
ン
プ
レ
ー
ト
4
5
8
0
1
jk-1
g(ik, jk-1)
ik-2 ik-1 ik
閾値を4(=正規化累積距離1)と設定
8
1
3
2
5
4
2
5
1
4
6
5
1
3
5
3
5
4
4
5
3 5 24 13 46 46 45 23 3 4 1
6
46 46 4 6 3 5 1 2 3 4 1 2 3 3 4 4 1 1 4 6 4 8 3 6
2
2
5
5
4
4
2
2
1
1
4
4
5
5
0
0
2
2
4
4
5
5
6
6
3
3
音声データ(検索対象のデータベース)
この例では2箇所で単語が検出されたこととなる.
33
非対称パス(2)
入力音声基準:
入力のあるフレームまでの段階での複数のテ
大語彙連続音声認識
初期条件: g(1,1) = d(1,1)
g (ik , jk )  1 d (ik , jk )  min{ g (ik  1, jk ), g (ik  1, jk  1), g (ik  1, jk  2)}
単
語
テ
ン
プ
レ
ー
ト
始点からここまでの距離重みは
評価した単語テンプレートに依存
せず同一(k).
1
入力音声
ik
34
テンプレートマッチングによる連続単語認識
解くべき問題
入力パターンともっともよくマッチする単語列を見つけ出
す.ただし,入力フレームの単語境界は与えられない.
x 単語認識の素朴なアプローチ
語彙数 N のとき N x 個の単語列テンプレートに対して順に
すべてに対してDPマッチング → 非効率的
単
語
テ
ン
プ
レ
ー
ト
を
連
結
単
語
3
単
語
2
単
語
1
入力音声
35
基本方針
1.
入力フレーム基準の非対称パスDTW
•
2.
単語テンプレートの長さの影響を受けず,入力の任意
のフレームまでの累積距離を比較できる.
単語境界での処理
•
入力フレームまでの累積距離の最小値とその単語を
記録し,それを初期値とし次単語のマッチングを開始
アルゴリズム
(a) 2段DP法
(b) Level Building法
単語数既知の場合に効果的
(c) One Pass DP法
単語数未知の場合に効果的
36
(a) 2段DP法
DPを2段階で行う
第1段階
入力音声の始点 m から単語テンプレート n について非対象パスによる終端フ
リー マッチング.
1≦ m < i ≦ I (I:入力フレーム数,i はマッチング終端フレーム)
あらゆる (n, m, i) の組み合わせに対して累積距離 D (n) (m:i) を計算.
D (m:i) の最小値とその単語 n を記録.
第2段階
入力フレームの累積距離が最小になる単語の系列を探索する。
第1段階
単
語
3
第2段階
単
語
2
単
語
1
単
語
n
m
入力フレーム
i
I
入力フレーム
I
37
(b) Level Building 法
何番目の単語を処理しているか明示的にしてマッチングを行う.
段数(単語数)が分かっている認識で効果的.電話番号認識など
記憶容量小
処理のながれ
1段目
入力音声の先頭を始端としてマッチングパスを開始
単語テンプレートに対して順に非対象パス終端フリーDPマッチング.
テンプレート終端に達したら,その入力フレームまでの最小累積距離と単語を
記録.
2段目(second level)以降
入力フレームの初期値として,前段までの最小の累積距離を与える.
各単語テンプレートについて端点フリーDPマッチングを行う.
終端となったフレームに,その段の認識結果とそこまでの累積距離を記録.
最大段数までおわったら,終端からパスをバックトレースし,認識単語列を
得る.
38
語彙数2(A,B),3単語音声を認識する場合
単
語
テ
ン
プ
レ
ー
ト
A
単
語
テ
ン
プ
レ
ー
ト
B
単
語
テ
ン
プ
レ
ー
ト
A
単
語
テ
ン
プ
レ
ー
ト
B
単
語
テ
ン
プ
レ
ー
ト
A
単
語
テ
ン
プ
レ
ー
ト
B
DTW A
最終段での
累積距離最小値
DTW B
3段目
DTW A
2段目
DTW B
DTW A
DTW B
フレームごとに,テンプレート終端までの
累積距離最小値とそれを与えた単語を
記録する.
それを初期値として2段目のパスを開始
1段目
入力フレーム
39
(3) One Pass DP 法
Level Building法の入力フレームのループを一番外側にしたもの.
入力フレームごとにすべての単語テンプレートについてパス計算を進める.
終端に到達したテンプレートがあれば,そのフレームまでの累積距離最小
の単語とその値を記録し,次の段のDPマッチングを始める.
単語数を決めておく必要がない
単語数制御機構がない.
単
語
E
単
語
D
単
語
C
単
語
B
単
語
A
1
入力フレーム
I
40
テンプレートマッチングを用いた
実用システム
口座照会システム (NTTdata)
(ANSER: Automatic answer Network System for Electrical Request)
1981年~
電話音声で利用可
16単語認識(数字+コマンド)
要素技術
SPLIT (Strings of phoneme-like templates)
物理的観点で分類した,音素に準ずるテンプレート
Staggered Array DP マッチング
マルチテンプレート (KNN)
http://www.nttdata.com/jp/ja/lineup/anser/
41
確率モデルによる音声認識
確率的音響モデル
言語モデルも確率的モデルを用いることで確率モデルによ
る統一的な音声認識が可能
音素HMM
HMM(Hidden Markov Model,隠れマルコフモデル)
音素HMMの接続で単語HMM
音素HMMの特徴
単純マルコフ過程
Left-to-Right HMM
3状態HMMが主流(前音素からの渡り,定常部,後音素への渡り)
周波数
スペクトログラム
渡り部
定常部
渡り部
渡り部
定常部
渡り部
音素境界
時間
42
HMM
観測信号は信号源から確率的に出力される.
音素HMMの場合,観測信号はスペクトル包絡
観測信号の傾向の変化は信号源の切替りでモデル化される.
信号源は「状態」と対応する.
音素HMMの場合,スペクトル包絡の傾向の変化
観測信号か「状態」を決定的に知ることはできない
複数の信号源が同一の信号を出力しうる.
音素HMMの場合,観測されたスペクトルから隣接音素との渡り部の信
号源の出力か,定常部の信号源からの出力か決定できないということ.
43
例 3状態HMM
a
状態遷移確率 aij: 状態 i から j に遷移する確率
出力確率 bi (X) : 状態 i が X を出力する確率
ij
1
j
b (X )  1
i
x
状態遷移確率
初期状態
観測信号は
離散値
X=A,B,C と定義
a11
a22
a33
第1状態
第2状態
第3状態
q1
b1(A)
b1(B)
b1(C)
a12
q2
b2(A)
b2(B)
b2(C)
a23
q3
最終状態
a34
q4
b3(A)
b3(B)
b3(C)
※一般に異なる状態への遷移には異なる出力確率が定義されるが,
ここでは遷移先に寄らず同じ出力確率とした
44
HMM尤度の算出方法
音素HMMごとに観測信号系列の出力確率(モデ
ルの尤度)を求め音響的スコアとする.
Forward アルゴリズム
観測信号系列を出力しうる状態遷移系列すべてを
考慮して尤度を求める.
Viterbi(ビタビ,ビテルビ)アルゴリズム
観測信号系列を出力する状態遷移系列のうち,最も
高い確率で出力する遷移系列の尤度を求める.
45
例 2状態HMMの尤度算出
2状態音素HMM /ア/, /イ/ がある.出力信号A,Bの出力確率 , 遷移確率は下の
通り.スペクトル系列「ABB」が観測されたとして Forwardアルゴリズム,Viterbiア
ルゴリズムそれぞれで音素認識をせよ.
a11=0.3
/ア/
初期状態
q1
a22= 0.2
q2
a12= 0.7
b2(A) 0.3
b2(B) 0.7
b1(A) 0.8
b1(B) 0.2
a11=0.5
/イ/
初期状態
q1
b1(A) 0.3
b1(B) 0.7
q3
a23= 0.8
(最終状態)
a22= 0.4
a12= 0.5
q2
b2(A) 0.6
b2(B) 0.4
q3
a23= 0.6
(最終状態)
46
Forwardアルゴリズムによる尤度計算
A
/ア/
B
B
観測系列
初期状態
0.3×0.8
q1
a12  b1  A
q2
1.0
0.24
0.7×0.8
0.7×0.2
0.2×0.7
0.56
=0.0336
0.112
=0.0784
0.8×0.7
q3
0.0627
状態
同様に /イ/ について計算すると尤度は 0.0184 → 認識結果: /ア/
Vitertbiアルゴリズムによる尤度計算
A
/ア/
B
B
観測系列
初期状態
0.3×0.8
q1
1.0
0.24
0.7×0.8
0.7×0.2
0.2×0.7
q2
q3
0.56
=0.0336
0.0784
=0.0784
0.8×0.7
0.0439
状態
同様に /イ/ について計算すると尤度は 0.0126 → 認識結果: /ア/
言語モデル
認識候補への言語的制約を与え,探索空間をしぼりこむ.
ネットワーク文法
N-グラム
(単語接続確率モデル)
認識対象を設定し,文法
と辞書を作成
テキストコーパスの単語ヒスト
グラムに基づいて作成
長所
定型文や単語認識むき
文法修正や単語追加が
容易
大語彙連続音声認識むき
任意の発話が認識対象
短所
文法から外れた発話は正 意味的におかしな結果も発生
確に認識できない
テキストコーパス収集コスト
人手での対象の網羅,複
雑な文法の作成は困難
作成
49
N-グラム言語モデル
ある単語の出現確率は直前のN-1単語に依存
すると仮定し,単語系列の生起確率を言語スコ
アとする
n
P( w1...wn )   P( wi | wi  N 1...wi 1 )
i 1
N=1:ユニグラム:
N=2:バイグラム:
N=3:トライグラム:
単語コンテキストを考慮しない
直前1単語を考慮
直前2単語を考慮
「学校に行く」 のトライグラムによる生起確率 (<s>:文頭記号,</s>:文末記号)
P(<s>/学校/に/行/く/</s>)=
P(学校|<s>) ・ P(に|<s>,学校) ・ P(行|学校,に) ・ P(く|に,行) ・ P(</s>|行,く)
50
ネットワーク文法(例)
文法
単語辞書
カテゴリ関係を記述
カテゴリーの単語と音素を記述
% FRUIT
S
: SNT1 SNT2
みかん m i k a N
SNT1 : FRUIT
りんご r i N g o
SNT1 : FRUIT NUM KO
ぶどう b u d o
SNT2 : WO KUDASAI
SNT2 : NISHITE KUDASAI
SNT2 : DESU
% NUM
1
i ch i
2
ni
% NISHITE
にして n i sh i t e
・
・
・
51
FRUIT
みかん
りんご
ぶどう
WO
KUDASAI
を
ください
KUDASAI
NISHITE
・
・
・
にして
FRUIT
NUM
みかん
りんご
ぶどう
1
2
ください
KO
個
DESU
です
・
・
・
生成される文例
「みかんをください」
「ぶどう7個です」
「りんご3個にしてください」
52
大語彙連続音声認識
確率モデルによる音声認識
スペクトル系列 X が得られたとき,P(W|X) を
最大にする単語列 W を求めるという問題
ベイズ則による解きやすい形式に変換
P(W , X )  P( X , W )
 P(W | X )  P( X )
 P( X | W )  P(W )
P( X | W )  P(W )
P(W | X ) 
P( X )
53
入力音声
音響モデル
単語辞書
言語モデル
X
音響スコア
言語スコア
P( X | W )
Wˆ  arg max P(W | X )
P(W )
デコーダ
W
P( X | W ) P(W )
 arg max
 arg max P( X | W ) P(W )
P( X )
W
W
P(W | X ) を直接算出するモデルの作成は困難だが,
P(W ) や P( X | W ) のモデル化は比較的容易.
arg max P( X | W ) P(W )
W
認識結果
Wˆ
を解くべき問題とする.
54
対数尤度
積演算を和演算に
スコア重み,単語挿入ペナルティ
言語重み
認識結果
音響スコア
言語スコア
単語数
Wˆ  arg max (log P( X | W ) αlog P(W ) βN )
W
単語の過剰な挿入を抑制( β < 0 )
55
標準的な日本語音素セット
モノフォン(mono-phone)モデル
コンテキスト非依存モデル(前後の音素を考慮しない)
40音素, 無音区間3種(sp: short pause, silB: 始端, silE: 終端)
a i u e o a: i: u: e: o: N w y j p t k h f r q b d g z m n s
dy ts ch my ky by gy ny hy ry py sh sp silB silE
トライフォン(tri-phone)モデル
コンテキスト依存モデル(前後の音素環境毎に異なる音素として学習)
単純計算で上記40種類の場合 40×40×40=64000種類になってしま
うので,出現頻度の少ないものはグループ化
モノフォンもトライフォンでも
3状態でモデル化するのが標準的
56
57
音声認識デコーダ JULIUS
DEMO
58
連続音声認識エンジン Julius
http://julius.sourceforge.jp/
(京大~奈良先端大~名工大)
高性能
数万語をPCで実時間認識
数単語~数万語以上の語彙に対応
オープン性
ソースを含めて無償公開
商用を含めて利用に制限なし
インタフェースの汎用性
音響モデル・言語モデルのカスタマイズが可能
任意のモデルが使用可能な汎用インタフェース
認識「エンジン」としての独立性
音響モデル・言語モデルとは独立したソフトウェア
モデルと組み合わせることで認識システムとして稼働
59
Juliusの構成
Julius
音声
入力
特徴
抽出
HMM音響モデル
HTK
音声
データベース
音韻環境依存モデル
(単語間依存近似)
フレーム同期 中間結果 尤度再計算
ビーム探索
再探索
(1-best近似)
(A*探索)
単語2-gram
テキスト
Palmkit
データベース
はじめに荒いモデルで高
速に認識して候補を絞る.
単語辞書
認識
単語列
単語3-gram
(逆向き)
単語N-gram言語モデル
次に,改めて詳細なモデ
ルで高精度な認識を行う.
60
(デモ)N-グラム言語モデルによる認識
Webテキストから学習,語彙数 6 万
はじめにバイグラム (2-gram)により粗いが高
速に認識結果の候補を行い,その後,トライ
グラム (3-gram)による精密な認識結果の推
定を行う.
音声認識デコーダ Juliusの機能
※音響モデルは,文法による音声認識と同じ不特
定話者用のトライフォンモデル
61
(デモ)文法による音声認識
attendant --- 受付における人の呼び出しタスク用文法
datetime --- 日付・時間の表現を受理する文法
digit --- 数字発声(一桁ずつ)用文法
fruit --- 果物注文タスク用文法
number --- 整数表現を受理する文法
persons --- 人数の表現を受理する文法
price --- 価格の表現(円)を受理する文法
railroad --- 新幹線の切符購入タスク用文法
type --- 音節タイプライタ用文法
vfr --- 服装着せかえタスク用文法
yesno --- はい/いいえを受理する文法
all (音節タイプライタ用文法を除く上記すべて)
62
参考資料
音声認識デコーダ Julius デモ
HMMモデルEM学習
ANSER(テンプレートマッチングシステム)
音素テンプレート
ベクトル量子化
SA-DPマッチング
KNN法
マルチテンプレートの設計
HMMパラメータ更新
63
音響モデル
音声
単語辞書
言語モデル
「今日読む本は」
特徴量
抽出
今日
ky o
認識結果
認識デコーダ
デコーダ
n o 飲むm u h
y o mu h
読む
o本
o
N
N
本屋
wは a
y a
64
ANSER
(3) SA-DP
データ量・計算量削減
単語テンプレート
3.いやし
1.こんにちは
4.ああ
2.いたい
単語テンプレート(1)
時 音 (2) VQ
系 声 計算量削減
入
列分
力
の析
音
抽(
声
出短
)時
間
???
ス 時間
ペ
ク
ト
ル
(1) 音素テンプレート
パス重み
距 改善
計算量削減
離
マ
ト
リ
ッ
ク
ス
計
算
非
線
形
伸
縮
正
規
化
累
積
距
離
の
比
較
マ
ッ
チ
ン
グ
5/(6+7)
10
8
9
4
2
0
9
7
8
3
0
2
5
6
4
0
3
4
4
3
4
1
5
6
2
3
0
2
8
9
0 0
2 2
1 1
4 4
9 9
10 10
いやし
6.2
5.0
ああ
認
識
結
果
最小の正規化
累積距離の
テンプレート
(4) KNN
不特定話者音声
に頑健
0.4
こんにちは
2.4
いたい
入力音声
65
(1) 音素テンプレート
語彙拡大の要求
単語テンプレート増加で計算量増大の問題
音素テンプレートの導入
テンプレート接続により単語テンプレート
音素環境を考慮
ベクトル量子化を併用
テンプレートを符号系列で記述
SPLIT(Strings of phoneme-like templates) 法
音素の代わりに物理特徴に基づく符号を使用
66
音素テンプレートによる単語認識
単語辞書
入力音声と音素テンプレート
の距離マトリックスを作成
距離計算
/a/
入力音声
距離計算
…
60
80
75
…
50
90
60
…
40
90
70
…
5
85
60
…
20
95
45
…
30
20
25
…
80
15
12
…
75
1
2
…
I
ニ
…
音素系列
ichi
ni
…
音素テンプレートの距離
マトリクスの接続で
単語の距離マトリクスを作成
ichi
累
積
距
離
算
出
ni
…
70
イチ
…
/i/
…
スペクトル
分析
85
単語
距離計算
/n/
音素テンプレート
音素
スペクトル
系列
/a/
/i/
入力音声
/i/
…
/n/
認
識
結
果
決
定
90
70
…
5
85
60
…
20
95
45
…
30
20
25
…
80
15i
12
…
75
2
…
I
1
入力音声
認識
結果
67
(2) ベクトル量子化(Vector Quantization)
スペクトルの典型的なベクトル集合(符号帳,
Codebook)を作成
フレームのスペクトルを符号で表現
距離マトリクス作成が容易
符号間距離はあらかじめ準備
テンプレートの符号系列もあらかじめ準備
入力データの符号系列が決まれば,任意のフレーム
間距離は値の参照のみで求められる
68
ベクトル量子化
ベクトル量子化(vector quantization, VQ)
符号帳(codebook)として典型的なベクトルの集合を
作成する。
パターンマッチングでの利用
あらかじめ符号どうしの距離は計算しておくことがで
きる。
単語テンプレート,および入力パターンのフレームに
対応する符号が決まればフレーム間距離計算が不
要になる。
距離尺度の計算量の削減が可能。
69
(付録)符号帳設計アルゴリズム
LBGアルゴリズム
•
初期設定
セントロイドを計算する。
•
符号帳の分割
符号帳のベクトルを2つに分割する。
•
ラベルの付け替え
サンプルごとに最も小さい距離の符号帳のベクトルのラベルを
付ける
•
セントロイドの計算
同じラベルをもつ学習サンプルのセントロイドを計算し、このセ
ントロイドを新しい符号帳のベクトルとする。
•
符号帳の大きさのチェック
符号帳が所定の大きさに達したら終了する。さもなければ符号
帳分割を繰り返す
70
1. 初期設定
多くの音声データからLPCケプストラム係数のベクトルを集め, 符
号帳作成の学習サンプル集合とする。この学習サンプル集合を
とする。この集合Xのセントロイドを計算する。
ケプストラム係数のセントロイドは、それぞれの要素の平均値
(相加平均)で与えられる。符号帳ベクトルの数N = 1と置き、セン
トロイドをその対応するベクトルとする。符号帳のベクトルの数を
Csize = 1とする。この符号帳を B = b1 と表す。また、集合Xのすべ
ての要素に符号帳のベクトルのラベル
をつけ
る。
2. 符号帳の分割
符号帳のベクトルを2つに分割する。符号帳の中のすべてのベク
トルを2つに分割する。よって、 Csizeの値を2倍にし、符号帳は、
となる。
71
3. ラベルの付け替え
学習サンプル集合のサンプルごとに、符号帳のケプストラ
ム係数とのケプストラム距離を計算して、最も小さい距離の
符号帳のベクトルのラベルを付ける。
4. セントロイドの計算
同じラベルをもつ学習サンプルのセントロイドを計算する(ケ
プストラム距離では、相加平均)。このセントロイドを新しい
符号帳のベクトルとする。このラベル付けの過程での量子
化誤差の減少が大きければ、ラベル付け替えの過程に戻る。
5. 符号帳の大きさのチェック
符号帳に含まれるベクトルの数(符号帳の大きさ)が、所定
の大きさに達したら、符号帳の設計は終了する。さもなけれ
ば、符号帳の分割の過程を繰り返す。
72
ベクトル量子化(Vector Quantization)
X
X
X
X
X
X
X
X
X
X
X
v  min
X Xd (v, xi )
X
X
X
X
X
X
X
X
X
X
X
X
セントロイド
v 計算
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
分割
X
X
X
X
X
X
X
X
X
X
X
X
X
X
73
ベクトル量子化(Vector Quantization)
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
分割
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
セントロイド算出
X
X
X
X
X
X
X
ラベルの付け替え
X X
X
X
X
X
X
74
ベクトル量子化(Vector Quantization)
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
ラベル更新+セントロイド算出
X の繰り返し
X
X
X
X
X
75
ベクトル量子化(Vector Quantization)
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
符号帳(Codebook)
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
76
(3) SA-DP (Staggered Array DP) マッチング
計算量削減
入力・テンプレート平面で,傾き1の平行線上にある格子
点列を同じグループと考える
格子点の間引き
1グループに1つのレジスタを割り当てる→メモリ削減
ユークリッド距離に近い距離重み
端点フリー導入が容易
77
(方針) 傾き1の同じ直線上にある格子点 → 同じグループ
パスの見直し:
• 累積距離計算は格子点3点ごと(図中の “○” のみ)
• 傾斜制限パス
• ユークリッド距離に近い距離重み
• 格子点グループの範囲指定 → 整合窓
テ
ン
プ
レ
ー
ト
整合窓
入力
78
1
パス重み
1
4/3
R(i-j)
1
4/3
1
(2)
青線の順に累
積値計算
R(0)
R(1)
4/3
(ユークリッド距離)
累積値 g
↓
レジスタ値 R
を順に更新
1
約 1.9 B
R(k )  min{ R(k  1)  d (i  1, j )  d (i, j ),
4
R(k )  {d (i, j ), d (i  1, j  1), d (i  2, j  2)},
3
R(k  1)  d (i, k  1)  d (i, j )}
(1)グルーブ(列)ごとにレジスタ R(k )  R(i  j ) を割り振る
79
端点フリーの導入
マッチングパスの始端
マッチング
パスの終端
(パス重み累積
値は等しい)
灰色領域
の距離は
d (i, j )  0
と定義
80
(4) KNN法 (K-Nearest Neighbor Method)
マルチテンプレートにより認識性能を頑健に
最終結果を決定するアルゴリズムのひとつ
不特定話者認識に有効
話者ごとの発話のゆらぎに対応できる
ながれ
単語ごとに数10個のテンプレート(マルチテンプ
レート)を用意
各単語について,入力音声と最も距離の小さい
N個のテンプレートを選択
それらの平均距離が最小の単語を選ぶ.
81
距離計算量の削減
音
声
入
力
音
声
分
析
距
離
マ
ト
リ
ッ
ク
ス
計
算
非
線
形
伸
縮
マ
ッ
チ
ン
グ
正
規
化
距
離
の
比
較
認
識
結
果
スペクトル距離
単語標準
パターン
単
語
標
準
パ
タ
ー
ン
入力音声
82
(付録)マルチテンプレート設計手法の例
(ベクトル量子化のための符号長作成アルゴリズムと類似した手法)
1. 初期単語マルチテンプレートの作成 (第1段階)
初期単語マルチテンプレートを、単語ごとに作成する。
異なる話者 i, j の発声した単語 Wi と Wj との非線形伸縮マッチングの距離D (Wi ,
Wj) を要素とする距離行列を得る。
(a) (初期設定)
クラスタの数を1とし、そのクラスタのラベルをすべての単語につける。
(b) (セントロイドの決定)
クラスタごとに距離の総和が最小となる単語標準パターンを見つける。
(c) (ラベル付け)
新しい単語標準パターンを用いて、すべての単語にラベルを付ける。クラスタの距
離の総和の減少が大きければ、(セントロイドの決定)のプロセスに戻る。クラスタの
距離の総和があらかじめ設定された値より小さければ、このときのクラスタのセントロ
イドを単語のマルチテンプレートとする(終了)。
(d) (クラスタの分割)
クラスタごとの距離の総和を比較し、最大のクラスタを分割し(ラベル付け)に戻る。
83
2. 初期マルチテンプレートの再選択 (第2段階)
前頁の単語マルチテンプレートの選択アルゴリズムは、同一単語
カテゴリ内でのマルチテンプレートであった。このマルチテンプレー
トの中には、他の単語カテゴリの単語音声に悪影響を及ぼすテン
プレートが含まれている。この段階では、学習用音声データの単
語認識率を評価関数として、マルチテンプレートの再選択を行なう。
(a)
(単語認識率の計算)
すべてのマルチテンプレートに対して、そのうちの一つを取り除い
たときのKNN 法による単語認識率を計算する。
(b)
(テンプレートの除去)
取り除くと認識率が向上するテンプレートがないならば、終了する。
取り除いたときに、もっとも認識率の向上するテンプレートを見つ
け出し、それを取り除く。上の段階に戻る。
84
3. 単語マルチテンプレートの最適化 (第3段階)
第2段階で得られた単語マルチテンプレートを初期値として、単語マ
ルチテンプレートの数を固定して、学習用単語の認識率がさらに高く
なるように、次に示す局所的繰り返しによる最適化を行なう。
(a)
(初期設定)
第1段階で選ばれたマルチテンプレートの集合を S とし、第2段階で
選ばれた集合をT とする。
(S-T) は、第2段階で含まれていないテンプレートの集合を表す。
(b)
(単語認識率の計算)
集合 (S -T) に含まれるテンプレートと集合T に含まれているテンプ
レートとの入れ換えを試みる。認識率が向上する入れ換えがないなら
ば、終了する。最も認識率の向上が大きい入れ換えを実行する。この
アルゴリズムを繰り返す。
85
【参考】 HMMパラメータ更新
方針
HMMパラメータは学習データから直接観測できない.
EM(Expectation-Maximization)アルゴリズムに基づき推定
通常のマルコフモデルでは学習データ集合 Y から遷移確率を直接
数えあげることが可能.状態 i から j への遷移確率の最尤推定
(maximum likelihood estimation) a
ˆ は aˆij  nij k nik で得る.
手順
ij
観測データからモデルを仮定,状態遷移回数を計算
それに基づき遷移確率,出力確率を最尤推定,パラメータ
更新
86
例題: 離散スペクトルHMMのパラメータ更新
観測信号の時系列が u, e, o の3種類のシンボルで表され、下記のような離散
HMMが初期モデルとして与えられており,実際の観測系列 x = e u o o が与えら
れたとする.
0.4
q
0.6
0.6
1
u
e
o
0.5
0.1
0.4
q
0.5
0.4
2
u 0.5
e 0.4
o 0.1
q
遷移確率
0.5
3
u 0.2
e 0.5
o 0.3
q
4
出力確率
HMM
(1) Forward,Backwardの計算結果を用い,状態間の確率的回数 γ を求める.
(2) 離散HMMのパラメータをEMアルゴリズムを用いて更新する.
実際にはパラメータが収束するまで更新するが,ここでは一度だけ更新する.
Forwardアルゴリズム(e u o o)による計算結果
累積確率値 α (i, t) は観測系列を出力しながら,「時間 t で 状態 i
に遷移する確率」である.
 1, t  0
t 1
t2
t 3
t4
e
u
o
o
0.4×0.1
q1
1.0
0.04
0.6×0.1
q2
0.06
0.03
0.4×0.5
q3
 2, t  2
0.6×0.5
0.6×0.5
0.012
0.4×0.1
0.003
0.5×0.3
q4
0.5×0.3
0.00045
P x | M 
Backwardアルゴリズム(e u o o)による計算結果
Forwardアルゴリズムの逆向きに確率を計算する.最終結果は同じ.
累積確率値 β (i, t) は「時間 t で 状態 i に遷移したとき,それ以降に観測系
列を出力する確率」に対応する.
t 1
e
q1 0.00045 0.4×0.10.0018
0.6×0.1
t 3
t4
u
o
o
0.6×0.5
0.6×0.5
q2
0.0063
 2, t  1
q3
t2
0.006
0.4×0.5
0.4×0.1
0.0225
0.5×0.3
q4
0.15
0.5×0.3
1.0
状態間の確率的回数の計算
 i, t  1  aij  bi ( xt )    j, t 
 i, j, t  
P x | M 
: 時刻 t において,状態 i から状態 j に遷移している確率
 i, t  :Forwardアルゴリズムにおける時刻 t ,状態 i の累積確率
  j, t  :Backwardアルゴリズムにおける時刻 t ,状態 j の累積確率
= 時間 t に状態 j に遷移したとき,それ以降に観測系列を出力
する確率.
aij
bi x 
Px | M 
:状態 i から状態 j への遷移確率
:状態 i におけるパターン x の出力確率
:モデル M における系列 x の生起確率
(例)
 1, t  0 a12  b1 e   2, t  1 1 0.6  0.1 0.0063
 1,2, t  1 

 0.84
P x | M 
0.00045
状態間の確率的回数の計算
時刻 t-1 で状態 i に遷移したとき
の,そこまでの累積確率
状態 i から状態 j への遷移確率
状態 i での xt の出力確率
時刻 t で状態 j に遷移したとき,
それ以降の観測系列を出力する確率
 i, t  1  aij  bi ( xt )    j, t 
 i, j, t  
P x | M 
系列全体の出力確率
観測系列を出力しながら,時刻 t において,状態 i から状態 j に遷移する確率
状態間の確率的回数の計算結果
 1, t  0 a11  b1 e  1, t  1
 0.16
P x | M 
 1, t  0 a12  b1 e  2, t  1
 1,1, t  1 
 1,2, t  1 
P x | M 
 0.84
 1,2, t  2 
 1, t  1 a12  b1 u   2, t  2
 0.16
P x | M 
 2,2, t  2 
 2, t  1 a22  b2 u    2, t  2
 0.24
P x | M 
 2,3, t  2 
 2, t  1  a23  b2 u    3, t  2
 0.6
P x | M 
 2,3, t  3 
 2, t  2 a23  b2 o   3, t  3
 0.4
P x | M 
 3,3, t  3 
 3, t  2  a33  b3 o    3, t  3
 0.6
P x | M 
 3,4, t  4 
 3, t  3 a34  b3 o   4, t  4
 1.0
P x | M 
EMアルゴリズムによるパラメータ更新

(
i
,
j
,
t
)

(
i
,
j
,
t
)



t
;
x

k
j
t
t
aˆij 
bˆi (k ) 
t  j  (i, j, t )
t  j  (i, j, t )
(分子)状態 i から j に遷移するすべての確率
(分子)状態 i から遷移するとき k を出力するすべての確率
(分母)状態 i から遷移するすべての確率
(分母)状態 i から遷移するすべての確率
(例)
 (1,2, t )
 (1,2,1)   (1,2,2)

aˆ 

   (1, j, t )  (1,1,1)   (1,2,1)   (1,2,2)
 (1, j, t )


 (1,1,1)   (1,2,1)
t
;
x

e
j
bˆ1 (e) 

t  j  (1, j, t )  (1,1,1)   (1,2,1)   (1,2,2)
 (3, j, t )


0
bˆ (e) 

0
   (3, j, t )  (3,3,3)   (3,4,4)
t
12
t
j
t
t ; xt  e
j
3
t
j
EMアルゴリズムによるパラメータ更新結果
aˆ11
 (1,1, t )


 0.14
   (1, j, t )
 (1,2, t )


 0.86
   (1, j, t )
t
t
aˆ12
t
t
22
t
   (1, j, t )  0
   (1, j, t )
t ; xt  o
t
j
j
 (2, j, t )
ˆb (u )  t ; xt u  j
 0.68
2
t  j  (2, j, t )
bˆ2 (e) 
t
t
j
t
j
   (2, j, t )  0
   (2, j, t )
t ; xt  e
j
t
j
 (3,3, t )


 0.375
   (3, j, t )
 (3,4, t )


 0.625
   (3, j, t )
t
bˆ1 (o) 
j
  (2,2, t )  0.19
ˆa 
   (2, j, t )
 (2,3, t )

t
aˆ23 
 0.81
t  j  (2, j, t )
aˆ34
t;xt e  j  (1, j, t )  0.86
bˆ1 (e) 
t  j  (1, j, t )
j
t
aˆ33
t;xt u  j  (1, j, t )  0.14
bˆ1 (u ) 
t  j  (1, j, t )
j
 (2, j, t )
ˆb (o)  t ; xt o  j
 0.32
2
t  j  (2, j, t )
   (3, j, t )  0
   (3, j, t )
   (3, j, t )  1.0
ˆb (o) 
   (3, j, t )
bˆ3 (u ) 
t ; xt u
t
j
j
t ; xt  o
j
3
t
j
bˆ3 (e) 
   (3, j, t )  0
   (3, j, t )
t ; xt  e
t
j
j
99
言葉の復習
音素
シンボリック 音素記号 言語依存
単音
物理的特徴と対応 国際音声記号 超言語
音声の音韻面
声道 振幅スペクトル 音素
音声の韻律的
声道 高さ強さ長さ(の変化) リズム イントネ
ーション 高低アクセント(声調)
100
音素と単音
音素(phoneme)
記号的な分類による最小単位.
音韻記号を使用して /a/ のように記述する.
単音(phone)
物理的な分類による最小単位。以下で決まる。
調音様式 (狭めや閉鎖といった音の作り方)
調音位置 (狭めや閉鎖の場所)
声帯振動の有無
音声記号を使用して [a]のように記述する.
1.存在する音素の種類とその音素記号は言語によって異なる.
2.単音は物理的な現象と対応するもの.言語に依らない.
101
3.音素と単音の対応は言語によって異なる.
日本語(東京標準)特有の音素と単音の対応の例
同じ音素でも,物理的には異なる音(単音)を
使いわけていたり,同じ単音が別の音素として使われていたりする.
音素 /N/ : 後続する音素によって単音が異なる
[p,b,m]の前 /hoNbako/ (本箱): [m]
[t,d,n]の前 /hoNdana/ (本棚): [n]
[k,g]の前 /hoNgaN/ (本願): [ng]
音素 /z/ : 文頭か文中かで単音が異なる
文中 /indozo:/ (インド象): [z] (摩擦音)
文頭 /zo:/ (象): [dz](破擦音)
音素/Q/ (促音) : 後続する音素の調音によって単音が異なる
摩擦音の前 /iQsai/ (一切): 後続摩擦音[s]の延長
破裂音の前 /iQtai/ (一体): 後続破裂音[t]の閉鎖の延長
発話末:
/haQ/ (はっ): 声門破裂音
母音の無声化
無声音に挟まれた母音や文末の母音 /i,u/ がしばしば無声音になる.
(例)「クツシタ」の「ク」「シ」の母音,「スキー」の「ス」の母音
102
IPA(国際音声字母)による子音分類と記号
東京方言で観察される単音を○で囲み,それを含むカナを併記した.
んである.同じ音素でも異なる単音が使われている.(例)意識しない例として「な行」.
調音位置
(両)唇音 唇歯音 歯音 歯茎音
そり舌音 硬口蓋音
口蓋垂音
声門音
後部歯茎音
軟口蓋音
咽頭音
破裂音
パピプペポ、ッ
バビブベボ
鼻音
調
音 ふるえ音
方
弾音
式
マミムメモ、ン(p,b,mが続く)
語頭以外の
バビブベボ
タテト、ッ
連続発声
で語頭の
ザズゼゾ
カキクケコ、ッ
ダデド
ガギグゲゴ
ナヌネノ、
ン(t,d,nが続く)
~ッ
ニ
連続発
声でチ
連続する
と語頭の
ジ
ラリルレロ
ガギグゲゴ
(鼻濁音)
ンの基本の音
(ハ、ホ)
摩擦音
フ
側面摩擦音
サスセソ、ッ
ザズゼゾ
シ、(ヒ)
語頭以外のジ
シ(慣習的表記)、ッ
接近音
側面接近音
(強い
ハ、ホ)
ヤユヨ
(ラレロ)
同一枠内は左:無声子音,右:有声子音.
103
(川上蓁,“日本語音声概説)
ハ(ヒフ)ヘホ
(参考)IPA子音分類(東京外国語大学)
http://www.coelang.tufs.ac.jp/ipa/tufs2001.htm
(音声が聴ける)
104
大語彙連続音声認識
標準的なセッティング
音響モデル
Tri-phone 音素モデル
3-state Left-to-Right HMM
MFCC(Mel-Frequency Cepstrum Coefficient)
MFCC 12次元+Δ+ΔΔ(+Power)
16-mixture GMM(Gaussian Mixture Model)
PTM(Phonetic tied-Mixture)
言語モデル
3-gram
105