音声認識:第1回

音声認識:第1回
0.講義の進め方
1.音声翻訳のデモンストレーション
2.音声認識の現状と利用方法
http://www.info.kindai.ac.jp/ASR
0.講義の進め方
講義スライドはあらかじめホームページに
アップロードされる(.pptと.pdf)
http://www.info.kindai.ac.jp/ASR
全部で7回のレポートがある
それぞれ、100文字以上で、メールで提出
提出期限は、2週間後の講義のはじめまで
[email protected]
0.講義の進め方
レポート50点 7回各7点(最終回のみ8点)
• 減点1:今までの講義から、誤りと解るものを一部
含む
• 減点2:今までの講義から、誤りと解る内容のもの
提出期限遅れ
• 減点3:出題意図と異なる解答
• 減点7:Webページ等のコピー
• 減点10:他人のコピーをした(させた)
0.講義の進め方
試験50点 ノートPCを含め、持ち込みあり
• 正誤問題 30点
10問中、1問間違えるごとに3点減点
ただし減点は最大15点まで
• 記述問題 10点2問
レポートおよびその解説に関連する所から出題
1.音声翻訳のデモンストレーション
音声翻訳の流れ
日本語音声
音声認識
日本語テキスト
機械翻訳
英語テキスト
音声合成
英語音声
2.音声認識の概要
音声認識の利用先
1.  キーボードの代わりとして(テレビの字幕等)
慣れるとキーボードの方が早い
他の人がいる所でしゃべるのが嫌
2.  手が使えない環境での操作(カーナビ)
うるさい環境が多いため、うまく認識しない
3. 翻訳
音声とは?
音声認識の目的
argmax P(W | A) = argmax P( A | W ) P(W )
W
W
声Aが聞こえた時、一番それらしい文W を見つける
:文W
がどんな声Aで言われるか
P( A | W )
音としての性格
:文W
がまともな文か
P(W )
言葉としての性格
声とは?
どうやって「あいうえお」を聞き分けているのか?
50音ごとに音色が違う
大きさ
高さ(波長)
波の形
=音色
=50音
スペクトル
音色: 色々な高さの音が混ざってできる
スペクトル: 各高さの音の混ざり具合
少
高
中
多
低
どのくらいですか
人間の聴覚器官
聴覚に関連する耳の器官
蝸牛を伸ばした図(実際には2+3/4回転している)
蝸牛と周波数
狭く硬い(0.04mm)
高い音に反応
広く柔かい(0.5mm)
低い音に反応
音声認識の流れ
特徴量
抽出
認識結果
デコーダ
音響
モデル
言語
モデル
音声認識の流れ
特徴量
抽出
認識結果
デコーダ
音響
モデル
言語
モデル
音声特徴量の抽出
音声の音色を調べる。
ただし、音色の全ての情報が必要なわけではない。
声:声帯から出る音を口の中の動きで加工する。
どの音かは口の動きで決まる。
声帯の情報は不要。
音声特徴量の抽出
音声の音色を調べる。
=
スペクトル(Spectrum)を計算する。
音声波形をフーリエ変換する。
さらにlogをとってから逆フーリエ変換する。
声帯の音と口の音の成分を分けることができる。
ケプストラム(Cepstrum)
10数次元の実数ベクトル
音声特徴量の抽出
ケプストラムは時々刻々変わるため、毎秒何度も
(通常100回程度)計算しなおす。
最終的に、音声は毎秒100個の10数次の
実数ベクトルの列(特徴ベクトル)で表現される。
実際はケプストラムの時間変化の大きさも
考慮するため、ケプストラムの時間に対する
微分係数も用いられる。
音声認識の流れ
特徴量
抽出
認識結果
デコーダ
音響
モデル
言語
モデル
音響モデル
n  音素 à 50音の単位となるもの。
おおむねローマ字表記の一文字に対応
n  音素ごとに特徴ベクトルに対するスコアを割り当てる
a
o
⎛ 1.2 ⎞
⎜
⎟
⎜ 3.6 ⎟
⎜ . ⎟
⎜
⎟
⎜ . ⎟
⎜ − 2.4 ⎟
⎝
⎠
⎛ 1.8 ⎞
⎜
⎟
⎜ − 1.6 ⎟
⎜ . ⎟
⎜
⎟
⎜ . ⎟
⎜ − 0.3 ⎟
⎝
⎠
4.5
3.6
5.2
7.9
⎛ 9.6 ⎞
⎜ ⎟
⎜ 3.2 ⎟
⎜ . ⎟
⎜ ⎟
⎜ . ⎟
⎜ 1.4 ⎟
⎝ ⎠
⎛ − 2.6 ⎞
⎜
⎟
⎜ 5.7 ⎟
⎜ . ⎟
⎜
⎟
⎜ . ⎟
⎜ 1.4 ⎟
⎝
⎠
1.9
1.1
2.3
3.7
= 13.9
= 16.3
音響モデル
n  音素 à 50音の単位となるもの。
おおむねローマ字表記の一文字に対応
n  音素ごとに特徴ベクトルに対するスコアを割り当てる
a
o
⎛ 1.2 ⎞
⎜
⎟
⎜ 3.6 ⎟
⎜ . ⎟
⎜
⎟
⎜ . ⎟
⎜ − 2.4 ⎟
⎝
⎠
⎛ 1.8 ⎞
⎜
⎟
⎜ − 1.6 ⎟
⎜ . ⎟
⎜
⎟
⎜ . ⎟
⎜ − 0.3 ⎟
⎝
⎠
4.5
3.6
5.2
7.9
⎛ 9.6 ⎞
⎜ ⎟
⎜ 3.2 ⎟
⎜ . ⎟
⎜ ⎟
⎜ . ⎟
⎜ 1.4 ⎟
⎝ ⎠
⎛ − 2.6 ⎞
⎜
⎟
⎜ 5.7 ⎟
⎜ . ⎟
⎜
⎟
⎜ . ⎟
⎜ 1.4 ⎟
⎝
⎠
1.9
1.1
2.3
3.7
= 13.9
= 16.3
音声認識の流れ
特徴量
抽出
認識結果
デコーダ
音響
モデル
言語
モデル
言語モデル
n  文章としてのもっともらしさを表す。
ある音声に対して、音響モデルで
あにがとふ
ありがとう
à 130.6
à 118.3
誰も言わない
よく使われる
音響モデルのスコアが多少低くても、
それらしい文章を選んだほうがよい。
音声認識の流れ
特徴量
抽出
認識結果
デコーダ
音響
モデル
言語
モデル
デコード
n  音響モデルと言語モデルのスコアの和が
一番高くなるような文を探す
全ての組み合わせを単純に計算すると、
計算量が爆発
計算効率の良いアルゴリズム
見込みの無さそうな文は途中でやめる
質問とスライド
[email protected]
http://www.info.kindai.ac.jp/ASR