音声認識:第1回 0.講義の進め方 1.音声翻訳のデモンストレーション 2.音声認識の現状と利用方法 http://www.info.kindai.ac.jp/ASR 0.講義の進め方 講義スライドはあらかじめホームページに アップロードされる(.pptと.pdf) http://www.info.kindai.ac.jp/ASR 全部で7回のレポートがある それぞれ、100文字以上で、メールで提出 提出期限は、2週間後の講義のはじめまで [email protected] 0.講義の進め方 レポート50点 7回各7点(最終回のみ8点) • 減点1:今までの講義から、誤りと解るものを一部 含む • 減点2:今までの講義から、誤りと解る内容のもの 提出期限遅れ • 減点3:出題意図と異なる解答 • 減点7:Webページ等のコピー • 減点10:他人のコピーをした(させた) 0.講義の進め方 試験50点 ノートPCを含め、持ち込みあり • 正誤問題 30点 10問中、1問間違えるごとに3点減点 ただし減点は最大15点まで • 記述問題 10点2問 レポートおよびその解説に関連する所から出題 1.音声翻訳のデモンストレーション 音声翻訳の流れ 日本語音声 音声認識 日本語テキスト 機械翻訳 英語テキスト 音声合成 英語音声 2.音声認識の概要 音声認識の利用先 1. キーボードの代わりとして(テレビの字幕等) 慣れるとキーボードの方が早い 他の人がいる所でしゃべるのが嫌 2. 手が使えない環境での操作(カーナビ) うるさい環境が多いため、うまく認識しない 3. 翻訳 音声とは? 音声認識の目的 argmax P(W | A) = argmax P( A | W ) P(W ) W W 声Aが聞こえた時、一番それらしい文W を見つける :文W がどんな声Aで言われるか P( A | W ) 音としての性格 :文W がまともな文か P(W ) 言葉としての性格 声とは? どうやって「あいうえお」を聞き分けているのか? 50音ごとに音色が違う 大きさ 高さ(波長) 波の形 =音色 =50音 スペクトル 音色: 色々な高さの音が混ざってできる スペクトル: 各高さの音の混ざり具合 少 高 中 多 低 どのくらいですか 人間の聴覚器官 聴覚に関連する耳の器官 蝸牛を伸ばした図(実際には2+3/4回転している) 蝸牛と周波数 狭く硬い(0.04mm) 高い音に反応 広く柔かい(0.5mm) 低い音に反応 音声認識の流れ 特徴量 抽出 認識結果 デコーダ 音響 モデル 言語 モデル 音声認識の流れ 特徴量 抽出 認識結果 デコーダ 音響 モデル 言語 モデル 音声特徴量の抽出 音声の音色を調べる。 ただし、音色の全ての情報が必要なわけではない。 声:声帯から出る音を口の中の動きで加工する。 どの音かは口の動きで決まる。 声帯の情報は不要。 音声特徴量の抽出 音声の音色を調べる。 = スペクトル(Spectrum)を計算する。 音声波形をフーリエ変換する。 さらにlogをとってから逆フーリエ変換する。 声帯の音と口の音の成分を分けることができる。 ケプストラム(Cepstrum) 10数次元の実数ベクトル 音声特徴量の抽出 ケプストラムは時々刻々変わるため、毎秒何度も (通常100回程度)計算しなおす。 最終的に、音声は毎秒100個の10数次の 実数ベクトルの列(特徴ベクトル)で表現される。 実際はケプストラムの時間変化の大きさも 考慮するため、ケプストラムの時間に対する 微分係数も用いられる。 音声認識の流れ 特徴量 抽出 認識結果 デコーダ 音響 モデル 言語 モデル 音響モデル n 音素 à 50音の単位となるもの。 おおむねローマ字表記の一文字に対応 n 音素ごとに特徴ベクトルに対するスコアを割り当てる a o ⎛ 1.2 ⎞ ⎜ ⎟ ⎜ 3.6 ⎟ ⎜ . ⎟ ⎜ ⎟ ⎜ . ⎟ ⎜ − 2.4 ⎟ ⎝ ⎠ ⎛ 1.8 ⎞ ⎜ ⎟ ⎜ − 1.6 ⎟ ⎜ . ⎟ ⎜ ⎟ ⎜ . ⎟ ⎜ − 0.3 ⎟ ⎝ ⎠ 4.5 3.6 5.2 7.9 ⎛ 9.6 ⎞ ⎜ ⎟ ⎜ 3.2 ⎟ ⎜ . ⎟ ⎜ ⎟ ⎜ . ⎟ ⎜ 1.4 ⎟ ⎝ ⎠ ⎛ − 2.6 ⎞ ⎜ ⎟ ⎜ 5.7 ⎟ ⎜ . ⎟ ⎜ ⎟ ⎜ . ⎟ ⎜ 1.4 ⎟ ⎝ ⎠ 1.9 1.1 2.3 3.7 = 13.9 = 16.3 音響モデル n 音素 à 50音の単位となるもの。 おおむねローマ字表記の一文字に対応 n 音素ごとに特徴ベクトルに対するスコアを割り当てる a o ⎛ 1.2 ⎞ ⎜ ⎟ ⎜ 3.6 ⎟ ⎜ . ⎟ ⎜ ⎟ ⎜ . ⎟ ⎜ − 2.4 ⎟ ⎝ ⎠ ⎛ 1.8 ⎞ ⎜ ⎟ ⎜ − 1.6 ⎟ ⎜ . ⎟ ⎜ ⎟ ⎜ . ⎟ ⎜ − 0.3 ⎟ ⎝ ⎠ 4.5 3.6 5.2 7.9 ⎛ 9.6 ⎞ ⎜ ⎟ ⎜ 3.2 ⎟ ⎜ . ⎟ ⎜ ⎟ ⎜ . ⎟ ⎜ 1.4 ⎟ ⎝ ⎠ ⎛ − 2.6 ⎞ ⎜ ⎟ ⎜ 5.7 ⎟ ⎜ . ⎟ ⎜ ⎟ ⎜ . ⎟ ⎜ 1.4 ⎟ ⎝ ⎠ 1.9 1.1 2.3 3.7 = 13.9 = 16.3 音声認識の流れ 特徴量 抽出 認識結果 デコーダ 音響 モデル 言語 モデル 言語モデル n 文章としてのもっともらしさを表す。 ある音声に対して、音響モデルで あにがとふ ありがとう à 130.6 à 118.3 誰も言わない よく使われる 音響モデルのスコアが多少低くても、 それらしい文章を選んだほうがよい。 音声認識の流れ 特徴量 抽出 認識結果 デコーダ 音響 モデル 言語 モデル デコード n 音響モデルと言語モデルのスコアの和が 一番高くなるような文を探す 全ての組み合わせを単純に計算すると、 計算量が爆発 計算効率の良いアルゴリズム 見込みの無さそうな文は途中でやめる 質問とスライド [email protected] http://www.info.kindai.ac.jp/ASR
© Copyright 2025 ExpyDoc