音声認識・音声情報処理 篠崎隆宏研究室 工学院情報通信系情報通信コース すずかけ台キャンパスG2棟804室 www.ts.ip.titech.ac.jp 音声技術の歴史 1800 1791 Kempelen’s talking machine 1850 1876 Telephone 1857 Phonautograph *2 *1 1900 Radio broad cast 1920s Radio Rex 1950 1946 ENI AC 2000 1969 Internet 1990 www 1939 Vocoder 2011 Siri on iOS 1999 1952 Seaman Speech recognizer (Digit recognition) Sources: 1) Voice communication between human and machines, National academy press. 2) https://en.wikipedia.org/w/index.php?title=Phonautograph&oldid=676031521 (last visited Apr. 2, 2016). 2 音声認識の歴史 1952 2G: テンプレート音声と入力音声 の動的計画法によるマッチング (日本とソ連により同時に発明) 1G: アナログフィルタバ ンクと論理回路を用いた 方法により、音素や一桁 数字などを認識 (米国、日本、英国) 3G: 隠れマルコフモデルや N-gramの利用 IBM, Bell研 3.5G:識別学習 4G:ディープ ニューラルネット 出典:古井貞熙 「コンピューターによる音声認識のこれまでと今後の展望」 日本音響学会2011年春季研究発表会1-31-1 3 音声技術の応用例 Where is the… Transmit only speech segment to the server Keep going and… Returned response Speech output Speech input and voice activity detection Speech output Speech recognition, dialog management, and speech synthesis Internet Speech input Server computers in data center 4 音声認識システムの実現に関わる主要分野 Machine learning Pattern recognition Probability and statistics Feature extraction Signal Processing Search Data structure Software Hardware 5 音声認識システムの仕組み 周波数分析・ 特徴量抽出 空気振動から電気 認識に有用な情報 信号への変換 の抽出 パターン認識・ 大規模探索 こんにちは 音声言語の知識に 基づいた大規模探索 6 認識を行う上での2つの問題 周波数および時間方向の変動 周波数についての変動 Frequency (Hz) 利用できるのは希薄に分布した曖昧な手掛かり 発話時間についての変動 Time (sec) 7 特徴量抽出 音声認識を行う上で有用な情報の取り出し 話者や雑音の影響等を抑え、認識性能を向上させる 不要な情報を捨てることで、後段での不要な計算を省く 8 音声に含まれている情報 実測信号 (細かい変動は声の高さに関係し、G(ω)に対応) S(ω) Hello 包絡線 (発話内容を反映) 𝑆𝑆 ω = 𝐺𝐺(ω)𝐻𝐻(ω) 𝐻𝐻(ω) (放射) 𝐻𝐻(ω) 対数パワー 0Hz 口 周波数(Hz) 4000Hz 𝐺𝐺(ω) 声道 (変調) 声帯 (音源) 9 音源の取り換え実験 Original Sound 𝑆𝑆 ω = 𝐺𝐺(ω)𝐻𝐻(ω) Webブラウザで再生さ れない場合は一度PC にダウンロードしてか ら開く等してください Sawtooth wave G’ (100Hz) G' (ω )H (ω ) Sawtooth wave G’ (300Hz) G' (ω )H (ω ) Acoustic11 G’ (Music) *1 G' (ω )H (ω ) 1) Source of the music file: http://maoudamashii.jokersounds.com/ 10 音声の統計的モデル化 音声言語の知識を計算機で処理できる形で表現 多様な音声を高精度に認識するため、巨大で複雑な構造を 持ったモデルを利用 認識システムの性能を決める心臓部 様々なモデルが組み合わされて使用される 11 ガウス混合モデル(GMM) ガウス分布ではどんなに頑張っても山 が一つで左右対称の分布しか モデル化出来ない ガウス分布 複数のガウス分布を 重ね合わせ 定義: f ( X ) = ∑ wi N i ( X | µi , Si ) i ガウス混合分布 wi Ni : 混合重み : ガウス分布 より複雑な分布を表現できる 12 MULTI LAYER PERCEPTRON (MLP) 神経細胞の機能を数式で抽象化 y = h ∑ wi xi + b i y h: 活性化関数 w: 結合重み b:バイアス x1 x2 xi 複数のユニットを階層的に結合した計算モデルがMLP y1 ym 出力層 隠れ層 入力層 x1 x2 xn 13 隠れマルコフモデル(HMM) グラフ構造(状態と状態遷移)+確率分布 0.8 HMM s0 1.0 s 0.9 0.7 s 0.2 1 pS1 (o ) 0.3 2 o s 0.1 3 0.4 s5 4 pS 4 (o ) pS3 (o ) pS 2 (o ) o s 0.6 o o 特徴量系列 音声信号 時刻 14 モデル学習と評価 パターン認識器は入力パターンxから認識結果yを求める パラメタθにより規定される関数 y=f(x|Θ) パラメタは大量の学習データから推定 評価は、学習データとは独立した評価データを用いる Training set Train f (x | θ ) Evaluate Test set 15 探索空間の構成 重み付き有限状態トランスデューサ(WFST)を用いた簡単な音素認識システムの例 (大語彙認識では数千万の遷移を持つ巨大ネットワークを使用) a_s1:ε/0.8 a_s2:ε/0.7 a_s1:a/1.0 Start a_s3:ε/0.9 a_s2:ε/0.2 a_s3:ε/0.3 i_s1:ε/0.8 i_s2:ε/0.7 i_s3:ε/0.9 ε:ε/0.1 i_s1:i/1.0 i_s2:ε/0.2 i_s3:ε/0.3 u_s1:ε/0.8 u_s2:ε/0.7 u_s3:ε/0.9 u_s1:u/1.0 u_s2:ε/0.2 入力:HMM状態系列、出力:音素系列 u_s3:ε/0.3 ε:ε/0.1 End ε:ε/0.1 16 音声認識の現状と課題 現状 音声対話アプリケーションがスマホに実装され実用化 テレビの自動字幕や、ビデオ録画に対する音声検索も一部実用化 音声対話機能を備えたロボットが登場 課題 話者や発話環境による認識性能のばらつきが大きい スマホでの音声認識がすごく使えるという人と、誤認識ばかりで使えないと いう人で意見が分かれる 人間と比べて学習・適応能力が貧弱 高い性能を実現するためには膨大な開発費が必要で、経済的にペイする アプリケーションが限定される 特定のタスクに対して高い認識性能を実現できても、少し違うタスクに応用 すると性能が大きく劣化する 日々登場する新しい単語や言い回しへの対応のため、継続的なメンテナンス が必要 17 将来展望 膨大な手間とコストのかかるマンツーマン(マンツーマシン?) の教育が不要で、勝手に学習するシステムの実現 音声認識から音声認識理解へ What a sassy robot. Where did it learn such a phrase? Great! 18 当研究室の取り組み 19 進化計算による認識システムの自律的高性能化 初期値 xinit を用意 DNNのメタパラメタ 初期集団 { x1 〜xN } を生成 各個体の認識性能{ f(x1) 〜f(xN) }を評価 (モデルの学習,認識実験) 繰り返す 良い成績の個体をもとにガウス分布を更新 更新したガウス分布から 更新したガウス分布から 子供集団 を生成 子供集団 {{ x’1 〜x’N }} を生成 20 教師なし・半教師付き学習アルゴリズム 音声言語データ 学習 P(1|1) 音声言語データ 1 1 N 学習 2 N P(N|1) P(2|1) P(N|2) P(1|2) システムがより賢く自律的に学習 する仕組みの実現 P(1|N) P(N|N) P(2|2) 2 P(2|N) 21 日本語大語彙認識システムの開発 アメリカ MERL 篠崎 研究室 日本語認識 システム 英語認識 システム 国際的な開発チーム (githubを介して連携) • 日本語話し言葉音声認識で 世界トップレベルの性能 • Kaldiパッケージの一部とし て一般公開( CSJレシピ) アラビア語 認識システム 大学や研究所の教員、 研究者、大学院生 Kaldi Speech Recognition Toolkit 22 ユビキタス利用のための小型低消費電力音声認識 23 参考情報: 研究用ソフトウエア Speech recognition toolkit Kaldi HTK : Traditional toolkit “HTK Book” is a well written manual http://htk.eng.cam.ac.uk/ Sound visualization and manipulation WaveSurfer High performance Modern software design http://kaldi.sourceforge.net/index.html http://www.speech.kth.se/wavesurfer/ Deep neural network Theano Python library for neural network http://deeplearning.net/software/theano http://chainer.org/ Chainer 24
© Copyright 2025 ExpyDoc