放送・教育・福祉などの公共サービスを支援する音声処理技術の進展

巻
頭
言
放送・教育・福祉などの公共サービスを
支援する音声処理技術の進展
峯松信明
東京大学大学院工学系研究科教授
筆者が音声技術を学び始めた1990年代は，統計的な音声処理が産声を上げた頃である。音声を文字化す
る音声認識においては，話者や収録環境の違いに起因して音声に不可避的に混入する音響的変動に対する耐
性が求められる。隠れマルコフモデル（HMM：Hidden Markov Model）＊１に代表される統計的音響モデ
ル＊２では，それらの変動を隠れ変数＊３として特徴量分布の中に閉じこめることを可能とした。しかしHMMは
生成モデル＊４である。音声認識が本来求めるモデルは，観測量に対して音素の事後確率＊５を与える識別モデ
ルである。音声認識ではこれに対して，確率の式を展開することで，生成モデルであるHMMを通して識別モ
デルを構築する方策をとった。その後，HMMを本来の生成モデルとして利用する，HMM音声合成方式が提
案され，波形編集方式＊６よりも声質を制御できるなど高い柔軟性を持つことから，音声合成の主流となった。
音声認識，音声合成の両技術がHMMにより数理的に美しく整備され，HMM音声処理が大きく花開いた。
今，HMMをしのぐ大きな波が押し寄せている。深層ニューラルネットワーク（DNN：Deep Neural
Network）である。入力特徴ベクトルを一次変換＋非線形関数に通す操作を何度（何層）も繰り返し，所望の
出力を得る枠組みである。クラス数Nの識別問題であれば，最終出力がクラスの事後確率となるよう各層を学
習する。再帰型ニューラルネットワーク（RNN：Recurrent Neural Network）＊７，長・短期記憶ユニット
＊８など，さまざまなネットワークトポロジーが検討され，また，層数
（LSTM：Long Short-Term Memory）
が数十を超える実装例もある。更には，特徴量として物理量の異なる多種多様なものを入力し（例えて言えば，
株価と視聴率の重み付き和を計算するようなもの），精度を上げることが検討されている。巨大なブラックボッ
クスとしての猛獣をいかに操るのか，DNNに手を染めた研究者は，この作業に四苦八苦する。当然，DNNの
内部構造を理解すべく，解釈可能なDNNの検討も行われている。DNNは音声合成でも利用されている。テキ
スト情報を入力し，対応する音声パラメーターを出力するネットワークの学習である。HMMは特徴量分布にガ
ウス分布を仮定するなど，技術実装から要請されるさまざまな仮定を置いているが，DNNではこれらのモデ
ル制約がなくなり，より柔軟な制御が可能となる。その結果，音声認識・合成の両分野で，精度・品質に大き
＊１時系列データのモデル化手法の一つ。有限個の状態間を遷移するモデルを考え，
遷移に伴いベクトルが出力される。出力されたベクトルは観測可能だが，
そのベクトル系列を出力させた状態遷移は直接的には観測できず，確率的に把握することしかできない。
＊２ HMMの出力ベクトルを音声の特徴ベクトルとすれば，HMMは音声を出力する（生成する）統計的モデル（統計的音響モデル）
となる。
＊３最終的に隠す（消去する）
ことを前提として，数式展開の中で登場する変数。
＊４音声を出力する（生成する）統計的モデル。
＊５音声特徴量 o に対して，音素を c とすれば，確率P（ c｜o）
は音素の事後確率（条件付き確率）
となる。
＊６各音素に対する波形を，さまざまな音素環境に依存させながら用意し，任意の入力テキストに対して適切な音素波形を選んで接続する音声合成方式。
＊７人工ニューラルネットワーク（Artificial Neural Network）は入力層から出力層へと情報が伝搬するモデルである。これを時系列データに応用する場合，途
中の中間層が「過去の」中間層からの出力を入力として受け入れるようにしたネットワークを再帰型ニューラルネットワークと呼ぶ。
＊８ RNNは過去の情報を取り入れる一番シンプルな実装だが，時間的に離れた情報による影響が反映されにくい欠点を持つ。これを解決するために提案され
たモデルの一つ。
2
NHK技研 R&D ■ No.161 2017. 1
1990年　東京大学工学部電気工学科卒業
1995年　東京大学大学院工学系研究科博士課程修了，博士（工学）取得
1995年　豊橋技術科学大学情報工学系助手
2000年　東京大学大学院工学系研究科情報工学専攻助教授
2012年　東京大学大学院工学系研究科電気系工学専攻教授
現在，音声言語情報処理，特に，外国語教育支援やコミュニケーション支援に関する
研究に従事。
な進展が得られている。DNNを代表例とする深層学習に基づく技術的進展は，音声処理の分野に限らず，今
後もまだまだ続くであろう。DNNは従来の技術と比較して，より大量の学習データを要求することから，各研
究機関においてデータ収集のインフラ構築も進んでいる。そのためには，実ユーザーと広くつながるためのチャ
ネルも必要である。
とある知人から，NHKの使命は「日本国内，人が住んでいる所には電波を飛ばし（放送），情報を提供す
ることである。その人が，子供でも，老人でも，障害者でも，外国人でも，確実に情報を提供することである」
と聞いたことがある。NHK技研の技術開発には，その使命感を感じずにはいられない研究成果を見ることが
多い。
「アナウンサーのしゃべりが速く感じられるようになり，うまく聞き取れない」という声が高齢者から来れ
ば，話速変換器を作成し，高齢者に届ける。
「聴覚に障害があるから，音は聞き取れない」という声が障害者
から届けば，音声認識技術を使った字幕の準自動生成システムを構築し，導入している。
「ニュースで使われる
日本語は難しくて分からない」という声が外国人や子供から届けば，ニュース原稿を分かりやすい日本語に変換
してweb上に公開し，更には，話速を落とした合成音声も提供する。
「中国語の四声制御を目で見て確認したい」
という声が中国語講座の受講者から届けば，ピッチ抽出に基づくピッチパターン可視化を番組に取り入れる。
これらの研究成果はその一例にすぎないが，いずれも，民放では実現困難な，利用者指向の「人にやさしい
放送・情報提供」である。これらの技術は，上述した深層学習をベースとした技術と融合することで，その精度・
品質は確実に向上し，
「より人にやさしい」サービスが実現されていくことであろう。
筆者の研究室でも音声技術の教育応用，福祉応用を検討しているが，NHKに期待する一つの方向性として，
各地にある放送局を活用した，放送を越えた「やさしい情報提供」サービスの実現が考えられる。例えば，迫
4
4
4
4
4
4
り来る高齢化社会を前にして，医学業界では，方言を理解できる医者を育てる動きがある。方言は文字媒体
で学んでも意味がない。地方局のアナウンサーを使って方言音声のデータベースを整備することはできないだ
ろうか。また，NHK杯の放送コンテストが毎年行われている。日本語学習者が共通語の韻律＊９の制御を学ぶ
ためのシステムを研究室で開発しているが，地方の中学・高校の放送部員も利用している。韻律学習システムは，
音声合成技術の一部である，テキストから韻律を予測するモジュールを応用したものであるが，この韻律予測
をベテランNHKアナウンサーの韻律制御を模擬するように構築すれば，全国の放送部員のみならず，世界中
の日本語学習者にとって福音となる。民放では，番組とスマホを接続し，視聴者がインタラクティブに参加す
る番組が放映されることがある。音声認識技術の応用である発音評価技術を語学番組に導入すれば，視聴者
が自分の発音をチェックしながら番組に参加することもできるだろう。このように，NHKならではの音声技術
の応用というのは，必ずしも，放送という媒体に固執する必要はないと考える。今後も，より柔軟，より積極
的な姿勢で，使命感あふれる技術開発を期待する。
＊９音調，強勢，リズムなど。
NHK技研 R&D ■ No.161 2017. 1
3

Download Report