音声認識を活用した字幕放送

無断転載、再配信等は一切お断りします。
人にやさしい
音声認識を活用した字幕放送
1.背景
3.リスピーク方式
聴覚障害者や高齢者など
の番組視聴を支援するため、
テレビの音声情報を文字で伝
える字幕放送の充実を図って
います。字幕を付ける方式に
は大きく2つあります。複数の
オペレーターがキーボードで
高速に入力する人手による方
式と、コンピューターで音声を
文字に変換する音声認識技
術を利用した方式です。音声
認識率の向上に伴い、後者
の方式の利用拡大に期待が
高まっています。
スポーツ中継や情報番組
では、会場の騒音レベルが高
く、出演者の発話スタイルもさ
まざまなため、番組音声を直
接認識しても精度良く認識で
きません。例えば、スポーツ
中継における得点シーンでは
高揚感を伝える口調は音声
認識の対象としては非常に大
きいハードルです。
2.音声認識技術
音声認識率の向上のため
に、番組で扱われる話題に関
係する単語や言い回しを認識
できるように、番組ごとにカス
タマイズしています。それでも、
砕けた口調の対談などの発
話スタイルや、背景雑音の影
響で認識率を 100%にするの
は困難です。
従って、この認識誤りをい
かに人手で即座に修正する
かが鍵になります。現在、番
組のスタイルに応じて、リスピ
ーク、ハイブリッド、セレクトと
いう3つの方式を開発し、音
声認識による字幕放送を実
現しています。
番組音声を復唱する字幕専用
キャスター(リスピーク方式)
あ
このような番組にはリスピ
ーク方式を活用しています。
リスピーク方式とは、静かな
別スタジオにいる字幕専用の
キャスターがヘッドホンで番
組音声を聞きながら、音声認
識のために番組の言葉を復
唱します。認識しやすいよう
に丁寧に発声することで、高
い認識率が得られるのです。
4.ハイブリッド方式
毎正時に放送している短い
ニュース番組やローカルニュ
ース番組を字幕化するために
は、より運用コストの低い方
式が求められます。
アナウンサーによる原稿読
み上げ部分だけでなく、現場
からの記者リポートやアナウ
ンサーと記者との対談の一部
でも、実用的な認識結果が得
られようになりました。番組音
認識誤り修正端末
声を直接認識することを基本
とし、インタビューなどの認識
が難しい部分に修正者による
リスピークを併用するのがハ
イブリッド方式です。この方式
では、同音異義語や修正履
歴などの修正候補が修正しよ
うとしている単語に応じて適
応的にリストアップされるため、
効率良く誤りを修正できます。
このハイブリッド方式は、大阪、
名古屋、福岡、仙台といった
拠点の放送局に導入されまし
た。
5.セレクト方式
今後、地域放送局のローカ
ル番組に字幕を拡充するた
めには、修正者不要のシステ
ムが望まれます。それがセレ
クト方式です。ニュース番組
の読み原稿などから、字幕用
のテキストを事前に用意し、
番組音声を認識した結果とテ
キストを比較して、どのテキス
トのどの部分が発声されてい
るかを直ちに推定して、その
テキストを字幕として送出しま
す。
より多くの方に、より多くの
番組で字幕サービスを享受し
ていただくため、音声認識精
度の改善に向けて研究開発
を進めていきます。
修正画面の例