音声認識エンジンを用いた 字幕化支援の現状と課題」

シンポジウム「聴覚障害者の情報保障を考える」研究報告
2010年3月22日(月)
「音声認識エンジンを用いた
字幕化支援の現状と課題」
櫻井悟史(立命館大学先端総合学術研究科)
はじめに
• 問題関心
音声を文字に自動変換するソフト(以下、「音
声認識」)を用いた情報保障支援の仕組み
• 目的
(1)音声認識を用いた聴覚障害者支援の現
状と課題の報告
(2)第6回障害学会大会における音声認識試
用実験結果の報告
音声認識を用いた情報保障方式の分類
(1)
• 音声認識を用いた情報保障
発言者の音声を、音声認識エンジンを搭載し
たパソコンで認識して文字化。
→そのままでは誤字などが多くあるので、文字
化されたものを校正。
→校正したものをスクリーンなどに呈示。
音声認識を用いた情報保障方式の分類
(2)
• 【Ⅰ】話者入力方式
発言者の音声をマイクで拾い、認識する方式。
メリット:人件費が安くなる 。
デメリット:認識精度が5~7割になる。
• 【Ⅱ】復唱入力方式
発言者Aの言葉をBが聞き、BがAの言葉を発声しなおし、そ
のBの声を音声認識する方式
メリット:認識精度が8割~9割程度に
デメリット:復唱者の人件費がかかる。復唱自体が難しい。
音声認識を用いた情報保障方式の分類
(3)
• 【Ⅱ-Ⅰ】要約文復唱方式
メリット:文法的に正しい文章が呈示されるこ
とになるので、読みやすい
デメリット:復唱能力に加えて、発言を要約す
る技術が必要 。認識率も低くなる
音声認識を用いた情報保障方式の分類
(4)
• 【Ⅱ-Ⅱ】原文復唱方式
メリット:発言者の言葉を正確に復唱するだけ
なので、復唱能力以外のスキル不要。認識
率高い。
デメリット:話し言葉がそのまま文字になって
呈示されるので、呈示文が読みにくい(中野
他2006; 2007)
音声認識を用いた情報保障方式の分類
(5)
• 復唱者の位置による分類
【a】近接方式
復唱者が発言者と同じ部屋に居る方式 。
復唱者はマスク型マイクロホンを使用。
メリット:準備する機材が少なくてよい 。
デメリット:マスク型マイクロホン使用のために
多くのノウハウの習得が必要。認識精度がよ
くて8割、わるければ0割にまで落ち込む 。
音声認識を用いた情報保障方式の分類
(6)
• 復唱者の位置による分類
【b】遠隔方式
復唱者が発言者と違う部屋に居る方式
一般的にはこの方式が用いられている
(「音声認識によるリアルタイム字幕作成システ
ム構築マニュアル」編集グループ編2009:8)
メリット:発言者の発言の妨げにならない。
デメリット:部屋を余分に用意する必要あり。
音声認識を用いた情報保障方式の分類
(7)
• 校正の方式 による分類
【ⅰ】音声遅延方式
発言者/復唱者の音声が校正担当者用PC
に文字化して届くまで時間がかかることか
ら、あえて発言者/復唱者の音声を遅延させ
てその時間差を埋める方式 。
・誤字修正の精度 やや低い。
・字幕化までのタイムラグ10秒程度。
音声認識を用いた情報保障方式の分類
(8)
• 校正の方式 による分類
【ⅱ】録音方式
発言者/復唱者の音声を録音して校正する
方式
メリット:万が一聞き逃したとしても、もう一度聞
きなおして校正することが可能なことから、誤
字修正の精度は高くなる。
デメリット:タイムラグが非常に大きなものとな
る。
音声認識を用いた情報保障方式の分類
(まとめ)
●11通りの方式
・【Ⅰ】(話者が校正も行なう)
・【Ⅰ+ⅰ】、【Ⅰ+ⅱ】
・【Ⅱ-Ⅰ+a+ⅰ】、【Ⅱ-Ⅰ+b+ⅰ】、【Ⅱ-Ⅰ+
a+ⅱ】、【Ⅱ-Ⅰ+b+ⅱ】
・【Ⅱ-Ⅱ+a+ⅰ】、【Ⅱ-Ⅱ+b+ⅰ】、【Ⅱ-Ⅱ+
a+ⅱ】、【Ⅱ-Ⅱ+b+ⅱ】
音声認識を用いた情報保障の
先行研究 (1)
• 音声認識精度を高めるための話し方 (1)
・認識されやすいようにハッキリと発話する
・抑揚のない淡々とした話し方
・パ行、マ行、イ列、エ列の発音対策として口
を大きく動かすこと
・タ行、パ行の無声音や語尾を大きめに発音
すること
音声認識を用いた情報保障の
先行研究 (2)
• 音声認識精度を高めるための話し方 (2)
音声認識精度を高めるための話し方を意識し
つつ、復唱を行なうことの困難さ。
→発声・発話トレーニングを受けた民放アナウ
ンサーと一般の大学生では、その復唱精度、
音声認識精度ともに前者の方が高い(井野
他 2003)。
音声認識を用いた情報保障の
先行研究 (3)
• 字幕呈示方法
・画面は黒くし、字は白くした方が読みやす
い。
・字幕の改行は「句点および25文字前後の読
点で改行」する方が、「改行なし」、「句点で改
行」、「句読点で改行」するより読みやすい(中
野他 2008) 。
・一行分の文字数は短い方がよいかもしれな
い (中野他 2008) 。
音声認識を用いた情報保障の
先行研究 (4)
• 音声認識の運用について
黒木他(2003;2006)の実験結果より
・訓練された復唱による認識率90%。
・校正者4名の手による校正後の認識率は
97.2%。
・字幕化までのタイムラグ11秒。
→実用可能なレベル
障害学会における音声認識を用いた
情報保障の試験的運用(1)
• 実施日
2009年9月26日、27日
• 実験内容
・26日のシンポジウム「障害学生支援を語る」で
【Ⅰ】話者入力方式の実験。
・27日の同大会におけるシンポジウム「障害と貧困
――ジェンダーの視点からみえてくるもの」におい
て、【Ⅱ-Ⅰ】要約文復唱方式と【Ⅱ-Ⅱ】原文復唱方
式の実験。
障害学会における音声認識を用いた
情報保障の試験的運用(2)
• 実験機材
AmiVoice の「議事録作成支援システム」
• 「支援システム」のソフト
・AmiVoice Recorder(150万円)
・AmiVoice Rewriter(50万円)
・言語モデルカスタマイズ(300万円)
・ControlServer(50万円 )
・ControlServer Viewer
障害学会における音声認識を用いた
情報保障の試験的運用(3)
⑥字幕呈示
⑤校正
⑤校正
④音声認識
③ノイズ除去
①発話
②受信
障害学会における音声認識を用いた
情報保障の試験的運用(4)
• 実験結果【A】:認識率
計算方法:各方式について無作為に1分間の文章を
抽出し、その認識率を10回計算
話者入力方式
要約文復唱方式
原文復唱方式
認識率の平均
38.9
41.2
58.4
認識率の標準偏
差
20.7
14.5
8.2
認識率のレンジ
16.4-75.0
24.3-68.5
46.2-70.7
原文復唱方式の認識率>要約文復唱、話者入力
の認識率(1%水準で有意)
障害学会における音声認識を用いた
情報保障の試験的運用(5)
• 実験結果【B】:字幕呈示までのタイムラグ
シンポジウム開始直後のタイムラグ 10秒
〃
15分後の 〃 3分強
〃
30分後の 〃 9分強
〃
45分後の 〃 15分半
〃
60分後の 〃 24分半強
→実用に耐えうるタイムラグではない 。
障害学会における音声認識を用いた
情報保障の試験的運用(6)
• 実験結果【C】:誤字修正におけるミス
シンポ開始15分間
シンポ終了前15分間
誤字
33
25
脱字
20
10
同一句・文の反復
17
2
句読点ミス
10
13
実験結果考察(1)
• 【Ⅰ】話者入力方式、【Ⅱ-Ⅰ】要約文復唱方
式、【Ⅱ-Ⅱ】原文復唱方式いずれの方式にお
いても、今回の実験結果は先行研究の結果
よりも悪いものとなった 。
→考えられうる要因
・実験中に発生した各種弊害
例)機械の不調から復唱場所を急遽変更
→認識精度を高める環境整えられず。
実験結果考察(2)
• 【Ⅱ-Ⅰ】要約文復唱方式と【Ⅱ-Ⅱ】原文復唱
方式には明らかな違いが見られた 。
→厳密な実験を行なって確認する必要あり。
• 【ⅱ】録音方式による校正は【ⅰ】音声遅延方
式による校正よりもタイムラグが大きい可能
性が示唆された 。
→先行研究と同じ校正者4名体制で確認する
必要あり。
実験結果考察(3)
• 十分に訓練されていない復唱者と校正者の
もとでは、音声認識を用いた情報保障支援シ
ステムをツールとして使うことは難しい 。
→音声認識は今のところ、ソフトがあればすぐ
簡単に、誰もが使うことが出来る技術ではな
い。このことは、本実験からも明白。
おわりに
• 今後の課題
①【Ⅱ-Ⅰ】要約文復唱方式と【Ⅱ-Ⅱ】原文復唱方式の
比較作業の精緻化
②校正作業における録音・音声遅延方式の比較作業
の精緻化
③校正者の陥りやすい間違いの分析
④復唱者・校正者育成プログラムの開発
⑤復唱者・校正者の〈真の支援体制〉確立までにかか
る時間と費用の推計
⑥安価な音声認識による字幕化システムの分析
参考文献
•
•
•
•
•
•
•
•
•
•
•
•
•
•
井野秀一他(2003)「聴覚障害者の会議参加支援を目的としたリアルタイム音声字幕化システムの設計」,『計測自動制
御学会第18回生体生理工学シンポジウム論文集』,221-224.
「音声認識によるリアルタイム字幕作成システム構築マニュアル」編集グループ編(2009)『音声認識によるリアルタイム字
幕作成システム構築マニュアル』,筑波技術大学.
金澤貴之他(2009)「ICTを活用した聴覚障害学生支援――キャンパス間連係入力と音声同時字幕システムの活用事例
から」『群馬大学教育実践研究』,26,107117.
黒木速人他(2003)「聴覚障害者の国際会議参加支援のための遠隔型音声字幕化システム:札幌-横浜間におけるシステ
ム運用とその評価」,『ヒューマンインタフェース・シンポジウム2003論文集』,729-732.
黒木速人他(2006)「聴覚障害者のための音声同時字幕システムの遠隔地運用の結果とその評価」,『ヒューマンインタ
フェース学会論文誌』,8(2),255-262.
櫻井悟史他(2009)「音声認識ソフトを用いた学習権保障のための仕組み」,障害学会第6回大会ポスター報告
http://www.arsvi.com/2000/0909ss2.htm(アクセス日:2010年3月14日).
中野聡子他(2006)「音声認識技術を利用した字幕呈示システムの現状と課題:音声言語と文字言語の性質の違いに焦
点をあてて」,『群馬大学教育実践研究』,23,251-259.
中野聡子他(2007)「音声認識技術を用いた聴覚障害者向け字幕呈示システムの課題:話し言葉の性質が字幕の読みに
与える影響」,『電子情報通信学会論文誌D』,J90-D(3),808-814.
中野聡子他(2008)「聴覚障害者向け音声同時字幕システムの読みやすさに関する研究(1):改行効果に焦点をあてて」,
『ヒューマンインタフェース学会誌』,10(4), 435-444.
福島智他(2006)「音声認識技術を活用した字幕呈示システムの開発研究及び運用における諸課題――利用者の観点を
中心に」『群馬大学教育学部紀要 人文・社会科学編』,55,179-186.
牧原功他(2008)「音声認識技術による字幕運用の課題」『群馬大学留学生センター論集』,7,33-50.
水島昌英他(2006)「音声認識を用いた会議支援情報保障システムに対する話者の発話行動の分析」,『信学技報』,
WIT2006-108,21-26.
三好茂樹他(2007)「音声認識技術を利用した字幕作成担当者のための支援技術とそのシステム開発」,『筑波技術大学
テクノレポート』,Vol.14, 145-152.
三好茂樹(2008)「音声認識技術を用いた情報保障(20)」,PEPNet-Japan Tip Sheet.