シンポジウム「聴覚障害者の情報保障を考える」研究報告 2010年3月22日（月）「音声認識エンジンを用いた字幕化支援の現状と課題」櫻井悟史（立命館大学先端総合学術研究科）はじめに • 問題関心音声を文字に自動変換するソフト（以下、「音声認識」）を用いた情報保障支援の仕組み • 目的（1）音声認識を用いた聴覚障害者支援の現状と課題の報告（2）第6回障害学会大会における音声認識試用実験結果の報告音声認識を用いた情報保障方式の分類（1） • 音声認識を用いた情報保障発言者の音声を、音声認識エンジンを搭載したパソコンで認識して文字化。 →そのままでは誤字などが多くあるので、文字化されたものを校正。 →校正したものをスクリーンなどに呈示。音声認識を用いた情報保障方式の分類（2） • 【Ⅰ】話者入力方式発言者の音声をマイクで拾い、認識する方式。メリット：人件費が安くなる。デメリット：認識精度が5～7割になる。 • 【Ⅱ】復唱入力方式発言者Aの言葉をBが聞き、BがAの言葉を発声しなおし、そのBの声を音声認識する方式メリット：認識精度が8割～9割程度にデメリット：復唱者の人件費がかかる。復唱自体が難しい。音声認識を用いた情報保障方式の分類（3） • 【Ⅱ-Ⅰ】要約文復唱方式メリット：文法的に正しい文章が呈示されることになるので、読みやすいデメリット：復唱能力に加えて、発言を要約する技術が必要。認識率も低くなる音声認識を用いた情報保障方式の分類（4） • 【Ⅱ-Ⅱ】原文復唱方式メリット：発言者の言葉を正確に復唱するだけなので、復唱能力以外のスキル不要。認識率高い。デメリット：話し言葉がそのまま文字になって呈示されるので、呈示文が読みにくい（中野他2006; 2007）音声認識を用いた情報保障方式の分類（5） • 復唱者の位置による分類【a】近接方式復唱者が発言者と同じ部屋に居る方式。復唱者はマスク型マイクロホンを使用。メリット：準備する機材が少なくてよい。デメリット：マスク型マイクロホン使用のために多くのノウハウの習得が必要。認識精度がよくて8割、わるければ0割にまで落ち込む。音声認識を用いた情報保障方式の分類（6） • 復唱者の位置による分類【b】遠隔方式復唱者が発言者と違う部屋に居る方式一般的にはこの方式が用いられている（「音声認識によるリアルタイム字幕作成システム構築マニュアル」編集グループ編2009:8）メリット：発言者の発言の妨げにならない。デメリット：部屋を余分に用意する必要あり。音声認識を用いた情報保障方式の分類（7） • 校正の方式による分類【ⅰ】音声遅延方式発言者／復唱者の音声が校正担当者用PC に文字化して届くまで時間がかかることから、あえて発言者／復唱者の音声を遅延させてその時間差を埋める方式。・誤字修正の精度やや低い。・字幕化までのタイムラグ10秒程度。音声認識を用いた情報保障方式の分類（8） • 校正の方式による分類【ⅱ】録音方式発言者／復唱者の音声を録音して校正する方式メリット：万が一聞き逃したとしても、もう一度聞きなおして校正することが可能なことから、誤字修正の精度は高くなる。デメリット：タイムラグが非常に大きなものとなる。音声認識を用いた情報保障方式の分類（まとめ） ●11通りの方式・【Ⅰ】（話者が校正も行なう）・【Ⅰ＋ⅰ】、【Ⅰ＋ⅱ】・【Ⅱ-Ⅰ＋a＋ⅰ】、【Ⅱ-Ⅰ＋b＋ⅰ】、【Ⅱ-Ⅰ＋ a＋ⅱ】、【Ⅱ-Ⅰ＋b＋ⅱ】・【Ⅱ-Ⅱ＋a＋ⅰ】、【Ⅱ-Ⅱ＋b＋ⅰ】、【Ⅱ-Ⅱ＋ a＋ⅱ】、【Ⅱ-Ⅱ＋b＋ⅱ】音声認識を用いた情報保障の先行研究（1） • 音声認識精度を高めるための話し方（1）・認識されやすいようにハッキリと発話する・抑揚のない淡々とした話し方・パ行、マ行、イ列、エ列の発音対策として口を大きく動かすこと・タ行、パ行の無声音や語尾を大きめに発音すること音声認識を用いた情報保障の先行研究（2） • 音声認識精度を高めるための話し方（2）音声認識精度を高めるための話し方を意識しつつ、復唱を行なうことの困難さ。 →発声・発話トレーニングを受けた民放アナウンサーと一般の大学生では、その復唱精度、音声認識精度ともに前者の方が高い（井野他 2003）。音声認識を用いた情報保障の先行研究（3） • 字幕呈示方法・画面は黒くし、字は白くした方が読みやすい。・字幕の改行は「句点および25文字前後の読点で改行」する方が、「改行なし」、「句点で改行」、「句読点で改行」するより読みやすい（中野他 2008）。・一行分の文字数は短い方がよいかもしれない（中野他 2008）。音声認識を用いた情報保障の先行研究（4） • 音声認識の運用について黒木他（2003;2006）の実験結果より・訓練された復唱による認識率90％。・校正者4名の手による校正後の認識率は 97.2％。・字幕化までのタイムラグ11秒。 →実用可能なレベル障害学会における音声認識を用いた情報保障の試験的運用（1） • 実施日 2009年9月26日、27日 • 実験内容・26日のシンポジウム「障害学生支援を語る」で【Ⅰ】話者入力方式の実験。・27日の同大会におけるシンポジウム「障害と貧困 ――ジェンダーの視点からみえてくるもの」において、【Ⅱ-Ⅰ】要約文復唱方式と【Ⅱ-Ⅱ】原文復唱方式の実験。障害学会における音声認識を用いた情報保障の試験的運用（2） • 実験機材 AmiVoice の「議事録作成支援システム」 • 「支援システム」のソフト・AmiVoice Recorder（150万円）・AmiVoice Rewriter（50万円）・言語モデルカスタマイズ（300万円）・ControlServer（50万円）・ControlServer Viewer 障害学会における音声認識を用いた情報保障の試験的運用（3） ⑥字幕呈示 ⑤校正 ⑤校正 ④音声認識 ③ノイズ除去 ①発話 ②受信障害学会における音声認識を用いた情報保障の試験的運用（4） • 実験結果【A】：認識率計算方法：各方式について無作為に1分間の文章を抽出し、その認識率を10回計算話者入力方式要約文復唱方式原文復唱方式認識率の平均 38.9 41.2 58.4 認識率の標準偏差 20.7 14.5 8.2 認識率のレンジ 16.4-75.0 24.3-68.5 46.2-70.7 原文復唱方式の認識率＞要約文復唱、話者入力の認識率（１％水準で有意）障害学会における音声認識を用いた情報保障の試験的運用（5） • 実験結果【B】：字幕呈示までのタイムラグシンポジウム開始直後のタイムラグ 10秒〃 15分後の〃 3分強〃 30分後の〃 9分強〃 45分後の〃 15分半〃 60分後の〃 24分半強 →実用に耐えうるタイムラグではない。障害学会における音声認識を用いた情報保障の試験的運用（6） • 実験結果【C】：誤字修正におけるミスシンポ開始15分間シンポ終了前15分間誤字 33 25 脱字 20 10 同一句・文の反復 17 2 句読点ミス 10 13 実験結果考察（1） • 【Ⅰ】話者入力方式、【Ⅱ-Ⅰ】要約文復唱方式、【Ⅱ-Ⅱ】原文復唱方式いずれの方式においても、今回の実験結果は先行研究の結果よりも悪いものとなった。 →考えられうる要因・実験中に発生した各種弊害例）機械の不調から復唱場所を急遽変更 →認識精度を高める環境整えられず。実験結果考察（2） • 【Ⅱ-Ⅰ】要約文復唱方式と【Ⅱ-Ⅱ】原文復唱方式には明らかな違いが見られた。 →厳密な実験を行なって確認する必要あり。 • 【ⅱ】録音方式による校正は【ⅰ】音声遅延方式による校正よりもタイムラグが大きい可能性が示唆された。 →先行研究と同じ校正者4名体制で確認する必要あり。実験結果考察（3） • 十分に訓練されていない復唱者と校正者のもとでは、音声認識を用いた情報保障支援システムをツールとして使うことは難しい。 →音声認識は今のところ、ソフトがあればすぐ簡単に、誰もが使うことが出来る技術ではない。このことは、本実験からも明白。おわりに • 今後の課題 ①【Ⅱ-Ⅰ】要約文復唱方式と【Ⅱ-Ⅱ】原文復唱方式の比較作業の精緻化 ②校正作業における録音・音声遅延方式の比較作業の精緻化 ③校正者の陥りやすい間違いの分析 ④復唱者・校正者育成プログラムの開発 ⑤復唱者・校正者の〈真の支援体制〉確立までにかかる時間と費用の推計 ⑥安価な音声認識による字幕化システムの分析参考文献 • • • • • • • • • • • • • • 井野秀一他（2003）「聴覚障害者の会議参加支援を目的としたリアルタイム音声字幕化システムの設計」，『計測自動制御学会第18回生体生理工学シンポジウム論文集』，221-224. 「音声認識によるリアルタイム字幕作成システム構築マニュアル」編集グループ編(2009)『音声認識によるリアルタイム字幕作成システム構築マニュアル』，筑波技術大学. 金澤貴之他（2009）「ICTを活用した聴覚障害学生支援――キャンパス間連係入力と音声同時字幕システムの活用事例から」『群馬大学教育実践研究』，26，107117. 黒木速人他（2003）「聴覚障害者の国際会議参加支援のための遠隔型音声字幕化システム：札幌-横浜間におけるシステム運用とその評価」，『ヒューマンインタフェース・シンポジウム2003論文集』，729-732. 黒木速人他（2006）「聴覚障害者のための音声同時字幕システムの遠隔地運用の結果とその評価」，『ヒューマンインタフェース学会論文誌』，8(2)，255-262. 櫻井悟史他（2009）「音声認識ソフトを用いた学習権保障のための仕組み」，障害学会第6回大会ポスター報告 http://www.arsvi.com/2000/0909ss2.htm（アクセス日：2010年3月14日）. 中野聡子他（2006）「音声認識技術を利用した字幕呈示システムの現状と課題：音声言語と文字言語の性質の違いに焦点をあてて」，『群馬大学教育実践研究』，23，251-259. 中野聡子他（2007）「音声認識技術を用いた聴覚障害者向け字幕呈示システムの課題：話し言葉の性質が字幕の読みに与える影響」，『電子情報通信学会論文誌D』，J90-D(3)，808-814. 中野聡子他（2008）「聴覚障害者向け音声同時字幕システムの読みやすさに関する研究(1)：改行効果に焦点をあてて」，『ヒューマンインタフェース学会誌』，10(4), 435-444. 福島智他（2006）「音声認識技術を活用した字幕呈示システムの開発研究及び運用における諸課題――利用者の観点を中心に」『群馬大学教育学部紀要人文・社会科学編』，55，179-186. 牧原功他（2008）「音声認識技術による字幕運用の課題」『群馬大学留学生センター論集』，7，33-50. 水島昌英他（2006）「音声認識を用いた会議支援情報保障システムに対する話者の発話行動の分析」，『信学技報』， WIT2006-108，21-26. 三好茂樹他（2007）「音声認識技術を利用した字幕作成担当者のための支援技術とそのシステム開発」，『筑波技術大学テクノレポート』，Vol.14, 145-152. 三好茂樹（2008）「音声認識技術を用いた情報保障(20)」，PEPNet-Japan Tip Sheet.