音声インターフェースを用いた 理科教授学習システム

理科教授学習システムにおける
SAPIを用いた音声インタフェースの実装
徳島大学 知能情報工学科
A1研究室 4年 倉重 哲雄
2003年11月25日
A1研究室中間発表
1
1.はじめに
音声は人と人のコミュニケーション手段の一つ
近年の音声認識・合成技術は非常に進展している
→人と計算機のコミュニケーション手段として利用したい
→ナビゲーションシステム等で一部実用化(G-BOOK
http://g-book.com/pc/
etc…)
Windows PC上で音声認識が扱える(Speech API)
※1
→Windows XPでは標準搭載. 2000/Me/98では
Speech SDK
を導入することにより利用可能
※2
※1 API…
Application Program Interface
※2 SDK…Software Development Kit
ソフトウェア開発キット
音声インタフェースの利用は盛んに
2003年11月25日
A1研究室中間発表
2
1.1 目的
理科教授学習システムのインタフェースと
して音声認識・音声合成を付加する
2003年11月25日
A1研究室中間発表
3
2.音声インタフェースとは
コンピュータの操作をキーボードやマウス
ではなく、同じ音声(認識・合成)で行う
→人と人のコミュニケーション手段と同じ
MS社Windowsの標準APIの1つである
Speech API(SAPI、音声認識・合成用API)
を使用
2003年11月25日
A1研究室中間発表
4
2.1音声認識と音声合成
音声認識

人間が発生した言葉をコンピュータが理解す
ること
→コンピュータが人の話を聞く
音声合成

テキストデータを音声波形に変換する
→コンピュータが話す
2003年11月25日
A1研究室中間発表
5
イメージ図
2.2 認識方法
ディクテーション
N-gramを用いた認識方法
→会話文、問題文など自由文の認識に利用
コマンド(SAPI-XML)文法


認識対象とする音声の構文構造や語彙を明示的に
記述したもの(文法)を使った認識方法
SAPI-XMLとは、XMLを利用したSAPI標準の
コマンド文法である
→“はい、いいえ”など、ある程度発声内容が
決まっている文の認識に利用
2003年11月25日
A1研究室中間発表
6
3.理科教授学習システムとは
コンピュータを利用した学習システム
画像、音声、動画の利用
学習者の都合のいい時間に学習できる
2003年11月25日
A1研究室中間発表
7
3.1自然言語処理技術を用いた
理科教授学習システムの特徴
選択式でなく、自由文入力可能
問題文の自動生成
学習者の履歴管理より、学習者にあった
レベルの問題提示が可能
学習者のタイピング技術による
学習速度の遅れ
音声認識の利用
2003年11月25日
A1研究室中間発表
8
3.2 音声認識の適用
学習者選択等リストからの選択
はい・いいえ、等のシステム操作
→コマンド文法
質問文、問題文・解答の入力
→ディクテーション
2003年11月25日
A1研究室中間発表
9
4. システム構成図
2003年11月25日
A1研究室中間発表
10
4.1音声認識モジュール
音声認識の制御

初期化
 認識方法の切り替え
 出力形式・方法の変更



認識の開始・終了
結果出力
音声合成モジュールとの連携
etc…
2003年11月25日
A1研究室中間発表
11
4.2 音声合成モジュール
音声合成の制御

初期化
 声質の選択
 発声リストの受理


リストを元に発声
音声認識モジュールとの連携
etc…
2003年11月25日
A1研究室中間発表
12
4.3 文法生成モジュール
リストを元にコマンド文法(SAPI-XML形式)
を自動生成


リストの読み込み
SAPI-XML形式に変換
 文字コードの変換
 タグの付与(RULE,O,P,etc…)

出力
2003年11月25日
A1研究室中間発表
13
※1
5. Speech API(SAPI)の仕組み
音声システム
認識処理制御
各種イベントの発行
※1 API…
Application Program Interface
Windowsを扱う関数群
Automation
SAPI
音声認識,合成機能の提供
音声認識エンジン
•Julius for SAPI
etc…
2003年11月25日
音声認識,音声合成の要求
音声合成エンジン
•Microsoft Mike
etc…
A1研究室中間発表
14
6. 現状と問題点(1/3)
音声認識モジュール
現状…
音声認識の開始・終了、文法の読み込み等、
一通り制御できる関数を扱えるようになった
問題点…
・認識方法の切り替え時に起こるメモリリーク
・モジュール化がまだ行われていない
2003年11月25日
A1研究室中間発表
15
6. 現状と問題点(2/3)
音声合成モジュール
現状…
英語に限り、発声は可能となった。
問題点…
日本語音声合成エンジンが無償では皆無
2003年11月25日
A1研究室中間発表
16
6. 現状と問題点(3/3)
文法生成モジュール
現状…
XMLを扱うクラスを勉強中
問題点…
特になし
2003年11月25日
A1研究室中間発表
17
7.おわりに
音声認識・合成の背景
理科教授学習システムに音声認識の付与
音声認識について
音声システム概要
デモプログラム
2003年11月25日
A1研究室中間発表
18