Voice Operationとは

FUJITSU Cloud Service K5
Voice Operationサービス機能概要
2017年1月
富士通株式会社
・本資料の無断複製、転載を禁じます。
・本資料は予告なく内容を変更する場合がございます。
Version 1.00
目次
 Voice Operationとは
 サービスの特長
 機能概要
 音声認識実行環境
•音声認識エンジンについて
 Voice Operation SDK
 Voice Operationサービスメニュー
 課金の考え方について
 プラン変更について
 同時接続数の考え方について
 制限事項・注意事項
 適用事例・利用シーン
1
Copyright 2017 FUJITSU LIMITED
Voice Operationとは
音声認識を利用したアプリケーションを迅速に開発することができるサービスです。
音声認識の実行環境とアプリケーション開発用のSDK(ソフトウェア開発キット)を
提供します。
Voice Operation
東京都
音声認識要求
ネ
ッ
ト
ワ
ー
ク
アプリケーション
“東京都”
音声認識結果返却
利用者
音声認識実行環境
API
開発
Voice Operation SDK
利用
アプリケーション開発者
ライブラリ
サンプルアプリケーション
開発ガイド
APIリファレンス
2
言語モデル
(辞書)
ユーザー独自の
言語モデル
(今後提供)
Copyright 2017 FUJITSU LIMITED
サービスの特長
業界最高水準の音声認識エンジン
業界最高水準の日本語認識率を誇る音声認識エンジンを採用することで、ストレスの無い音声入力や
操作が可能です。音声入力の際に専用マイクなどは必要ありません。
SDK(アプリケーション開発キット)の提供
SDKを利用することにより、簡単なインターフェースを実装するだけで、音声認識が実現できます。
付属のサンプルアプリケーションを使用して、すぐに音声認識アプリの動作を確認することができます。
Android, iOS, Windowsの各種OSに対応しています。
発話結果の活用
発話結果は単語の表記、読み に加えて品詞情報なども返却されます。(※日本語のみ対応)
端末ごとの辞書の作成
クライアント端末ごとに登録した単語を優先的に認識結果候補とすることができます。
言語モデルの作成
言語モデルを作成することにより、固有の単語や言い回しを認識させることができます。(今後提供)
3
Copyright 2017 FUJITSU LIMITED
機能概要 - 音声認識実行環境
 音声認識要求
アプリケーションは、ライブラリが提供するAPI を使用して利用者の発話
情報(音声データ)を音声認識サーバに送信します。
 音声認識結果返却
音声認識エンジンは、受信した音声データを言語モデルと照合し、音声
認識結果(音声データをテキストに置き換えたデータや単語数などの情
報をまとめたもの)をアプリケーションに返却します。
Voice Operation
音声データ
発話
東京都
音声認識
実行環境
照合
(音声認識エンジン)
アプリケーション
利用者
言語モデル
(辞書)
API
東京都
“東京都”
“東京都”
置換/返却
“東京都”
返却データ
4
Copyright 2017 FUJITSU LIMITED
機能概要 - 音声認識エンジンについて
業界最高水準の認識率を誇るフュートレック社の音声認識エンジンを採用すること
で、ストレスの無い音声入力や操作が可能です。
音声認識エンジンは以下のモデルから形成
■多数の音声データから作成した音響モデル
■大量の文章から情報を収集した言語モデル
Voice Operation
音響モデル
言語モデル
音の分布を統計的に集計し、
入ってきた音の判断が可能な
「音の見本」
言語の文法や単語の並び方の
パターンが判断可能な
「文章の見本」
5
Copyright 2017 FUJITSU LIMITED
機能概要 - Voice Operation SDK
「話すだけ」で操作できるアプリケーションの開発キットを提供します。
Android
アプリケーション
iOS
アプリケーション
Windows
アプリケーション
API
ライブラリ
API
ライブラリ
API
ライブラリ
Voice Operation SDK
SDKの内容一覧
内容物
概要
Voice Operation アプリケーション開発ガイド
Voice Operation SDKを利用してアプリケーションを開発する
ための、開発者向けのガイドラインです。ライブラリの組み込み方
法やAPIの使用方法などを説明します。
Voice Operation API リファレンス
Voice Operation ライブラリが提供するAPIのリファレンスです。
Voice Operation ライブラリ
アプリケーションに組み込むVoice Operationのライブラリです。
Voice Operation サンプルアプリケーションソースコード
Voice Operation SDKを利用して作成した、サンプルアプリ
ケーションのソースコードです。
6
Copyright 2017 FUJITSU LIMITED
Voice Operationサービスメニュー
 サービスメニュー
メニュー
単位
備考
音声認識サービス(共有環境)
月
・ベストエフォートで提供します。
・音声認識APIコール数の利用:10,000回/月まで
完全定額プラン(同時接続数2)
月
完全定額プラン(同時接続数3)
月
・同時利用可能な接続数に基づいた音声認識実行
環境をお客様の専有環境として提供します。
・音声認識APIコール数の利用:無制限
完全定額プラン
音声認識サービス(専有環境)
:
:
完全定額プラン(同時接続数50)
月
月
7
Copyright 2017 FUJITSU LIMITED
Voice Operationサービスメニュー
 音声認識サービス(共有環境)
 最大発話時間は10秒となります。
 音声認識APIコール数の利用について
•利用月に規定の利用回数を超えた場合、当月の利用はできなくなります。
•利用回数は毎月1日0時(UTC ※)にリセットされます。
(※日本時間 毎月1日午前9時)
 音声認識サービス(専有環境)
 最大発話時間は30秒まで延長可能です。
延長をご希望の際はヘルプデスクから個別にご相談ください。
8
Copyright 2017 FUJITSU LIMITED
課金の考え方について
 選択したプランの月額固定料金で課金されます。
 Voice Operationの利用開始時より、当月の課金が発生します。
 日割りでの計算はいたしません。
9
Copyright 2017 FUJITSU LIMITED
プラン変更について
 共有環境⇔専有環境の変更の場合
 プラン変更および環境の引継はできません。ご利用中のサービスを利用終了してい
ただき、新たにサービスの利用申込を行ってください。
 お申込から利用開始までにかかる期間については「制限事項・注意事項」をご確認
ください。
 専有環境の同時接続数変更の場合
 プラン変更および環境の引継が可能です。
PaaSポータルのご利用サービス画面よりプランの変更が可能です。
 お申込のタイミングによりプラン変更適用開始タイミングが異なります。
•当月20日までにプラン変更をお申込の場合
•当月21日以降にお申し込みの場合
:翌月1日より適用(※)
:翌々月1日より適用
※同時接続数が多い(20以上)場合は利用開始までにお時間をいただく場合があります。
10
Copyright 2017 FUJITSU LIMITED
同時接続数の考え方について
 お使いになる環境で、同時接続数がどの程度必要かは、以下の手順で
概算することができます。
① ピーク時の利用量を想定し、時間当たりの発話時間(呼量)を算出します。

1時間(3600秒)に100人が5秒の音声認識を2回実施する想定の場合
100人×5秒×2回 / 3600秒 = 0.28
② 許容する呼損率を決定します。

1.0%
⇒2回連続で音声認識要求が受け付けられない確率は
1/100 × 1/100 = 1/10000
③ 同時接続数早見表(次ページ)から、同時接続数を決定します。

呼損率1.0%の列で0.28以上の呼量に対応できる同時接続数を探す
⇒同時接続数:3
呼損率
同時接続数
0.10% 0.30% 0.50%
1.0%
3.0%
5.0%
10%
2
0.05
0.08
0.11
0.15
0.28
0.38
0.60
3
0.19
0.29
0.35
0.46
0.72
0.90
1.27
4
0.44
0.60
0.70
0.87
1.26
1.52
2.05
11
Copyright 2017 FUJITSU LIMITED
同時接続数の考え方について
 同時接続数早見表
同時接続数
呼損率
0.10%
0.30%
0.50%
1.0%
3.0%
5.0%
10%
2
0.05
0.08
0.11
0.15
0.28
0.38
0.60
3
0.19
0.29
0.35
0.46
0.72
0.90
1.27
4
0.44
0.60
0.70
0.87
1.26
1.52
2.05
5
0.76
0.99
1.13
1.36
1.88
2.22
2.88
6
1.15
1.45
1.62
1.91
2.54
2.96
3.76
7
1.58
1.95
2.16
2.50
3.25
3.74
4.67
8
2.05
2.48
2.73
3.13
3.99
4.54
5.60
9
2.56
3.05
3.33
3.78
4.75
5.37
6.55
10
3.09
3.65
3.96
4.46
5.53
6.22
7.51
11
3.65
4.27
4.61
5.16
6.33
7.08
8.49
12
4.23
4.90
5.28
5.88
7.14
7.95
9.47
13
4.83
5.56
5.96
6.61
7.97
8.83
10.47
14
5.45
6.23
6.66
7.35
8.80
9.73
11.47
15
6.08
6.91
7.38
8.11
9.65
10.63
12.48
16
6.72
7.61
8.10
8.88
10.51
11.54
13.50
17
7.38
8.32
8.83
9.65
11.37
12.46
14.52
18
8.05
9.03
9.58
10.44
12.24
13.39
15.55
19
8.72
9.76
10.33
11.23
13.11
14.31
16.58
20
9.41
10.50
11.09
12.03
14.00
15.25
17.61
12
Copyright 2017 FUJITSU LIMITED
制限事項・注意事項
 以下の機能は今後提供予定です。
 言語モデルの作成
 本サービスの提供リージョンについては、K5公開ホームページのサービス
仕様書およびPaaS制限事項・注意事項をご参照ください。
 お申込から利用開始までにかかる期間は以下のとおりです。
 音声認識サービス(共有環境)
PaaSポータルのサービス利用設定申込画面から利用申込後、すぐにご利用いただ
けます。
 音声認識サービス(専有環境)
PaaSポータルのサービス利用設定申込画面から利用申込
•当月20日までにお申込の場合
•当月21日以降にお申込の場合
:翌月1日より利用可能(※)
:翌々月1日より利用可能
※同時接続数が多い(20以上)場合は利用開始までにお時間をいただく場合があります。
13
Copyright 2017 FUJITSU LIMITED
適用事例・利用シーン
報告書の作成、メールの作成など、タブレットのキーボードだと操作しづらかった
文字入力を音声で実施することができます。
Voice Operation導入前
Voice Operation導入後
煩雑・・・
簡単!
Tap! Tap! Tap!
1Tap
 ソフトキーボードでの面倒な入力作業
 誤変換や修正作業
 キーボードがあることにより、入力エリアが狭い
 話すだけで簡単に文字が入力できる
 利用者固有の専門用語にも対応 ※
 画面を広く使える
※言語モデルの作成は今後提供予定です。
14
Copyright 2017 FUJITSU LIMITED
適用事例・利用シーン
音声での文字入力に限らず、APIを組み込むことで、「話すだけ」で操作できる
アプリケーションの開発が可能となります。
Voice Operation導入前
Voice Operation導入後
手作業・・・
会話で処理が可能!
メニュー
Aを選択
Bを選択
オプション
1
2
Aで!
オプションは
1~3のどれ
にしますか?
3
3で!
 選択や入力がすべて手作業
 画面遷移が煩わしい
 会話のみで処理が完結
 画面が無い機器にも入力が可能
15
Copyright 2017 FUJITSU LIMITED