未来の賢いインタフェースが 社会を変える、生活を

“ 明日 ” をつむぐテクノロジー S P E C I A L 人とつながる「メディアインテリジェンス」
未来の賢いインタフェースが
社会を変える、生活を変える
「メディアインテリジェンス」というコンセプトのもと、音声や画像を使った賢いユーザーインタ
フェースの実現に取り組む東芝ソリューション。音声認識、音声合成、知的対話、画像認識など、
東芝グループが培ってきたメディアの要素技術を中核に、新たな価値やサービスの創出に取り組む。
【図 2】メディアインテリジェンスの全体像
お客様
カスタマイズサービス
クラウドサイド大規模データ活用
フィールド作業
大規模知識検索
蓄積
コミュニケーション
コンテンツ制作
ヒューマンインタフェースロボット
アプリプチ(ApriPetit™)
メディアインテリジェンスを、高齢者
や子どもの見守り、公共施設・店舗
での案内や監視などに、親しみやす
く違和感なく利用していただくため
に生まれた。
(試作品)
モニタリング
オンライン
学習
反映/更新
辞書
Webページなど
学習
ソリューション適用
メディア処理
エンジン
並列・高速データ収集
音声
画像
文書
業界別
顧客別
抽出
・ドメイン別
・エンジン別
辞書構成
統一辞書/
モデル
エンジン別
・言語解析
・語彙解析
・概念解析
・画像解析
数百万語
数十億文
コンピュータを活用し、人々の生活
ス」
が目指す世界だ
(図 1)
。
ざまな市場において新たな価値やビジ
を豊かにしたい——そんな想いで東芝
モノが人の言動や意図を理解する
ネスの創出につなげられる可能性を秘
ソリューションが取り組んでいる新
ことから、
「人を想う IoE
(Internet of
めている。
たなコンセプトが
「メディアインテリ
Everything)
」
ともいえる。
未来を志向したコンセプトではある
ジェンス」
である。
「メディアインテリジェンス」
は、人
が、既に一部では実用化も始まってお
同社を含む東芝グループが培ってき
が使う機器やサービスのほか、人が関
り、
「Yahoo! カーナビ」における音声
た音声認識、音声合成、知的対話、画
わるあらゆるシーンに適用できるた
案内
(ヤフー株式会社提供)
、自動音
ティ管理、看板文字の自動認識と自動
知的対話技術である。曖昧な話し言葉
さや豊かさを、業務においては効率を
像認識などのメディア技術を核にし
め、その応用範囲は極めて広い。自動
声対話による相続相談サービス
(株式
翻訳といった応用が可能だ。
から意味を抽出し、適切な応答を返す
高めてくれる
「メディアインテリジェ
て、人がより自然に振る舞える未来の
車、家電、医療や介護、ソーシャル
会社東邦銀行提供)
、介護従事者向け
「聞く」は音声認識技術が担う。最
ことで、利用者とのインタラクティブ
ンス」
。
ヒューマンインタフェースを実現し、
ネットワーク、ゲームやパーソナルロ
の「 音 声 つ ぶ や き SNS」、 音 声 書 き
先端のディープラーニング手法を使っ
なインタフェースを実現できる。
東芝ソリューションでは要素技術の
生活やビジネスの革新を図っていこう
ボット、サイネージ、観光、コールセ
起こしクラウドエディタ
「ToScribe」
、
た音素識別により、話し言葉に強いこ
サービスモデルの一例を図2に示す。
さらなる研究開発を精力的に進めてい
というのが
「メディアインテリジェン
ンター、インダストリアルなど、さま
テレビ番組を音声で指示できる
「ざん
とが特長で、専門辞書のカスタマイズ
ビッグデータ解析を用いて新しい言葉
る。例えば、音声データから複数話者
まいスマートアクセス」
、音声認識を
も容易である。現時点で、会話の概要
を日々抽出しながら、大規模な統一辞
を識別する自動議事録作成システム
備えたコールセンターソリューション
やキーワードを把握するには十分な認
書をクラウド上に構築。必要に応じて
や、外国人観光客を対象とした新たな
識率を実現している。
専門辞書を設けたうえで、メディア処
サービスの創出につなげられる同時通
最後の
「話す」には音声合成技術が
理エンジンによってサービスを提供す
訳技術などの実用化を進めている。
使われる。個人の声の特徴を短い音声
る流れだ。なお、辞書の整備にはイン
音声や画像などのメディア技術を軸
「見る・聞く・話す」を実現する
さまざまな要素技術で業界をリード
データから高速かつ高精度に学習し、
ターネットを介して作業を依頼するク
に、クラウドサービス、コンサルテー
喜びなどの感情口調や注意を喚起する
ラウドソーシングも活用する。
ション、運用保守サポート、システム
「メディアインテリジェンス」の中
切迫口調のほか、特定人物の声真似も
軸を構成するのが、コンピュータの
自在に設定できる。日本語を含む 11
【図1】メディアインテリジェンスが目指す「人を想うIoE」
「T-SQUARE/CT」
(以上東芝提供)な
知的対話/翻訳
どに関連技術が展開されている。
豊富な知識で文脈に合う対応
IoE
Internet of Everything
音声認識
意図理解
人と話すように自然な言い方
人の言動
画像認識
音声合成
声に
「表情」
を
モノの動作
どんな人か、どんな状況かまで捉える
M2M/Io T
アクション
生活・ビジネス
「見る・聞く・話す」を実現する各要
・音声合成用
・音声認識用
・機械翻訳用
クラウドソーシング
による
入力処理サービス
・顔人物認識用
数十万パターン
数十万~百万語
(必要に応じて)
ビッグデータやクラウドソーシングを活用したカスタマイズサービスで、お客様のさまざまなビジネス分野への適用が可能
言語に対応している。
開発、組み込み開発、さらには半導体
未来のユーザーインタフェースが
生活や仕事に新たな変化をもたらす
開発まで、東芝グループが持つさまざ
まな強みの組み合わせから未来に向け
素技術だ。
これらの各技術を結ぶのが、東芝グ
コンピュータの
「見る・聞く・話す」
たユーザーインタフェースが誕生し、
「見る」を実現するのが画像認識技
ループが注力している意図理解技術や
を通じて、生活や社会においては楽し
新たな価値を生み出していく。 術である。顔認識、属性認識、人物追
跡、人数カウント、情景文字認識など
モノのインターネット(IoT)だけでなく、人の言動や意図を理解する「見る・聞く・話す」サービスで安心・快適な生活・ビジネスを実現
クラウドソーシング
による洗練化
の高度な機能を実現しており、店舗に
おける客の動線把握のほか、セキュリ
お問い合わせ先
〒 212-8585 神奈川県川崎市幸区堀川町 72-34(ラゾーナ川崎東芝ビル)
東芝ソリューション株式会社 経営企画部 広報担当 TE L. 044- 331- 1100 http://www.toshiba-sol.co.jp/