from NTTドコモ

f
rom
NTTドコモ
コンピュータとの自然な会話を実現する
雑談対話システム
人とコンピュータが自然に会話できる対話システムを目指し,NTTメディアインテリジェンス研究所の技術協力のもと,雑
談対話システムを開発しました.本対話システムの特長は,対話における話題と文脈を正しく認識し,大規模データから返答を
作成 ・ 選択することにより,人間どうしの会話に近い応答を行えることです.本システムは,スマート家電への適用や家庭用ロ
ボットの対話機能として利用するなどの応用が期待されています.
開発の背景
近年,しゃべってコンシェルのような音声認識対応エー
ジェントが普及してきています.しゃべってコンシェルは,
「メールを送る」や「電話をかける」などの何かしらの作
業目的を持った発話から,「富士山の高さは?」や「世界
一高い山は?」などのような質問,さらに,「好きだよ」
や「こんにちは」などの雑談に対しても返答が可能な音声
な特定の情報(この例では道案内)を要求する発話ではな
く,「長野へ行きたいなあ」のような明確な目的のない発
話によって構成される対話のことを指します.
開発した雑談対話システムを用いたアプリの例を図 1 に
示します.左側がシステムの発話,
右側がユーザの発話です.
■システム特長
本システムの特長は,ユーザの発話とその発話に対する
返答データとの単純なマッチングによって返答を行うシス
エージェントです.ユーザにとって作業目的の発話や情報
要求目的の発話が行えることは非常に便利ですが,しゃ
べってコンシェルは便利さを享受するためだけに使用され
ているわけではなく,日々多くの雑談も投げかけられてい
ます.ここから,ユーザの雑談欲求が非常に高いことがう
かがえます.しかし,しゃべってコンシェルは,想定内の
発話に対しては的確な返答をしますが,バリエーションが
まだ十分ではありません.ユーザの雑談欲求を満たすこと
ができれば,雑談対話そのものを人気コンテンツとして
ユーザに提供したり,ロボットやゲーム機に搭載するなど,
さまざまなビジネス応用が考えられます.
このようなユーザの雑談欲求にさらにこたえるため
NTTドコモでは,NTTメディアインテリジェンス研究所
の成果技術に基づき,雑談対話システムを開発しました.
この雑談対話システムは,コンピュータと人間が自然に会
話できることを目的にしたもので,大規模データから作成
した発話データを利用し豊富な返答が可能なシステムで
す.また本システムは,ユーザと単発の発話を繰り返すの
ではなく,複数回のやり取りを可能としています.ここで
は雑談対話システムの概要と対話技術について紹介します.
雑談対話システム概要
開発した雑談対話システムの概要を述べます.ここで“雑
談対話”とは,例えば「長野への行き方を教えて」のよう
50
NTT技術ジャーナル 2015.1
図 1 雑談対話システムを用いたアプリの例
(左:システム,右:ユーザ)
しりとり
モード
ユーザ
の発話
①発話理解部
③発話タイプ
分類部
②対話制御部
⑤出力前
変換部
ユーザ
属性情報
④システム
発話選択部
対システム
質問応答部
発話データ
システム
属性情報
知識検索
エンジン
図 2 システム概要
テムではなく,入力されたユーザの発話内容を解析し,発
③ 発話タイプ分類部:発話タイプ分類部ではユーザの
話の意図や文脈を理解したうえで,大規模データに基づい
発 話 が ど の よ う な も の か を 大 雑 把 に 判 定 す る た め,
て返答を行うことです.文脈を理解できることから,人間
ユーザの発話を“雑談対話”“質問応答システム向けの
どうしの会話のように文脈を持った自然な対話をすること
質問”“システム自身への質問”の3タイプに分類しま
ができます.
す.例えば,「長野に行きたい」は“雑談対話”,「富士
■システム動作
山の高さは?」は“質問応答システム向けの質問”,
「あ
図 2 に示すシステム概要図を基にして,システムの動作
なたの名前は?」は“システム自身への質問”と分類さ
を簡単に説明します.本システムは大きく分けて,①発話
れます.発話が“質問応答システム向けの質問”である
理解部,②対話制御部,③発話タイプ分類部,④システム
場合は,外部の知識検索エンジン
発話選択部,⑤出力前変換部の5つのパートで構成されて
します.発話が“システム自身への質問”である場合は,
います.
システム自身の属性情報を参照し「20歳です」など
例としてユーザから「長野に行きたい」という発話を受
け取ったときの処理を説明します.
① 発話理解部:発話理解部では,入力発話を解析する
ことにより,現在ユーザが話している話題を「長野」
であると認識します.
② 対話制御部:対話制御部では,ユーザ発話の対話行
を用いて返答
(1),
(2)
と答えます.ユーザの発話が“雑談対話”である場合は,
後述するシステム発話選択部へ進み,返答を行います.
④ システム発話選択部:①~③の結果を基に,大規模
発話データから出力すべき応答を選択します.本対話
システムでは人手で作成したものやインターネットか
ら取得したものなど合わせて大規模な発話データベー
為を推定し,これまでの対話の履歴を基に,次にどの
スを保持しており,その中から現在の返答としてもっ
ような返答を行うべきかを,“ポジティブな発言をす
とも適切と考えられるものを選択し出力します.また,
る”“ネガティブな発言をする”など大まかな枠組みの
③において“質問応答システム向けの質問”や“システ
中で推定します.詳細は後述の対話制御のセクション
ム自身への質問”と判断されたものの,各モジュール
で説明します.
(対システム質問応答部または知識検索エンジン)か
NTT技術ジャーナル 2015.1
51
from
NTTドコモ
対 話
オランダで
チーズを
食べたよ
対話行為
焦 点
チーズ
経験に関する発話
美味しい
よね
評価
ですよね
はい,
とても
共感
そこは
良かった
ですか
オランダ
評価に関する質問
共感
カメラ
買いたい
カメラ
願望
(次の
発話)
システム
(次の対話行為)
ユーザ
図 3 対話と対話行為の遷移例
ら応答が得られなかった場合も,システム発話選択部
ことを認識できなければなりません.この問題を解決する
から応答を得ます.
ために,本対話システムでは発話から焦点としてふさわし
⑤ 出力前変換部:対システム応答部,知識検索エンジ
い単語を推定し,抽出します.焦点の抽出は機械学習*1に
ンまたはシステム発話選択部のいずれかからの出力に
よって実現されています.ユーザの発話に含まれる述語に
対して,出力前変換部でシステム返答の語尾変換を行
対して必須とされる要素がない場合は,文内に現れている
います.例えば「明日は良い天気になるのか」という
名詞句,もしくは,これまでに焦点として抽出された名詞
文に対して,システムに女性というキャラクタを付与
句を使用し,足りない要素を補完することにより認識して
したい場合は「明日は良い天気になるかしら」と変換
います.
することができます.
対話技術
■対 話 制 御
ユーザ発話の対話行為を推定し,次に発話すべき対話行
為を推定する対話制御について説明します.対話と対話行
為の遷移を図3に示します.本対話システムでは,まずユー
本対話システムにおいて,もっとも重要な対話技術であ
ザの発話の対話行為を数十種類の対話行為の中から推定し
る,焦点認識,対話制御,発話選択について図 3 に示す例
ます(3).ここで,対話行為とは,発話意図のことで,例え
を用いて解説します.
ば,「共感」や「評価」などがあります.発話を対話行為
■焦 点 認 識
に変換するための分類器*2は,機械学習によって学習し作
対話を行うために重要なことは,現在ユーザが何につい
成します.対話は,このような対話行為の連続によって成
て話しているのかを理解することです.話題(焦点)は対
り立っています.システムはこれまでのユーザとシステム
話中で継続し,またあるタイミングで遷移します.例では,
の対話行為の遷移を考慮し,次に発話すべき対話行為を推
ユーザは「そこは良かったですか」という発言まではオラ
ンダの話をしていますが,次に「はい,とても」と答えた
システムを遮り,続いてカメラの話を始めています.ここ
でシステムは焦点が「オランダ」から「カメラ」に移った
52
NTT技術ジャーナル 2015.1
*1
*2
機械学習:サンプルデータから統計処理により,有用な判断基準をコン
ピュータに学習させる枠組み.
分類器:入力を,その特徴量に基づいてあらかじめ定められた分類先の
いずれかに分類する装置.
定します.この推定を行うため,本対話システムでは機械
学習によって構築した予測器*3を用いています.
■発 話 選 択
システムが適切な応答を大規模発話データから選択する
手法について説明します.システムの応答は基本的に,現
在の焦点と次に発話すべき対話行為を基に選択されます.
表 「チーズ」に関する発話
焦 点
対話行為
発 話
チーズ
経験に関する発話
オランダでチーズを食べたよ
チーズ
事実に関する発話
チーズはカロリーが高いらしい
チーズ
願望
美味しいチーズが食べたい
焦点「チーズ」に関する発話例を表に示します.例えば焦
点が「チーズ」で,次にシステムがとるべき対話行為が「願
ステムの特長は話題と文脈を理解し柔軟な返答を行えるこ
望」である場合は,その2点を満たす「美味しいチーズが
とです.
食べたい」を発話候補とします.発話候補が複数存在する
この雑談対話システムは,ドコモ ・ イノベーションビ
場合は,直近の発話との類似度を計算します.これにより,
レッジ(5)やdocomo Developer supportサイト *4を通し
ある発話候補の文がこれまでの文脈と意味的なまとまりを
て提供しています.また,ドライブネットインフォ*5にお
なすかどうかを確かめ,話が飛躍しないような発話文を選
ける雑談機能としても展開しています.ユーザは,これら
択することができます
.
(4)
エンタテインメント分野への応用
本対話システムは前述したような通常の雑談に加えて,
のAPIやアプリケーションを通して,多様なバリエーショ
ンを持つ雑談対話を楽しむことができます.その先の展開
としては,ロボットやゲーム機器,TV,車載機などの携
帯端末以外のデバイスとも接続し,多様なシーン ・ 目的で
雑談対話を楽しめるようにすることが挙げられます.サー
エンタテインメント性の高い機能としてユーザとしりとり
ビスの面からも本対話技術にはさまざまな可能性があり,
ゲームを行うことができます.ユーザの発話を解析し,そ
NTTドコモの目指すべき姿であるお客さまのスマートラ
れがしりとりゲームの開始を示唆するものだった場合,シ
イフパートナーとなるために必要とされる技術として,雑
ステムは対話からしりとりが始まったと認識し,しりとり
談対話は欠かせないものであると考えています.
のルールに基づいて返答を行います.返答は,しりとり回
今後は実際に使用されたログを解析し,より人間らしい
答用の単語リストから選択された複数の語の中から発話さ
対話ができるシステムへさらに改良を継続する予定です.
れます.これらの単語には頻度情報に基づいた優先度が付
また学術的なチャレンジとして,ユーザが対話で人間とシ
与されており,一般語ほど優先度が高く,システムの返答
ステムを見分けることができるかを問うチューリングテス
として発話されやすくなっています.これにより,「りん
ト *6にもチャレンジし,真に人間と同等の会話を実現する
ご→ごりら」といった一般的なしりとりの応答から始まり,
対話システムの実現を目指します.
後半では一般的でない語による上級者向けの応答が可能と
なります.ゲームが終了した後は自動的に対話へと切り替
わり,対話を継続することができます.
今後の展開
ここでは人間とコンピュータが自然な対話を行うことを
目的とした雑談対話エンジンについて紹介しました.本シ
*3
*4
*5
*6
予測器:与えられた入力を基に,次に出現するものを推測する装置.
docomo Developer supportサイト:スマートフォン向けサービスやアプ
リケーションの開発者が,NTTドコモの保有するAPIを利用できるAPIの
提供サイト.
ドライブネットインフォ:スマートフォンに話しかけるだけで渋滞情報や
周辺情報を教えてくれる新たなドライバー向け情報提供サービス.NTT
ドコモの商標または登録商標.
チューリングテスト:人間が,人間とコンピュータに対して会話を行い,
話している相手が人間なのかコンピュータなのかを判定するテスト.
■参考文献
(1) 内田 ・ 森田 ・ 吉森: “自然文質問への直接回答を実現する知識Q&A,
”
NTT DOCOMOテクニカル ・ ジャーナル, Vol.20, No.4, pp. 6 -11, 2013.
(2) 東中 ・ 貞光 ・ 内田 ・ 吉村: “しゃべってコンシェルにおける質問応答技
術,
” NTT技術ジャーナル, Vol.25, No.2, pp.56-59, 2013.
(3) 目黒 ・ 東中 ・ 堂坂 ・ 南: “聞き役対話の分析および分析に基づいた対話
制御部の構築,
” 情処学論, Vol.53, No.12, pp.2787-2801, 2012.
(4) R. Higashinaka, K. Imamura, T. Meguro, C. Miyazaki, N. Kobayashi,
H. Sugiyama, T. Hirano, T. Makino, and Y. Matsuo: “Towards an opendomain conversational system fully based on natural language processing,”
Proc. of COLING 2014, pp.928-939, Dublin, Ireland, August 2014.
(5) Activities: “ドコモ ・ イノベーションビレッジによる起業支援,
” NTT
DOCOMOテクニカル ・ ジャーナル, Vol.21, No.3, pp.29-31, 2013.
◆問い合わせ先
NTTドコモ
R&D戦略部
TEL 03-5156-1749
NTT技術ジャーナル 2015.1
53