f rom NTTドコモ コンピュータとの自然な会話を実現する 雑談対話システム 人とコンピュータが自然に会話できる対話システムを目指し,NTTメディアインテリジェンス研究所の技術協力のもと,雑 談対話システムを開発しました.本対話システムの特長は,対話における話題と文脈を正しく認識し,大規模データから返答を 作成 ・ 選択することにより,人間どうしの会話に近い応答を行えることです.本システムは,スマート家電への適用や家庭用ロ ボットの対話機能として利用するなどの応用が期待されています. 開発の背景 近年,しゃべってコンシェルのような音声認識対応エー ジェントが普及してきています.しゃべってコンシェルは, 「メールを送る」や「電話をかける」などの何かしらの作 業目的を持った発話から,「富士山の高さは?」や「世界 一高い山は?」などのような質問,さらに,「好きだよ」 や「こんにちは」などの雑談に対しても返答が可能な音声 な特定の情報(この例では道案内)を要求する発話ではな く,「長野へ行きたいなあ」のような明確な目的のない発 話によって構成される対話のことを指します. 開発した雑談対話システムを用いたアプリの例を図 1 に 示します.左側がシステムの発話, 右側がユーザの発話です. ■システム特長 本システムの特長は,ユーザの発話とその発話に対する 返答データとの単純なマッチングによって返答を行うシス エージェントです.ユーザにとって作業目的の発話や情報 要求目的の発話が行えることは非常に便利ですが,しゃ べってコンシェルは便利さを享受するためだけに使用され ているわけではなく,日々多くの雑談も投げかけられてい ます.ここから,ユーザの雑談欲求が非常に高いことがう かがえます.しかし,しゃべってコンシェルは,想定内の 発話に対しては的確な返答をしますが,バリエーションが まだ十分ではありません.ユーザの雑談欲求を満たすこと ができれば,雑談対話そのものを人気コンテンツとして ユーザに提供したり,ロボットやゲーム機に搭載するなど, さまざまなビジネス応用が考えられます. このようなユーザの雑談欲求にさらにこたえるため NTTドコモでは,NTTメディアインテリジェンス研究所 の成果技術に基づき,雑談対話システムを開発しました. この雑談対話システムは,コンピュータと人間が自然に会 話できることを目的にしたもので,大規模データから作成 した発話データを利用し豊富な返答が可能なシステムで す.また本システムは,ユーザと単発の発話を繰り返すの ではなく,複数回のやり取りを可能としています.ここで は雑談対話システムの概要と対話技術について紹介します. 雑談対話システム概要 開発した雑談対話システムの概要を述べます.ここで“雑 談対話”とは,例えば「長野への行き方を教えて」のよう 50 NTT技術ジャーナル 2015.1 図 1 雑談対話システムを用いたアプリの例 (左:システム,右:ユーザ) しりとり モード ユーザ の発話 ①発話理解部 ③発話タイプ 分類部 ②対話制御部 ⑤出力前 変換部 ユーザ 属性情報 ④システム 発話選択部 対システム 質問応答部 発話データ システム 属性情報 知識検索 エンジン 図 2 システム概要 テムではなく,入力されたユーザの発話内容を解析し,発 ③ 発話タイプ分類部:発話タイプ分類部ではユーザの 話の意図や文脈を理解したうえで,大規模データに基づい 発 話 が ど の よ う な も の か を 大 雑 把 に 判 定 す る た め, て返答を行うことです.文脈を理解できることから,人間 ユーザの発話を“雑談対話”“質問応答システム向けの どうしの会話のように文脈を持った自然な対話をすること 質問”“システム自身への質問”の3タイプに分類しま ができます. す.例えば,「長野に行きたい」は“雑談対話”,「富士 ■システム動作 山の高さは?」は“質問応答システム向けの質問”, 「あ 図 2 に示すシステム概要図を基にして,システムの動作 なたの名前は?」は“システム自身への質問”と分類さ を簡単に説明します.本システムは大きく分けて,①発話 れます.発話が“質問応答システム向けの質問”である 理解部,②対話制御部,③発話タイプ分類部,④システム 場合は,外部の知識検索エンジン 発話選択部,⑤出力前変換部の5つのパートで構成されて します.発話が“システム自身への質問”である場合は, います. システム自身の属性情報を参照し「20歳です」など 例としてユーザから「長野に行きたい」という発話を受 け取ったときの処理を説明します. ① 発話理解部:発話理解部では,入力発話を解析する ことにより,現在ユーザが話している話題を「長野」 であると認識します. ② 対話制御部:対話制御部では,ユーザ発話の対話行 を用いて返答 (1), (2) と答えます.ユーザの発話が“雑談対話”である場合は, 後述するシステム発話選択部へ進み,返答を行います. ④ システム発話選択部:①~③の結果を基に,大規模 発話データから出力すべき応答を選択します.本対話 システムでは人手で作成したものやインターネットか ら取得したものなど合わせて大規模な発話データベー 為を推定し,これまでの対話の履歴を基に,次にどの スを保持しており,その中から現在の返答としてもっ ような返答を行うべきかを,“ポジティブな発言をす とも適切と考えられるものを選択し出力します.また, る”“ネガティブな発言をする”など大まかな枠組みの ③において“質問応答システム向けの質問”や“システ 中で推定します.詳細は後述の対話制御のセクション ム自身への質問”と判断されたものの,各モジュール で説明します. (対システム質問応答部または知識検索エンジン)か NTT技術ジャーナル 2015.1 51 from NTTドコモ 対 話 オランダで チーズを 食べたよ 対話行為 焦 点 チーズ 経験に関する発話 美味しい よね 評価 ですよね はい, とても 共感 そこは 良かった ですか オランダ 評価に関する質問 共感 カメラ 買いたい カメラ 願望 (次の 発話) システム (次の対話行為) ユーザ 図 3 対話と対話行為の遷移例 ら応答が得られなかった場合も,システム発話選択部 ことを認識できなければなりません.この問題を解決する から応答を得ます. ために,本対話システムでは発話から焦点としてふさわし ⑤ 出力前変換部:対システム応答部,知識検索エンジ い単語を推定し,抽出します.焦点の抽出は機械学習*1に ンまたはシステム発話選択部のいずれかからの出力に よって実現されています.ユーザの発話に含まれる述語に 対して,出力前変換部でシステム返答の語尾変換を行 対して必須とされる要素がない場合は,文内に現れている います.例えば「明日は良い天気になるのか」という 名詞句,もしくは,これまでに焦点として抽出された名詞 文に対して,システムに女性というキャラクタを付与 句を使用し,足りない要素を補完することにより認識して したい場合は「明日は良い天気になるかしら」と変換 います. することができます. 対話技術 ■対 話 制 御 ユーザ発話の対話行為を推定し,次に発話すべき対話行 為を推定する対話制御について説明します.対話と対話行 為の遷移を図3に示します.本対話システムでは,まずユー 本対話システムにおいて,もっとも重要な対話技術であ ザの発話の対話行為を数十種類の対話行為の中から推定し る,焦点認識,対話制御,発話選択について図 3 に示す例 ます(3).ここで,対話行為とは,発話意図のことで,例え を用いて解説します. ば,「共感」や「評価」などがあります.発話を対話行為 ■焦 点 認 識 に変換するための分類器*2は,機械学習によって学習し作 対話を行うために重要なことは,現在ユーザが何につい 成します.対話は,このような対話行為の連続によって成 て話しているのかを理解することです.話題(焦点)は対 り立っています.システムはこれまでのユーザとシステム 話中で継続し,またあるタイミングで遷移します.例では, の対話行為の遷移を考慮し,次に発話すべき対話行為を推 ユーザは「そこは良かったですか」という発言まではオラ ンダの話をしていますが,次に「はい,とても」と答えた システムを遮り,続いてカメラの話を始めています.ここ でシステムは焦点が「オランダ」から「カメラ」に移った 52 NTT技術ジャーナル 2015.1 *1 *2 機械学習:サンプルデータから統計処理により,有用な判断基準をコン ピュータに学習させる枠組み. 分類器:入力を,その特徴量に基づいてあらかじめ定められた分類先の いずれかに分類する装置. 定します.この推定を行うため,本対話システムでは機械 学習によって構築した予測器*3を用いています. ■発 話 選 択 システムが適切な応答を大規模発話データから選択する 手法について説明します.システムの応答は基本的に,現 在の焦点と次に発話すべき対話行為を基に選択されます. 表 「チーズ」に関する発話 焦 点 対話行為 発 話 チーズ 経験に関する発話 オランダでチーズを食べたよ チーズ 事実に関する発話 チーズはカロリーが高いらしい チーズ 願望 美味しいチーズが食べたい 焦点「チーズ」に関する発話例を表に示します.例えば焦 点が「チーズ」で,次にシステムがとるべき対話行為が「願 ステムの特長は話題と文脈を理解し柔軟な返答を行えるこ 望」である場合は,その2点を満たす「美味しいチーズが とです. 食べたい」を発話候補とします.発話候補が複数存在する この雑談対話システムは,ドコモ ・ イノベーションビ 場合は,直近の発話との類似度を計算します.これにより, レッジ(5)やdocomo Developer supportサイト *4を通し ある発話候補の文がこれまでの文脈と意味的なまとまりを て提供しています.また,ドライブネットインフォ*5にお なすかどうかを確かめ,話が飛躍しないような発話文を選 ける雑談機能としても展開しています.ユーザは,これら 択することができます . (4) エンタテインメント分野への応用 本対話システムは前述したような通常の雑談に加えて, のAPIやアプリケーションを通して,多様なバリエーショ ンを持つ雑談対話を楽しむことができます.その先の展開 としては,ロボットやゲーム機器,TV,車載機などの携 帯端末以外のデバイスとも接続し,多様なシーン ・ 目的で 雑談対話を楽しめるようにすることが挙げられます.サー エンタテインメント性の高い機能としてユーザとしりとり ビスの面からも本対話技術にはさまざまな可能性があり, ゲームを行うことができます.ユーザの発話を解析し,そ NTTドコモの目指すべき姿であるお客さまのスマートラ れがしりとりゲームの開始を示唆するものだった場合,シ イフパートナーとなるために必要とされる技術として,雑 ステムは対話からしりとりが始まったと認識し,しりとり 談対話は欠かせないものであると考えています. のルールに基づいて返答を行います.返答は,しりとり回 今後は実際に使用されたログを解析し,より人間らしい 答用の単語リストから選択された複数の語の中から発話さ 対話ができるシステムへさらに改良を継続する予定です. れます.これらの単語には頻度情報に基づいた優先度が付 また学術的なチャレンジとして,ユーザが対話で人間とシ 与されており,一般語ほど優先度が高く,システムの返答 ステムを見分けることができるかを問うチューリングテス として発話されやすくなっています.これにより,「りん ト *6にもチャレンジし,真に人間と同等の会話を実現する ご→ごりら」といった一般的なしりとりの応答から始まり, 対話システムの実現を目指します. 後半では一般的でない語による上級者向けの応答が可能と なります.ゲームが終了した後は自動的に対話へと切り替 わり,対話を継続することができます. 今後の展開 ここでは人間とコンピュータが自然な対話を行うことを 目的とした雑談対話エンジンについて紹介しました.本シ *3 *4 *5 *6 予測器:与えられた入力を基に,次に出現するものを推測する装置. docomo Developer supportサイト:スマートフォン向けサービスやアプ リケーションの開発者が,NTTドコモの保有するAPIを利用できるAPIの 提供サイト. ドライブネットインフォ:スマートフォンに話しかけるだけで渋滞情報や 周辺情報を教えてくれる新たなドライバー向け情報提供サービス.NTT ドコモの商標または登録商標. チューリングテスト:人間が,人間とコンピュータに対して会話を行い, 話している相手が人間なのかコンピュータなのかを判定するテスト. ■参考文献 (1) 内田 ・ 森田 ・ 吉森: “自然文質問への直接回答を実現する知識Q&A, ” NTT DOCOMOテクニカル ・ ジャーナル, Vol.20, No.4, pp. 6 -11, 2013. (2) 東中 ・ 貞光 ・ 内田 ・ 吉村: “しゃべってコンシェルにおける質問応答技 術, ” NTT技術ジャーナル, Vol.25, No.2, pp.56-59, 2013. (3) 目黒 ・ 東中 ・ 堂坂 ・ 南: “聞き役対話の分析および分析に基づいた対話 制御部の構築, ” 情処学論, Vol.53, No.12, pp.2787-2801, 2012. (4) R. Higashinaka, K. Imamura, T. Meguro, C. Miyazaki, N. Kobayashi, H. Sugiyama, T. Hirano, T. Makino, and Y. Matsuo: “Towards an opendomain conversational system fully based on natural language processing,” Proc. of COLING 2014, pp.928-939, Dublin, Ireland, August 2014. (5) Activities: “ドコモ ・ イノベーションビレッジによる起業支援, ” NTT DOCOMOテクニカル ・ ジャーナル, Vol.21, No.3, pp.29-31, 2013. ◆問い合わせ先 NTTドコモ R&D戦略部 TEL 03-5156-1749 NTT技術ジャーナル 2015.1 53
© Copyright 2025 ExpyDoc