旅行情報を対象とした 中国語質問応答システム A1グループ D1 胡海青 研究の背景1 ネットワークの普及に伴い,膨大な情報へのアク セスが可能となってきたので,ネットワーク上で のコミュニケーションを介して,効率よく知識を獲 得することの必要性が高まっている. 一方で,電子化データが膨大になるにつれ, ユーザが膨大な情報源の中から必要とする情報 を効率的に獲得することが困難になってきている. 研究の背景2:従来の情報検索システム キーワードを指定する方式 システムの入出力に関する部分で ユーザに負担 入力:検索要求を検索語による論理式で表現 出力:検査結果から目的の情報を探し出す 素早く•的確に知りたい情報を取り出す 利用者の要求を十分に満たしていない ユーザの負担の少ないシステムの必要性 検 構索 築サ 容ー 易ビ ス 選択肢 の一つ として の 質問 応答 システム 研究の背景3 近年,情報検索に関する評価型ワークショップTREC においても,ユーザからの自然言語で問われた質問 に対して明確な回答を自動的に提示する質問応答 (Q&A)技術が新たなタスクとして注目されている. TRECで対象とする質問応答はオープンドメインタス ク(質問の対象領域を限定しない)であり,このような 設定ではドメイン知識を扱うことが非常に難しい. 一方で,対象分野を限定することによって,ドメイン 知識(オントロジー)の利用が容易となり,より高度な 言語処理を行うことで,応答の精度向上に大きく寄 与をすることが期待できる. 研究の目的 自然言語による中国語の質問応答システムにつ いての研究が行われている. 例えば,銀行などのもっと狭い対象への応用システム (北京理工大学の銀行業務領域のQAS) オーペンドメインでのNKI問題システムなども作られたが, 旅行情報を対象にする自然言語の質問システムはほと んど見えない. 本研究ではQ&A技術研究の一環として,日本の 「観光立国」という政策の市場ニーズなどに応え, 提案した中国語の質問応答システムでは対象を 旅行情報領域に限る. Q&Aシステムの概要 質問応答システム(Q&A)とは システム構成 質問応答 (Question and Answering: Q&A)システ ムとは,大量の文書を背景に,自然言語によっ て与えられた任意の質問に答えを与えるタスクで ある. Q&Aシステムにとっては,自然言語で書かれた質問に対して回答で きることを大きな特徴としている. 言い回しの違う質問や類似語による質問に対しても同様に回答でき る. Q&A技術に関して Q&A技術は情報抽出,情報検索,自然言語 インターフェースなどの自然言語処理の各研 究分野とも関連する技術である. Q&A技術に関する研究手法: 統計的な検索手法や浅い言語解析に基づくシステ ムが主流である. 自然言語でよく聞かれる質問とその回答をデータ ベース化し知識ベースとして蓄え, 回答する. 対象領域を特定せず,大量の情報を背景に自然言 語によって尋ねられた任意に質問に答えを与える. 本研究の提案 本研究では 従来の研究手法に基づき 回答精度向上を目指す ドメインを特定し よく聞かれる質問とその回答をデータベー ス化した知識ベースの回答検索と,旅行情 報に関する知識テキストの回答検索を総 合する情報検索システムの構築 本Q&Aシステムの構築 旅行に関する質問の特性(類似的な質問の集中 度が比較的に高い)によって,典型的な質問と過 去の重要的な質問を重視しあらかじめ質問&回 答データベースを作った. 一方で,旅行者の様々なニーズに応え,及び言 い回しの違う質問や類似語による質問に対して 質問&回答データベースから最適な回答が検索 できない場合には大量の旅行情報に関するテキ ストに検索し適当的な回答ができる. システムの構成 ユーザインタフェース 質問文解析部 Q&A検索部 知識ベース 出力 (聞き返し) 入力 (自然な文) シ ス テ ム 構 成 予 想 図 出力 (回答) ユーザインターフェース 入力質問文解析部 問 い 返 し 文 形態素解析 質問タイプ分類 キーワードの抽出拡張 回 答 文 Q&A検索部 文の類似度計算 マッチング 対応照合 知識 ベース 質問&回答 同義語 検索要求 旅行情報 システムの各要素の機能 ユーザインターフェース ユーザ(使用者)が中国語で自然な言葉 により入力し,システムとの対話のインター フェース(対話ウィドウ). 入力質問文解析部 入力した自然言語文に形態素解析をして,名詞, 固有名詞,未知語などが得られる. 次にその形態素解析結果を基に質問タイプ分析を する.質問タイプが5W2H,さらにもっと細分化された 質問タイプのどれに当てはまるかを解析する. 不要語処理と質問タイプによって質問文から検索 するのにキーワードを抽出する. 同義語と類似語により質問の拡張をする. Q&A検索部 回答検索の基本処理:入力の質問文と知識 ベースとのマッチングを行う 先は質問文と予め作成した質問&回答知識 ベースとのマッチングを行い,もっとも文の 類似度の高い文を見つけて,それに対応す る最適な回答を検索する. 質問&応答知識ベースにマッチングできない 場合,対象情報源としての旅行情報テキス トに検索する. 知識ベース 本システムには,質問&回答知識,同義語知識と旅 行情報知識の3種類の知識ベースがある. 質問&回答知識:あらかじめ典型的な,重要的な質 問―応答文の知識ベースを作成する. 同義語知識:同義語表現辞書で,頻出する同義表 現について辞書を作成し,これを用いてキーワード の拡張を行う. 旅行情報知識:対象知識として,必要な対象物(旅 行情報)についての知識テキストである. 質問文に対する解析処理 (1) 形態素解析: 日本語の形態素解析のように中国語の自然言 語文による質問に対して,まず分かち書きにより 単語の抽出が必要である. 本システムではとりあえずインターネットでの中 国語形態素解析システム「Chinese Text Segmentation and POS Tagging」(北京大学計算 言語研究所)を用いて形態素解析する. 質問文に対する解析処理 (2) 質問タイプ5W2H 質問タイプ 人(Who) 時間/日付(When) 疑問詞 谁/哪位… 什么时候/何时/什么季节/哪年… 物品/定義(What, Which) 什么是/是什么/哪个… 場所/位置(Where) 哪/哪儿/哪里/什么地方/何处… 原因(Why) 为什么/什么原因/的原因… 手段/方法/状況(How, How to) 如何/怎样/怎么样 数量/金額/程度(How many/much) 多少/几/多大/多贵/多远… その他 … 旅行情報に関する質問の特性によってもっと細分化された質問タイプの どれに当てはまるかを解析する. 例えば,旅行イベント,交通手段,宿泊施設,飲食情報,ショッピング, 旅行会社,旅行手続き相関,旅行保険相関など 質問文に対する解析処理 (3) キーワードの抽出 : 形態素解析によって得られた単語の中に不要語 処理をしてキーワードを抽出する. 即ち,助詞,形容詞,疑問詞及び一般的な副詞と動詞などの意味内 容を直接表現しない単語を除いたものをキーワードにする. 例えば,「请问」,「是」,「的」「吗」,「啊」,「呢」など検索に不要と思 われる語は予め除いておく. 質問文に対する解析処理 (4) キーワードの拡張: キーワードがそのままの表現で検索対象のデー タベースに出現することが少ないので,検索語と してのキーワードの拡張が必要となる. 普通は,シソーラスに基づいて質問中の検索語 を同義語によって拡張する. 例えば,「请问日本哪最好玩?」と「请问日本哪最有意思?」二つの 文の中に,「好玩」という検索語に対して,「有意思」などを追加する. Q&A検索処理過程(1) 検索構想: 本システムで基本的な考え方としては,二種類のデータベースの検索を 総合し応答の精度向上に大きく寄与をすることが期待できる. 旅行質問における類似的な質問 の集中度が比較的に高い特性 回 答 聞 き 返 し 典型的な質問と過去の 重要的な質問を重視し 予め質問&回答 データベースを作成しておく もっとも文 の類似度 高い文を 見つけて, それに対応する 最適な回答 を検索する. 回答 旅 行 質 問 質問&回答 質問文とこのデータベースの用意した文との 類似度を計算しマッチングを行い デ ー タ ベ ー ス の 更 新 旅行情報テキスト 検索 マッチングできない場合 Q&A検索処理過程(2) 検索モデルの選定: 本システムでは質問文と検索対象文の類似度を 計算することを通して回答の検索する. 質問文は質問&回答データベースに用意した質問文間の 類似度の計算. 旅行情報に関するテキストに回答検索でも文の検索とい う方法を採用し,文書を文の集合として直接に質問に応 答できる適当な文を回答にする. 類似度の計算手法としては,本システムでは現 在の主流であるベクトル空間モデルを用いる. ベクトル空間モデル(Vector Space Model)1 VSMは検索質問と文書を同じ索引語の重 みベクトルで表現し,ベクトル間の類似度 (similarity)で検索質問に対する文書の適 合度を計算するモデル. 類似度の尺度には内積,余弦などが用い られる.ここで,文を文書に視し検索を行う. ベクトル空間モデル(Vector Space Model)2 すべての索引語(キーワードとして用いることの できる語)を,k1,…,ktとする. 任意の文書djをt-次元ベクトル(w1,j,…, wt,j)として 表す.ここで, wi,jは,索引語kiの文書djに関する 重みとよばれる. ユーザからの質問qも,t-次元ベクトルとして表現 する. 質問qと各文書djとの近さを,二つのベクトルのな す角のコサインとする. dj sim (d j , q ) dj q q Q&A検索処理過程(3) キーワード(索引語)の重み付け ――ベクトルの要素wi,jとしては,tf-idf値を用いる 標準項生起頻度(normalized term freq.) tf i , j tfreqk i , d j max tfreqk1 , d j , , tfreqk t , d j 逆文献生起頻度(inverse document freq.) N idf i log 1 ni tf-idf値 N:全文/文書数 ni:索引語kiを含む文(文書)数 wi , j tf i , j idf i Q&A検索処理過程(4) 聞き返し文の作成 曖昧すぎる質問がなされた場合に,質問と知識 ベースをそのままマッチさせるだけでは満足な回 答をすることができない 質問文タイプによって回答ルールを作って聞き返 し(選択肢の確認)を行う. 例えば,未知語の聞き返し,類似語の聞き返し,質問が より明確になるようにユーザへの聞き返しを行う. 予備実験ための収集した データおよび処理 Q&Aデータベースの作成:インターネットで収集した「日 本旅行問題集」を検索対象とする. 旅行情報に関するテキストデータベース:「日本旅行網」 というウェッブサイトで収集した日本旅行情報に関するテ キストを検索対象とする. 文書検索ためのインデックス付け:文(文書)中に現れる 索引語を高速に検索するために,索引語が現れている 場所何らかの方法で求めておきその情報を記録すること が必要である. 本システムでは転置ファイル方法を索引語へのインデックス付けの方法とす る.(即ち,個々の索引語に対して,それが出現する文(文書)の数とそれぞれ の文書番号の一覧を集めておき,2分探索などを用いて高速に索引語検索 が可能になる.) まとめと今後の作業 本研究では 従来の研究手法に基づき,特定ドメインの回答精度向上 を目指すために,よく聞かれる質問とその回答をデータ ベース化した知識ベースの回答検索と,旅行情報に関す る知識テキストの回答検索を総合する情報検索システム の構築を提案した. 今後の作業としては 提案手法に基づき実際のシステムの構築を行う. 結果によって類似度の計算手法の改善(例えばファジイ 理論を応用)及び結果の評価方法を検討する. 旅行情報に関するテキストに検索した重要的な質問&回 答を利用して予め用意した質問&回答データベースに更 新を行うことを検討する. 参考文献 藤井敦,石川徹也 「IT技術者試験を対象とした質問応答システム-事典情 報に基づく用語問題の解法-」 (2000) 清田陽司,黒橋禎夫 「大規模テキスト知識ベースに基づく自動質問応答」 (2000) 黒橋禎夫,日笠亘 「入力質問と知識ベースとの柔軟なマッチングに基づく 対話的ヘルプシステム」 (1999) 山本秀樹,甲斐郷子,他 「会話シミュレーションを基にした語学訓練用知 的CAIシステムの構成」 (2000) 福本淳一,加藤恒昭 「Question and Answering タスクの提案」 (2002) 横溝一哉 「メーリングリストを利用した質問応答システムの作成」(2002) 村田真樹,内山将夫,井佐原均 「類似度に基づく推論を用いた質問システ ム」, (2000) 平博順,平尾努,泉谷知範,鈴木穣,前田英作 「生物医学質問応答システ ム(bio-QA)の提案」, (2003) 伊藤元之,久保寺正晃 「質問文の句構成に着目したQA事例集検索手法」, (2002) 関洋平 「質問応答のための自然言語インタフェース-根拠の提示-」, (2002).
© Copyright 2024 ExpyDoc