発表資料

質問応答システム
Typhoonの開発
情報理工部・情報知能学科 4年
H206041 田畑雅史
2010.2.2
質問応答システム(1)

質問応答システム

ファクトイド型質問応答システム
誰、何時、どこといった質問に答える
Yes/No型質問応答システム
 Wh型質問応答システム


ノンファクトイド型質問応答システム
何故、どうやってといった質問に答える
質問応答システム(2)

質問応答システムには分野や領域が限定され
ていないオープンなものとクローズなものがある
オープンなものはWebをデータベースとして利用す
ることでさまざまな分野の質問に答えることが可能
クローズなものは内部のデータベースを対象とする
ため分野や領域が限定される

研究動機

Wh型の質問応答システムは数多く研究されて
いる(伊藤・辻, 2005; 嶋, 2006; 平野, 2008)が、
Yes/No型の質問応答システムは聞いたことが
なかったため
Typhoonの処理の流れ
質問文入力
①質問文の解析
②クエリの作成
③Web検索&スニペットの抽出
④判定材料となる文の抽出
⑤点数付け
⑥判定
回答
①質問文の解析

質問例)
日本人初のノーベル賞受賞者は湯川秀樹か?

形態素解析
日本人|初|の|ノーベル|賞|受賞|者|は|湯川|秀樹|か|?

連続する名詞や動詞の結合
日本人初|の|ノーベル賞受賞者|は|湯川秀樹|か|?
②クエリ作成

質問文の解析で得られたキーワードをもとに検
索で使用するクエリを作成
検索に不要となる品詞を取り除き、クエリとする
日本人初|の|ノーベル賞受賞者|は|湯川秀樹|か|?
×
×
××
日本人初
ノーベル賞受賞者
湯川秀樹
③web検索&スニペットの抽出
④判定材料となる文の抽出

スニペット中の質問文の解析で得られたキーワード(日本人初
ノーベル賞受賞者 湯川秀樹)が含まれている文を抜き出す
⑤点数付け(1)

抽出したスニペット内の文のキーワード含有率
を元に点数付けを行う
キーワードが多く含まれているほど高い点数をつける
10割含まれている場合
8割
6割
5割
4割以下の場合
→ 10点
→
7点
→
3点
→
1点
→ -10点
⑤点数付け(2)

全てのスニペットを点数付けし、その合計点を
「判定」に用いる
スニペット1
スニペット2
スニペット3
→
12点
→ -10点
→
9点
・
・
・
スニペット19 →
スニペット20 →
11点
7点
合
計
す
る
判定

点数付けで出した合計点が250点以上ある場合
Yesを、200点以下の場合Noを返す
201以上250未満の場合、答えはわからないと
返す
250≦合計点
Yes
200<合計点<250 わからない
合計点≦200
No
また、質問文が否定文の場合は不等号が逆になる
質問文に含まれる否定語(ない、ぬ等)の数が奇数の
場合を否定文とする
チューニング用質問文

点数付けでの点数と、判定の数値は以下の質問文を使
い、調整した










東京ディズニーランドは千葉県舞浜市にある
2000円札の裏には紫式部が描かれている
豊臣秀吉は天下統一することができなかった
ニュートンは万有引力を発見していない
中京大学名古屋学舎は八事本町にある
ゴッホの代表作はチューリップである
崖の上のポニョの主題歌を歌ったのは大橋のぞみである
2011年は寅年である
コーヒー豆は日本でも栽培されている
ポアンカレ予想はペレルマンによって解かれた
合計点が
200以下なのでno
評価実験

キーワード数が2個~6個の質問文を計40問用
意し、それらの正答率を調べる
質問文はチューニング用の問題とは別のものを使用
キーワード数
2個
3個
4個
5個
6個
→
→
→
→
→
問題数
5問
8問
15問
3問
8問
質問文の例

キーワード数2個 (5問)



キーワード数3個 (8問)



中京大学豊田キャンパスは貝津町にある
鳩山由紀夫は総理大臣だ
ミッキーの生みの親はウォルト・ディズニーですか
原付とは50cc以下のバイクのことだ
キーワード数4個 (15問)


2008年時点のアメリカの大統領はブッシュですか
現在の中国の首相は温家宝ではない
結果(1)
正答数が20、誤答数が16、わからないが4つあり、全体
の正答率は50%となった

100
90
80
正答率(%)
70
60
50
40
30
20
10
0
正答
誤答
わからない
結果(2)
正答率(%)

キーワード数別に見るとキーワード数が2個のとき0%、
3個のとき33.3%、4個のとき66.6%、5個以上のとき
63.6%という結果となった
100
90
80
70
60
50
40
30
20
10
0
2個
3個
4個
キーワード数
5個以上
考察
正答率(%)
グラフからも見て分かるように、キーワード数3個以下
のときの正答率が低い
100
90
80
70
60
50
40
30
20
10
0
Web検索で求めたい情報が
引っかかっていないため
クエリの作成方法を改良する
2個
3個
4個
キーワード数
5個以上
改良案

文の「前提」を利用する
文の「前提」は文全体の真偽に無関係に成立する部
分。それをクエリとして用いる
貝津町の中京大学豊田キャンパスには浅田真央がいる
貝津町の中京大学豊田キャンパスには浅田真央がいない
どちらの文の場合でも中京大学豊田キャンパ
スが貝津町にあるということは変わらない
前提の利用
中京大学豊田キャンパスは貝津町にある
中京大学豊田キャンパス 貝津町
貝津町の中京大学豊田キャンパス
質問文から、質問内容を「前提」とする表現を作り出す
前提の利用


正答率が芳しくなかったキーワード数2~3個の
場合に「前提」を利用したクエリを用いて、正答
率の底上げを狙った
ただし「前提」を利用する上で点数付けの方式等
は変えていない
改良版の結果


キーワード2個の場合
60%、キーワード3個の
場合66.6%まで精度が
向上した。4個以上の場
合は同じ結果である
全体での正答率は65%
となり、改良前と比べて
15%向上した
70
60
50
40
改良前
改良後
30
20
10
0
2個
3個
4個
5個以上
考察

精度を上げるために考えられる方法


Web検索のHIT数の利用
質問文をWh型にした検索方法の利用
Web検索のHIT数の利用(1)

前提を利用して検索した結果のHIT数が極端に
少ない場合、その質問文は間違っている可能性
が高い
しかし、Webの中には間違った情報で記載され
ていることもあり、その場合にはHIT数を利用し
た手法は使うことができない
Web検索のHIT数の利用(2)

阪神大震災が起こったのは1996年である
間違った情報で載って
いることがある
そこで質問文をWh型に変換して検索する方法を
使うことでこの手法の欠点を補えるのではないか
と考えた
質問文をWh型にした検索方法の利用

質問文をWh型に直し、その検索結果が質問文
の内容と一致しているかを調べる
質問文の焦点となる部分をWh型で求めたい回答とす
る。Wh型の検索結果が焦点部分と一致していれば、そ
の質問が正しいと言える可能性が高まるのではないか
参考文献

奥村学・磯崎秀樹・東中竜一郎・永田昌明 ・加
藤恒昭(2009)『質問応答システム』 (自然言語
処理シリーズ 2). コロナ社