PowerPoint プレゼンテーション

オープンソース開発支援用
メール検索システムの試作
高尾祐治† 石川武志‡ 松下誠† 井上克郎†
大阪大学大学院情報科学研究科†
富士通株式会社‡
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
オープンソース開発とは
ソースコードを公開し多数の開発者が同時に開発を
行う開発手法
FreeBSD, Linux, Apache…
開発者は世界中に分散
直接会ってミーティングをすることはほとんどない
メーリングリストを用いたコミュニケーション
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
2
メーリングリストを使った議論の例
2002/9/25
パッチを書いたので試してほしい
デバッグフラグを
もう必要のないもの
オフにしましたか?
ソースコードから削除した方がいい
この行をコメントアウトしたら
USBが遅くなってしまった
うまくいくようになった.
何が悪いんだろう?
それにしても,なぜ?
FIT2002
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
3
開発プロセスから見たメーリングリスト
1. メーリングリストを使って
議論を行い,設計する
2. 開発(コーディング,テスト)を
行う
開発者全体の意志決定のためのツール
開発プロセスで,重要な役割を担っている
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
4
メーリングリストアーカイブ
全てのメールを保存
アーカイブ
多くの有益な情報(アナウンス,不具合の報告,新機能の提案)
開発者はアーカイブを検索
開発の履歴を参照する
過去の議論を参考にして,問題解決に役立てる
アーカイブの検索システムを使う
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
5
既存手法(全文検索)での検索例
USB接続のマウスを使いたいが,うまくいかない
原因と,解決方法を調べたい
実は,マウスドライバ に問題がある
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
6
検索の失敗
「USB マウス」というキーワードで全文検索
既存の検索エンジン
検索可能
検索不可
USBマウスに関するメール マウスドライバの問題に
(問題の解決には役立たない)
関するメール
「USB」がメールに含まれないために,必要なメールを検索で
きない
適切なキーワードを思い浮かばなかったら?
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
7
問題点
既存の検索手法(全文検索)
キーワードを使ったメール単位の検索
重要なメールでもキーワードが含まれないと検索できない
開発者はアーカイブの持つ
全ての情報を取得できない
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
8
研究の目的
これまでは検索できなかった情報の取得を可能に
し,過去の議論の内容とその結果の検索を効率
的に行う
既存の検索手法の問題点を解決する
検索手法の提案と実現を行う
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
9
メーリングリストでの議論
投稿されたメールに対して
返信することで議論を行う
返信でまとめられるメールの
集合をスレッドという
返信
スレッド
問題提起から解決に至る
までの議論が含まれる
スレッドは議論の単位
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
10
スレッド間の結びつき
スレッドでは特定のトピックについて議論
他のスレッドでも同じトピックについての議論
スレッド間には結びつきがある
3種類のスレッド間の結びつきを定義
似た話題について議論をしている
同じファイルについて議論をしている
同じ人たちが議論をしている
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
11
結び付きを用いた検索
スレッド間の結び付きを用いた検索を行う
スレッドと結び付きにあるスレッドを検索
結び付きにあるスレッド同士
互いに関連のある議論をしている
より多くの情報を取得することができる
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
12
検索例
USB接続のマウスの例
「USB,マウス」で検索するとマウスドライバに関するメールを見つけられない
全文検索で見つかったスレッドと,結び付きにあるス
レッドを検索する
キーワードが含まれない情報も検索することができる
全文検索で見つかった
スレッド(USBマウスの議論)
目的のスレッド
(マウスドライバの議論)
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
13
スレッドの検索手法 (1/3)
似た話題について議論をしているスレッド
→ スレッドから抽出したキーワードで検索
キーワードの抽出法
スレッドに含まれるメール中の単語それぞれに対して,出
現箇所(本文,Subject)と出現回数に応じて重み付け
をする
重みの大きいものをキーワードとする
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
14
スレッドの検索手法 (2/3)
同じファイルについて議論をしているスレッド
→ スレッドに含まれるファイルパスで検索
過去,当該ファイルでどのような議論がなされたのかを知
ることができる
ファイルパスの取得法
スレッドに含まれるメール中の単語のうち,’/’が含まれてい
るものを,ファイルパスとする
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
15
スレッドの検索手法 (3/3)
同じ人たちが議論をしているスレッド
→ スレッドで議論している人のメールアドレスで
検索
開発者は特定の分野で開発を行うことが多いため,関連
のある議論を知ることができる
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
16
システム構成
スレッド検索
プログラム
Step 4
ユーザ
インターフェース
Step 1
ユーザ
Step 2
Step 3
全文検索エンジン
メールDB
メールDB作成プログラム
アーカイブ
1. キーワードを使った全文検索
2. 全文検索結果から,興味の
あるスレッドを選ぶ
3. 指定されたスレッドを基に,結
び付きにあるスレッドを検索す
る
4. 検索結果が返される
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
17
メール検索システム
FreeBSDの開発に用いられているメーリングリストを
対象
全文検索エンジンとして,Namazuを使用
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
18
評価
試作したシステムと,既存の全文検索システム
(Namazu)を比較
同じキーワードを使って検索
検索結果から再現率,適合率,f値を求め比較
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
19
再現率,適合率
情報検索の能力を判断するための指標
再現率 - 必要な情報のうち実際に検索された情報の割合
適合率 - 実際に検索された情報のうち必要な情報の割合
※ 必要な情報 - 検索条件に適合する情報
値が大きいほど,検索の能力が高い
全情報の集合
必要な情報
検索された情報
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
20
f値
再現率,適合率はトレードオフの関係にある
再現率を上げるには,多くの情報を検索すればよい.し
かし,必要ない情報も混じってしまうため適合率は下がる
f値を使って,情報検索の能力を判断する
2  再現率  適合率
f値=
再現率  適合率
f値が大きいほど,検索の能力が高い
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
21
実験
freebsd-stableメーリングリストで2002年1月にやり取り
されたメールを対象として、「FreeBSD 4.5-RELEASE
に関する問題」を探す
メール総数1263通,スレッド数302個
「FreeBSD 4.5-RELEASEに関する問題」について論じ
ているスレッドは60個
キーワードを変えて,3回検索を行った
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
22
実験結果・考察
検索された
再現率 適合率 f値
スレッド数
試作したシステム
Namazu
40
18
26%
15%
40% 0.32
50% 0.23
f値から、既存システムより高い精度で検索できたことが実証
された
再現率は増大
検索に使ったキーワードが含まれないメールも検索できるため
適合率は減少
本文中から抽出するキーワードの精度が低いため
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
23
まとめと課題
まとめ
スレッド間の結びつきを利用した、メール検索システムを
試作した
メール検索の精度の向上を確認した
本システムを用いることで、過去の議論の内容やその結
果の検索を効率的に行うことができる
課題
メールからのキーワード抽出の精度を上げ,検索精度を
向上させること
2002/9/25
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University
FIT2002
24