PowerPoint プレゼンテーション

オープンソース開発支援用
メール検索システムの試作
大阪大学基礎工学部情報科学科
井上研究室
高尾祐治
Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University
オープンソース開発とメーリングリスト
ソースコード等を公開して多数の開発者が同時に開
発を行う
FreeBSD, Linux, Apache…
世界中に分散している開発者の意思疎通の手段と
して、メーリングリストが使われる
開発に関する議論
進捗状況報告
不具合の報告
特別研究報告
Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University
2
メーリングリストアーカイブの検索
メーリングリスト
アーカイブ
全てのメールを保存
開発者は過去の議論を
参考にして、問題を
解決するため頻繁に
アーカイブを検索する
アーカイブを検索
問題を抱える開発者
特別研究報告
Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University
3
問題点
単純な全文検索はアーカイブ検索には不向き
アーカイブは膨大な量に及ぶ
FreeBSDのメーリングリスト: 100万通、2.8GB
メール単位での検索手法しかない
検索に使ったキーワードは含まれないが、開発者にとって
重要なメールを取得できない
開発者はアーカイブの持つ
全ての情報を取得できない
特別研究報告
Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University
4
研究の目的
これまでは検索できなかった情報の取得を可能
にし、過去の議論の内容やその結果の検索を
効率的に行う
オープンソース開発向きのメール検索システムの構
築が必要である
スレッド間の結びつきに着目した
特別研究報告
Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University
5
スレッド間の結びつき
アーカイブはスレッドの集合
複数のスレッド間には結びつきがある
結びつきを以下に示す3種に分類する
似た話題について議論をしている
同じファイルについて議論をしている
同じ人たちが議論をしている
アーカイブ
特別研究報告
Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University
6
3種類の検索手法
3種類の結びつきから、スレッドを検索する
スレッドから取得したキーワードで検索する
スレッドから取得したキーワードで検索を行い、見つかったスレッ
ドは元のスレッドと似た議論をしている可能性が高い
スレッド中のメールに含まれるファイルパスで検索する
同じファイルパスを含んでいるスレッド同士は、同じファイルに関
する議論がなされている可能性が高い
スレッドでの議論者で検索する
同じ人たちが議論しているスレッド同士は似た議論をしている可
能性が高い
特別研究報告
Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University
7
メール検索システム
これまで述べたスレッドの結びつきを検索するシステム
メールに含まれるキーワードによる検索
メールに含まれるファイルパスによる検索
スレッドでの議論者による検索
FreeBSDの開発に用いられるメーリングリストを対象とした
全文検索エンジンにはNamazuを用いた
特別研究報告
Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University
8
検索の流れ
特別研究報告
Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University
9
実験
既存の全文検索システムと試作したシステムで
再現率、適合率からf値を求め比較
再現率 - 必要な情報のうち実際に検索された情報の割合
適合率 - 実際に検索された情報のうち必要な情報の割合
2  再現率  適合率
f値=
再現率  適合率
特別研究報告
Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University
10
実験の概要
freebsd-stableメーリングリストで2002年1月に
やり取りされたメールを対象として、「FreeBSD
4.5-RELEASEに関する問題」を探す
メール総数1263通
スレッド数302個
「FreeBSD 4.5-RELEASEに関する問題」について
論じているスレッドは60個存在した
特別研究報告
Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University
11
実験結果
異なるキーワードを使って検索を行った
再現率 適合率
Namazu
15%
50%
26%
40%
試作したシステム
f値
0.23
0.32
f値から、既存システムより高い精度で検索できたことが実証された
検索に使ったキーワードが含まれないメールも検索できるため、再現率
は大きくなった
本文中から抽出するキーワードの精度が低いため、適合率は小さく
なった
特別研究報告
Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University
12
まとめと課題
スレッド間の結びつきを考えた、メール検索システムを
試作した
メール検索の効率の向上を確認した
本システムを用いることで、過去の議論の内容やそ
の結果の検索を効率的に行うことができる
スレッド間の他の結びつきについて考え、その結びつ
きによる検索が有効かどうか実験する
特別研究報告
Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University
13