オープンソース開発支援用 メール検索システムの試作 大阪大学基礎工学部情報科学科 井上研究室 高尾祐治 Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University オープンソース開発とメーリングリスト ソースコード等を公開して多数の開発者が同時に開 発を行う FreeBSD, Linux, Apache… 世界中に分散している開発者の意思疎通の手段と して、メーリングリストが使われる 開発に関する議論 進捗状況報告 不具合の報告 特別研究報告 Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University 2 メーリングリストアーカイブの検索 メーリングリスト アーカイブ 全てのメールを保存 開発者は過去の議論を 参考にして、問題を 解決するため頻繁に アーカイブを検索する アーカイブを検索 問題を抱える開発者 特別研究報告 Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University 3 問題点 単純な全文検索はアーカイブ検索には不向き アーカイブは膨大な量に及ぶ FreeBSDのメーリングリスト: 100万通、2.8GB メール単位での検索手法しかない 検索に使ったキーワードは含まれないが、開発者にとって 重要なメールを取得できない 開発者はアーカイブの持つ 全ての情報を取得できない 特別研究報告 Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University 4 研究の目的 これまでは検索できなかった情報の取得を可能 にし、過去の議論の内容やその結果の検索を 効率的に行う オープンソース開発向きのメール検索システムの構 築が必要である スレッド間の結びつきに着目した 特別研究報告 Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University 5 スレッド間の結びつき アーカイブはスレッドの集合 複数のスレッド間には結びつきがある 結びつきを以下に示す3種に分類する 似た話題について議論をしている 同じファイルについて議論をしている 同じ人たちが議論をしている アーカイブ 特別研究報告 Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University 6 3種類の検索手法 3種類の結びつきから、スレッドを検索する スレッドから取得したキーワードで検索する スレッドから取得したキーワードで検索を行い、見つかったスレッ ドは元のスレッドと似た議論をしている可能性が高い スレッド中のメールに含まれるファイルパスで検索する 同じファイルパスを含んでいるスレッド同士は、同じファイルに関 する議論がなされている可能性が高い スレッドでの議論者で検索する 同じ人たちが議論しているスレッド同士は似た議論をしている可 能性が高い 特別研究報告 Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University 7 メール検索システム これまで述べたスレッドの結びつきを検索するシステム メールに含まれるキーワードによる検索 メールに含まれるファイルパスによる検索 スレッドでの議論者による検索 FreeBSDの開発に用いられるメーリングリストを対象とした 全文検索エンジンにはNamazuを用いた 特別研究報告 Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University 8 検索の流れ 特別研究報告 Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University 9 実験 既存の全文検索システムと試作したシステムで 再現率、適合率からf値を求め比較 再現率 - 必要な情報のうち実際に検索された情報の割合 適合率 - 実際に検索された情報のうち必要な情報の割合 2 再現率 適合率 f値= 再現率 適合率 特別研究報告 Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University 10 実験の概要 freebsd-stableメーリングリストで2002年1月に やり取りされたメールを対象として、「FreeBSD 4.5-RELEASEに関する問題」を探す メール総数1263通 スレッド数302個 「FreeBSD 4.5-RELEASEに関する問題」について 論じているスレッドは60個存在した 特別研究報告 Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University 11 実験結果 異なるキーワードを使って検索を行った 再現率 適合率 Namazu 15% 50% 26% 40% 試作したシステム f値 0.23 0.32 f値から、既存システムより高い精度で検索できたことが実証された 検索に使ったキーワードが含まれないメールも検索できるため、再現率 は大きくなった 本文中から抽出するキーワードの精度が低いため、適合率は小さく なった 特別研究報告 Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University 12 まとめと課題 スレッド間の結びつきを考えた、メール検索システムを 試作した メール検索の効率の向上を確認した 本システムを用いることで、過去の議論の内容やそ の結果の検索を効率的に行うことができる スレッド間の他の結びつきについて考え、その結びつ きによる検索が有効かどうか実験する 特別研究報告 Software Engineering Research Group, Department of Informatics and Mathematical Science, Graduate School of Engineering Science, Osaka University 13
© Copyright 2025 ExpyDoc