Shinshu University Institutional Repository SOAR-IR

Shinshu University Institutional Repository SOAR-IR
Title
Author(s)
Citation
Issue Date
URL
Rights
情報検索手法に基づくトレーサビリティリンク回復のた
めの手法オプションについてのマイニングの提案と評価(
内容の要旨 )
上田, 健之
上田 健之. 情報検索手法に基づくトレーサビリティリン
ク回復のための手法オプションについてのマイニングの
提案と評価. 信州大学, 2014, 博士論文. 博士(工学), 乙第
229号, 平成26年3月20日授与.
2014-03-20
http://hdl.handle.net/10091/17782
氏 名 (本 籍 ・生 年 月 日 ) 上 田 健 之 (神 奈 川 県 昭 和 3 9 年 7 月 2 4 日 ) 学 位 の 種 類 博 士 (工 学 ) 学 位 記 番 号 乙 第 2 2 9 号 学 位 授 与 の 日 付 平 成 2 6 年 3 月 2 0 日 学 位 授 与 の 要 件 信 州 大 学 学 位 規 程 第 5 条 第 2 項 該 当 学 位 論 文 題 目 情 報 検 索 手 法 に 基 づ く ト レ ー サ ビ リ テ ィ リ ン ク 回 復 の た め の 手 法 オ プ シ ョ ン に つ い て の マ イ ニ ン グ の 提 案 と 評 価 論 文 審 査 委 員 主 査 教 授 海 尻 賢 二 准 教 授 海 谷 治 彦 教 授 山 本 博 章 助 教 小 形 真 平 教 授 櫨 山 淳 雄 ( 東 京 学 芸 大 学 ) 論 文 内 容 の 要 旨 ソ フ ト ウ ェ ア 保 守 は そ の ソ フ ト ウ ェ ア の 価 値 を 維 持 し , 高 め る た め の 重 要 な 工 程 で あ る
が,生産性が低く不具合の混入しやすい困難な工程であることも知られている.この困難
さの原因の一つがソフトウェアアーティファクト間のトレーサビリティリンクの喪失であ
る.喪失したリンクを自動的に回復させる手法として近年,情報検索手法の利用が注目さ
れ て い る . 情 報 検 索 手 法 に よ る ト レ ー サ ビ リ テ ィ リ ン ク 回 復 は 単 語 の 共 起 性 を 元 に ド キ ュ メ ン ト 間
の類似度を求め,類似度の高いものをリンクと判断して回復を行う手法であるが,単語の
処理や作成した単語ベクトルの処理などにさまざまな手法のオプションがあり,それらは
対象ドキュメントとの相性があることが従来から言われている.又,ソフトウェアアーテ
ィファクトは要求仕様,設計文書,ソースコード,テスト仕様などの様々なドキュメント
か ら 構 成 さ れ る 上 , そ の 特 徴 は プ ロ ジ ェ ク ト 毎 に 多 彩 で あ る . 情 報 検 索 手 法 に 基 づ く ト レ ー サ ビ リ テ ィ リ ン ク の 回 復 を 現 場 で 行 う 場 合 , ド キ ュ メ ン ト
の特徴に対して適切な手法を選択する必要がある.理想的な状況は,ドキュメントの特徴
量 か ら 正 し い 手 法 が 選 択 さ れ る こ と だ が , そ の よ う な 研 究 は ま だ な い . そ こ で , 本 研 究 は 現 場 で の リ ン ク 回 復 の 実 践 に お い て 正 し い 手 法 を 選 択 す る シ ス テ マ テ
ィックな方法として手法オプションマイニングを提案する.これは参照データセットに対
して種々の手法の組み合わせを元にリンク回復の予備実験を総当たりで行い,その精度と
特徴量と手法との関係のマイニングを行う事で,ある特徴量をもつドキュメント対につい
ての適切な手法を予測するというものである.予測の精度が十分なものであれば,精度の
悪 い 手 法 に よ る リ ン ク 回 復 の 実 施 を 避 け る こ と が で き る . さ ら に , リ ン ク を 回 復 す る 対 象 と な る ド キ ュ メ ン ト の 構 造 に は 一 方 が 他 方 を 包 含 す る な
どの非対称性があるものもあるのだが従来の類似度計算にはその非対称性を考慮するもの
はなかった.そこで本研究では情報検索手法のオプションの一つとして非対称類似度を提
案 し た . 本 研 究 で は こ の 提 案 手 法 に つ い て 下 記 の 5 つ の 仮 説 を 用 意 し , そ れ を 3 つ の 実 験 で 検 証
す る . 仮説1:すべてのドキュメント対について良いリンク回復精度を与える一意な手法は存在
し な い . 仮 説 2 : 手 法 オ プ シ ョ ン の 適 否 は ド キ ュ メ ン ト の 特 徴 量 に 依 存 す る . 仮 説 3 : リ ン ク の 種 別 に よ っ て は 非 対 称 類 似 度 は リ ン ク 回 復 精 度 の 向 上 に 有 効 で あ る . 仮説4:本提案手法によって,妥当なリンク回復精度を与える手法オプションを有意な識
別 精 度 で 識 別 す る こ と が で き る . 仮 説 5 : 目 標 と す る リ ン ク 回 復 精 度 と 識 別 精 度 に は 関 連 が あ る . 上 記 の 仮 説 を 検 証 す る た め に 参 照 デ ー タ 集 合 に 基 づ い て 下 記 の 実 験 を 行 っ た . 実験1:各種ドキュメントに対して各種手法の選択の組み合わせを用いてリンク回復の実
験を行い,正解値との比較により文書,手法のオプション毎の精度を求める.この実験に
よ り 仮 説 1 及 び 仮 説 3 を 検 証 す る と と も に , こ の 実 験 結 果 を 元 に 実 験 2 , 実 験 3 を 行 う . 実験2:実験1の結果を使って構成した訓練データ集合の交差検証を行い仮説4を検証す
るとともに作成した識別器の決定木の条件が文書対の特徴量になっている事並びにその識
別器によって有意な精度で適切な手法を選択できることを確認することで仮説2を確認す
る . 実 験 3: 実 験 1 で 作 成 し た 訓 練 デ ー タ 集 合 を , プ ロ ジ ェ ク ト 毎 に , 自 ら の 文 書 対 に よ る デ ー
タだけを除き,他の全てのデータを訓練データとして作成した識別器の精度を自らの文書
対に適用して調べる.これにより,識別精度に対するプロジェクトの影響を評価し,プロ
ジェクトを跨る条件下での仮説4の検証を行う.さらに目標とするリンク回復精度を変化
さ せ て 識 別 精 度 の 変 化 を 確 認 す る こ と で 仮 説 5 の 検 証 を 行 う . こ れ ら 仮 説 検 証 に よ り 提 案 手 法 の 有 効 性 を 実 験 に よ っ て 検 証 し た .