トップエスイー修了制作静的コード解析メトリクスを用いたバグ予測モデルの評価 NTTデータ新井広之 [email protected] 開発における問題点本評価による解決ソースコードは必ずバグが潜在しているものの, そのバグがどこにあるかはわからない. そのためバグが潜在している可能性の高いモジュールを特定し, 効果的に品質保証の作業を行いたい. しかし実務で統計を利用したモデルは適用経験がなく, どの手法をどのように適用すればよいかわからない. 研究分野で提案されている数種の既存手法を, 社内で実際に取得されているプロジェクトデータに適用し, バグの潜在している可能性の高いソースコードの検出の可能であることが検証できた. また手法の選択においても, より精度の高いものを特定できたため, 効果的な品質保証活動が可能になる. バグ予測モデル利用の流れ設計コーディング静的メトリクス取得静的メトリクス取得ツール実行 public class Order { public int totalAmount; public class public Order class{ Order { public void Order confirm(...) public int public totalAmount; int totalAmount; public class { { public public void public confirm(...) void confirm(...) int totalAmount; ... { void confirm(...) { public ...{} ... } ... } } 大量のソースコードモデル利用によるバグ予測初回は過去データでモデルを構築テスト計画の立案構築済モデルを利用 y=αX+β ファイル単位の様々な統計的なモデルメトリクス（行数, ネスト数, （影響するメトリクスとその係数）コメント率など）を取得ソースファイル OrderLogic.java ConfirmValidation.java OrderTransaction.java … 結合テスト重点的なテスト箇所, バグ改修作業をテスト計画に反映バグ予測 0.7 ||||||| 0.65 |||||| 0.62 |||||| … バグが潜在している可能性の高いソースのリスト評価対象の手法結果と課題本取組では、「モデル利用によるバグ予測」時に用いるモデルとして, 以下の複数の手法を評価した. 結果評価用のプロジェクトデータで検証したところ, 以下の結果だった. バグがあるかないかの判定（F値の高さで評価）  ゼロ過剰モデルが最も性能が良い バグ数の精度（残差平方和の小ささで評価）  ハードルモデル, ゼロ過剰モデルが高精度評価データでは約3/4のファイルにバグが含まれている. 「バグはソースコードに偏在する」ため, ゼロが多いケースのモデルを利用することで高い精度が得られることが分かった. 手法特徴応答変数が0から1の範囲に収まる。下の4つロジスティック回帰はソースファイル中のバグ数を予測するが, これはバグが含まれているかどうかの判定にモデル利用するポアソン回帰 1件、2件と数えられるデータの発生分布を分モデル析する際によく用いられる負の二項回帰用途はポアソン回帰モデルに似ているが, モデルデータの分散が大きいときに用いられるゼロが多い（本件ならバグがないソースファイルが多い）場合の分析用に提案されているモハードルモデルデル. 内部的にゼロ用のモデルと1件以上の場合のモデルの2つを分けて持つハードルモデルと似ているが、内部的に持つモデルのうち, 「1件以上の場合のモデル」でゼロ過剰モデルはなく「0件以上のモデル」とし, 応答変数のゼロと1以上を連続的に扱う課題今回の取組で統計的モデルの実用性, 精度の良い手法がわかった. より手軽に利用するため, 「手順の自動化」や, 「開発プロセスへの組込」が今後の課題である. 国立情報学研究所トップエスイートップエスイー：サイエンスによる知的ものづくり教育プログラム National Institute of Informatics ～サイエンスによる知的のものづくり教育プログラム～文部科学省科学技術振興調整費産学融合先端ソフトウェア技術者養成拠点の形成