ポスター発表 - トップエスイー

トップエスイー修了制作
データ仕様復元に向けたパターン検出技術の
適用検討
(株)日立製作所
橋本 康範
開発における問題点
[email protected]
手法・ツールの適用による解決
エンタープライズシステムのデータ仕様の多く
は,比較的一般性が高いものであると仮説立て
た.
このようなデータ仕様を予めパターン化しておき,
パターン検出技術の利用により仕様調査を支援
することで,調査作業の効率化が見込める.
本検討では,実例を用いた評価実験により,提
案した3つのパターンについて有効性を確認し
た.
エンタープライズシステムの再構築において
は,現行機能を踏襲する範囲も広いため,現行
仕様を十分に調査し明確化する必要がある.この
調査対象のひとつに「現行データ」があるが,大
規模システムを対象とした場合,大量のデータの
調査が必要になるため,膨大な工数がかかってし
まうことが問題であった.
背景
背景と課題
提案手法の概要
現行データ仕様を明確化する際に,大量のデータ
を調査する必要があるため,膨大な工数がかかる
データ仕様明確化のため
⼤量のデータを調査する
必要がある(膨⼤な⼯数)
復元した
仕様
突合せ
現⾏DB
データ
SE
調査(⼈⼿)
頻出するデータ仕様(データ依存関係)を予めパターン化
⇒ パターンに従う部分を自動検出することで仕様調査を支援
作成
年月日
検討のスコープ
仕様書記載
仕様書の内容 と データの実態
の仕様
とが乖離している状態
課題 現行データ仕様の調査作業の支援
特に,RDBカラム間の“データ依存関係”にフォーカス
調査(⼈⼿)
現⾏DB
データ
作成者
復元した
仕様
パターンX
削除
年月日
削除
実施者
:Date
b)時間(前後)
1..*
1 a-1)⽀持
0..1
a-1)⽀持
:Time
削除
フラグ
STEP1:
データ仕様をグラフ構造化
⇒データを抽象化して扱うことで
1件1件調査する手間を削減
1..*
b)時間(後前)
:Date
1 a-1)⽀持
0..1
a-1)⽀持
:Time
作成
年月日
削除
実施者
パターンY
削除
年月日
合致箇所
削除
作成者
フラグ
STEP2:
既知のデータ仕様をパターン検出
⇒ 一般的なデータ仕様を自動で
検出し、人手調査範囲を削減
評価実験
考察と今後の展望
パターンに基づくデータ仕様自動検出の有効性について評価
 考察 (妥当性への脅威)
 限られた事例を利用して評価実験を実施したため,
調査対象により,有効性に差が出る可能性がある
 予め3種類のデータ仕様のパターン( 例: 時系列の関係 )を
規定し,2件の実例からパターンを自動検出する実験を実施
 以下RQの検証を通し,パターン検出技術の有効性を評価
RQ1: 《実現性》想定したパターンを検出することは可能か?
⇒ 規定した3パターン全てについて検出できることを確認
RQ2: 《再現率》パターンは十分な範囲の仕様をカバーするか?
⇒ スコープ内のデータ仕様の約75.2%をパターンでカバー
RQ3: 《適合率》検出結果を用いて仕様調査を効率化できるか?
⇒ パターン検出結果の約85.4%について妥当性を確認
データ仕様調査の作業支援について一定の見通しを得た
 主観でパターン検出結果の妥当性を判断したため,
評価者により,有効性に差が出る可能性がある
 今後の展望
 データ仕様のパターンの拡充
 データ仕様パターン検出機構の汎用化
⇒ データ仕様調査におけるパターン検出技術の
適用効果拡大が期待できる
国立情報学研究所
トップエスイー
トップエスイー: サイエンスによる知的ものづくり教育プログラム
National Institute of Informatics
~サイエンスによる知的ものづくり教育プログラム~
文部科学省科学技術振興調整費
産学融合先端ソフトウェア技術者養成拠点の形成