第二四半期報告会 「広域分散コンピューティングシステム開発」

2006年3月1日 「核融合実験のデータ処理に関する次世代システム技術の検討」
XMLベースの研究管理システム
RCM(R&D Chain Management) System
☆変化の激しい研究業務をより速く、より正確に!
☆研究開発者により優しく、ノウハウの継承を楽に!
Web Server
利用者端末
ローカルデータ
リモート端末
サービスブローカ
解析結果
解析サーバ
ファイルサーバ
バックアップサーバ
データベースサーバ
シミュレータ
日本原子力研究開発機構 上島 豊
発表の流れ
1)RCMシステム開発の動機
2)R&Dチェーンの問題点と改善策としてのRCM提案
3)RCMシステムの制御に関する特徴
4)RCMシステムのUIに関する特徴
5)RCMシステムのDBに関する特徴
6)RCMシステムの可視化に関する特徴
7)まとめとRCMシステムの展開
開発動機
IT化が進み、研究において情報が溢れるよう
になり、個人での情報処理・管理能力も限界
IT革命において、計測器やシミュレーションなどで発生する情報
は、爆発的に増大した。=>高精細データ、多次元データ等
しかし、グループウェアや基幹ソフト(ERP,SCM)がある業務系・事
務系に比べ研究業務は、ITシステム化が進んでいない。
研究業務は、従来個人の情報処理・管理能力により支えられて
きたが、作業増大が限界に近く、創造的な研究に支障が発生。
開発動機
研究者は、管理や人材育成面のプロではない
ため、ノウハウ伝承を行うことが難しい
研究分野は、業務系と異なり、非定型・非定常性が高く、個人能
力に依って支えられている部分が多い。
また、研究者は、管理面や人材育成面のプロではないため、途
中過程を把握や技術継承を行い人材育成を行うことが難しい。
競争力を高めるため研究過程のシステム化を進め、個人レベル
の暗黙知からの脱却(技術継承可能な知)を図る必要性がある。
発表の流れ
1)RCMシステム開発の動機
2)R&Dチェーンの問題点と改善策としてのRCM提案
3)RCMシステムの制御に関する特徴
4)RCMSシステムのUIに関する特徴
5)RCMシステムのDBに関する特徴
6)RCMシステムの可視化に関する特徴
7)まとめとRCMシステムの展開
問題提起
研究業務では、データ管理が個人任せで、情報
共有や機密管理や品質保証が困難
現在の研究の基本的な流れは、手動部分も多い
②FTPでダウンロード
①観測
観測データ
観測用PC
③ノートにメモ
観測日付
: 2003/12/10
ファイル名 : 03121001.spe
レーザ種別 :ガラスレーザ
温度
:○○度
コメント
:面白い画像
計測・解析データを個人で管理するのは、危険がいっぱい
①パソコンが故障
②メモが行方不明 ③解析パターンを思い出せない
問題提起
可視化・画像処理等の高度な処理により生成
された派生データの再現性確保は、難題である
実験・シミュレーションによる2次元データ
研究者・技術者の自由度のある
可視化・解析パラメータ
・表示範囲
・コントラスト
・ノイズフィルタ
・
・
・
・断面位置
・断面角度
・幅方向
積分区間
・断面方向
移動平均量
・
・
・
断面グラフ生成
問題提起
研究業務では、非定型・非定常性により業務系
のERP、SCMのようなシステム化が困難
実験・シミュレーションの計画立案
データのメモ
実験・シミュレーション
データの利用状況記録
研究業務で共通
データのバックアップ
データの解析
可視化、統計解析、比較評価
インタラクティブなトライアル&エラーでの解析
解析履歴のメモ
提案
研究業務を統合的に支援するシステムは、どのよ
うな機能・技術が必要か!
RCM (R&D Chain Management) System
必要とされる機能要件
●非定型、非定常なR&Dチェーン変化への迅速な対応性
●データの検索性とトレーサビリティの確保
●各種データ間の派生関係把握
●データの共有化、公開化および機密化
●各種機能サーバの分散化による高い拡張性、耐障害性
●古いR&Dチェーンやソフトウェアの取り込み
採用すべき技術
●効率的使用と使いやすさを兼ねるためCLI、GUIの双方を装備
●RDB様の固定的データベース設計でない、フレキシブルなデータベース
●R&Dチェーン変化を記述できるワークフロー機能
●さまざまなレベルで設定できる情報閲覧・更新権限管理機能
●クライアントによらないWebサービスを基盤としたシステム
提案
XML技術を利用し、変化の激しいR&Dチェーン
に追従できるRCMシステムを提唱
0階層
様々な層でのXML
によるデータ送信
利用者PC
Internet、LAN等
1階層
Webサーバ
(DMZに配備)
画面表示
XMLユーザインタフェース S/W
2階層
サーバ定義
ワークフロー定義
サービスブローカ
XML分散サーバ制御 S/W
SOAP
分析PC
SSH,
SCP
3階層
DBデータ構造
可視化定義
計測装置
(サービスサーバ)
可視化サーバ
DBサーバ
ファイルサーバ
XMLデータベース S/W
シミュレータ
提案
原研の実験支援DB・シミュレーションポータル、
阪大医学部の細胞シミュレーション等の導入実績
③解析元データ獲得
①要求
データ
simulation入力
利用者端末
Web Server
Simulation input
Set = 2
Mesh size= 2048:2048
④転送
外部格納データ
コントロールサーバ
メモ等の任意データ
を追加登録
Experiment environment
angle = 45°
Exposure time=10s
⑥保存
Simulation input
Set = 2
Meshu size= 2048:2048
②参照
記録
⑦バックアップ
バックアップサーバ
ファイルサーバ
⑤解析
解析結果
解析サーバ
データベースサーバ
発表の流れ
1)RCMシステム開発の動機
2)R&Dチェーンの問題点と改善策としてのRCM提案
3)RCMシステムの制御に関する特徴
4)RCMSシステムのUIに関する特徴
5)RCMシステムのDBに関する特徴
6)RCMシステムの可視化に関する特徴
7)まとめとRCMシステムの展開
RCM-制御
様々な階層の定義やタスクフローは、XMLで記
述されており、メンテナンス性、移植性が高い
ワークフロー定義
XMLによる各種定義例
<WorkFlow>
<name>FileTransfer WorkFlow</name>
<status>wait</status>
<Start no="0">
<status>wait</status>
<next>1</next>
</Start>
<toFile>bigFile.log</toFile>
<next result="success">999</next>
<next result="error">999</next>
</FileTransfer>
<End no="999">
<status>wait</status>
<next>end</next>
</End>
</WorkFlow>
<FileTransfer no="1">
<status>wait</status>
<fromServerType>AprServer</fromServerType>
<fromServerName>aprdb1</fromServerName>
<fromDirectory></fromDirectory>
<fromFile>ControlServer.log</fromFile>
<toServerType>FileServer</toServerType>
<toServerName>sscmpp</toServerName>
<toDirectory></toDirectory>
サーバ定義
<?xml version="1.0" encoding="EUC-JP"?>
<ControlServer>
<httpType>http</httpType>
<name>MssPC</name>
<host>localhost</host>
<port>80</port>
<target>ControlServer/Entry.jws</target>
</ControlServer>
<?xml version="1.0" encoding="EUC-JP"?>
RCM-制御
ヒューマンエラーによるデータ書換、サーバ障害に
よるデータ消失を防ぐ機構が容易に実装可能
データの格納場所を意識させない擬似階層ストレージ
・データをバックアップサーババックアップしておき、検索時にファイルサーバに
該当するファイルが存在しなければ、自動的にリストアし、検索結果を返す。
コントロールサーバ
参照
Web Server
ファイル探査
ファイル無しの応答
ファイル転送
リストア命令
データベースサーバ
ファイルサーバ
リストア実施
バックアップサーバ
発表の流れ
1)RCMシステム開発の動機
2)R&Dチェーンの問題点と改善策としてのRCM提案
3)RCMシステムの制御に関する特徴
4)RCMSシステムのUIに関する特徴
5)RCMシステムのDBに関する特徴
6)RCMシステムの可視化に関する特徴
7)まとめとRCMシステムの展開
RCM-UI
制御ロジックフリーなGUIによる利用者に使いやす
いインタフェースを構築することができる。
RCM-UI
各種実行作業をXMLテンプレートして登録して
おき、CLIの拡張性、簡便性を確保(GUIも勿論)
XMLやユーザルールの確認
テンプレートをロードし、編集して実行
テンプレート自身をユーザが登録できる
RCM-UI
XMLリーフの数値・文字列による再階層化表示機
能により、自明でないデータ間相関を探査できる
pro1
user1
再階層化指示
user2
exp1
diag1
shot1
diag1
laser1
file1
file2
shot2
diag2
・ノード名で分類
・fileの後にexp,
shot所属を付加
exp1
shot2
file4
exp1
shot2
file5
exp3
shot4
diag6
file6
exp4
shot4
laser1
file1
exp1
shot1
file2
exp1
shot1
diag4
diag5
target1
shot3
file3
diag3
file3
file4
exp2
diag2
diag3
laser2
target2
pro2
user1
user2
exp3
shot4
diag4
file5
laser3
target3
exp4
shot5
diag5
target4
laser4
shot6
diag6
target5
明らかになった
データ相関
・targetにfile情報はない
・diagにfile情報があるのは
偶数番号shotのみである
・laser1は、入力間違えかも!
file6
laser2
laser3
laser4
target1
target2
target3
target4
target5
発表の流れ
1)RCMシステム開発の動機
2)R&Dチェーンの問題点と改善策としてのRCM提案
3)RCMシステムの制御に関する特徴
4)RCMSシステムのUIに関する特徴
5)RCMシステムのDBに関する特徴
6)RCMシステムの可視化に関する特徴
7)まとめとRCMシステムの展開
RCM-DB
XML技術によるフリーフォーマットな実験管理は、
実験途中での項目や階層構造の追加を可能とした
一般的な研究を意識した自由なDB設計(XML型DB)
1)XMLの構造は任意に構築でき、時々刻々と変化する個々の実験データ及び
実験環境条件、その解析結果新しい項目を追加、管理できる。
2)検索においてもXMLのあらゆる階層で検索ができ、データ構造に縛られない
検索が可能。
1
11
2
3
12
4
14
8
18
13
5
6
7
15
16
17
9
19
ID
XMLtag
1
content value
projectID
seriesID XMLnodeID
shot
1
3
2
diag
1
3
4
file
1
3
5
file
1
3
8
analyze
1
3
11
shot_no
1
1
3
1
12
diag_set
3
1
3
2
14
file_type
bacground
1
3
4
18
viz_type
cros-ssection
1
3
8
10
20
RCM-DB
過去の情報を含め研究グループ間での情報共有
と自分の成果保護を考慮している
情報共有および過去の研究との比較を重視したDBシステム
・DB入力項目(XMLタグ)の動的追加(必要な情報をタグ付で追加可能)
・実験・計測環境データ部分は、並列化をデータベースで可能
・Postgres8.0機能を使った任意時刻へのロールバック機能
・一般公開、プロジェクト内公開、非公開の3レベルの情報公開レベル
DB性能:Xeon 3GHz 使用メモリ 1GB
1実験=60data(平均50MB)と仮定し、
1画像= 5XMLレコード(平均100B)と想定した、
検索hit数
格納実験数
33k =1年分の実験(2Mdata)
1
5
10
100
3.0秒 7.0秒 12.0秒 102秒
RCM-DB
開発した並列DBは、データ格納時にXMLデータを
均等に分配する=>検索の分散並列化
プロジェクト、研究シリーズ、ユーザ管理、
データマージ等はDBmanagerが行う
round robin data group insert
実験9
DBmanager
parallel search
実験番号
が1,3,6
実験
実験
実験
1,4,7
2,5,8
3,6
master
slave1
slave2
slaveDBの追加に伴うデータ再分配
実験
実験
実験
実験
1,5
2,6
3,7
4,8
slave2
slave3
master
slave1
発表の流れ
1)RCMシステム開発の動機
2)R&Dチェーンの問題点と改善策としてのRCM提案
3)RCMシステムの制御に関する特徴
4)RCMSシステムのUIに関する特徴
5)RCMシステムのDBに関する特徴
6)RCMシステムの可視化に関する特徴
7)まとめとRCMシステムの展開
RCM-Viz
DBと連携した可視化・解析により再現性保障と可
視化スキームのノウハウ蓄積ができる(1)
・RAWデータ保存時自動解析( RAWデータをDB登録時に自動解析を行う)
・自動可視化
・自動断面抽出
・自動サムネール作成とデータリンク
RCM-Viz
DBと連携した可視化・解析により再現性保障と可
視化スキームのノウハウ蓄積ができる(2)
・インタラクティブ再解析機能(対話的に再解析でき、最終解析パラメータをDB化)
可視化・解析データ検索画面
XML可視化パラメータ表示画面
XML可視化スクリプト
<runtime_name>ランタイム名</runtime_name>
<data_set name="データ名" type ="データ型">
<view_set name="ビュー名">
<preset>
<パラメータキーワード>設定値</パラメータキーワード>
</preset>
<read>
<パラメータキーワード>設定値</パラメータキーワード>
</read>
<transform>
<パラメータキーワード>設定値</パラメータキーワード>
</transform>
<view>
<パラメータキーワード>設定値</パラメータキーワード>
</view>
<output>
<パラメータキーワード>設定値</パラメータキーワード>
</output>
</view_set>
</data_set>
インタラクティブ可視化
インタラクティブ可視化画面
可視化画像保存時
にDB登録
RCM-Viz
DBと連携した可視化・解析により再現性保障と可
視化スキームのノウハウ蓄積ができる(3)
・バッチ再解析(DB化された解析パラメータを使って、他の複数データを再解析)
可視化・解析データ検索画面
XML可視化パラメータ表示画面
XML可視化スクリプト
<runtime_name>ランタイム名</runtime_name>
<data_set name="データ名" type ="データ型">
<view_set name="ビュー名">
<preset>
<パラメータキーワード>設定値</パラメータキーワード>
</preset>
<read>
<パラメータキーワード>設定値</パラメータキーワード>
</read>
<transform>
<パラメータキーワード>設定値</パラメータキーワード>
</transform>
<view>
<パラメータキーワード>設定値</パラメータキーワード>
</view>
<output>
<パラメータキーワード>設定値</パラメータキーワード>
</output>
</view_set>
可視化画像保存時
バッチ可視化
にDB登録
複数のデータを指定し、
同じ可視化パラメータで
同時一斉可視化
発表の流れ
1)RCMシステム開発の動機
2)R&Dチェーンの問題点と改善策としてのRCM提案
3)RCMシステムの制御に関する特徴
4)RCMSシステムのUIに関する特徴
5)RCMシステムのDBに関する特徴
6)RCMシステムの可視化に関する特徴
7)まとめとRCMシステムの展開
まとめ
業務系のSCMに対応するRCM(R&D Chain
Management)は、R&Dの改善に有効!
*研究業務は、新技術開発や技術継承のために、よりIT化、
統合システム化が進む必要があるのではないか?
*日本の研究開発競争力を高めるため、変化が激しく、個人
の暗黙知に依存しているR&Dチェーンをトータルに支援する
RCM(R&D Chain Management)システムを開発、テスト導入。
*変化の激しい研究開発をより速く、より正確に!
*研究開発者により優しく、ノウハウの継承を楽に!
*研究の進展管理等のマネジメント面でも大きく役立つ!
RCM応用
RCMシステムのログDBを利用することで研究の
進展度、データ参照率、改竄可能性を確認!
RCMシステムのログは、XML形式でデータベース化され、
誰が(Who)、
いつ(When)、
何を(What)、
どこで(Where)、
どのように(How)
したかが検索、
トレースできる。
・進展度報告が妥当かどうかの確認。
・毎回定型的な作業を手動で行っていないかどうか?=>効率化
・参照・検索されないデータはどの程度あるか?
・データが途中で置き換わっていないか?
RCM応用
RCMシステムのトレーサビリティ機能を利用するこ
とで使用者の暗黙知を顕在化!
学習ベクトル量子化法 (Learning Vector Quantization : LVQ)
分類したいデータの複数の特性指標をひとつのベクトルデータと考える。
様々なデータはその多次元ベクトル空間に分布していることになる。
すでに分類されているデータセットを用いて分類を正しくできるように多次元ベクト
ル空間を結合重みVectorを使い、分割( Quantization )を学習(Learning)する。
学習ステップ数
どのクラスか?
同じクラス
結合重みベクトル
結合重みベクトル分布
入力ベクトル
異なるクラス
RCM応用
間違ったデータペーア(偽Subtractデータ)を
96%の再現率(数え落しの少なさ)で判定!
データペア:バックグラウンド:SHOTデータなどのデータ対
研究者が間違ったデータペアを登録しようとした場合、警告を発せられる。
RCM応用
自動分類は、実験の物理的な特性にまで有効で
ある可能性がある
認識率(%)
認識率(%)
分類2-ベクトル数1000学習回数40000
100
90
80
70
60
50
40
30
20
10
0
100
90
80
70
60
50
40
30
20
10
0
HHG:210 Seeded:107 X:129 total:446
HHG
X
Seeded
Total
HHG実験のデータ
の分類は95%以
上の確率で分離
3dim
10dim
13dim
分類3-ベクトル数1000学習回数40000
LVQ学習次元数
FarField:119
Focus:327 total:446
NoFF
FarField
Total
3dim
10dim
LVQ学習次元数
13dim
Focus-FarFiledで
あるかないかも非
常に高確率で分離
RCM応用
2次元画像から特徴的な断面を生成するためのガ
イドにも、LVQが有効(精度75%)である
実験・シミュレーションによる2次元データ
●可視化パラメータのみからイメージの特徴を表す適切な断面かどうか
断面グラフ生成
を75%の精度で予測できる。
研究者・技術者の自由度のある
可視化・解析パラメータ
・表示範囲
・コントラスト
・ノイズフィルタ
・
・
・
・断面位置
・断面角度
・幅方向
積分区間
・断面方向
乱数か何かで可視化パラメータをたくさん発生し(可視化は不
移動平均量
要)、2つ程度の可視化パラメータ候補を見つけ出せば、ほぼ確
・
・
実に得たい断面像を自動生成できることになる。
・