解析中に必要な時間の最新データを取り出す仕組み

研究題目
CALET高次データ作成の為の
較正用データベース開発
早稲田大学 先進理工学部 物理学科 鳥居研究室
1Y12A067-1 宮田諒平
発表の概要
解析の効率化をはかりデータベースを用いた解析システムを開発した
1.研究(開発)目的
…データベースを用いる目的
2.データベース設計
…必要な較正内容とデータを便利に扱えるテーブル設計
3.解析システム開発
…効率化の為にデータ検索回数と検索時間の低減が必須
4.まとめと展望
データベースを用いた解析システム開発目的
★観測データ取扱い概要図(右図)
CALET観測生データ(宇宙線イベントデータ)
→
Level0 (欠損補完済,時系列補正済)
→
Level1 (工学値変換済,装置較正用)
観測ADC値からエネルギー
観測ADC値からエネルギーへ較正
へ
観測生データ
ダウンリンク
Level2 (高次科学解析用)
CALETによる観測…最長5年間を予定
CALETの読み出しch総数…約8000ch
較正データは更新されうる
+過去の解析の再現性確保も必須
⇒ 必要な装置較正データは膨大
★膨大な較正データを保存出来て解析時に
最適な較正データを取り出せるシステムが必要
電子スペクトル導出な
ど
高次科学解析へ
 Level1->Level2への移行にDBあり
データベースと,それを用いるメリット
●リレーショナルデータベース(RDB:Relational Data
Base)
1.データを2次元のテーブルで保存
2.それぞれのテーブルが参照により関係を持つ
3.SQL(Structured Query Language)でデータを扱う
データベース管理システム
PostgreSQLを使用
…機能性と堅牢性重視
大量データ取扱い向き
ユーザー
ユーザー
SQLで検索
★データをテーブルに分けて保存する事でデータ量と処理量の節約が可能
検出器の位置情報など,逐一較正データに付与するのは無駄。データ更新なども楽に。
ユーザーが好きなフォーマットでデータを取り出せる
★1つのデータベースサーバーに情報を集約化可能
データの共有化が楽に。
LEVEL1データの較正項目
★較正項目
●ペデスタル(信号のオフセット)
●CALETの軌道上での位置や姿勢
●MIP較正
1MIP出力と1MIP出力の位置,温度,地磁気依存
性
●TASC PWO各ゲイン間の相関
●IMCのクロストーク
これらをデータベースで管理します!
赤字で示したものについて簡単に解説します!
データ較正とデータベース設計
●CALET軌道上の位置と姿勢
●ペデスタル(信号のオフセット)
宇宙線到来方向確定に必須な情報
✔Mean(Gauss)
田中卒論より
正味の信号値を
姿勢決定…クォータニオン
算出に
ISS+CALET
絶対必要
地球
●MIP較正
●出力ADC値
✔最頻値 (Landau+Gauss)
●位置依存性
●温度依存性
検出器Hit位置で出力変化
励起光量の温度依存性
宇宙線
TASC PWO
1℃変化 → 2.5%変化
励起光
PWO
APD/PD
光子伝播による
励起光減衰などの影響
●地磁気依存性
地磁気によるカットオフ
宇宙線
データ較正とデータベース設計
3種類のテーブルを用いたデータ保存の仕組み
CALET検出器
チャンネル
特定
★検出器情報テーブル群
有効期間,登録日時の2次元空間で保
存
+バージョンを管理(for更新,再現
性)
★Calibrationテーブル
較正データの有効期間と登録日時を保持する
※PASS:データのバージョンを管理する要素
あり
検出器の物理的な位置と
読み出し回路のch情報を
保持するテーブル群
★較正データテーブル群
較正項目の各々のデータを
保持するテーブル群
Ex) MIP,ペデスタル,etc…
データ取扱いのアルゴリズム 検索回数低減
解析中に必要な時間の最新データを取り出す仕組み
MIP
登
録
日
時
時間
Pedestal
Pedestal
End_MDC_Time
Pedestal
Start_MDC_Time
各較正データは,有効時間と登録日時の情報を付与され登録される。
これらのデータはいずれかの較正パラメータを保持している;
EX) MIP Pedestal MIPの位置依存性の関数 etc.
この選別は検索の際に行われる
…Pedestalが欲しい時には,Pedestalの無いデータは検索から除外される。
データ取扱いのアルゴリズム 検索回数低減
解析中に必要な時間の最新データを取り出す仕組み
MIP
登
録
日
時
時間
Pedestal
Pedestal
End_MDC_Time
Pedestal
ペデスタルを用いて解析したい。
Start_MDC_Time
データ取扱いのアルゴリズム 検索回数低減
解析中に必要な時間の最新データを取り出す仕組み
登
録
日
時
ペデスタルを用いて解析したい。
まずはデータを持ってくる。
解析開始。まず登録されている最新のペデスタルを検索
時間
データ取扱いのアルゴリズム 検索回数低減
解析中に必要な時間の最新データを取り出す仕組み
登
録
日
時
T秒
ペデスタルを用いて解析したい。
まずはデータを持ってくる。
解析開始。まず登録されている最新のペデスタルを検索
未来(T秒:ユーザが設定)に新しいペデスタルがあるかどうか検索
なければそこまでそのペデスタルのまま解析を進める。
時間
データ取扱いのアルゴリズム 検索回数低減
解析中に必要な時間の最新データを取り出す仕組み
登
録
日
時
T秒
もう一度未来を検索。
時間
データ取扱いのアルゴリズム 検索回数低減
解析中に必要な時間の最新データを取り出す仕組み
時間
登
録
日
時
もう一度未来を検索。
古いペデスタルデータの場合,今のペデスタルを使える所まで使い,切り替える
データ取扱いのアルゴリズム 検索回数低減
解析中に必要な時間の最新データを取り出す仕組み
登
録
日
時
時間
検索回数をT秒間のデータ
に対して一度に低減しつつ,
新しい較正データを漏れなく
使う事が出来る!
T秒
もう一度未来を検索。
古いペデスタルデータの場合,今のペデスタルを使える所まで使い,切り替える
新しいペデスタルを未来に見つけた場合は,その直前まで今のデータを使う。
データ検索が解析時間に及ぼす影響見積もり
★検索時間のテスト
5年分相当のペデスタルデータ(50ギガバイト)を登録してテスト
目的のデータ(一行)を取り出すのにかかる検索時間
=
約0.1秒
開発した解析システムのアルゴリズムを使用
⇒ 検索は𝑇秒分のデータで一回
ペデスタル取得(約30分に一度)を逐一登録する想定では,
𝑇 = 1000(< 1800=30分)として十分
1000秒間分のデータ解析で0.1秒の影響
★実際の解析時間に殆ど影響を及ぼさない事が確認出来た。
4.まとめと展望
★CALET Level2データ作成の為の大量の較正データを保存出来て,
解析にあたって必要なデータを取り出せる
データベースを用いた解析システムを開発した。
★データ検索は解析時間に殆ど影響を及ぼさない事を確認した
…1000秒分データの解析で0.1秒
●展望
現在,ペデスタル,MIP出力ADC値を用いた較正が可能
近く残りの全較正項目が取り込まれたLevel2データ作成が可能になる。
本格的な科学解析へ移行していきます。
発表は以上です