MAXIDBの検索時間調査

世界初のX線光子データベース
「MAXI地上データベース」の
実現に向けた性能試験
〇小笠原直進 中村一尋 根来 均 (日大理工)
小浜光洋(理化学研究所)
冨田 洋 倉又尚之(JAXA/TKSC)
1.概要
・MAXIとは・・・
全天X線監視装置であり、2008年から国際宇宙ステーション
(ISS)搭載予定のX線監視装置である。
通常のPointing
観測衛星
視野方向
MAXI
固定
常時変化
X線の飛来
方向の決定
各X線毎
データ量
大
データ保存
単位
これまでの
全天観測装置
観測単位
まとめて処理
世界初の
光子単位
小
スキャン単位
2. 前回発表時の概要
クライアントからのデータ取得方法として、ECPGとJDBCで
どれだけの差が出るかを比較した。
天球領域からの検索
円領域検索
正方領域検索
JDBC
ECPG
時刻による検索
3. 試験環境
・RDBMS : postgreSQL(ver.8.0.2 *前回は7.3.3を使用)
・クライアントからのデータ取得方法
→ECPG(C言語での埋め込みSQL)
・使用機器(PC)スペック
CPU:インテル®Xeon™プロセッサ3.06GHz
メモリ:1GB(256MB×4)DDR-SDRAM PC2100
40MHz ECC
IDEハードディスク:120GB Ultra ATA-100
7,200回転 HDD
・検索方法
天球座標上に仮想のX線イベントを、
(時間と位置)を乱数で一様に割り振った
疑似天球のテーブルに対し、以下の
2通りで検索を行う。
(1)天球座標上から正方領域で取り出した範囲の検索
SQL → select ・・・ where (alpha between 0.0 and 1.0) and (delta
between 45.0 and 46.0);
(2)天球座標上から円領域で取り出した範囲の検索
SQL → select ・・・where acos(sin(45./57.)*sin(delta/57.)+cos(45./57.)
*cos(delta/57.)*cos((100. –alpha)/57. )) < 1.0 ;
4. 試験結果
① alpha,deltaのデータ型を
DOUBLE PRECISION→REALに変更
前回10e7イベント数の検索時にかかった時間
↓
正方領域 90.20 →
円領域
26.00 [sec]
111.97 → 53.78 [sec]
Alpha,deltaを倍精度から単精度にしたことによる、
データ容量の軽減による効果と考えられる。
② alpha,deltaにそれぞれINDEXを張って
検索
SQL → CREATE INDEX (INDEX名) on (テーブル名)(alpha);
CREATE INDEX (INDEX名) on (テーブル名)(delta);
正方領域 26.00 → 27.39 [sec]
円領域
53.78 → 58.77 [sec]
EXPLAINの調査結果で、複合条件に対して有効に
INDEXを使用していないことが分かった。そのため、
このままではINDEXの効果が反映されない。
③ alphaとdeltaの組み合わせに対して
INDEXを張って検索
SQL → CREATE INDEX (INDEX名) on (テーブル名) (alpha,delta);
正方領域 27.39 → 0.47 [sec]
円領域
58.77 → 58.91 [sec]
正方領域の検索において、INDEXの
効果が劇的に現れた!
④ 先に正方領域でおおまかな範囲を取り、
その中から円領域を検索。
SQL → select ・・・ where ((alpha between
0.0 and 1.0) and (delta between 45.0
and 46.0)) and acos(sin(45./57.)*sin
(delta/57.)+cos(45./57.)*cos(delta/57.)
*cos((100. –alpha)/57. )) < 1.0 ;
円領域
58.91 →
0.89 [sec]
(但し、正方領域の範囲は
1×1°の場合)
検索範囲の絞り込みによる2段階の検索に
よって、円領域の検索時間も劇的に短縮!
円領域検索にかかる時間[sec]
結局、円領域検索での検索時間~正方領域で絞り込む検索時間
100
10
1
1/10e5
1/10e4
1/10e3
0.1
0.01
天球全体のうち正方領域で絞った割合[⊿Ω/Ω]
5.結論と今後の課題
・MAXIの約1日分のデータ量にあたる10e7イベント
数のデータに対する検索で、複合INDEXを張ること
によって天球座標での検索でも、大幅に検索時間
が短縮され、光子単位のデータベース実現の可能
性が見えてきた。
・ただし、複合INDEXを張ったことによって、データロード
の時間が増加することが分かった。今後、これが実用
上問題にならないか調査する必要がある。