Grid Datafarm for HEP applications

SC2002 High-Performance Bandwidth Challenge
Grid Datafarm for a
HEP application
Osamu Tatebe
(Grid Technology Research Center, AIST)
Satoshi Sekiguchi(AIST), Youhei Morita (KEK),
Satoshi Matsuoka (Titech & NII), Kento Aida (Titech),
Donald F. (Rick) McMullen (Indiana),
Philip Papadopoulos (SDSC)
Data Grid ミニワークショップ
国立天文台@三鷹
2002年12月11日
SC2002 high-performance
bandwidth challenge

demonstrate exciting applications at the
maximum possible speed
Overview of Our Challenge
• Seven clusters in US and Japan comprise
a cluster-of-cluster file system:
Gfarm file system
• The FADS/Goofy simulation code based
on the Geant4 toolkit simulates the ATLAS
detector and generates hits collection (a
terabyte of raw data) in the Gfarm file
system
• The Gfarm file system replicates data
across the clusters
Bandwidth Challenge!!!!
グリッド技術(グリッドデータファーム)を用いた
テラバイト(1兆文字)クラスの大規模データ
一ヶ所に保存すると
保存箇所以外からの書き込み・読み出しに
時間がかかる
災害時などにデータが失われたり、アクセ
スできなくなったりする
分けて別々に保存すると
別々の管理単位になり、管理、アクセスが大変
手元にないデータへの読み書きは時間がかかる
災害時などには部分的にデータが失われたり、アクセスでき
なくなったりする
グリッドデータファームを使うと
複数分散ディスクによりファイルシステムを構成
分散して書き込まれた複数ファイルを一つのファイルとし
て扱える
部分的な複製ができる
複数の複製により障害に備える
データがある場所でそのデータを高速処理する
つくば
東京
バルチモア インディアナ サンディエゴ
Target Application at SC2002:
FADS/Goofy
 Monte Carlo Simulation Framework with Geant4 (C++)
 FADS/Goofy: Framework for ATLAS/Autonomous Detector Simulation / Geant4-based Objectoriented Folly
http://atlas.web.cern.ch/Atlas/GROUPS/SOFTWARE/OO/domains/simulation/
 Modular I/O package selection:
Objectivity/DB and/or ROOT I/O
on top of Gfarm filesystem
with good scalability
 CPU intensive event simulation
with high speed file replication
and/or distribution
Network and cluster configuration for SC2002 Bandwidth
Challenge
OC-12
Indianapolis
GigaPoP
Tsukuba WAN
1 Gbps
AIST
Titech
Tokyo
NOC
PNWG
APAN/TransPAC
OC-12 ATM
(271Mbps)
GbE
SuperSINET
ICEPP
OC-12 POS
GbE
KEK
10 GE
SCinet
StarLight
NII-ESnet HEP PVC
20 Mbps
Indiana Univ.
ESnet
NOC
SC2002, Baltimore
Grid Cluster
E1200 Federation
10 GEBooth
OC-12
SDSC
US
Japan
SC会場とのデータ転送の理論総バンド幅 2.1 Gbps
KEK
Titech
AIST
ICEPP
SDSC
Indiana U
SC2002
Total disk capacity: 18 TB, disk I/O bandwidth: 6 GB/s
産総研
つくば
実証実験:複製
つくばWAN
MAFFIN
10Gbps
インディアナ大
SC2002
バンド幅チャレンジ
2.3 Gbps!
1Gbps
622Mbps
622Mbps
大手町
シアトル
KEK
271Mbps
シカゴ
20Mbps
1Gbps
東工大
SC2002
会場
米
国内網
1Gbps
東大
10Gbps
622Mbps
日米間通信
741Mbps
複数経路を
同時利用
世界初!
サンディエゴ
SDSC
バルチモア
ネットワーク、クラスタ構成の特徴
SC会場
GbEで接続された12ノードのPCクラスタ
をForce10 E1200で10GEでSCinetに
接続
LANにおける性能
ネットワークバンド幅は930Mbps
ファイル転送性能は
75MB/s(=629Mbps)
AIST
同等の7ノードのクラスタ。GbEでつくば
WAN、Maffinを経て東京XPに接続
12
ノード
PC
GbE
Indiana大
FEで接続された15ノードのクラスタ。
OC12でIndianapolis GigaPoPに接続
SDSC
GbEで接続された8ノードのクラスタ。
OC12で外部接続
TransPACの南北ルートのルーティング
デフォルトは北ルート
SC会場、AISTのそれぞれ3ノードにつ
いて南ルートを通るよう東京XP、
Maffinで設定
AIST、SC会場間のRTT: 北ルート
199ms、南ルート 222ms
南ルートは271Mbpsにシェーピング
OC192
10GE
E1200
PC
SC2002会場のネットワーク構成
SCinet
Lessons from the Challenge
64KB/0.2sec = 2.62Mbps
64KB
200ms
700Mbpsを達成するには280台(ストリーム)必要、これを4台で達成
チャレンジ
大きな遅延
RTT: 北回り 199ミリ秒、南回り 222ミリ秒
socket buffer size の拡大
複数ストリーム、ネットワークストライピング
パケットロスによる window size の限界
High Speed TCP(HSTCP, net100)の利用
Sally Floyd の Internet Draft
輻輳ウィンドウの早期復帰
過大な window size によるパケットロスの増大
小さな socket buffer で複数のストリームを利用
ディスク性能の限界
複数のストリームによる並列ディスクアクセス
ストライピング・アクセス
適切なストライプ・サイズの選択
複数ホストへの分割
gfarm – 断片化されたファイル
ノード数が少ないため、必要バンド幅を達成するために必要最小限の
ノードを利用、単体性能の向上
1ノードあたり平均200Mbps!
Lessons
ネットワークの理論性能近くを達成するためには、全ルートのデバグが必要。(皆様
お手数をおかけしました)
ルータごとのパケットロス率、
Abileneカンザスシティ、デンバー間のパケットロス修正
北ルート米国方向で35Mbpsから500Mbps強に大改善!
TransPAC南ルート(OC-12 ATM)のセルロス
解決できず。271MbpsにシェープしたPVCを利用
転送可能なレートを超えて送信すると急激に性能低下
送信バッファサイズによる制御
送信間隔による制御
ネットワーク転送のみ:250Mbps程度、ファイル転送:170Mbps程度
シェーピングをはずして、アプリケーションで転送レートを制御しても改善せ
ず
HSTCPおよびnet100パッチによる複数TCPストリームのバンド幅不均衡
単一ストリームのバンド幅が過大にならないよう転送レート制御が必要
ネットワーク性能とファイル転送性能の性能差
Incomingとoutgoingストリームの性能は必ずしも輪にならない
片方向だけよりも劣化する場合も
APAN/TransPAC における詳細な測定モニタの必要性
1分平均値 → 10秒、1秒、1/10秒平均が必要
IperfによるTransPAC性能評価
北ルート
南ルート
5-min average bandwidth
10-sec average bandwidth
SC会場から南北両ルートに対し、
北ルート2ノード、南ルート3ノード
の計10ノードを利用して
753Mbps(10秒平均)を達成
(理論ピーク性能:622+271=893Mbps)
IperfによるSC会場とのバンド幅測定(1分平均)
TransPAC北
インディアナ大
SDSC
TransPAC南
TransPACのバンド幅は測定時の
状況により大幅に変化
米国内Abileneのパケットロス障害による
日米間のグリッド実験
産経新聞12月1日
日経産業新聞11月22日
日本経済新聞11月21日夕刊
読売新聞11月21日夕刊
米国4ノード、日本4ノード、ファイル転送で
741 Mbps 達成!
(10秒平均)
TransPACにおけるファイル転送の設定と結果
Host pair
(内訳)
streams (内訳)
1 (北1)
16 (北16x1)
2 (北2)
32 (北16x2)
3 (北3)
48 (北16x3)
4 (北3 南1) 56 (北16x3 + 南8x1)
設定パラメータ
socket buffer size:
10秒平均最大
転送時間
(秒)
平均
113.0
152Mbps
419 Mbps
115.9
297Mbps
593 Mbps
139.6
369Mbps
741 Mbps
150.0
458Mbps
北回り
南回り
610 KB
250 KB
50 Mbps
28.5 Mbps
16 streams
8 streams
ホスト数:
3 hosts
1 host
stripe unit size:
128 KB
128 KB
流量制限 1 ストリームあたり:
ストリーム数:
SC会場とIndianaおよびSDSCのファイル複製性能
Replication bandwidth [SC 1 node-US sites]
Bandwidth [MB/s]
50
40
sc->indiana
indiana->sc
sc->sdsc
sdsc->sc
30
20
10
0
1
2
3
4
# remote nodes
5
Bandwidth Measurement Result
1-sec average bandwidth
10-sec average bandwidth
0.1-sec average bandwidth
We achieved 2.3 Gbps using 12 nodes!
(outgoing 1.7 Gbps, incoming 0.6 Gps)
Special thanks to
• Rick McMullen, John Hicks (Indiana Univ,
PRAGMA)
• Phillip Papadopoulos (SDSC, PRAGMA)
• Hisashi Eguchi (Maffin)
• Kazunori Konishi, Yoshinori Kitatsuji,
Ayumu Kubota (APAN)
• Chris Robb (Indiana Univ, Abilene)
• Force 10 Networks, Inc