SC2002 High-Performance Bandwidth Challenge Grid Datafarm for a HEP application Osamu Tatebe (Grid Technology Research Center, AIST) Satoshi Sekiguchi(AIST), Youhei Morita (KEK), Satoshi Matsuoka (Titech & NII), Kento Aida (Titech), Donald F. (Rick) McMullen (Indiana), Philip Papadopoulos (SDSC) Data Grid ミニワークショップ 国立天文台@三鷹 2002年12月11日 SC2002 high-performance bandwidth challenge demonstrate exciting applications at the maximum possible speed Overview of Our Challenge • Seven clusters in US and Japan comprise a cluster-of-cluster file system: Gfarm file system • The FADS/Goofy simulation code based on the Geant4 toolkit simulates the ATLAS detector and generates hits collection (a terabyte of raw data) in the Gfarm file system • The Gfarm file system replicates data across the clusters Bandwidth Challenge!!!! グリッド技術(グリッドデータファーム)を用いた テラバイト(1兆文字)クラスの大規模データ 一ヶ所に保存すると 保存箇所以外からの書き込み・読み出しに 時間がかかる 災害時などにデータが失われたり、アクセ スできなくなったりする 分けて別々に保存すると 別々の管理単位になり、管理、アクセスが大変 手元にないデータへの読み書きは時間がかかる 災害時などには部分的にデータが失われたり、アクセスでき なくなったりする グリッドデータファームを使うと 複数分散ディスクによりファイルシステムを構成 分散して書き込まれた複数ファイルを一つのファイルとし て扱える 部分的な複製ができる 複数の複製により障害に備える データがある場所でそのデータを高速処理する つくば 東京 バルチモア インディアナ サンディエゴ Target Application at SC2002: FADS/Goofy Monte Carlo Simulation Framework with Geant4 (C++) FADS/Goofy: Framework for ATLAS/Autonomous Detector Simulation / Geant4-based Objectoriented Folly http://atlas.web.cern.ch/Atlas/GROUPS/SOFTWARE/OO/domains/simulation/ Modular I/O package selection: Objectivity/DB and/or ROOT I/O on top of Gfarm filesystem with good scalability CPU intensive event simulation with high speed file replication and/or distribution Network and cluster configuration for SC2002 Bandwidth Challenge OC-12 Indianapolis GigaPoP Tsukuba WAN 1 Gbps AIST Titech Tokyo NOC PNWG APAN/TransPAC OC-12 ATM (271Mbps) GbE SuperSINET ICEPP OC-12 POS GbE KEK 10 GE SCinet StarLight NII-ESnet HEP PVC 20 Mbps Indiana Univ. ESnet NOC SC2002, Baltimore Grid Cluster E1200 Federation 10 GEBooth OC-12 SDSC US Japan SC会場とのデータ転送の理論総バンド幅 2.1 Gbps KEK Titech AIST ICEPP SDSC Indiana U SC2002 Total disk capacity: 18 TB, disk I/O bandwidth: 6 GB/s 産総研 つくば 実証実験:複製 つくばWAN MAFFIN 10Gbps インディアナ大 SC2002 バンド幅チャレンジ 2.3 Gbps! 1Gbps 622Mbps 622Mbps 大手町 シアトル KEK 271Mbps シカゴ 20Mbps 1Gbps 東工大 SC2002 会場 米 国内網 1Gbps 東大 10Gbps 622Mbps 日米間通信 741Mbps 複数経路を 同時利用 世界初! サンディエゴ SDSC バルチモア ネットワーク、クラスタ構成の特徴 SC会場 GbEで接続された12ノードのPCクラスタ をForce10 E1200で10GEでSCinetに 接続 LANにおける性能 ネットワークバンド幅は930Mbps ファイル転送性能は 75MB/s(=629Mbps) AIST 同等の7ノードのクラスタ。GbEでつくば WAN、Maffinを経て東京XPに接続 12 ノード PC GbE Indiana大 FEで接続された15ノードのクラスタ。 OC12でIndianapolis GigaPoPに接続 SDSC GbEで接続された8ノードのクラスタ。 OC12で外部接続 TransPACの南北ルートのルーティング デフォルトは北ルート SC会場、AISTのそれぞれ3ノードにつ いて南ルートを通るよう東京XP、 Maffinで設定 AIST、SC会場間のRTT: 北ルート 199ms、南ルート 222ms 南ルートは271Mbpsにシェーピング OC192 10GE E1200 PC SC2002会場のネットワーク構成 SCinet Lessons from the Challenge 64KB/0.2sec = 2.62Mbps 64KB 200ms 700Mbpsを達成するには280台(ストリーム)必要、これを4台で達成 チャレンジ 大きな遅延 RTT: 北回り 199ミリ秒、南回り 222ミリ秒 socket buffer size の拡大 複数ストリーム、ネットワークストライピング パケットロスによる window size の限界 High Speed TCP(HSTCP, net100)の利用 Sally Floyd の Internet Draft 輻輳ウィンドウの早期復帰 過大な window size によるパケットロスの増大 小さな socket buffer で複数のストリームを利用 ディスク性能の限界 複数のストリームによる並列ディスクアクセス ストライピング・アクセス 適切なストライプ・サイズの選択 複数ホストへの分割 gfarm – 断片化されたファイル ノード数が少ないため、必要バンド幅を達成するために必要最小限の ノードを利用、単体性能の向上 1ノードあたり平均200Mbps! Lessons ネットワークの理論性能近くを達成するためには、全ルートのデバグが必要。(皆様 お手数をおかけしました) ルータごとのパケットロス率、 Abileneカンザスシティ、デンバー間のパケットロス修正 北ルート米国方向で35Mbpsから500Mbps強に大改善! TransPAC南ルート(OC-12 ATM)のセルロス 解決できず。271MbpsにシェープしたPVCを利用 転送可能なレートを超えて送信すると急激に性能低下 送信バッファサイズによる制御 送信間隔による制御 ネットワーク転送のみ:250Mbps程度、ファイル転送:170Mbps程度 シェーピングをはずして、アプリケーションで転送レートを制御しても改善せ ず HSTCPおよびnet100パッチによる複数TCPストリームのバンド幅不均衡 単一ストリームのバンド幅が過大にならないよう転送レート制御が必要 ネットワーク性能とファイル転送性能の性能差 Incomingとoutgoingストリームの性能は必ずしも輪にならない 片方向だけよりも劣化する場合も APAN/TransPAC における詳細な測定モニタの必要性 1分平均値 → 10秒、1秒、1/10秒平均が必要 IperfによるTransPAC性能評価 北ルート 南ルート 5-min average bandwidth 10-sec average bandwidth SC会場から南北両ルートに対し、 北ルート2ノード、南ルート3ノード の計10ノードを利用して 753Mbps(10秒平均)を達成 (理論ピーク性能:622+271=893Mbps) IperfによるSC会場とのバンド幅測定(1分平均) TransPAC北 インディアナ大 SDSC TransPAC南 TransPACのバンド幅は測定時の 状況により大幅に変化 米国内Abileneのパケットロス障害による 日米間のグリッド実験 産経新聞12月1日 日経産業新聞11月22日 日本経済新聞11月21日夕刊 読売新聞11月21日夕刊 米国4ノード、日本4ノード、ファイル転送で 741 Mbps 達成! (10秒平均) TransPACにおけるファイル転送の設定と結果 Host pair (内訳) streams (内訳) 1 (北1) 16 (北16x1) 2 (北2) 32 (北16x2) 3 (北3) 48 (北16x3) 4 (北3 南1) 56 (北16x3 + 南8x1) 設定パラメータ socket buffer size: 10秒平均最大 転送時間 (秒) 平均 113.0 152Mbps 419 Mbps 115.9 297Mbps 593 Mbps 139.6 369Mbps 741 Mbps 150.0 458Mbps 北回り 南回り 610 KB 250 KB 50 Mbps 28.5 Mbps 16 streams 8 streams ホスト数: 3 hosts 1 host stripe unit size: 128 KB 128 KB 流量制限 1 ストリームあたり: ストリーム数: SC会場とIndianaおよびSDSCのファイル複製性能 Replication bandwidth [SC 1 node-US sites] Bandwidth [MB/s] 50 40 sc->indiana indiana->sc sc->sdsc sdsc->sc 30 20 10 0 1 2 3 4 # remote nodes 5 Bandwidth Measurement Result 1-sec average bandwidth 10-sec average bandwidth 0.1-sec average bandwidth We achieved 2.3 Gbps using 12 nodes! (outgoing 1.7 Gbps, incoming 0.6 Gps) Special thanks to • Rick McMullen, John Hicks (Indiana Univ, PRAGMA) • Phillip Papadopoulos (SDSC, PRAGMA) • Hisashi Eguchi (Maffin) • Kazunori Konishi, Yoshinori Kitatsuji, Ayumu Kubota (APAN) • Chris Robb (Indiana Univ, Abilene) • Force 10 Networks, Inc
© Copyright 2024 ExpyDoc