Performance Evaluation of Power-aware Multi-tree Ethernet for HPC Interconnects Michihiro Koibuchi, Takafumi Watanabe, Atsushi Minamihata, Masahiro Nakao, Tomoyuki Hiroyasu, Hiroki Matsutani, and Hideharu Amano [email protected] 1 HPC PC Clusters with Ethernet • Host/CPU – Various low-power techniques are used PC Ethernet switch • DVFS • Power Gating • Ethernet Switch – Always preparing (active) for packet injection Interconnects share@TOP500 (Nov 2011) GbE 45% Gigabit Ethernet We evaluate our power-aware On/Off Link Activation for Ethernet on PC clusters Outline • Ethernet for HPC – Link aggregation (channel group) + multi-paths • Our On/Off link activation method • Evaluations – Performance and power consumption of PC clusters Ethernet on HPC systems Increasing the number of ports of GbE switches - 24/48-port switches provide the lowest cost per port Improving the computation power of host( > 10GFlops) Link aggregation + multi-path topology [IEEE 802.3ad] 2004][Viking, Infocom2004][Koibuchi et al, IEEE TPDS2011] [Kudoh, IEEE Cluster, - drastically increasing the number of links Link aggr. using 2 links switch 2 paths 0 コンピュータ 1 コンピュータ 2 コンピュータ 3 コンピュータ 4 コンピュータ 5 コンピュータ 6 コンピュータ 7 コンピュータ host Power cons of GbE switches Product Port PC5324 1.2 Other Total(ratio of (Xbar) ports) 14.9 42.9(65%) PC6224 2.0 42.5 91.1(53%) PC6248 2.1 56.8 155.2(63%) SF-420 1.0 32.6 55.4(41%) C-3750 1.8 84.5 127.7(34%) Unit:W • Power cons is almost constant regardless of traffic load • # of activated ports dominates the power cons of switches – Power cons of port is reduced down to ZERO by portshutdown operation Overview of the on/off link method Switch ports consume 40-60% of the total power Network load is not always high (e.g. during computation time switch 0 コンピュータ 1 コンピュータ 2 コンピュータ 3 コンピュータ 4 コンピュータ 5 コンピュータ 6 コンピュータ host 7 コンピュータ Traffic load becomes low (turning off a part of links) 0 コンピュータ 1 コンピュータ 2 コンピュータ 3 コンピュータ 4 コンピュータ 5 コンピュータ 6 コンピュータ 7 コンピュータ Outline • Ethernet for HPC – Link aggregation (channel group) + multi-paths • Our On/Off link activation method • Evaluations – Performance and power consumption of PC clusters A framework of on/off link method Eg: port monitor, IPTraf, pilot execution Traffic monitoring Low or high-load links appear No Traffic load becomes low Yes Selection of on/off links and paths 0 1 コンピュータ コンピュータ 2 3 コンピュータ コンピュータ 4 5 コンピュータ コンピュータ 6 7 コンピュータ コンピュータ Paths: Before & After Update of on/off link operation The before path is deactivated How is it implemented on Ethernet? Requirements for the on/off link method No update of the MPI communication library Hide the overhead to activate the link Stabilize the MAC address tables during updating paths Before Switch After 0 コンピュータ 1 コンピュータ 2 コンピュータ 3 コンピュータ 4 コンピュータ 5 コンピュータ 6 コンピュータ 7 コンピュータ Host Changing the paths for on/off link op • Using switch-tagged・VLAN routing method[Otsuka,ICPP06] – Specifying the path by attaching the VLAN tag to a frame (Port VLAN ID: PVID) – Each host sends and receives usual (untagged) frames • When an frame arrives at a switch from a host, add a VLAN tag (PVID) to it • When it leaves to a host, removes the VLAN tag The path of PVID#v1 The path of PVID#v0 VLAN v0 VLAN v1 VLAN tag # v0 is attached PVID v0 v1 0 1 コンピュータ 0 1 コンピュータ コンピュータ 2 3 コンピュータ コンピュータ 4 5 コンピュータ コンピュータ 6 7 コンピュータ コンピュータ コンピュータ 2 3 コンピュータ コンピュータ 4 5 コンピュータ コンピュータ 6 7 コンピュータ コンピュータ When a deactivated link is activated • (1) Activating the target link – Using no-shutdown command of switch • (2) Create VLAN v0 for the new path set that includes the target link, and make its MAC address table • (3) Update the PVIDs of the ports for connecting hosts to v0 When the traffic increases 0 1 コンピュータ コンピュータ 4 5 2 3 コンピュータ コンピュータ コンピュータ コンピュータ 0 1 6 7 コンピュータ コンピュータ コンピュータ コンピュータ 2 3 コンピュータ コンピュータ 4 5 コンピュータ コンピュータ コンピュータ Activate links Before Step 1,2 Updating PVID to v0 VLAN v0 PVID v0 Step 3 6 7 コンピュータ 0 1 コンピュータ コンピュータ 2 3 コンピュータ コンピュータ 4 5 コンピュータ コンピュータ 6 7 コンピュータ コンピュータ When an activated link is deactivated • (1) Create VLAN v1 for the new path set that avoids the target link, and make its MAC address table • (2) Update the PVID of the ports for connecting hosts to v1 • (3) Deactivating the link The path of PVID v0 The path of PVID v1 Decreasing the traffic 0 1 コンピュータ コンピュータ 4 5 2 3 コンピュータ コンピュータ コンピュータ コンピュータ 6 7 コンピュータ 0 1 コンピュータ コンピュータ コンピュータ 2 3 コンピュータ Before 4 5 コンピュータ Step 1,2 PVID #v0 v1 Deactivating Step 3 コンピュータ 0 1 コンピュータ コンピュータ 2 3 コンピュータ コンピュータ 4 5 コンピュータ コンピュータ 6 7 コンピュータ コンピュータ コンピュータ 6 7 コンピュータ コンピュータ Outline • Ethernet for HPC – Link aggregation (channel group) + multi-paths • On/Off link activation method • Evaluations – Performance and power consumption of PC clusters Performance evaluation on a PC cluster • PC Cluster – 66 hosts, 528 cores – CPU Quad-Core AMD Opteron 2.3GHz – Memory DDR2 667 MHz 8GB – NIC & driver Broadcom BCM95721, Tigon3 – Kernel 2.6.9-67.0.15.ELsmp • GbE switch – Dell PC 6248 • 48port@8 • Application Dell PC6248SW – NPB 3.2 / HPL (OpenMPI 1.3 /MPICH-1.2.7p1) Topology of the cluster • Tree or completely connected graph, – Up to 5 links between switches • Enabling the link aggregation (IEEE 803.ad) • Pre-executing the applications for estimating traffic amount – Set up the on/off link set before executing • Performing our simple link regularation algorithm Tree Completely (fully) Connected Topology Pre-evaluation (even link removal) Tree(1link) Compl(1link) Tree(2link) Compl(2link) Tree(3link) Compl(3link) 900 Tree(4link) Compl(4link) Tree Tree(5link) Compl(5link) Tree(1link) Tree(4link) Compl(2link) Compl 700 600 Tree 500 Compl 400 7 300 6 200 100 0 Matrix transpose Bit-reversal Performance (Tflops) Performance (Tflops) (1) Synthetic traffic 5 4 3 2 1 0 Rmax/Rpeak =61% 3.5 Tree(3link) Compl(1link) ideal 8 Relative Mop/s Throughput(Mbps/host) 800 Tree(2link) Tree(5link) Compl(5link) CG FT IS LU MG BT SP (3) NPB, Class C 3 2.5 2 1.5 1 0.5 0 Tree(1link) Tree(2link) Tree(5link) Compl(1link) Compl(2link) Compl(5link) (2) Linpack (HPL) Ideal All the applications drastically decrease the performance if links are uniformly removed Performance and Power in HPL Almost same performance Rmax/Rpeak =61% Over 20% power reduction with almost same performance Performance and Power in NPB64 IS, LU, BT, SP keep performance Rmax/Rpeak =61% CLASS C Over 25% power reduction with almost same performanc Performance and Power in NPB128 LU, MG keep performance Rmax/Rpeak =61% CLASS C Over 20% power reduction with almost same performanc Conclusions • We evaluated our on/off link method on Ethernet – Multi-tree topologies & link aggre. are enabled – Using port-shutdown command for reducing power cons • Ports consume up to 60% of switch power • Reducing by up to 37% NW power in the 528-core PC cluster
© Copyright 2025 ExpyDoc