PowerPoint プレゼンテーション

Performance Evaluation of
Power-aware Multi-tree
Ethernet for HPC Interconnects
Michihiro Koibuchi, Takafumi Watanabe, Atsushi
Minamihata, Masahiro Nakao,
Tomoyuki Hiroyasu, Hiroki Matsutani, and
Hideharu Amano
[email protected]
1
HPC PC Clusters with Ethernet
• Host/CPU
– Various low-power
techniques are used
PC
Ethernet switch
• DVFS
• Power Gating
• Ethernet Switch
– Always preparing
(active) for packet
injection
Interconnects share@TOP500
(Nov 2011)
GbE
45%
Gigabit Ethernet
We evaluate our power-aware On/Off Link Activation for
Ethernet on PC clusters
Outline
• Ethernet for HPC
– Link aggregation (channel group) + multi-paths
• Our On/Off link activation method
• Evaluations
– Performance and power consumption of PC
clusters
Ethernet on HPC systems
Increasing the number of ports of GbE switches
- 24/48-port switches provide the lowest cost per port
Improving the computation power of host( > 10GFlops)
Link aggregation
+ multi-path topology
[IEEE 802.3ad]
2004][Viking, Infocom2004][Koibuchi et al, IEEE TPDS2011]
[Kudoh, IEEE Cluster,
- drastically increasing the number of links
Link aggr. using
2 links
switch
2 paths
0
コンピュータ
1
コンピュータ
2
コンピュータ
3
コンピュータ
4
コンピュータ
5
コンピュータ
6
コンピュータ
7
コンピュータ
host
Power cons of GbE switches
Product
Port
PC5324
1.2
Other Total(ratio of
(Xbar) ports)
14.9 42.9(65%)
PC6224
2.0
42.5
91.1(53%)
PC6248
2.1
56.8
155.2(63%)
SF-420
1.0
32.6
55.4(41%)
C-3750
1.8
84.5
127.7(34%)
Unit:W
• Power cons is almost constant regardless of traffic load
• # of activated ports dominates the power cons of switches
– Power cons of port is reduced down to ZERO by portshutdown operation
Overview of the on/off link method
Switch ports consume 40-60% of the total power
Network load is not always high
(e.g. during computation time
switch
0
コンピュータ
1
コンピュータ
2
コンピュータ
3
コンピュータ
4
コンピュータ
5
コンピュータ
6
コンピュータ
host
7
コンピュータ
Traffic load becomes low
(turning off a part of links)
0
コンピュータ
1
コンピュータ
2
コンピュータ
3
コンピュータ
4
コンピュータ
5
コンピュータ
6
コンピュータ
7
コンピュータ
Outline
• Ethernet for HPC
– Link aggregation (channel group) + multi-paths
• Our On/Off link activation method
• Evaluations
– Performance and power consumption of PC
clusters
A framework of on/off link method
Eg: port monitor, IPTraf,
pilot execution
Traffic monitoring
Low or high-load
links appear
No
Traffic load becomes low
Yes
Selection of on/off links and paths
0 1
コンピュータ
コンピュータ
2 3
コンピュータ
コンピュータ
4 5
コンピュータ
コンピュータ
6 7
コンピュータ
コンピュータ
Paths: Before & After
Update of on/off link operation
The before path is deactivated
How is it implemented on
Ethernet?
Requirements for the on/off link method
No update of the MPI communication library
Hide the overhead to activate the link
Stabilize the MAC address tables during updating paths
Before
Switch
After
0
コンピュータ
1
コンピュータ
2
コンピュータ
3
コンピュータ
4
コンピュータ
5
コンピュータ
6
コンピュータ
7
コンピュータ
Host
Changing the paths for on/off link op
• Using switch-tagged・VLAN routing method[Otsuka,ICPP06]
– Specifying the path by attaching the VLAN tag to a frame (Port VLAN
ID: PVID)
– Each host sends and receives usual (untagged) frames
• When an frame arrives at a switch from a host, add a VLAN tag
(PVID) to it
• When it leaves to a host, removes the VLAN tag
The path of PVID#v1
The path of PVID#v0
VLAN v0
VLAN v1
VLAN tag #
v0 is attached
PVID v0
v1
0 1
コンピュータ
0 1
コンピュータ
コンピュータ
2 3
コンピュータ
コンピュータ
4 5
コンピュータ
コンピュータ
6 7
コンピュータ
コンピュータ
コンピュータ
2 3
コンピュータ
コンピュータ
4 5
コンピュータ
コンピュータ
6 7
コンピュータ
コンピュータ
When a deactivated link is activated
• (1) Activating the target link
– Using no-shutdown command of switch
• (2) Create VLAN v0 for the new path set that includes the target
link, and make its MAC address table
• (3) Update the PVIDs of the ports for connecting hosts to v0
When the traffic
increases
0 1
コンピュータ
コンピュータ
4 5
2 3
コンピュータ
コンピュータ
コンピュータ
コンピュータ
0 1
6 7
コンピュータ
コンピュータ
コンピュータ
コンピュータ
2 3
コンピュータ
コンピュータ
4 5
コンピュータ
コンピュータ
コンピュータ
Activate links
Before
Step 1,2
Updating
PVID to v0
VLAN v0
PVID v0
Step 3
6 7
コンピュータ
0 1
コンピュータ
コンピュータ
2 3
コンピュータ
コンピュータ
4 5
コンピュータ
コンピュータ
6 7
コンピュータ
コンピュータ
When an activated link is deactivated
• (1) Create VLAN v1 for the new path set that avoids the target
link, and make its MAC address table
• (2) Update the PVID of the ports for connecting hosts to v1
• (3) Deactivating the link
The path of PVID v0
The path of PVID v1
Decreasing
the traffic
0 1
コンピュータ
コンピュータ
4 5
2 3
コンピュータ
コンピュータ
コンピュータ
コンピュータ
6 7
コンピュータ
0 1
コンピュータ
コンピュータ
コンピュータ
2 3
コンピュータ
Before
4 5
コンピュータ
Step 1,2
PVID #v0
v1
Deactivating
Step 3
コンピュータ
0 1
コンピュータ
コンピュータ
2 3
コンピュータ
コンピュータ
4 5
コンピュータ
コンピュータ
6 7
コンピュータ
コンピュータ
コンピュータ
6 7
コンピュータ
コンピュータ
Outline
• Ethernet for HPC
– Link aggregation (channel group) + multi-paths
• On/Off link activation method
• Evaluations
– Performance and power consumption of PC clusters
Performance evaluation on
a PC cluster
• PC Cluster
– 66 hosts, 528 cores
– CPU Quad-Core AMD Opteron 2.3GHz
– Memory DDR2 667 MHz 8GB
– NIC & driver Broadcom BCM95721, Tigon3
– Kernel 2.6.9-67.0.15.ELsmp
• GbE switch
– Dell PC 6248
• 48port@8
• Application
Dell PC6248SW
– NPB 3.2 / HPL (OpenMPI 1.3 /MPICH-1.2.7p1)
Topology of the cluster
• Tree or completely connected graph,
– Up to 5 links between switches
• Enabling the link aggregation (IEEE 803.ad)
• Pre-executing the applications for estimating traffic
amount
– Set up the on/off link set before executing
• Performing our simple link regularation algorithm
Tree
Completely (fully) Connected Topology
Pre-evaluation (even link removal)
Tree(1link)
Compl(1link)
Tree(2link)
Compl(2link)
Tree(3link)
Compl(3link)
900
Tree(4link)
Compl(4link)
Tree
Tree(5link)
Compl(5link)
Tree(1link)
Tree(4link)
Compl(2link)
Compl
700
600
Tree
500
Compl
400
7
300
6
200
100
0
Matrix transpose
Bit-reversal
Performance (Tflops)
Performance (Tflops)
(1) Synthetic traffic
5
4
3
2
1
0
Rmax/Rpeak
=61%
3.5
Tree(3link)
Compl(1link)
ideal
8
Relative Mop/s
Throughput(Mbps/host)
800
Tree(2link)
Tree(5link)
Compl(5link)
CG
FT
IS
LU
MG
BT
SP
(3) NPB, Class C
3
2.5
2
1.5
1
0.5
0
Tree(1link)
Tree(2link)
Tree(5link)
Compl(1link) Compl(2link) Compl(5link)
(2) Linpack (HPL)
Ideal
All the applications drastically
decrease the performance if links
are uniformly removed
Performance and Power in HPL
Almost same
performance
Rmax/Rpeak
=61%
Over 20% power reduction with almost same performance
Performance and Power in NPB64
IS, LU, BT, SP keep
performance
Rmax/Rpeak
=61%
CLASS C
Over 25% power reduction with almost same performanc
Performance and Power in NPB128
LU, MG keep
performance
Rmax/Rpeak
=61%
CLASS C
Over 20% power reduction with almost same performanc
Conclusions
• We evaluated our on/off link method on Ethernet
– Multi-tree topologies & link aggre. are enabled
– Using port-shutdown command for reducing
power cons
• Ports consume up to 60% of switch power
• Reducing by up to 37% NW power in the
528-core PC cluster