Document

並列計算から見たSAN
遠藤 敏夫 (東工大)
TSUBAMEのネットワーク
• 10GB InfiniBand
• ノードあたりVoltaire HCA x 2
• 上流のバンド幅は,全体全の1/5
ISR9288
switch
ISR9288
switch
IB(InfiniBand)
x24
ISR9288
switch
MPO(fiber)
x24
ISR9288
switch
ISR9288
switch
ISR9288
switch
120 nodes
120 nodes
ISR9288
switch
ISR9288
switch
10GB
Voltaire
InfiniBand
120 nodes
120 nodes
120 nodes 55 nodes
Voltaire MPI
• TCP/IPを介さずに高性能通信
• MVAPICHベースの実装
• 多様なチューニングパラメータ
VIADEV_HCA_DISTRIBUTE
VIADEV_EXIT_ON_ASYNC_PORT_ERROR
BLOCKING_SUPPORT
VIADEV_MAX_BLOCK_COUNT
VIADEV_USE_PEER_TO_PEER
VIADEV_RDMA_LIMIT
VIADEV_CQ_SIZE
VIADEV_NUM_RDMA_BUFFER
VIADEV_ENABLE_ADAPTIVE_FAST_PATH
ほか,60以上のパラメータ
Linpack測定時のデータマッピング
ISR9288
switch
ISR9288
switch
IB(InfiniBand)
x24
ISR9288
switch
MPO(fiber)
x24
ISR9288
switch
ISR9288
switch
ISR9288
switch
ISR9288
switch
120 nodes
120 nodes
ISR9288
switch
10GB
Voltaire
InfiniBand
120 nodes
120 nodes
92
行列の担当を, な
るべく上流の通信量
を減らすように設定
36
120 nodes 55 nodes
シミュレーショングループの
遭遇した問題
• 多数のCPUによる,MPI並列流体計算
• 800CPUまでは通常通り動く
• 1000CPUになると,「プログラムが途中で止まる」
• 利用ノードがスイッチ間にまたがることが判明
• 上流スイッチでパケット落ちが頻発
– 「遅くなる」ではなく「止まる」のは厳しい…
SAN(というか通信ソフトウェア)は
こうなってほしい
• 高バンド幅かつ公平なトランスポート層
• (半)自動チューニング
– 約60のパラメータはきつい
• 異常理由の一般ユーザへの開示
• トポロジーの一般ユーザへの開示,MPIとの
連携
• アクセラレータ直結?