並列計算から見たSAN 遠藤 敏夫 (東工大) TSUBAMEのネットワーク • 10GB InfiniBand • ノードあたりVoltaire HCA x 2 • 上流のバンド幅は,全体全の1/5 ISR9288 switch ISR9288 switch IB(InfiniBand) x24 ISR9288 switch MPO(fiber) x24 ISR9288 switch ISR9288 switch ISR9288 switch 120 nodes 120 nodes ISR9288 switch ISR9288 switch 10GB Voltaire InfiniBand 120 nodes 120 nodes 120 nodes 55 nodes Voltaire MPI • TCP/IPを介さずに高性能通信 • MVAPICHベースの実装 • 多様なチューニングパラメータ VIADEV_HCA_DISTRIBUTE VIADEV_EXIT_ON_ASYNC_PORT_ERROR BLOCKING_SUPPORT VIADEV_MAX_BLOCK_COUNT VIADEV_USE_PEER_TO_PEER VIADEV_RDMA_LIMIT VIADEV_CQ_SIZE VIADEV_NUM_RDMA_BUFFER VIADEV_ENABLE_ADAPTIVE_FAST_PATH ほか,60以上のパラメータ Linpack測定時のデータマッピング ISR9288 switch ISR9288 switch IB(InfiniBand) x24 ISR9288 switch MPO(fiber) x24 ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch 120 nodes 120 nodes ISR9288 switch 10GB Voltaire InfiniBand 120 nodes 120 nodes 92 行列の担当を, な るべく上流の通信量 を減らすように設定 36 120 nodes 55 nodes シミュレーショングループの 遭遇した問題 • 多数のCPUによる,MPI並列流体計算 • 800CPUまでは通常通り動く • 1000CPUになると,「プログラムが途中で止まる」 • 利用ノードがスイッチ間にまたがることが判明 • 上流スイッチでパケット落ちが頻発 – 「遅くなる」ではなく「止まる」のは厳しい… SAN(というか通信ソフトウェア)は こうなってほしい • 高バンド幅かつ公平なトランスポート層 • (半)自動チューニング – 約60のパラメータはきつい • 異常理由の一般ユーザへの開示 • トポロジーの一般ユーザへの開示,MPIとの 連携 • アクセラレータ直結?
© Copyright 2025 ExpyDoc