このプレゼンテーションは、SGI® Altix 3000製品、ロードマップ、および他のSGI®テクノロジに関して、将来を 視野に入れた内容が含まれる為、記載の内容と実際が異なる可能性があります。従ってこのプレゼンテ ーションの閲覧者は、将来の性能に関してはまだ保障されていない、という点にご留意下さい。 スケーラブルLinux MCAEサーバ SGI® Altix 3000 のご紹介 このような不確定要素の中には以下のものが含まれます。新規製造工程、新しいテクノロジを既存の SGI製品ラインと統合する能力、競合する市場、製品、価格の影響、市場および顧客による適用可能な テクノロジの支持、企業におけるエンジニアリング、マーケティング、ディストリビューション・チェーン複合 データの管理能力、Form 10-KおよびForm 10-Qに掲載されているレポートを含む最新の企業のSECレポー トにあるような他の詳細な事例 SGI Altix 3000は、SGI Linux 7.2環境を採用しています。 Red Hat Linux 7.2と互換性がありますが、Red Hat, Inc.から資金提供または承認はありません。 日本SGI株式会社 ©2003 Silicon Graphics, Inc. All rights reserved. Silicon Graphics、SGI、IRIX、Origin、InfiniteReality、およびSGIロ ゴは登録商標です。XFS、CXFS、Reality Center、InfinitePerformance、NUMAflex、NUMAlink、SGIProPack、 Performance Co-Pilot、FailSafe、SGI SAN Server、およびSilicon Graphicsロゴは、Silicon Graphics, Inc.の米国お よび他の国における商標です。 IntelおよびItaniumはIntel Corporationの登録商標です。WindowsおよびWindowsNTは、Microsoft Corporationの 米国および他の国における登録商標または商標です。Linuxは、Linus Torvaldsの登録商標です。UNIXは The Open Groupの米国および他の国の登録商標です。他の全ての商標は、それぞれ各社の商標または 登録商標です。(01/2003) 2 製造業におけるワークフロー 概要 新製品 – SGI Altix 3000 - の概要 Engineering Engineering Prototype PrototypePhase Phaseof ofProduct ProductDevelopment Development 製品発表に際して システム概要 共有メモリ・システムの利点 性能データ ストレージ・マネジメント SGI製品ラインとソリューション 1. Pre-processing Geometry Geometry Repair Mesh Generation 3. Post-processing SGI Altix 3000性能データ Quantitative Assessment SGI Altix 3000を中核としたHPCシステムの構築 Visualization Human Intensive まとめ 3 2. Computation Solve IFEA Solve EFEA IFEA CFD Solve EFEA IFEA CFD EFEA CFD MDO Compute Intensive 4 製造業におけるワークフロー 生産性の向上と高い対費用効果の実現 現在では、人件費とISVのライセンス費用が高い Engineering Engineering Prototype PrototypePhase Phaseof ofProduct ProductDevelopment Development 1. Pre-processing Geometry UNIX W/S & Onyx® family Geometry Repair 2. Computation Mesh Generation IFEA Solve EFEA IFEA CFD Solve EFEA IFEA CFD EFEA CFD 3. Post-processing IT & Engineering Personnel ~ 50x $ Cost ISV Application Software ~ 10x $ Vector RISC SGI® AltixTM 3000 IPF MDO Visualization Human Intensive Trends to Continue Solve Desktop choice based on visualization requirements, lead with postprocessing Quantitative Assessment UNIX® & Linux® Servers Compute Intensive 1990 Data Management Solutions Years 2002 Hardware ~ 1x $ Hardware environment should leverage 2005 these cost items for maximum productivity 5 スーパーコンピューティングを推し 進めるもの 6 最近の動向と技術の進展 大規模な問題は常に存在する Linux® はさらなるコラボレーションを可能にする 問題は大規模化している 64ビット Linux は、より大規模な用途に対しての 採用が可能 データセットもそれに比例して増大 大規模ノードが一般的になってきている 問題の各要素は、より相互に関係付けら れる傾向にある 堅牢なソフトウェア環境が展開してきている RAS機能の充実 HPC ツール データの増加率は現在のデータ量に比例 7 8 製造業 データの増大 顧客の取り組む課題の一つ ワークフロー 共通のデータファイルが、グローバルなデザイン及びエンジニアリングチー ムによる複数のアプリケーションによってアクセスされる。 開発チームは、世界の各地から一日24時間週7日、データにアクセスする 従来の解決方法 Network attach storage (NAS)では、可視化や 計算に要求される高速なデータアクセスの ための能力が限定される。 Storage area networks (SANs) では、グローバル に分散した開発チームがファイルを共有する ための能力が限定される。 9 Image courtesy of Molecular Simulations Inc. Image courtesy of BMW and ESI Group Energy GeoSec 3D image provided by CogniSeis Government Image courtesy of Euromap, a GAF Company, and Space Imaging 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 Source: Gartner Group 10 解決のための時間を短縮するHPCテクノロジ : Challenge: 大規模な計算や可視化に従事しているエンジ ニアリング、科学、及びクリエイティブ分野のユーザに固 有のデータアクセスとデータ管理における問題の解決 Manufacturing 200 180 160 140 120 100 80 60 40 20 0 HPCでの重要なコンポーネント データアクセスのボトルネック Sciences Worldwide Production of Information Exabytes 大規模で複雑なメカニカルモデルには、改良されたデザインと生産性のた めのジオメトリの修正のために、グローバルで複数の機能をもつ設計チーム によって迅速にアクセスされなくてはならない。 構造の完全性、製品の安全性、及び環境への影響についての機能的な評 価の際に、グローバルなエンジニアリングチームのために、シミュレーション データは、共有され、管理されなくてはならない。 バランスのとれた、スケーラブルな性能 低レイテンシでのメモリアクセス HPC向けに最適化されたオペレーティング環境 導入が容易なシステムコンポーネント システム管理ツール, リソース管理ツール, 及びデー タ管理ツールの充実 Media Courtesy of 2000 American Museum of Natural History. Photo by Denis Finnin “もし、利用しているシステムが、一秒間に数十億の計算を処理す るとすると、ユーザは一秒間に数十億バイトのデータを管理しなく てはならない。計算機からそれらの能力を得るには、データをスト アし、バックアップすることが問題となる。” —Chris Willard, HPC Analyst, IDC 分散メモリと共有メモリの利点の活用 分散: スケールアウトと導入が容易 共有: スケールアップと管理が容易 11 12 SGI並列計算機システムの歴史 並列計算機アーキテクチャ SMPとNUMAの対比 常に並列計算機アーキテクチャでの革新 NUMAシステム 大部分の並列計算機は、バスやスイッチ をインターコネクトとするSMPシステム: どのプロセッサからでも同様にアクセス することができる共有メモリをもつ 小規模システム CPU CPU CPU CPU CPU CPU インターコネクト バスやスイッチ MEM MEM MEM MEM MEM MEM Node 0 Node 1 Node 2 CPU CPU CPU Node 3 Node 4 Node 5 CPU CPU CPU MEM MEM MEM MEM MEM MEM オープン スケーラブル Linuxシステム NUMAflexTM スケーラブル インターコネクト モジュラー コンピューティング 分散共有メモリ 大規模 SMP 今後の並列計算機の主流: SGITM OriginTM 2000 ChallengeTM/ Power ChallengeTM ノード毎にローカルメモリを持ち、他のノ ードのメモリをインターコネクト経由でア クセスする 小規模システムから大規模システムま で拡張可能 スケーラブルインターコネクトが性能を 左右する SMPシステムのプログラムをそのまま実 行可能 SMPシステム SGITM SGITMOriginTM 3000 Series OriginTM 200 SGITMOriginTM 3900 SGITMOriginTM 300 RISC SMP IRIS Power SeriesTM SN0 SN2 SN1 SGI Scalable Node Architecture 1988 1994 1996 2000 2001 2002 2003 13 製品発表 1月7日(米国時間): 14 3 , 200 ary 7 Janu rs luste m HPC ix 3000 niu he Alt Big C gies The Wall Street Journal 7,lo 2003 r for ux-and-Ita ars. January T e p u S chno ye in New SGI Line Seeks toItBolster ay L rket for ory te HPC nium Linux a w m e 4 a 6 x d m software thedeveloped -endthat significantly to m shareand eGraphics Inc. Silicon Linusaideilitedhas ring hardware e top rWir 64-Way unvLinux g and towhandle g to b terin ays th the toughest scientific pute hethe llythe opin operating s system ny c s yability h Com extend rmaof a lu n o n c f s m u e a x in be L it's le da J Sa y SGI computing main ester tasks. MAF it has c. said , WS Inc y uter that rrow NU which re ics In wind-tun uters h p p m , SGI San ra o o p s r b G e rc m JoseinMercury News January 7, 2003 s fo e n o in e o p c h d r e u c ic e s S a il u x g the achlaunch sup SGI ) -- SProcessors 00 m Linu running Linux Machine Using rgIntel puters , citin s of mtorig in 30 supercomputer ombe supercom urnal said olster serie Marking looperating B g . O I r (B to e e f o G another step in Linux's evolution from an upstart system to an 7 b s th S r tJ m yo an. fromindustrytiostandard, n for Blooexpects Stree ystems. Serve pacit launch nia, J itthwill e casoon SGI lu s Wall a Plans to announce alifor today er so oost casts, the e-defense SGI w, C64 ieuses to bmicroprocessors servsupercomputer V y il for scientists that Intel and runs Linux re s g in is fo lo o m te n unta a h o in c m d M li software. u se The Wall Street Journal Europeeloped te lobal- c 8, 2003 areJanuary rg dev Products uters Computing Ability BizBytes: Silicon Graphics Says tion o Boost ompLinux imula y whose c s Silicon Graphics Inc. said it has developed hardware and software that significantly n ompa extend the ability of the Linux coperating system to handle complex scientific 多くのメディアで紹介 SGI は64ビットLinux® サーバとスーパークラスタ製品であ るSGI® AltixTM 3000 シリーズを発表 Linuxクラスタに、スーパーコンピュータ・レベルの機能を もたらすスーパークラスタを発表 Linuxユーザとアプリケーション開発者に、さらなる可能 性を提供することを発表 Linuxでのスケーラビリティ、 スーパーコンピューティング、 開発環境、ストレージマネー ジメントにおいて、革新的な 製品シリーズを発表 computing tasks. 15 Knight-Ridder Tribune Business News Wire Mountain View, Calif.-Based SGI to Launch Supercomputer Running Linux Software Jan. 7-Marking another step in Linux's evolution from an upstart operating system to an industry standard, SGI expects to announce today it will soon launch a supercomputer for scientists that uses 64 Intel microprocessors and runs Linux software. 16 製品発表 2月5日(日本での製品発表): 革新的テクノロジの展開 Linuxとクラスタのソリューションの革新 革新的な機能の実現:グローバル共有メモリ シングルノードで64プロセッサまでサポート 従来のクラスタネットワークに対して、200倍もの高速 性を実現したインターコネクトを標準実装 処理能力における圧倒的な性能の提供 既に、グローバル共有メモリで、64ビットLinux環境で、 数百プロセッサを実現し、2004年には、数千プロセッサ まで、この機能を拡張 スーパーコンピューティングのためのソフトウエア環境 の充実 • CXFSによる高性能異機種間共有ファイルシステム • ストレージマネージメントツール • 最適化されたプログラム環境とライブラリの提供 17 18 SGI Altix 3000のご紹介 Linuxにおける大きな可能性 Built Like a Cluster, Works Like a Supercomputer クラスタのように構築し、スーパーコンピュータのように 使える…. Gartner Dataquest によるマーケット予測、2002年11月 “Linuxベースのサーバの出荷は2003年には、倍増する” “Linuxは、2003年には、他のどのOSよりも大きな可能性を 提要する” 世界初の64CPUsのシングルOSイメージ の Linuxノード 世界初の複数ノード間でのグローバル 共有メモリの実現 性能の世界記録を浮動小数点演算、メ モリ、I/Oバンド幅、実アプリケーションで のスケーラビリティで達成 Jon “maddog” Hall, President and Executive Director, Linux International “数ヶ月前までは、Linuxにおいて、8プロセッサを越えたシステムなど夢のよう な話でした。しかし、SGIが、あっという間に、これを現実のものにしてしまいま した。そして、SGIが提供するスーパークラスタは、従来のスタンダードなクラス タでは、解く事の出来なかった多くの問題を解析可能にすることで、新たなド アを開くことになると思います” 19 20 SGI® Altix シリーズ概要 最先端テクノロジの融合 SGI のスーパーコンピュータ技術、Intelの最先端プロセッサ、 そして、オープンソースコンピューティング 世界で最も強力な Itanium 2 システム Intel Itanium 2 +SGI® NUMAflex™ アーキテクチャ 4–64 CPU Linux OS のシングルシステムイメージ, 4TBまでの共有 メモリ 2つの製品ライン: 4–12 CPU サーバと16–2,048 CPU スーパークラスタ グローバル共有メモリ (全クラスタノード間での64ビット共有メモリ空間) メインメモリにすべてのデータを格納 完全な64ビット計算環境 優れたメモリアーキテクチャ SGI ProPack™ とスーパーコンピューティング拡張 SGI® NUMAlink™ (高バンド幅、低レイテンシの組み込みインターコネクト) SGI® NUMAflex™ (第3世代のモジュール化アーキテクチャ) 競合他社を圧倒的に上回る共有メモリスケーラビリティ 高バンド幅、低レイテンシメモリアクセス 最適化された HPC 環境 標準 Linux ディストリビューションと開発環境 独自の HPC システム, リソース, 及びデータ管理ツール Intel® Itanium® 2 プロセッサファミリ 業界標準Linux® 21 SGI Altix 3000シリーズ サーバとスーパークラスタ SGI HPC システム SGI® Altix 3000 22 SGI® Origin® 3000 スケーラブルクラスタノード SGI® Origin® 300 Model 3700 Superclusters 4-64 Itanium 2 プロセッサ(シングルノード) 900 MHz/1.5MB L3 cache 1 GHz/3MB L3 cache ノード間での共有メモリ Linux® オペレーティングシステム SGI® IRIX オペレーティングシステム Intel® Itanium® 2 プロセッサファミリ SGI® MIPS® プロセッサ 2,048 プロセッサ, 16TB メモリまで拡張可能 64P, 512GB メモリ(シングルノード) シングルノード(エントリシステム) 4-12 Itanium 2 プロセッサ 900 MHz/1.5MB L3 cache 最大 96GB メモリ SGI® NUMAflex™: グローバル共有メモリアーキテクチャ バランスに優れたスケーラブルな性能 HPC環境を想定し、最適化されたシステム 高いバンド幅、低いレイテンシのインターコネクトとメモリアクセス 容易に拡張、機能強化が可能 23 Model 3300 Servers 24 SGI Altix 3000 C-brick 共有インフラストラクチャ MIPS® C-brick IPF C-brick CPU とメモリ CPUとメモリ Front 共通構成部品(ブリック) SGI Origin 3000 SGI Altix 3000 IX-brick スケーラビリティ 高密度実装 グラフィックス 既存顧客の資産 リアルタイム セキュリティ ネットワークとIO Rear ベース I/O モジュール D-brick ディスク拡張 R-brick ルータインターコネクト オープンソース スケーラビリティ 高いメモリバンド幅 大容量メモリ ネットワークとIO 互換性 コストパフォーマンス Exploded PX-brick PCI-X拡張 25 SGI Altix 3000 システム スケーラブルインターコネクト OriginとAltix 3000でのC-brick の比較 MIPS-based C-brick; NUMAlink3 26 Itanium-2 based C-brick; NUMAlink3/4 Memory Itanium® 2 Memory XIO 1.2 GB/s 3.2 GB/s Hub CPU CPU 1.6 GB/s CPU CPU 1.6 GB/s XIO 2.4 GB/s Shub 6.4 GB/s Shub SHUB Itanium 2 Memory Memory SHUB SHUB Itanium® 2 Itanium 2 Itanium 2 Itanium 2 Itanium 2 NUMAlink スケーラブル インターコネクト 2.4 XIO GB/s CPU CPU 6.4 CPU GB/s SHUB Itanium 2 10.2 GB/s 10.2 GB/s 3.2 GB/s Memory Itanium 2 SHUB Itanium 2 Memory Memory Itanium® 2 Itanium 2 SHUB Memory Memory Itanium 2 CPU 3.2/6.4 GB/s 3.2/6.4 GB/s Itanium 2 6.4 GB/s Itanium 2 SHUB Itanium 2 SHUB Itanium® 2 Memory Memory Itanium 2 SHUB Itanium 2 SHUB Memory Memory Itanium® 2 Itanium 2 SHUB Itanium® 2 Itanium 2 Memory 27 Itanium 2 SHUB Memory 28 共有メモリの利点 ソリューションのより効率的な展開 共有メモリの利点 Commodity interconnect mem mem mem mem mem node + OS node + OS node + OS node + OS ... node + OS 一般商用インターコネクト Fast NUMAFlex™ interconnect Global Shared Memory node node node node ... + + + + OS OS OS OS mem node + OS DELL DELL DELL POWEREDGE 2450R DELL POWEREDGE 2450R DELL POWEREDGE DELL POWEREDGE 2450R POWEREDGE 2450R 2450R DELL DELL DELL DELL POWEREDGE 2450R POWEREDGE 2450R POWEREDGE 2450R POWEREDGE 2450R DELL DELL POWEREDGE 2450R DELL POWEREDGE 2450R POWEREDGE 2450R DELL DELL DELL DELL POWEREDGE 2450R POWEREDGE 2450R POWEREDGE 2450R POWEREDGE 2450R DELL DELL POWEREDGE 2450R DELL POWEREDGE 2450R DELL DELL POWERE DGE 24 50R DELL DELL POWERE DGE 2 450 R POWE RE DGE 2450 R DELL DELL DELL DELL POWEREDGE 24 50R POWEREDGE 24 50R POWERE DGE 2 450 R POWE RE DGE 245 0R メモリ、OS、 ディスクは、 各ノード毎 sgi 共有メモリ プログラミングモデルの サポートはなし メジャーな並列 プログラミングモデル の全てをサポート 大規模データセット の利用時にはスワップ が発赤 大規模なデータセットも 共有メモリには格納可能 ハードウエア、メモリ OSを重複して持つ 必要がある 大規模ノードは結果的 にトータルのコストを 低減する ロードバランスの維持 にはノード間での 通信が必要 不要なデータの移動なし で効率的な ロードバランスを実現 sgi Altix 3 0 0 0 sgi sgi Altix 3 0 0 0 sgi CXFS 共有ファイルシステム SANストレージ 30 SGI Altix 3000 シリーズでは…. ネットワーク? クラスタソフトウエア? コンパイラ? アカウント? ファイルシステム? ????? ‘Build-in’ 高速インターコネクト SGI ProPack 標準Linux SGI Altix 3000 シリーズ 高速NUMAlink インターコネクト グローバル共有メモリ POWEREDGE 2450R DELL POWEREDGE 2450R グローバル共有メモリ DELL POWE RE DGE 2 450 R DELL POWE RE DGE 245 0R DELL POWEREDGE 24 50R DELL POWEREDGE 2450R DELL POWEREDGE 2450R DELL POWERE DGE 24 50R DELL POWE RE DGE 245 0R sgi 一般商用インターコネクト DELL DELL POWEREDGE 245 0R DELL POWERE DGE 24 50R Altix 3 0 0 0 一般のクラスタシステム POWEREDGE 2450R DELL POWE RE DGE 245 0R DELL 一般のクラスタシステムの問題 DELL DELL POWEREDGE 2 450 R DELL POWERE DGE 2 450 R POWERE DGE 24 50R SGI Altix 3000 シリーズでは、ほぼ全てのメジャーな並列プログラミングが可能 ノードあたりのメモリサイズは、小さくても、大規模な共有メモリにより、より大規模な計算も可 能 シンプルなプログラミングは、プログラムの開発やメンテナンスの手間を大幅に軽減 29 より容易なシステムの運用管理 POWEREDGE 2450R DELL POWEREDGE 2 450 R DELL POWERE DGE 2 450 R DELL POWEREDGE 24 50R DELL 共有メモリは、高い対費用効果と使い易さを提供 2450R POWEREDGE 2 450 R DELL POWE RE DGE 245 0R DELL POWEREDGE 24 50R DELL POWEREDGE 24 50R POWE RE DGE 2450 R 全てのノードは、大規模なメモリ空間を有効に活用可能であり、複雑なデータ通信のための メッセージ・パッシングは不要 大規模なデータセットをメモリに確保可能なため、不要なDISK I/Oなどを排除可能 DELL 高速NUMAlink インターコネクト DELL POWERE DGE 24 50R DELL POWE RE DGE 245 0R DELL POWERE DGE 24 50R 共有メモリは、高性能を実現可能 POWEREDGE DELL POWEREDGE 245 0R DELL POWERE DGE 24 50R 全てのノードは、一つの共有メモリスペース上で全てのオペレーションが可能(分散メモリで は、各ノードは、ノード毎に小さなメモリスペースを確保) DELL DELL POWE RE DGE 2450 R 共有メモリとは? POWEREDGE 2450R SGI Altix 3000 シリーズ 一般のクラスタシステム SGI® Altix 3000 Traditional Clusters DELL POWEREDGE 2450R POWEREDGE 2450R DELL DELL DELL DELL POWEREDGE 2450R POWEREDGE 2450R POWEREDGE 2450R POWEREDGE 2450R ボトルネックは何処? プログラムがアボート? 複数ユーザ? 複数ジョブ? ????? 容易なシステムの導入 システムの運用管理が 容易 ボトルネックの解析も 容易 31 sgi sgi sgi sgi Altix 3 0 0 0 Altix 3 0 0 0 Altix 3 0 0 0 sgi sgi CXFS 共有ファイルシステム SANストレージ 32 小規模ノードクラスタと スーパーコンピュータの特長 ☺ ☺ ☺ ☺ 小規模ノードクラスタ 高いスケーラビリティ (スケールアウト) オープンソース 広範囲な開発コミュニティ 廉価な一般商用ハードウ エア プログラミングと運用管理 が面倒 ノードサイズの限界、メモ リ、I/Oの制限 実質的に高いTCOS ☺ ☺ ☺ ☺ 小規模ノードクラスタと スーパーコンピュータの特長 スーパーコンピュータ 高いスケーラビリティ (スケールアップ) 大容量メモリとI/O処理 容易なプログラミングと運用 多くの開発ツールや支援ツ ール 一般には、価格が高い 限定されたアプリケーション 33 小規模ノードクラスタ スーパーコンピュータ ☺ 高いスケーラビリティ ☺ 高いスケーラビリティ 高いスケーラビリティ(スケール・アウト、スケール・アップ) (スケールアウト) (スケールアップ) 大容量メモリとI/O処理 ☺ 大容量メモリとI/O処理 ☺ オープンソース オープンソース ☺ 広範囲な開発コミュニティ 容易なプログラミングと運用 広範囲な開発コミュニティ ☺ 容易なプログラミングと運用 ☺ 廉価な一般商用ハードウ ☺ 多くの開発ツールや支援ツ 能 新機 ール +エア クラスタ間でのグローバル システムの堅牢性と高い 生産性のためのソフトウエア プログラミングと運用管理 一般には、価格が高い 共有メモリの実現 が面倒 限定されたアプリケーション ノードサイズの限界、メモ + インターコネクトの組み込み リ、I/Oの制限 実質的に高いTCOS + 高い価値 34 TCOS:Total Cost of Ownership TCOS:Total Cost of Ownership TCOS:Total Cost of Ownership 競合比較: SGIシステムはより解析 が困難な問題への対応が可能 SGI共有メモリの利点 ハイパフォーマンス データセット全体をメモリに格納可能であり、I/O処理の最小化 NUMAflex™ インターコネクトによる高速通信とスケーラビリティ ロードバランスの最適化とワークロードの再配置、負荷の変更 CXFS ™ の導入による共有ファイルシステムの構築 導入の容易 主要な並列プログラミングモデルのサポート 現在のLinuxクラスタアプリケーションとの互換性 ノードサイズの柔軟性 より大規模なメモリをユーザが容易に使用可能 アプリケーションの集中化(コスト) 運用・管理が容易 シングルコンソールでのシステムの運用管理 共有メモリ環境での最適なロードバランスの実現のためのツール GRID環境に適用したリソース管理機能 低いメンテナンスコストとシステムチューニングのコストの削減 ユーザ 管理者 ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎ ◎35 SGI® Altix IBM® pSeries HP Super dome Sun™ Sun Fire 15K Small-node Clusters 困難な問題に対処する ために重要な機能 SSIノードの64Pまでの拡張性 数千プロセッサでのクラスタ構成 ノード間での共有メモリ 大規模問題に対応 可能なメモリアーキテクチャ 大規模問題に対応可能なLinux ソフトウエア環境 36 Itanium® Processor Family ロードマップ 今後の拡張も約束 Intelは、Itanium® Processor Family のロードマップを強化 今後のIntel Itanium 2 プロセッサファミリの搭載も可能 エンタープライズ顧客に最も競合力のある製品を提供 価格性能比の更なる向上 絶対性能の更なる向上 デュアルコアテクノロジーの早期導入によって、より高い性能の提供が可能に 新しい Itanium® Processor Family 製品を継続して、開発・製品化 オープンソースへの貢献 2002 大規模データのハンドリングとI/O機能の拡張 NUMAのより効率的なサポートと大規模システムの構築 スケーラビリティの向上 ® ® Itanium Itanium 22 Processor Processor (1 (1 GHz, GHz, 3MB 3MB L3) L3) 先端のスーパーコンピューティング技術と機能の開発と サポート 2003 ® 2004 ® Itanium Itanium® 22 Processor Processor ® Itanium Itanium® 22 Processor Processor (Madison (Madison & & Deerfield) Deerfield) (1.5GHz, (1.5GHz, 6MB 6MB L3) L3) (Madison (Madison 9M) 9M) (>1.5GHz, (>1.5GHz, 9MB 9MB L3) L3) 2005 ® Montecito Montecito (Dual (Dual Core) Core) Silicon Process 0.18 m 0.18 µµm 0.13 m 0.13 µµm 90 90 nm nm Montecito プロセッサは、デュアルコアテクノロジーを導入 グローバル共有メモリ機能の拡張 2004年には、数千プロセッサでのグローバル共有メモリを実現 システムの運用管理の一元化による利用・管理面での向上 PAC611を使用し、バスプロトコルは現在と同じものを使用 Itanium® 2 マイクロアーキテクチャを90nmプロセス技術で実装 製品リリースは、2005年を予定 ワールドクラスの性能の維持が可能なロードマップ ワールドクラスの性能の維持が可能なロードマップ 37 Intelのロードマップに関するニュース (1/16/2003) 2月に予定されているIDF (Intel Developer Forum) で予定されて いるIntelの製品発表に先立って、Itanium® processor family ( IPF)のロードマップを発表 Itanium® 2 プロセッサは、予想を上回る成果を上げている:性 能面での非常に高い性能、ソフトウエアの対応、出荷 Itanium® 2 (Madison)プロセッサは、今年の夏の製品化に向け て順調 Intelは、2004年にもItanium® 2 プロセッサの機能強化版を製 品化 Itanium® 2 ブランド より大きなキャッシュと動作周波数の向上 Montecito プロセッサに、デュアルコアテクノロジを導入し、性 能の大幅な増強を図る デュアルコアの計画の早期導入:オリジナルプランでは、より将来のプロ 39 セッサで実装を予定 38 性能の世界記録を更新中 性能、効率、そして価格性能比において 共有メモリでのメモリアクセスの世界記録 Stream TRIAD ベンチマーク 64プロセッサまでの完全なスケーラビリティ 浮動小数点演算性能での世界記録 SPECrate® fp と Linpack NxN 高い演算性能と完全なスケーラビリティ Linuxでのアプリケーションのスケーラビリティ 様々なプログラミングモデルを使用したISVアプリケーション でのスケーラビリティ IO性能 LinuxでのIO性能として、>2GB/s の実効転送速度を記録 40 STREAM ベンチマーク Triad Results SPECfp® ベンチマーク SPECfp® _rate_base2000 SGI® Altix SGI® LX 3000 3000 443 (1GHz) 227 IBM® eServer™ p690 (1.3GHz) 251 241 122 25 HP AlphaServer™ GS 12 HP Superdome™ 248 HP Superdome™ (750MHz) 63 31 IBM® eServer™ p690 64 32 16 140 HP AlphaServer™ GS (1.22 GHz) 7 128 32 64 32 16 23 27 14 68 0 0 100 200 300 400 500 600 700 800 25 50 900 75 SGI Altix 3000アプリケーション スケーラビリティ Linpack NxN ベンチマーク 300 64 150 49% 100 SGI Altix 3000 (900 MHz) SGI Altix 3000 (1 GHz) IBM eServer p690 Theoretical Maximum 50 1.1 Ghz 1.3 Ghz 55% 2 4 8 16 32 Amber (COMP.CHEM) 48 Fasta (BIOINF.) Higher is Better Star-CD (CFD) Vectis (CFD) 40 Ls-Dyna (Explicit FEA) 32 TAU (CFD) HTC-Blast (BIOINF.) 24 0 1 Gaussian (COMP.CHEM) 56 Speedup SGI® Altix 3000 理論最大性能 200 125 64プロセッサでの世界記録と全体でも第4位の性能 IBM eServer p690の2倍の性能 SGIは、64プロセッサのLinux® システムを提供する唯一のベンダー SGIのアーキテクチャは、複雑なワークロードに対する最も効率的な 42 選択肢 41 250 100 GB/sec 64プロセッサでの世界記録と全体でも第3位の性能 IBM eServer p690の1.8倍の性能 SGIは、64プロセッサのLinux® システムを提供する唯一のベンダー SGIのアーキテクチャは、複雑なワークロードに対する最も効率的な 選択肢 Gflops 125 862 SGI® 3000 SGI®Altix LX 3000 64 Sources: SGI, TOP500.org, The performance database server Fastx (BIONF) MM5 (ENVIRONMENT) 16 CASTEP (COMP. CHEM) # processors 64プロセッサでの性能の世界記録と非常に高い実効性能比 (対ピーク性能比)SGI® Altix 3000は、理論ピーク性能の87% の性能を達 成 IBM p690は、理論ピーク性能の55%しか達成できない Pentium® III 1 GHz Ethernet clusterは、理論ピークの44%、 AMD 43 Athlon™ Myrinet® clusterは、理論ピークの58%しか達成出来ない 8 GAMESS (COMP.CHEM) Ideal 0 1 16 32 48 64 プ ロ セッサ数 Altix 3000は、ほぼ、Origin3000に匹敵するスケーラビリティを実現 44 Status: March 24 ,2003 多くのLinuxのスケーラビリティの 限界に関するコメントに対して.. HPCワークロードへの対応 スケーラブルLinuxソフトウエアの概要 NUMAでのHPCワークロードの最適化 SGI ProPack™ HPCワークロード 機能拡張 “Linux isn't a market. It's a crankshaft, a widget." —Scott McNealy USA Today, December 29, 2002 システムマネージメント:パーティション、 Performance Co-Pilot™ 、高可用性システム:FailSafe™ リソースマネージメント:CPUセットとメモリ配置機能 プログラミング:MPTとarray Services、SCSL データマネージメント:CXFS™、階層ストレージマネージメント・ツ ール(DMF/TMF)、高速I/Oと大規模ボリューム(XSCSI/XVM) 標準アプリケーションの高速実行 SGI Open Source 機能付加 “IBM could run … Linux in partitions with up to four or eight processors per partition (the maximum scalability of Linux).” 標準Linux ディストリビューション —ComputerWire, October 13, 2002 45 SGI Altix 3000 プログラミングモデル node + OS 64P/512GB 64P/512GB 64P/512GB 自動並列化 OpenMPTM MPI SHMEM 自動並列化 OpenMPTM MPI SHMEM ●●● ● 最大32ノード プラットフォームサポート、エラー処理、スケーリング、NUMA 互換性、64ビットLinuxアプリケーションの実行 ベースOSとオープンソースアプリケーション デバイスドライバ, SGI XFS インストーラ 46 IRIX上で開発され、豊富な稼動実績と性能面で の改善が図られたソフトウエア スケーラブルなワークロードに対しての安定性と パフォーマンス グローバル共有メモリ 最大16TB ... node + OS 標準カーネルとディストリビューション ストレージマネージメント Fast NUMAFlex™ interconnect node + OS Boot/Driver CD 最新のバグフィックス、他のサポートデバイスドライバ XFS™:高性能ジャーナルファイルシステム 包括的システムアカウンティング(CSA) ジョブコンテナ node + OS XSCSI – ハイパフォーマンス SCSI ミドルレイヤ 64P/512GB XFS – ジャーナルファイルシステム MPI SHMEM グローバルポインタ OpenMP + MPIハイブリッドプログラミング 自動並列化 OpenMPTM MPI SHMEM XVM – ボリュームマネージャ CXFS – クラスタ共有ファイルシステム DMF/TMF – 階層ストレージマネージメント 47 48 CXFSでのSANの構築 CXFSなしでのSANの構築 優れたパフォーマンスと真のデータ共有 LAN LAN CXFSの機能 特長と利点 各ホストはRAIDアレイ上に専 用ボリュームを所有 集中化されたストレージ管理 適度な柔軟性 システム上の問題 ファイルの複製が不可避 LAN 上のトラフィックが大 きい 処理時間が長い 設置スペース 複数コピーの管理 コスト負担 SGI ® Sun® Windows NT® Switch File File OA on on SGI/Linux SGI File File XA on on SGI/IRIX SGI File D on Sun File G on Windows NT File P on SGI/Linux File Y on SGI/IRIX File E on Sun File H on Windows NT File CQ on on SGI SGI/Linux File Z on SGI/IRIX File F on Sun File CR on on SGI SGI/Linux File A on Sun CXFS導入の利点 File I on Windows NT File A on Windows NT 49 Sun® Windows NT® Switch File FileAOon SGI File FileAXon SGI File D File G File P File Y File E File H File C on File SGIQ File Z File F File C on File R SGI File A File I File A 50 SGIのアプリケーションエンジニアによるアプリケーショ ンの移植作業 Approximate Mix of ISV Application Cycles for MPI vs. SMP ほぼ、1年前から作業を開始 Intel®コンパイラによるアプリケーションのコンパイルと最 適化 SGI® Altix 3000向けの最適化 100% SMP 60% SGI Altix 3000 を2月、3月に主要ISVに出荷 40% 20% データの不要な複製、重複 保存の回避(スペースの効 率化、転送時間の削減、ネ ットワーク負荷の軽減) SGI ® ISVアプリケーションの Altix 3000シリーズへの対応 ISV Software Status for SGI® Altix 3000 80% 複数のシステムが同時/順 次にローカルファイルシステ ムへのアクセス アクセス性能は、ほぼ、ロー カルファイルシステムへの アクセスと同等 複数(異機種)のシステムで 一つのデータボリュームを 共有 全てのISVベンダーは、ネットワークでSGIが提供する大規 模SSIシステムへのアクセスが可能 MPI ISVは、このAltix 3000上で、各アプリケーションの動作 検証を実施予定 0% CFD (ISV) Explicit FEA Implicit FEA 51 52 ISVアプリケーションのAltix 3000シリーズへの対応 ISV ANSYS ISV Software Certified Date ANSYS Apr ANSYS/CFX CFX5 ABAQUS ABAQUS/Std Version SGI製品ライン VAN、SAN とHPCシステムをインテグレーション Benchmar k Ready Next Release Date 7 NOW Apr 7.1 Apr 5.6 NOW Apr TBD Apr 6.3-4 NOW Oct 6.4 Jun v2003 v2003 ABAQUS/Exp HPCシステム Version SGI NUMAflex ・ パフォーマンス ・ スケーラビリティ ・ 投資保護 NOW MSC.Software MSC.Nastran NOW v2001.0.9 NOW MSC.Software MSC.Marc LSTC LS-DYNA NOW v2001 NOW Apr NOW 960 & 970 NOW TBD ESI PAM-CRASH MAY 2003 Apr TBD Mecalog RADIOSS May CD-adapco STAR-CD NOW 4.1.q Apr TBD 3.150A NOW Jun 3.2 Fluent FLUENT Jun Exa PowerFLOW Jun 6.1.2 NOW TBD 6.2 3.4P3 Apr TBD 3.5 問題規模の拡大による解析フロー問題の顕在化 製造業における解析モデルの例 今日 Silicon Graphics Workstations and Multi-vendor VAN clients Multi Gbyte/Sec SAN Multi-vendor Compute Servers Nearline and Offline Storage 54 データフローと処理時間 ビジュアルコラボレーションの展開 SGI Onyx VAN Server and SGI Reality Center グローバル・コラボレーション • SGI® Reality Center™ • SGI® OpenGL Vizserver ™ データマネージメント 53 より高速でのシュミレーションの実施 SGI SAN Server 1000 CXFS(SAN) VAN ハイパフォーマンス • ローカルファイルシステムのスピード • ワークフロー改善 計算データの高速での移動と高い可用性 SGI Origin 3000 Compute Server スケーラブル・リアル タイム • InfiniteReality® • InfinitePerformance 異機種混合 • SGI® SAN Server™ 1000, SGI® File Server • UNIX®, Windows®, Windows NT® clients シュミレーションでのワークフローの 最適化 SGI Altix 3000 Compute Server 可視化システム モジュールシステム ・ SGI Origin シリーズ ・ SGI Altix シリーズ 55 1M cells 7 variables 8Bytes/variable 1,000 time steps Total = 56Gバイト 2~3年以内には 5M cells 12 variables 8Bytes/variable 2,000 time steps Total = 1Tバイト 56 Image courtesy of PSA データフローと処理時間 データフローと処理時間 VAN無しで解析・ポスト処理を行う場合 VANでの解析・ポスト処理を行う場合 ATM ( 20MBytes/sec) ATM ( 20MBytes/sec) SAN File Server File Server Compute Server Compute Server VAN Server Workstation 100BaseT ( 12MBytes/sec) ワークステーションへの結果ファイル の移動に要する時間: 現在 (112Gバイト) 約1.5 時間 将来 (2Tバイト) 約25 時間 100BaseT ( 12MBytes/sec) Workstation Workstation switch SAN n x 2Gbits/sec 現在 (56Gバイト) 約1.5 時間 将来 (1Tバイト) 約25 時間 全データの転送時間(2回の転送) Workstation Workstation 5Gバイト/秒のSAN構成でデータの ストア/ロード: Workstation 問題点: データのコピーのために 解析処理が遅れる 57 HPCシステムへの高い付加価値 解決策 : 現在(112Gバイト)11秒 = 450倍高速 将来(2Tバイト) 2.5分=730倍高速 VANではOnyx® システム とデータの共有と分散が 可能 実際の仕事に使える時間が増える (待ち時間の短縮) 58 ストレージ環境により高い価値を与える VAN SGI® Systems SunTM Systems SGI® VAN Servers Windows® Systems Network Legato NetWorker® Backup SGI Altix 3000 より複雑な問題の解 析を可能とする SAN Server 1000 可視化のタイムラインに おける改善 大規模なデータの管理 が容易に Seamless Low-Cost Near-Line Storage (DMF) SGI Onyx 3000 計算結果を何処の誰に でも配信可能 データの不要なコピーを排除し、ワークフローの改善を図る Linux/Irix環境でも活用可能 H P igh nce rma erfo Windows Desktops SGI® File Server NAS Access SGI SAN Server™ 1000 with CXFS™ UNIX® Woirkstations Centralized Management 大規模データセットの可視化を可能とする 分散した計算機環境でのデータマネージメントをより簡便に 59 Images courtesy of Landmark Graphics Corporation 60 グループ間での可視化の価値 グリッドコンピューティング DELL DELL POWEREDGE 2450R DELL POWEREDGE 2450R DELL POWEREDGE 2450R DELL PO WEREDGE 2450R DELL D ELL POWEREDGE 2450R DELL POWEREDGE 2450R HPC/Capability DELL POWEREDGE 2450R DELL POWEREDGE 2450R POWEREDGE 2450R DELL POWEREDGE 2450R D ELL POWEREDGE 2450R POWEREDGE 2450R DELL DELL DELL POWEREDGE 2450R POWEREDGE 2450R POWEREDGE 2450R DELL DELL POWEREDGE 2450R DELL POWEREDGE 2450R POWEREDGE 2450R DELL DELL DELL PO WEREDGE POWEREDGE POWEREDGE 2450R 2450R 2450R 2450R DELL DELL DELL DELL POWEREDGE POWEREDGE POWEREDGE POWEREDGE 2450R 2450R DELL POWEREDGE 2450R ビジュアルエリア ネットワーキング D ELL POWEREDGE 2450R DELL POWEREDGE 2450R DELL POWEREDGE 2450R 2450R DELL DELL D ELL POWEREDGE POWEREDGE POWEREDGE 2450R 2450R 2450R HPC/Capacity 分散したグループ 分散したグループ リリモ モー ートトの の専 専門 門家 家 ? グリッドインフラストラクチャ CXFS Accelerate Accelerate Data DataAccess Access ビジュアルエリア ネットワーキング 広域に分散したグループ間でのコラボレーション リモートの専門家とのコラボレーション 61 Images courtesy of Fakespace systems and Norsk Hydro, and Landmark Graphics Corporation Image courtesy of Janssen Pharmaceuticals CAEグリッドコンセプト 部門エンジニアリングでの事例 PC/Unix® の混在環境でのワークフロー をよりシンプルに クライアントの能力に依存することなく、 大規模な問題をより、高速に処理する ことも可能 遠隔地の専門家との共同作業 グリッドコンピューティングでのリモートの可視化 62 研究でのワイドエリアネットワークでのコラボレーション •30名の部門員 •4-pipe SGI® Onyx® 3000 •32-CPU, 2GB/sec I/O •マルチユーザ コラボレーション SGI® Origin®3000 HPC Server MIPS® and IRIX® MCAE 計算 生産性の向上とコストの削減 CXFS™ UNIX® WS Windows NT® WS Mac® WS ….. Storage Local Area Network SGI® File Server SGI SAN Server™ CFD image courtesy of Dream Team, engine image courtesy of PSA, auto image courtesy of BMW 63 64 SGI® サーバシステムの位置づけ CAEグリッドコンセプト MIPS® and IRIX® VAN/HPC Server SGI® Onyx® 3000 HPC Server Visualization with G-Brick VizServer 可視化 Application Complexity SGI® Altix 3000 IPF® and Linux® Large SSI SSI to 64 CPUs SSI to 512 CPUs Mix of Applications MCAE Ready for Linux® CXFS™ UNIX® WS Windows NT® WS Mac® WS ….. Storage Moderate SSI SGI® Altix 3700 Small SSI SGI® Origin® 3900 Heavy Node Cluster SSI to 16 CPUs Cluster > 64 CPUs Single Application SGI® File Server SGI SAN Server™ 65 まとめとして Linuxを新たな高みへと SGI® Altix 3300 SGI Altix 3700 1–10 Users 10–100 Users (Departmental) (Data Center) SGI Origin 3900 ~ 512 CPUs Enhanced SGI Origin 300 ~ 32 CPUs, and clusters SGI Altix 3000 ~ 64 CPUs, and clusters HPC Resource Requirements 66 参考資料 最先端の技術を展開 20年間の技術革新の歴史 NUMAflexアーキテクチャ、大規模データアクセス、ビジュアルエリアネットワ ーキング クラスタのように構築し、スーパーコンピューティングを実現 グローバル共有メモリ MSC.Nastranのバージョン2003以降では、SGI Altix 3000向けの最適化がより多く適用され、通 常の複数ジョブの同時実行環境でのより最適 な実行が可能となります。 64ビットNUMAアーキテクチャとクラスタリング技術を融合することで、新たな 革新的なスーパーコンピューティングの展開 Linuxにおけるオープンソースへの貢献とLinuxの性能、信頼性のさらなる向 上を目指す SGI Altix 3000: 絶対的な性能と継続的な機能・性能の向上 SGI NUMAflex アーキテクチャ Intel Itanium 2 プロセッサと将来的なアップグレード SGI ProPack による最適化されたソフトウエア環境の提供 67 68 MCAEアプリケーションのパフォーマンスと生産性 http://www.sgi.co.jp/features/2003/mar/mcae/ SGIのHPCワークロードへの対応 SGIでは、LX3000システムにおけるHPCアプリケーションのス ループットおよびI/O性能の改善のために以下のようなツール やライブラリを提供 OSスケジューラはI/O等による割り込み、中断後のプロセスを 実行させる最適なCPUを識別できない可能性がある SGI機能拡張:CPUSETやdplace コマンド OSの機能の一部として動作するI/Oバッファーキャッシュは、 I/O負荷の高いジョブの実行に対しては、たいていの場合に不 十分なものとなる SGI機能拡張:FFIO 69 70 FFIO Dplaceコマンド FFIO (SGI Flexible File I/O) NUMAメモリプレースメントツール データのローカリティーを考慮したメモリ配置が可能 高速I/Oライブラリ キャッシュのローカリティーに加えて、メモリのローカリテ ィーは分散共有メモリシステムであるNUMAFlexシステム においては、性能に対して非常に重要な要素となる NUMAFlexシステムのローカルメモリへのアクセスは、リ モートメモリへのアクセスと比較して少なくとも30%は高速 System Memory Application Job Data dplaceツールにより最適なメモリ配置が可能となる バッチシステムへの組み込みなどにより、ユーザは、この ツールを意識することなく最適なメモリ配置の実行が可能 71 I/O Buffer Cache memory copy Controllers & Disks raw I/O FFIOは、I/OバッファキャッシュとDISKの間のI/O転 送速度を改善するライブラリセット 72 ABAQUSでの適用事例(1) ABAQUSでの適用事例(2) Automotive Customer Power train OSのバッファキャッシュとFFIOでの性能差 Benchmark Study 25% 50% Model 2.85 GB Model size of 1.9 Million DOF Lanczos extraction of 17 modes ABAQUS/Standard v6.2-4 2.85G memory needed for model 16P/16G Origin 3000/500 MHz 32 x TP900 disks on 8 controllers 4 processors per job Model 2.85 GB 16 GB より大きなバッファキャッシュ の使用で性能は向上するか ? I/O Model 2.85 GB 75% I/O Buffer Cache Model 2.85 GB I/O Buffer Cache 73 ABAQUSでの適用事例(3) 74 ABAQUSでの適用事例(4) OSのバッファキャッシュとFFIOでの性能差 OSのバッファキャッシュとFFIOでの性能差 シングルジョブでの挙動 複数ジョブの同時実行時の挙動 経過時間(秒) (O3000/500MHz) 10000 12000 9500 9000 Defalut IRIX FFIO 8500 個々のジョブの実行性 能も低くまた、各ジョブ の実行時間もばらつく 10000 経過時間 8000 (秒) FFIO+dplace Defalut IRIX 8000 6000 7500 75% 63% 50% 25% 全メモリ容量(16GB)に対してのメモリ使用量(%) より少ないメモリ でより高い性能を 実現: 75 4000 job #1 job #2 スループットジョブ 76 Altix 3000 Altix 3000 Pressure Test スループット性能を重視したシステム設計 Pressure test with 9 jobs on 8p Altix 3000 Altix 3000での初期ベンチマークでの性能データ は、この高いスループット性能を裏付ける MSC.Marc In-Core ソルバでの事例:8CPUs システムで、9本の ジョブを同時実行 システム構成: Altix 3000 8p,32GB 性能劣化: 0% ∼ 22% で、平均9%の劣化 2. 4つの8-way LS-Dyna 並列実行ジョブの同時実行 システム構成: Altix 3000, 32p, 64GB, XVM 最大の性能劣化でも、1% 3. 6つの4-way StarCD ジョブを同時に実行し、そのジョブを実行 中に4つの対話処理プロセスも実行 24841 24486 24521 24601 Job 2/8p Job 3/8p Job 4/8p 24381 Job 1/8p 24000 Elapsed Time (sec) 21000 20000 Standalone 1.60 1.50 1.40 1.30 1.20 1.22 1.18 1.14 1.14 1.10 1.07 1.00 2 1.00 3 4 1.03 1.00 5 6 7 8 9 Degradation between 0% and 22% with an average of 9% 25000 22000 1.70 jobs Altix 3000 Throughput Performance 23000 1.80 1 77 System: Altix 3000, 32p, 64GB, XVM, TP900 1.90 1.00 システム構成: Altix 3000 32p, 180GB. 最大の性能劣化でも、7% Throughput of 4 jobs, each 8-way, LS-Dyna performance degradation (vs standalone) 1. 2.00 Individual jobs in the throughput mix are between 0.4% and 1.8 % slower than the standalone case (similar behavior as on IRIX) 79 78
© Copyright 2024 ExpyDoc