SX5@RCNP超入門 斎藤卓也 中村純 広島大学・情報メディア教育研究センター RCNPワークショップ「高速計算機を用いた研究の現状と将来」 2004年11月10日(水) http://nio-mon.riise.hiroshima-u.ac.jp/~nakamura/RCNP-SX5.ppt (出来れば英語版も準備したい) このTalkで訴えたいこと or 真のHPCを目指して SX5 at RCNP 1. すばらしいハードウェア – 是非研究に有効に役立てましょう 2.ボロボロのソフトウエア – – – 我々の知識不足が原因? どうやってうまく使うか できれば何とか次期システムでしてほしい 国外ユーザーからのメッセージ • One complaint about SX5 is that there is no good and up to date help web page (at least in English) for the users. They have changed now the commands for submitting jobs etc. I have received e-mails concerning those changes but the main body is in Japanese. It would be helpful if there would be a web page with such info. in English (perhaps there is and I don‘t know) It is also not clearly stated anywhere which are the available disks and their characteristics, it seems that in some of them data is removed if not used for a certain time. Anyway, SX5 works much better than any of the systems I have used in Spain so I don't want to complain too much. • SX5について不満に思うことは、どこにもユーザーに対するきちんとした最新の HELPウェブページが(少なくとも英語では)無いことです。ジョブをサブミットする コマンドなどが最近変更されました。この変更に関するE-メールを受け取りました が本文は日本語でした。もし、このような情報に関する英語のウェブページがあ れば、とても助けになります。(おそらく存在していて私が知らないだけなのででょ う) どれが使用可能なディスクで、その条件がどうなっているのか、どこにも記述 が見当たりません。ディスクのいくつかは、一定時間使用されないと、データが消 されるようです。 しかし、SX5は私が自国でこれまで使ったどのシステムよりも、はるかによく動く ので、あまり不満をいいたいとは思いません。 目次 1. 2. 3. 4. 5. 6. SX5 (中村) アカウントの取得まで (中村) ログイン、ジョブのサブミット(SX57) (中村) SX上でのコンパイル (斎藤) 並列実行(SX52~57) (斎藤) 要望 (斎藤) アカウントの取得まで 1. 利用資格:素粒子・原子核の研究者 有職、無職を問わない 国外の人も利用可(これは大英断!大計センターは駄目) 2. RCNP理論部・保坂淳先生にメールでお願いする 3. http://www.rcnp.osaka-u.ac.jp/Divisions/CN/computer/apply/apply_com.html からUNIXマシーン(senri.rcnp.osaka-u.ac.jp)のアカ ウントをWebで申請。 4. このページだけ英語だが実際の申請ページ、説明は日本語なので、日 本語の読めない人は誰かに頼む http://www.rcnp.osaka-u.ac.jp/Divisions/CN/computer/super/apply.html を読んで、UNIXマシーンからメールでスーパーコン ピュータ(SX5)のアカウントを申請 返事はsenriに来る ログイン、ジョブのサブミット(SX57) 1. senri.rcnp.osaka-u.ac.jpにまずログイン 2. そこからsx5.rcnp.osaka-u.ac.jpへssh (telnetもOK) 3. sx5上のUNIXは非常に使いにくいので、コ ンパイル、サブミット(とキューの確認)以外 はできるだけsenriの上で senri上の/home.sx5/rcnpXXXX にsx5のホー ムがマウントされている (rcnpXXXXはsx5上のアカウント名) SX5 ベクトル機 長いDOループ(繰り返しループ)のある科学技術計算な ら、PCクラスターよりはるかに高い実行スピード、容易な プログラミング 1ノード=10GFLOPS/CPU × 16 + 128GBメモリー (1GFLOPS=1秒間に109回の和差積計算) CMC(大阪大学サイバーメディアセンター) 全体では8ノード RCNPが1ノード、 レーザー核融合研究センターが1ノード 多分配置はこうなっている SX50 SX51 SX52 SX53 front02 (login.hpc.cmc.osaka-u.ac.jp) SX54 SX56 (ILE) SX55 SX57 (RCNP) senri (senri.rcnp.osaka-u.ac.jp) ログイン、ジョブのサブミット(続き) • コンパイルは(pathは/usr/bin) fortran → f90 C → cc C++ → c++ • 投げるキューは RS 5 min 2GB(最大16GB) RM 2 hours 2GB(最大8GB) RL 8 hours 2GB(最大16GB) ログイン、ジョブのサブミット(続き) • キューの状態を見る qstat -u rcnpXXXX (自分のジョブの状態) qstat -Q (すべての状態) • キュー上のジョブをキャンセル qdel request.id • NQSII(新しいNQSコマンド)一覧表 英語版はどこ? 簡単なサブミットの例 • qsub –q RM script-file script-fileの中身の例 #!/bin/csh -f setenv F_PROGINF DETAIL cd /sx/rcnp/home/rcnpXXXX ./a.out > out mv fort.2 fort.1 qsub -q RM goNEXT 終了後、XXX.oYYY, XXX.eYYYというファイルができる (XXX:スクリプトファイル名、YYY:ジョブID) SX5上でのコンパイル On sx57 ( Super-UX UNIX), % f90 program.f On login02 ( Linux ), % sxf90 program.f よく使うオプション % f90 -C hopt –Wf”-a dbl4” –ftrace -C hopt : 最適化オプション -Wf”-a dbl4” : 単精度実数→倍精度実数 -ftrace : 実行性能の測定 プログラム実行サイズの概算 % size ./a.out 4151696 + 237456 + 441659328 = 446048480 ( cmc上では、sizeではなく、sxsize(バグあり?) ) % ftrace -f ftrace.out (sxftrace, login02 ) Ftrace *--------------------------* FLOW TRACE ANALYSIS LIST *--------------------------* ? Execution : Fri Oct 1 18:20:26 2004 Total CPU : 1:09'01"691 PROG.UNIT FREQUENCY EXCLUSIVE prodlink 1055803 1254.936( 30.3) copylink 938136 791.739( 19.1) dudxi grotat gprojct sgfix 117317 117267 117267 117267 AVER.TIME MOPS MFLOPS V.OP AVER. VECTOR I-CACHE O-CACHE BANK CONF 1.189 12945.6 5829.0 99.97 507.2 1254.300 0.1561 0.0530 520.8865 0.844 1496.2 0.0 655.447( 15.8) 5.587 4122.1 745.3 402.203( 9.7) 3.430 2573.5 0.0 338.031( 8.2) 2.883 12490.8 5547.6 160.532( 3.9) 1.369 614.4 204.5 99.76 507.1 791.204 0.0466 0.0346 224.3939 99.87 507.1 655.111 99.90 507.1 400.673 99.86 507.4 337.143 99.85 507.1 159.665 0.1700 0.3391 0.5163 0.6046 0.0535 226.9930 0.1071 73.5016 0.1420 15.4681 0.0935 73.9506 略 init3 1 0.001( 0.0) 0.628 446.2 0.0 2.60 260.5 0.000 0.0000 0.0000 0.0000 cinit3 1 0.000( 0.0) 0.003 30.3 0.0 0.00 0.0 0.000 0.0000 0.0000 0.0000 ---------------------------------------------------------------------------------------------------------total 3168865 4141.692(100.0) 1.307 6722.5 2567.4 99.91 507.0 4111.186 2.2417 0.7822 1311.3879 並列プログラムのコンパイル MPIを使うとき、 並列キューの書き方 On sx57 % mpif90 mpi-test.f #!/usr/bin/csh #PBS -q P4A@cmc cd /xxx/xxxx mpirun -np 4 ./a.out On login02(cmcノード) % sxmpif90 mpi-test.f 並列プログラムのコンパイル 自動並列化を 使うとき % f90 –P auto OpenMPを使うとき % f90 –P openmp 並列キューの 書き方 #!/usr/bin/csh #PBS -q P4A@cmc setenv OMP_NUM_THREADS 4 cd /xxx/xxx ./a.out 並列キュー(cmcノードのみ) P4A, P4, P8, P16(同ノード内) MPI32、MPI64 ハードディスク 使用できおもなハードディスク: MP(sx57) MP(cmc) hosted speed(sx57) speed(cmc) size quota /sx/rcnp/home /sx/rcnp/home sx57 high mid 1TB 5GB/user /sx/rcnp/work /sx/rcnp/work sx57 high mid 2TB none /sxshort/rcnp /sxshort/rcnp CMC mid high 8TB none /sx/rcnp/data ibm slow 3TB none /sx/rcnp/data2 fss slow 2TB none ハードディスク 現在の使用状況: sx57:/sx/rcnp/home sx5g0:/sxshort/cmc sx5g0:/sxshort/ile sx5g0:/sxshort/rcnp sx54:/sx/cmc sx56:/sx/ile/local sx56:/sx/ile/home sx56:/sx/ile/temp sx57:/sx/rcnp/work ホームディレクトリ 1.0T 330G 8.3T 7.3T 8.3T 7.3T 8.3T 7.3T 1.0T 436G 1.0T 150G 1.0T 150G 2.1T 868G 2.1T 2.1T 734G 31% /sx/rcnp/home 1.0T 88% /sxshort/cmc 2週間で削除 1.0T 88% /sxshort/ile 1.0T 88% /sxshort/rcnp 588G 43% /sx/cmc 914G 15% /sx/ile/local 914G 15% /sx/ile/home 1.2T 41% /sx/ile/temp 60G 98% /sx/rcnp/work ワークディレクトリ 計算結果の一例(SX5による) 格子QCDシミュ レーションによる 有限温度QCD電 場・磁場遮蔽質量 の計算。 並列キューP16、 P8、などを使い正 味6ヶ月程の計算 要望1:コンパイラーについて 1. 2. 3. 4. Fortran90 は、Fortran77より遅い。 F90の自動並列化では、Fortran90のモジュールが並列化 されない。自動並列化したとき、やけに実行ファイルが大き くなる。 OpenMP(要素並列用インターフェース)でも、モジュール を含むとき並列化されない。(ひょっとしてOpenMPの問 題?実行ファイルは大きくならない。) コールしないサブルーティンもメモリーを必要とする?モ ジュールを含んでいるせい? 要望2:ハードディスクについて 1. ユーザー個人(自分)専用のHDをもてないか?お金は自 分ではらうので(300GBあたり3万円程度)。 2. SX5上で生成されたバイナリーファイルを、じかに login02(linux), senri上で読み込むことはできないか? も しくは、データ転送した後自分のパソコンで。 3. RCNPとCMC間の転送速度やお互いのHDの参照。(大変 だとは思いますが・・・。) 要望3:実行するとき 1. RCNPではインタラクティブにプログラム実行がOK(CMCで は駄目)。とても便利、しかしフロントエンドの挙動が遅くなる ので、制限を付ける? 2. RCNPノードにおいてRLキューでも最大16Gバイトであり、上 限を増やしたキューがほしい。これ以上のプログラムは要素 並列化をしないといけない。 – P4なら60Gバイト – CMCでは50Gバイト(p1L)、これはRCNPユーザーは使用 不可。 3. MPIで並列化してもWall Clock time (戻ってくるまでの実時 間)は早いとは限らない。良いのか悪いのか??? 要望4:その他 1. 2. 3. 4. ヘルプデスクのFAQは、2001年度から何も更新されていな い。また、RCNPからのヘルプデスクのリンクは切れている。 Super-UXはとにかく使いにくい。RCNP側にもLinuxのフロン トエンドが欲しい。 いままでの細かく更新された内容(クォーターコマンド、バッ ファーサイズ(F_SETBU)などに関すること)を、どこかにまと めて欲しい。現状では、以前にメールで流れた情報を探すの に苦労する。また、新参者はそもそもわからない。(たとえば、 CMCノードにある“osirase”コマンドは便利。) 日本語を理解しない外国人ユーザーについては? 次期コンピュータとしては ⇒次のステップへ の計算のため 200TFLOPS欲しい
© Copyright 2025 ExpyDoc