13 マルチフェーズフィールド法を用いた 金属多 結晶組 織 形成シミュレーションの 大 規 模 GPU 計算 Multi-GPU Computation of Multi-phase Field Simulation of the Evolution of Metallic Polycrystalline Microstructure 量子モンテカルロ法に基づく 振 動 状 態 解 析の大 規 模 並列 計算 A Large-scale Parallel Computation for Vibrational State Analysis Based on Quantum Monte Carlo method 個別要素 法による粉 体の大 規模シミュレーション Large-scale DEM Simulations for Granular Dynamics マルチフェーズフィールド法を用いた 金属多結晶組織形成シミュレーションの 大規模 GPU 計算 山中 晃 徳 * 岡 本 成 史 ** 下川辺 隆 史 *** 青木 尊之 *** * 東 京 農 工 大 学 大 学 院 工 学 研 究 院 先 端 機 械システム部 門 ** 東 京 農 工 大 学 大 学 院 工 学 府 機 械システム工 学 専 攻 *** 東 京 工 業 大 学 学 術 国 際 情 報センター 金 属 材 料の内 部で生じるミクロな多 結 晶 組 織 形 成のシミュレーション法として注 目されているマルチフェーズフィールド ( MPF )法を複 数の GPUで高 速かつ大 規 模に並 列 計 算する方 法を開 発した。本 稿では、数 値 計 算と並 列 処 理のためのデー タ通 信を非 同 期 実 行するためのオーバーラッピング法を導 入した MPF 法の計 算 手 法を紹 介する。さらに、開 発した GPU 計 算 手 法による多 結 晶 粒 成 長の大 規 模 3 次 元シミュレーションをGPUスーパーコンピューター TSUBAME2.5 に実 装し、良 好 な実 行 性 能が得られたことを示す。 はじめに 1 演 算とデータ通 信を非 同 期に行うアルゴリズム )と、それを東 京 工 業 大 学 学 術 国 際 情 報センターの GPUスーパーコンピューター TSUBAME2.5 に実装して実施した、金属多結晶組織形成の大規模 3 次 元シミュレーションを紹 介し、我々が開 発したGPU 計 算 法の 実行性能評価を示す [4] 。 地 球 環 境に与える負 荷の低 減のために、ハ イブリッド自 動 車など の燃費の良い自動車の開発が活発である。自動車の燃費をさらに 向上させるためには、エンジンやモーターの効率向上の他に、車体 の軽量化も重要な技術課題とされている。自動車車体の軽量化は、 使 用する金 属 板 材を薄 肉 化することにより可 能であるが、衝 突 安 マルチフェーズフィールド法 全 性を確 保するために強 度も高めることが必 要とされる。しかし 2 一般には、金属材料は強度を高めると加工性は低下する。すなわち、 薄くプレス加 工する際に割れ易くなる。そのため従 来の材 料 研 究 本研究で使用したMPF 法は、1999 年にSteinbachらによって提案 開 発では、絨 毯 爆 撃 的な実 験を行い、材 料の特 性を支 配する材 料 された [1] 。MPF 法は、次 式で表される材 料の全 自 由エネルギーが 内部のミクロな構造の空間分布や形態を制御するための適切な合 単調に減少するようにミクロ組織形成が進行するとの仮定に基づ 金 組 成や製 造プロセスを見つけ出す努 力を重ねてきた。しかし近 いている。 年では、材 料 研 究 開 発の国 際 競 争が激 化しており、如 何にして効 率 良く、無 限の組み合せが存 在する合 金 元 素や製 造プロセスの中 から、所 望の特 性を具 備する材 料を作るための条 件を見つけ出す かが極めて重要となっている。 ルギーと呼ばれる。W ij や a ij は界面エネルギーや界面幅に関係づけ 縮するために、計 算 材 料 学に基づく数 値シミュレーションにより られるパラメータである。 ( r, t )は、フェーズフィールド変数と 材料のミクロ組織や特性を予測する計算技術の開発が世界的に活 呼ばれ、異なる N 個の結 晶 粒からなる系を考えたとき、空 間 座 標 r 発となっている。その中でも、材 料 中のミクロ組 織を予 測するた と時間 t において、ある i 番目( i = 1 ~ N )の結晶粒が存在する確率 めの強 力な数 値シミュレーション方 法としてフェーズフィールド を表す。したがって、たとえば番 号 1 の結 晶 粒(結 晶 粒 1 と呼ぶ) 法が注 目されている。特に、実 用 金 属 材 料のほとんどで観 察され が存在する座標では ( r, t )= 1 、結晶粒 1 が存在しない座標では る多結晶構造を有するミクロ組織の形成過程を計算するための方 ( r, t )= 0 と定義する。また、結晶粒 1 と他の結晶粒との界面を 法として、マルチフェーズフィールド( MPF)法 [1] が世 界 標 準とな 有限厚さの領域と定義し、そこで 0 から 1 へと滑らかに変化するも りつつある。しかしながら、2011 年にゴードンベル賞を受 賞した のと定義する。以下では各変数について、 ( r, t )は省略して記する。 通 常のフェーズフィールド法を用いた合 金 凝 固の計 算 [2] とは異な 式(1)に示した全自由エネルギーの時間に対する単調減少を仮 り、MPF 法では複雑な非線形項を含んだ複数の偏微分方程式を解 定すると、 の時間発展方程式は、Allen-Cahn 方程式より次式で く必 要があるため、数 値 演 算とメモリの両 面で計 算コストが大き 与えられる。 いことが問題である。 そこで我々の研 究では、GPUを用いてMPF 法を高 速かつ大 規 模 に並 列 計 算する技 術を開 発している。本 稿では、MPF 法を多 数の GPUを用いて計算するために必要なオーバーラッピング法 [3]( 数値 02 ここで、右辺第 1 項はポテンシャルエネルギー、第 2 項は勾配エネ これに対して現 在では、材 料 開 発のコストや期 間を飛 躍 的に短 ここで、n は任意座標において非零となるフェーズフィールド変数 の個 数、 はフェーズフィールド変 数の変 化を規 定するモビリ 3.2 領域分割 ティーである。 MPF 法を複数のGPUで計算するために、全計算領域を複数のサブ なお数 値シミュレーションにおいては、式( 2)に示す の偏 微 領 域に分 割し、各サブ領 域の計 算にCPUとGPUを 1 基ずつ割り当 分 方 程 式を時 間と空 間について離 散 化し、3 次 元 直 交 格 子 上でス てる、領 域 分 割 法を採 用した。例えば、図 1 に示すように、NX × テンシル計 算を行う。本 研 究では、空 間 微 分は 2 次 精 度の有 限 差 NY × NZ 個の差分格子からなる全計算領域を 3 次元分割により x 、 分法、時間積分は 1 次精度のオイラー法を用いて計算した。 y 、z 方向にそれぞれ X 、Y 、Z 分割する場合には、サブ領域に含まれ る差分格子点は NX /X × NY /Y × NZ /Z 個となる。本研究では、ス テンシル計 算を行う為、隣 接するサブ領 域 間のデータ通 信が必 要 MPF 法の複数 GPU 計算 3 となる。そのため、各サブ領域の x 、y 、z 方向の端面に境界領域を 作成する。すなわち、サブ領域の x 、y 、z 方向の端に、それぞれ 1 × NY × NZ 、NX × 1 × NZ 、NX × NY × 1 の境界領域を作成する。境 界領域のデータ通信には、MPI を用いる。なお、本研究で実施した 実行性能の評価では、全計算領域サイズを変えるごとに、1 次元分 割、2 次元分割および 3 次元分割でテスト計算を実施し、実行性能 3.1 Active Parameter Tracking 法 が最も高い領域分割方法を採用した。 本研究で用いたMPF 法では、N 個すべての結晶粒ではなく、任意座 標に存 在する n 個の結 晶 粒に対 応する についてのみ時 間 変 化 3.3 スレッドブロックの設定 を計 算すればよい。したがって、N 個すべての の値や結 晶 粒 番 GPUの性 能を十 分に発 揮させてシミュレーションを行うためには 号 i の値をメモリ上に保存しておく必要はない。そこで本研究では、 スレッドおよびブロックの割 当て方 法が非 常に重 要となる。本 研 メモリ効率化手法としてActive Parameter Tracking( APT)法を 究では、図 2 のように、サブ領域の格子点数が nx × ny × nz の場合、 用いた [5] 。APT 法の詳細は文献 [5] を参照されたいが、MPF 法で多結 x 、y 方向にそれぞれ X ’ 、Y ’に分割した。つまり、サブ領域を nx /X ’ 晶 組 織 形 成の 3 次 元シミュレーションを高 速に行うためには、メ × ny /Y ’ × nz の小領域に分割し、nx /X ’ × ny /Y ’ × 1 のスレッドブ モリアクセス数やデータ通 信 量を低 減するためにも、APTの利 用 ロックが z 方向に nz 回移動するように計算した。スレッドとブロッ は必 須である。本 稿では、APT 法の処 理のうち隣 接 差 分 格 子 点の クの割り当て数については、計 算 領 域サイズや領 域 分 割 数に応じ データを必要としない処理をAPT1 、隣接差分格子点のデータを必 て、試行錯誤により最適値を決定した。 要とする処理をAPT2 と記する。 図 1 3 次 元 分 割による計 算 領 域の分 割 03 マルチフェーズフィールド法を用いた 金 属 多 結 晶 組 織 形 成シミュレーションの大 規 模 GPU 計 算 図 3 オーバーラッピング法の計 算ダイアグラム 図 2 スレッドブロックの設 定 GPU スーパーコンピューター TSUBAME2.5 における実行性能評価 3.4 オーバーラッピング法 4 複数のGPUとCPUを用いて並列計算する場合、並列数を増やすほ ど境 界 領 域のデータ通 信のオーバーヘッドが発 生し、実 行 性 能が 低 下する。そこで本 研 究では、CUDAの複 数カーネルの非 同 期 実 4.1 多結晶粒成長シミュレーション 行 機 能とGPU-CPU 間の非 同 期 通 信 機 能およびこれらの同 時 実 行 本研究で開発したMPF法の複数GPU計算法のベンチマークとして、 機能を利用して、数値演算とデータ通信をCPUとGPUの両方で同 東 京 工 業 大 学 学 術 国 際 情 報センターのGPUスーパーコンピュー 時に実 行し、オーバーヘッドを隠 蔽するためのアルゴリズム(オー ター TSUBAME2.5 において、多結晶粒成長の大規模 3 次元シミュ バーラッピング法 )を開発した 。 レーションを実施し、実行性能の評価を行った。実行性能の評価は、 図 3 に、オーバーラッピング法を適 用したMPF 法の計 算ダイア すべて単精度計算にて行った。 グラムを示す。本 方 法では、GPUで行う計 算を 4 つのストリーム 図 4 に、TSUBAME2.5 で計算した多結晶粒成長シミュレーション ( Stream 1 ~ Stream 4)として用意する。まず、Stream 1 では、各 の 結 果 の 一 例 を 示 す。こ の 例 で は、0.512 3 mm 3 の 計 算 領 域 を GPU に割り当てられたサブ領域内部に対して式( 3)の時間発展方 1024 3 の規則差分格子で分割し、256 台のGPUを用いて計算した。 程 式の計 算とAPT1 の処 理を行う。これと並 行して、Stream 2 ~ 初 期 結 晶 粒 数は 32768 個であり、図 4 では各 結 晶 粒に異なる色を Stream 4 では、境界領域に対して式( 3)の時間発展方程式の計算 付けて多結晶粒組織を可視化した。多結晶粒成長は、金属材料の を行う。Stream 2 ~ Stream 4 での計算が終わり次第、GPUのグロー 強度を調節するために行われる熱処理( 焼鈍 )などで生じる現象で バルメモリにある計 算 結 果をCPU 側のホストメモリへ転 送する。 あり、その際に観 察される結 晶 粒の粗 大 化と収 縮して消 滅する挙 ここでは、CUDAの非同期通信関数 (cudaMemCpyAsync ) を用いる。 動を良 好に再 現できている。このシミュレーションのような大 規 一 方、CPU は 1 計 算 ステ ッ プ 前 に 計 算 さ れ GPU の グロ ー バル 模な計 算 領 域で、かつ非 常に多 数の結 晶 粒で構 成されるミクロ組 メモリ上にある境 界 領 域の計 算 結 果をcudaMemCpyAsyncによ 織の変化を考慮したシミュレーションを行うことで初めて、正しい りホストメモリへ転 送した後、Stream 2 ~ Stream 4 の処が完 了 多結晶組織の統計学的評価( 例えば、結晶粒サイズの平均値の変 するのを待 機する。Stream 2 ~ Stream 4 の処 理が完 了すれば、 化やその分布の評価 )が可能となる。 境 界 領 域について APT 1 と APT 2 の処 理とそれに必 要なデータ 図 4 で示したような、多 結 晶 粒 成 長シミュレーションの実 行 性 通 信を行う。以 上の処 理により更 新された境 界 領 域のデータを 能を評 価するために、1GPUで計 算する差 分 格 子 点 数を 256 3 、結 cudaMemCpyAsyncによりGPUのグローバルメモリへ転送する。 晶 粒 数を 512 で一 定とし、使 用するGPU 数を変えることで計 算 領 CPUでの計算とデータ通信、および全てのStreamの実行完了を 域サイズを大きくした際の浮 動 小 数 点 演 算 性 能( FLOPS)の変 化 確 認してから、GPUが境 界 領 域に対してAPT 2 の計 算とデータ更 を評 価した。この評 価により、弱スケーリング性 能を評 価するこ 新を行い、1 計算ステップが完了する。なお、ホストメモリ上のデー とができる。図 5 に、弱スケーリング性能の評価結果を示す。オー タ更新は、Stream 1 ~ Stream 4 を実行している間に行うことがで バーラッピング法を導 入せずとも、FLOPS 値はGPU 数に比 例して きる。 増 加しており、良 好なスケーリング性 能が得られているが、オー [4] バーラッピング法を導入すれば、実行性能は全体的に 3 ~ 4 倍は向 上する。この結果、GPU 数を 729 、差分格子点数を 23043 、結晶粒 数を 373248 とした計算では、実行性能は 1.9 TFLOPSとなった。 04 次に、計算領域サイズと結晶粒数は一定とし、領域分割数(GPU 数 )を変 化させてシミュレーションを実 施した際のFLOPS 値の変 化 、すなわち強スケーリング性能を評価した。ここでは、2563 差分 格子点の計算領域に含まれる結晶粒数を 512 で一定とし、計算領 域を 2563 、5123 、10243 差分格子点とした。図 6 に、強スケーリン グ性 能の測 定 結 果を示す。基 本 的には、どの計 算 領 域サイズを用 いてもGPU 数の増 加によりFLOPS 値は線 形に増 加し、良好な強ス ケーリング性能が得られているが、2563 差分格子点の計算領域を 128GPUで計算した場合のように、設定した計算領域に対してGPU 数が過多となると、実行性能が低下する。これは、GPUで行う計算 時 間がCPUで行うデータ通 信などの処 理に要する時 間よりも短く なることで、オーバーラッピング効果が得られなくなったためであ る。しかしながら、計 算 領 域を 5123 および 10243 差 分 格 子とした 計算では、GPU 数が 100 を超えても良好なスケーラビリティが得ら れることがわかる。 図4 TSUBAME2.5 で計 算した多 結 晶 粒 成 長シミュレー ションの結 果 。差 分 格 子 点 数は 1024 3 であり、 256GPU を使 用した 。結 晶 粒ごとに異なる色を付 けて多 結 粒 組 織を可 視 化した 。 図 6 多 結 晶 粒 成 長シミュレーションの MPF 法の複 数 GPU 計 算の強スケーリング性 能 。 図 5 多 結 晶 粒 成 長シミュレ ーションの複 数 GPU 計 算の 弱スケーリング性 能 。 05 マルチフェーズフィールド法を用いた 金 属 多 結 晶 組 織 形 成シミュレーションの大 規 模 GPU 計 算 おわりに 5 MPF 法を用いて、金属材料中の多結晶組織形成の高速かつ大規模 なシミュレーションを行うために、複 数のGPUで並 列 計 算する方 法を開発した。本稿では、開発した計算法をGPUスーパーコンピュー ター TSUBAME2.5 に実装し、多結晶粒成長の大規模 3 次元シミュ レーションを行い、優れた実行性能を得られることを示した。現代 の材 料 制 御 技 術を利 用しても、実 験 的な研 究 開 発を繰り返して、 所望の結晶粒サイズを得るための最適条件を決定することは時間 のかかる作 業となる。我々が開 発した MPF 法の複 数 GPU 計 算 法 により、金属多結晶組織の変化を効率的かつ高精度に解析可能と なれば、材 料 開 発 期 間の短 縮、実 験コストの削 減に大きく貢 献で きるものと期待している。 謝 辞 本研究は、平成 25 年度および平成 26 年度の学際大規模情報基盤 共同利用研究・共同研究拠点の支援のもと行ったものである。関 係 者の皆 様に感 謝 申し上げる。また、本 研 究の一 部は、科 学 研 究 費 補 助 金・挑 戦 的 萌 芽 研 究( 課 題 番 号 25630322 )から支 援を頂 いた。記して謝意を表す。 参考文献 [1] I. Steinbach, F. Pezzola: A Generalized field method for multiphase transformations using interface fields, Physica D, Vol. 45, pp.385-393 (1999) [2] T. Shimokawabe, T. Aoki, T. Takaki, A. Yamanaka, A. Nukada, T. Endo, N. Maruyama, S. Matsuoka: Peta-scale phase-field simulation for dendritic solidification on the TSUBAME2.0 s u p e r c o m p u t e r, P r o c e e d i n g s o f t h e 2 0 1 1 A C M / I E E E International Conference for High Performance Computing, Networking, Storage and Analysis, SC’11, IEEE Computer Society, Seattle, WA, USA, (2011) [3] 岡本成史 , 山中晃徳 , 下川辺隆史 , 青木尊之 : マルチフェーズ フィールド 法 による 多 結 晶 粒 成 長 シミュレ ーション の複 数 GPU計算, 日本計算工学会論文集, Vol. 2013, p.20130018 (2013) [4] A. Yamanaka, M. Okamoto, T. Shimokawabe, T. Aoki: Large scale 3 D multi-phase-field simulation of microstructure evolution using TSUBAME 2 . 5 GPU-supercomputer, Proceedings of 2nd. International Congress on 3D Materials Science, The Minerals, Metals & Materials Society, pp.59-64, (2014) [5] S. G. Kim, D. I. Kim, W. T. Kim, Y. B. Park: Computer simulation of two-dimensional and three-dimensional ideal grain growth, Phys. Rev. E, Vol. 74, p.061605 (2006) 06 量 子モンテカルロ法に基づく 振 動 状 態 解 析の大 規 模 並 列 計 算 中山 涼 太 * 藤 岡 蔵 ** 北 幸海 ** 立 川 仁 典 ** * 横 浜 市 立 大 学 国 際 総 合 科 学 部 ** 横 浜 市 立 大 学 大 学 院 生 命ナノシステム科 学 研 究 科 本 稿では、我々が開 発した振 動 量 子モンテカルロ(vibQMC )法、およびその並 列 化の実 装 法について概 説する。 vibQMCプログラムの並 列 化 率は 99.9981%であり、東 京 工 業 大 学の TSUBAME2.5スーパーコンピューターシステムを 用いたベンチマーク計 算(最 大 5376 cores)による実 行 並 列 化 効 率は約 91%である。また大 規 模 並 列 計 算の応 用 事 例 として、大 気 中のエアロゾル形 成の前 駆 体となる負イオン核 一 水 和 物( H 3 O 2 - )に対する振 動 状 態 解 析の結 果についても 報 告を行う。 序論 1 方法 2 量子モンテカルロ( Quantum Monte Carlo; QMC)法 [1] は乱数を 本 研 究 で は 多 原 子 分 子 の 振 動 状 態 解 析 に、変 分 モンテカルロ 用いた確率論的な量子化学計算手法であり、原子や分子を問わず ( VMC)法とReptation Monte Carlo(RMC)法という2種類の量子 適 用 可 能な超 高 精 度 第 一 原 理 計 算の一つである。その中でも拡 モンテカルロ法を用いた。本 節ではこれら二 手 法について簡 単に 散モンテカルロ(Diffusion Monte Carlo; DMC)法は、高精度な変 説明を行う。 分エネルギーを与えることで知られている。しかしながら、( i)配 置数変動による誤差(population control bias)が不可避、(ii)ハ 2.1 変分モンテカルロ(VMC)法 ミルトニアンと非可換な演算子の固有値として与えられる物理量 VMC 法では、変 分パラメーターを含む任 意の試 行 反 動 関 数 を の計算が困難である、といった問題があり、事実上、DMC 法の適用 用いて、次式で定義されるハミルトニアン演算子 ( は 範囲は変分エネルギーの解析に制限されている。 運 動エネルギー演 算 子、 はポテンシャルエネルギー演 算 子 )の Reptation Monte Carlo(RMC)法 [2] は、DMC 法と同様に虚時間 期待値 を考える: 発 展を利 用した高 精 度な計 算 手 法でありながら、上 記の問 題を解 決することが出来る方法である。しかしRMC 計算は計算コストが 大きいため、その適用範囲は水分子 [3] など極めて小さな系に留まっ ている。 本 稿では、大 規 模 系に対する RMC 計 算の実 現に向けて実 装し た RMCプログラムの並 列 化の実 装 案を概 説し、東 京 工 業 大 学の TSUBAME 2.5スーパーコンピューターシステムを用いたベンチ ここで は多次元の一般化座標であり、配置ある マーク計算(最大 5376 cores)の結果について報告を行う。また大 いは walker と 呼ばれる 。また は局 所エネルギーで 規模並列計算の応用計算例として、大気中のエアロゾル形成の前 あり、試 行 波 動 関 数には実 関 数を仮 定した 。 ( 1)式はエネルギー 駆体となる負イオン核一水和物(H 3 O 2- )に対する振動状態解析の 期 待 値 が局 所エネルギー の 重み付き平 均によって算 出 結果について報告を行う。 されることを意味している。VMC 法では、 に従う配置のセット をメトロポリス法 [4] によって生 成することでエネル ギー期 待 値の算 定を行う 。 VMC 法では全エネルギーだけでなく、任意の演算子の期待値を 与えることが可 能であるが、その計 算 精 度は試 行 波 動 関 数 の 質に強く依 存する。多 電 子 系のQMC 計 算では、分 子 軌 道 計 算で 得られる単一( Hartree-Fock 法)あるいは複数( 配置間相互作用 法) のSlater 行列式にJastrow 因子と呼ばれる相関因子を付与した、 Slater-Jastrow 型試行波動関数を用いることが一般的である。多 原 子 分 子の振 動 状 態 解 析を主 目 的とした本 研 究では、試 行 波 動 関数には次式で表されるVibrational Self-Consistent Field(VSCF) 07 量 子モンテカルロ法に基づく振 動 状 態 解 析の大 規 模 並 列 計 算 型関数 [5] を用いた: を用いた。ここで、 、 は振動モードの換算質量 、 は分 散 を持つ正 規 分 布 乱 数、 は drift velocity である。また重みW によるreptileの採 択・棄 却にはメトロポリス ここで は i 番 目の振 動モードのmodal functionである。本 研 法を用いた。 究では調 和 振 動 子の固 有 関 数の線 形 結 合によって を展 開し、 十 分 長い虚 時 間 長 の下、reptile に対して採 択・棄 却を繰り返 [6] Umrigarらによって開 発された線 形 法 を用いて展 開 係 数の最 適 すことで、 reptile の両端の配置 q(0)、q( )の集合は分布 × へ、 N ( N /2 ) 化を行った。また最 適 化したVSCF 関 数は次 節で説 明するRMC 法 reptile の中央の配置 q における試行波動関数として用いる。 エネルギー期待値などハミルトニアンと可換な演算子の期待値は、 2.2 Reptation Monte Carlo(RMC)法 は分布 へと収束する。本研究では、 分布 × を用いて次式で定義されるmixed estimatorによっ て算出した: 以下、表記の簡単化のため問題を 1 次元とする。時間依存 Schrödinger 方程式の虚時間発展を利用したQMC 法では、任意の 試 行 波 動 関 数 に虚 時 間プロパゲータを作 用させることで正 確な波動関数 を得る: またポテンシャルエネルギーや分 子の幾 何 構 造など、ハミルトニ ここで は虚時間である。RMC 法では以下に示す仮想的な分配関 アンと非 可 換な演 算 子に対しては、分 布 を直 接 解 析すること 数 Z 0 を導入する: で期待値の算定を行った。 3 虚時間ステップを として虚時間プロパゲータ をN 個に短時間分解し、二次の短時間近似( Suzuki-Trotter 分解 [7 ] )を 並列化 用いることで、分配関数に対する以下の式を得る: 前節で概説したように、QMC 法による物理量の算定では、VMC 法 ではwalkerに対して、RMC 法ではreptileに対してメトロポリス法 ここで、 による多 重 マルコフ連 鎖を発 生させる。その際 、サンプリング回 数が十分多く、計算するサンプルの総量が変わらなければ、その生 成 方 法に寄らず統 計 学 的に等 価な結 果を得ることができる。した がって、QMCアルゴリズムの並列化に向けた最も単純かつ有効な 戦 略は、統 計 的に独 立した複 数のwalker/reptileを用いた配 置 空 間の同時サンプリングである。具体的には、単一のwalker/reptile を用いてサンプリング数を増やす代わりに、サンプリングに用いる である。q( )は虚時間 における配置であり、各虚時間におけ i walker/reptile 数を増大させる( 図 1 参照 )。 る 配置のセット を虚時間 Pathあるい は reptile と呼ぶ。 また二次近似として次式を用いている: ただし 、 、 、および である。 (5)式において、 は に従うreptileを生成する プロパゲータ、 はそのreptileの重みと解釈するこ とができる。本研究では、このreptileの生成にLangevin 方程式 図 1 マルコフ連 鎖の分 割の模 式 図 08 2) RMC 計 算では r (R1MC =0.3%となった。これは非 並 列 計 算( 1core) 時における処 理の内、VMC 計 算では 99.9981% が、RMC 計 算では 99.975%が並列化されたことに相当する。 図 2 並 列 化 QMCプログラムの概 略 図 本 研 究では、複 数になったマルコフ連 鎖を複 数のプロセスを用い て並 列 処 理する。並 列 化された QMCプログラム概 略を図 2 に示 す。ここでデータ処 理 用に用 意される 1 つのプロセスをマスター プロセス( Master Process)、マルコフ連鎖の計算を並列的に処理 するために用 意される 1 つもしくは複 数のプロセスがスレーブプ ロセス(Slave Process )である。並列化の実装にはMPI( Message 図 3 VMC 法 、RMC 法の Speed up (12 並 列 時の計 算を1とした) Passing Interface )を用い、ライブラリーにはOpen MPI 1.4.2 を用 いた。 4.2 負イオン一水和物 H 3 O 2- の解析 結果と考察 4 本 手 法を用いて、大 気 中のエアロゾル形 成の前 駆 体となる負イ オン核 一 水 和 物( H 3 O 2- )の振 動 状 態 解 析を行った。H3 O 2- は大 気 中に存 在する負イオン核 OH-に水 分 子が1つ配 位した系である。 原子核の量子効果を含めない通常の第一原理計算では、図 4 ( a)に 示すように中央のプロトンが片側の酸素原子に寄った構造が最安 4.1 並列化効率 定となる。しかし、このプロトン移 動の遷 移 状 態におけるエネル ギー障壁は極めて小さいことから(0.88 kJ/mol)、振動基底状態に 本研究では、東京工業大学のTSUBAME2.5スーパーコンピューター おいては中央のプロトンが酸素原子間の中央に位置した遷移状態 システム上で、最 大 5376プロセス( 1 process/core × 12 cores/ 構造が最安定構造となることが示唆されている( 図 4(b))[10] 。 node × 448 nodes)を用いて、並 列 化 効 率に関するベンチマーク 本研究では、H3 O2- 及びその重水素化(D)体、三重水素化( T )体 計算を実行した。ベンチマーク計算に使用した分子系は、正イオン に対して、振 動 基 底 状 態と中 央のプロトン移 動に関する振 動モー H 3 O + の一水和物 H 5 O 2+ の振動基底状態であり、ポテンシャルエネ ド(以下、架橋振動)の基音凖位の解析を行った。試行波動関数は ルギーにはBowmanらによってCCSD( T)/ aug-cc-pVTZ レベルの VSCF 波動関数、PESにはHuangらによってCCSD (T ) /aug-cc-pV T Z 第一原理計算を再現するように作成された解析的なポテンシャル の第一原理計算を再現するように作成された解析ポテンシャルを 関数 [8] を用いた。 用いた [8] 。 12 並列(1node)計算を基準にした際のVMC 計算とRMC 計算の VMC 法とRMC 法によって得られた各 系の零 点 振 動エネルギー ベンチマーク結果を図 3 に示す。5376 coresを用いた並列計算にお ( ZPE)と架橋振動の基本振動数を表 1 に示す。変分エネルギーで けるspeed up (=Time[12 process] / Time [ N process])は、VMC 計算 あるZPEに注 目すると、全ての系においてRMC 法による値がVMC で 4868(= 405.70 × 12 )倍、RMC 計算では 2307(=192.25 ×12 )倍 法よりも低いことから、RMC 法によって計 算 精 度が改 善されてい である。各計算における問題サイズは不変( アムダールの法則 [9] ) ることがわかる。また架 橋 振 動の基 本 振 動 数の実 験 値( H 体)は と仮定し、これらの結果とから両手法の基準計算(12 並列)におけ 697cm -1 と報 告されているが、RMC 法は誤 差 12 cm - 1 の精 度で実 る逐次実行部分の割合を見積もると、VMC 計算では r (12) VMC =0.023%、 験値を再現している。 09 量 子モンテカルロ法に基づく振 動 状 態 解 析の大 規 模 並 列 計 算 各 振 動 状 態における水 素 結 合プロトン( H*)の振る舞い解 析す 解析で報告されているが、本研究によりD 体・T 体におけるピーク るた め 構 造 パラメーター δOH* = R O1H* − R O2H* に注 目した 。ここで の分 裂は、主に架 橋 振 動の基 音 凖 位の寄 与であることが明らかに R O1H* 、O2H* は図 4( b)で定 義されている2つの OH* 間 距 離であり、 なった。 δOH* = 0 のときH*は酸素原子間の中央に位置することを意味する。 RMC 法から得られた振 動 基 底 状 態と架 橋 振 動の基 音 準 位におけ るδOH* の一 次 元 分 布を図 5 に示す。振 動 基 底 状 態ではH*は酸 素 原 子 間の中 央に分 布しており、同 様の振る舞いが先 行 研 究におい ても報告されている [10,12] 。またD 体、T 体でもD*、T * は酸素原子間 の中 央に位 置しているが、その分 布はH 体と比 較して局 在 化して いる。経路積分分子動力学法を用いたSuzukiらの解析 [12] では、報 告されている中で最も低 温である 50Kにおいて、D 体とT 体に有 意 な差は得られていないが、本 解 析により振 動 基 底 状 態( 0 Kelvin) においてT 体の分布は、D 体と比較してわずかに局在化することが わかった。 架橋振動の基音凖位においては、波動関数の節構造を反映した 結 果 、δOH* はダブルピーク構 造を持つ。2つの分 布の内、片 側 一 方に注 目すると、その分 布は原 子 核の質 量が軽いほど非 局 在 化し ており、かつピーク位 置は |δOH* | が大きい領 域へシフトしている ( 片側の酸素原子へ寄る)。δOH* = 0 はプロトン移動の遷移状態に 対応しているが、基底状態・基音凖位ともに原子核の質量が重い ほど遷 移 状 態 付 近の存 在 確 率が増 大するという興 味 深い結 果が 得られた。 図 4 H 3 O 2 - の平 衡 構 造(a)と振 動 平 均 構 造(b) 図 5( c)は、振 動 基 底 状 態と架 橋 振 動の基 音 準 位の二 状 態のみ を考 慮した場 合の 600KにおけるδOH* の一 次 元 分 布である。H 体 におけるδOH* は基底状態よりさらに非局在化したシングルピーク 構造を、D 体・T 体はわずかに分裂したダブルピーク構造を有して いる。同 様の分 裂がSuzukiらによる 600Kにおける経 路 積 分 法の 10 (a) 振 動 基 底 状 態、 図 5 H 3 O 2 - のδOH* の一 次 元 分 布 。 (b )架 橋 振 動の基 音 準 位、 (c )600K 。 単 位は Bohr 。 参考文献 [1] B.L. Hammond, W.A. Lester Jr. and P.J. Reynolds, “Monte Carlo Methods in Ab Initio Quantum Chemistry” ( World Scientific, 1994). [2] S. Baroni and S. Moroni, Phys. Rev. Lett., 82, 4745 (1999). [3] D.G. Oblinsky, W.K. Yuen, S.M. Rothstein, J. Mol. Struct. (THEOCHEM) 961, 219 (2010). [4] N. Metropolis, A.W. Rosenbluth, M.N. Rosenbluth, A.H. Teller [5] J. M. Bowman, J. Chem. Phys. 68, 608 (1978). [6] J.Toulouse, C.J. Umrigar, J. Chem. Phys. 126, 084102 (2007). and E. Teller, J. Chem. Phys., 21, 1087 (1953). [7] M. Suzuki, Proc. Japan Acad., 69, 161 (1993). [8] Huang et al. J. Am. Chem. Soc. 126, 5042 (2004). - 表 1 H 3 O 2 の零 点 振 動 点エネルギー(ZPE)と 架 橋 振 動の基 本 振 動 数(単 位は cm -1 ) [9] Gene M. Amdahl. Validity of the single processor approach to achieving large scale computing capabilities. In AFIPS Conference Proceedings, pp. 483-485 (1967). 結論 5 [10] A. B. McCoy, X. Huang, S. Carter, and J. M. Bowman, J. Chem. Phys. 123, 064317 (2005) [11] E.G. Diken, J.M. Headrick, J.R. Roscioli, J.C. Bopp, and M.A. Johnson, A.B. McCoy J. Phys. Chem. A, 109, 8 (2005). [12] K.Suzuki, M. Shiga, and M. Tachikawa, J. Chem. Phys. 129, 本稿では、変分モンテカルロ( VMC)法とReptation Monte Carlo 144310 (2008). ( RMC)法という2種類の量子モンテカルロ法、およびその並列化 の実装方法に関する概略を示した。東京工業大学のTSUBAME2.5 スーパーコンピューターシステムを用いたベンチマーク計算(最大 5376 cores)を実行した結果 、Speed upはVMC 法では 4868 倍(並 列化効率 91% ) を、RMC 法では 2307 倍 (並列化効率 43%) となった。 プログラム全体の並列化率はVMC 法では 99.9981%、RMC 法では 全体の 99.975%である。また大規模並列計算の応用例として、大 気中のエアロゾル形成の前駆体となる負イオン核一水和物 (H3 O2- ) に対する振動状態解析を行い、振動状態解析に対するQMC 法の有 効性を示した。 本 研 究では多 次 元のポテンシャルエネルギー曲 面の算 定に、計 算コストが安 価な解 析 的ポテンシャル関 数を使 用したが、第 一 原 理計算を併用したon-the-fly 法の利用により、今後さらなる並列化 効率の向上が期待される。 謝 辞 本研究における計算は「平成 26 年度秋期 TSUBAMEグランドチャ レンジ大規模計算制度(カテゴリー B)」の採択により、東京工業 大学学術国際情報センターの大型計算機( TSUBAME2.5)を利用 したものである。本制度を利用させて頂いた東京工業大学学術国 際情報センターの関係各位に深く感謝致します。また本研究の一 部は科学研究費補助金から支援を頂きました。 11 個別要素法による 粉体の大 規模シミュレーション 都 築 怜 理 渡 辺 勢 也 青木 尊之 東 京 工 業 大 学・学 術 国 際 情 報センター 砂や粉の振る舞いは液 体などと似ている場 合もあれば大きく違うときもある 。このような粉 体をシミュレーションするた めに、粒 子 間の接 触 相 互 作 用をバネと摩 擦のモデルで表 現した個 別 要 素 法が良く使われる 。スプーン1 杯に砂 糖が何 粒 あるかを想 像すれば分かる通り、実 際の粒 子サイズで粉 体をシミュレーションしようとすると 100 万 個を超える粒 子 数が 必 要になる 。粗 視 化モデルのアプローチもあるが限 界があり、スパコンによる大 規 模 計 算で実 際に近い粒 子サイズで粉 体シミュレーションを行う意 義は大きい 。粉 体は空 間 的な広がりが時 間 的に変 化するため、大 規 模 計 算で良く使われる領 域 分 割がそのままでは使えない 。粒 子 分 布に合わせて時々刻々と領 域 分 割を変 更しながら、動 的に計 算 負 荷のバランス を取ることが重要である。本稿では動的負荷分散をやり難いと言われているGPUスパコンにおいて、大規模粉体シミュレー ションを行い、いくつかの実 用 計 算とゴルフのバンカ ーショットのような砂 粒 子からゴルフボールへの運 動 伝 達を含む複 雑な粉体計算を行った例を示す。 はじめに 1 GPU による DEM 計算 2 粉体( 粉粒体)はさまざまな場面で現れ、その振る舞いが明らかに GPUは階層的なメモリ構造と 2,000 を超える演算コア (CUDAコア) されていない現 象も多い。工 学 的にもプリンターのトナーや製 薬 を持っている。GPUのアーキテクチャを考 慮した超 細 粒 度・超多 プロセス、化学工学プラントなどにおいて、粉体シミュレーション スレッドの計 算アルゴリズムと実 装を行うことにより、高い性 能 の需 要は高い。粉 体 計 算は粒 子 計 算の 1 つであり、天 体の重 力 多 を引き出すことができる。GPU のプログラミングは NVIDIA 社が 体 計 算と類 似した印 象を受ける場 合がある。しかし、粉 体の相 互 提供する統合開発環境のCUDAを用いる。 作用は後で述べるように接触による相互作用であるため、1 つの粒 子が相互作用する粒子は高々数 個 程 度であり、メモリ律 速の計 算 である。一方、重力多体計算や分子動力学計算などは相互作用す る粒子数が非常に多く、浮動小数点演算のコストが支配的である。 粉 体シミュレーションも粒 子 数を増やして行くと(メモリアク セスを含めた)計 算 負 荷が非 常に高くなり、これまで大 規 模 粉 体 シミュレーションは余り行われてこなかった。近年、スパコンの性 能は飛 躍 的に向 上し、実サイズの粒 子を用いた大 規 模 粉 体シミュ レーションが可能な性能を有している。しかし、プロセッサはマル チコア化し、数 千~数 万 計 算ノードから構 成されているため並 列 図 1 個 別 要 素 法の物 理モデル 計 算が必 須の条 件である。粉 体シミュレーションにおける粒 子 間 相 互 作 用は接 触による反 発と摩 擦であるため、粒 子 番 号による並 粉体シミュレーションの計算モデルを図 1 に示す。本研究では、 列 化は現 実 的でなく、領 域 分 割による並 列 化を行うことが必 要で 粉 体 粒 子 同 士が接 触すると反 発 力とダンパー( バネとダッシュ ある。時間・空間的に粒子分布が変化する粉体シミュレーション ポット)が作 用する個 別( 離 散 )要 素 法 DEM( Discrete Element に対し、計算負荷の分散とメモリ分散の目的で動的領域分割を導 Method)を用いている。せん断方向にはバネとダッシュポットに 入する必要がある。GPU(Graphics Processing Unit)は演算性能、 加えて摩 擦 力も発 生する。粒 子 運 動は式( 1)に従い、加えられた メモリバンド幅や電 力 効 率の点で有 利な反 面、メモリ階 層が深く 力とトルクに対して 2 次精度のルンゲクッタ法かleap-frogなどに データ移 動のオーバーヘッドが大きい。本 稿では、そのGPUを用 より時間積分される。 いて大 規 模 粉 体シミュレ ーションを実 行するためのアルゴ リズム の開発と実装を行い、実用問題への適用例を示す。 GPU 計 算では、各 粒 子の持つ速 度や座 標、運 動 量などの従 属 変 数 は粒 子 構 造 体の中のメンバ変 数として GPUボード上の Deviceメ モリ(CUDAプログラミング上では、グローバル・メモリ)に保持 され、1スレッドが 1 粒子を計算する。 12 DEM のように接 触した粒 子とのみ相 互 作 用する局 所 性の高い 割し、各 分 割 幅 内の粒 子を数え上げる。境 界を移 動すべき距 離が 計 算では、全 粒 子との接 触 判 定を行うことは非 効 率 的である。計 分かると、境 界が移 動したために小 領 域 外にはみ出る粒 子をGPU 算 領 域を仮 想 的に格 子に分 割し、自 身の属する格 子(セル )及び 上でパッキングし、隣接小領域のGPUにホスト計算機を介してデー 隣 接するセルに属する粒 子とのみ相 互 作 用 計 算を行う「セル分 割 タ転 送する。複 数ノードに分 散するGPU 間ではMPIライブラリに 法 」を用いて計 算する。粒 子が属するセルに全ての粒 子 番 号を登 よる通 信が必 要になる。受け取る側の小 領 域はパッキングされた 録する通常のセル分割法ではメモリ不足を引き起こす可能性があ 粒子を小領域の粒子に加え領域の再分割が完了する。 る。図 2 のように各セルでは 1 つの粒 子の番 号のみを登 録し、同 粒子は運動するため、時間積分後に境界を横切り領域外に出た 一セルに属するその他の粒 子は粒 子 番 号を数 珠つなぎに保 持する 粒子の通信や、隣接小領域内の接触する可能性がある粒子のデー Linked-list を導 入する [1][2] 。これにより空 間 格 子のメモリ使 用 量 は 静的な空間格子を用いる場合と比較して 8 分の 1 に削減できる。 タ転送も必要になる。GPUではメモリの確保や解放に非常に時間 がかかるため、粒 子データを格 納するメモリはある程 度 静 的に保 持する必 要がある。一 方、このような頻 繁な小 領 域 境 界を横 切る 粒 子 移 動が起こると、使 用するメモリの断 片 化が発 生する。そこ で図 5 のように定 期 的に粒 子の再 整 列を行い、メモリの断 片 化を 解消する。 図 2 Linked-list を用いた近 傍 粒 子 探 索 動的負荷分散を用いた複数 GPU 計算 3 複数のGPUで粉体計算を行うには、計算領域を小領域に分割し、分 割された各 小 領 域にGPUを割り当てて計 算する。図 3 の左 側のよ 図 4 粒 子の数え上げと境 界 線の変 更 うに均等分割した場合、 小領域内の粒子数に偏りが生じる。そこで、 図 3 右図のように小領域内の粒子数を一定にするために、小領域の 境界を計算途中で移動させるスライスグリッド法を導入する [3] 。 図 3 スライスグリッド法による負 荷 分 散 図 5 Deviceメモリ上の粒 子データの再 整 列 境 界 線の移 動にともない隣 接 小 領 域に移 動する粒 子をGPU 上で 探索するための効率的な手法を提案する。粒子は小領域のどこに 分布しているか不明なので、図 4 のように小領域を微小幅 で分 13 個別要素法による粉体の大 規模シミュレーション TSUBAME2.5 における 強・弱スケーリング 4 スライスグリッド法による動 的 負 荷 分 散を導 入した DEM の GPU コードを用いて、TSUBAME 2.5 の GPU (K20X) で大規模粉体シミュ レーションの実 行 性 能を強スケーリングで検 証した。図 6 のスク リューが粉体中で回転する撹拌計算を約 200 万個、約 1,600 万個、 約 1 億 2,900 万 個の粒 子により計 算する場 合の実 行 性 能の測 定 結 果を図 7 に示す。 縦軸の実行性能は用いた粒子数を計算時間で割ったもので、1 秒 当たり何 個の粒 子を計 算できるかを意 味している。図 7 の× 印で 表された 2 つの測定点が、それぞれ 1 億 2,900 万粒子を用いた場合 の 256GPU 、512GPUに対する実 行 性 能の測 定 結 果である。同 一 図 7 粉 体シミュレーションの強・弱スケーリング 線 上の実 行 性 能の変 化が強スケーリングを示している。1,600 万 個 程度までの粒 子 数であれば、8 ~ 16 倍まではGPU 数の増加に応 じて性 能 向 上が期 待できるが、それ以 上は性 能が飽 和してくるこ とが分かる。弱スケーリングは 4GPU による 200 万 粒 子の計 算、 32 GPU による1,600 万粒子の計算 、256GPUによる 1 億 2,900 万粒 提案手法の実用問題への適用 子の計 算に対する実 行 性 能を比 較することにより検 証でき、理 想 5 的な直 線と比 較して大きく性 能 低 下していることがわかる。スラ イスグリッド法の欠 点である分 割された小 割領域の形 状( アスペ クト比)の悪 化による領 域 間 通 信 量の増 大が原 因となり並 列 化 効 率が低 下したためである。DEM 計算 へ のスライスグリッド法の適 用限界が 256GPU 〜 512GPU 程度であること が 確認できる。 工 業 的、産 業 的に重 要ないくつかの典 型 的な粉 体 現 象に対して、 動 的 負 荷 分 散を用いた複 数 GPU による大 規 模シミュレーション を行った。実 用 的なDEM 計 算には任 意 形 状の物 体との相 互 作 用 を取り扱う必 要がある。図 8 のようにCADデータから物 体 表 面か らの符号付距離関数( Level Set 関数)を事前計算しておくことに より [4] 、そのLevel Set 関数を参照するだけで物体-粒子間の距離 が求まり、粒子-物体間の相互作用を効率的に計算できる。 図 6 64 台の GPU を使い 412 万 個の粒 子を使った 撹拌計算 図 8 Level Set 関 数による物 体 形 状 表 現 433 万 個の粒 子による粉 体の搬 送 計 算を 64 GPUを用いて計 算 した結果をそれぞれ図 9 に、416 万個の粒子による螺旋すべり台の 計算を 32 GPUを用いて計算した結果を図 10 に示す。 ゴルフのバンカーショットはサンドウェッジのスイングによる 砂のかき上げと、かき上げられた砂によるゴルフボールへの運 動 14 伝 達を含む複 雑な問 題である。解 析 手 法である DEM は計 算コス を 64 台の GPU を用いて行った。サンドウェッジの軌 道は回 転 及 トが高いため、これまでは 10 万個程度の粒子による 2 次元計算に び二 重 振り子モデルから決 定している。バ ン カーショットに特 徴 とどまっている [5] 。実 際の砂と同 程 度のサイズの粒 子を数 千 万 個 的な砂 上のゴルフボールの「目 玉」の初 期 状 態は、実 際と同じよ 〜 1 億個用いることにより、実現象のスケールでの 3 次元 バ ンカー うにボールを落とし、DEM 計算で 64,000 ステップかけて生成して ショット・シミュレーションを実行することができた。 いる。サンドウェッジの先端の最大速度を 5.0 m/s としてスイン バンカー砂に含まれる粗 砂を想 定し、粒 子 半 径 0.4 mmの粒 子 グを開始した。計算結果を図 11 に示す。 1,670 万 個を用いた大 規 模 バ ンカーショット・シミュレーション 図 9 64 台の GPU を使い 433 万 個の粒 子を使った 搬送計算 図 10 32 台の GPU を使い 416 万 個の粒 子を使った 螺 旋すべり台のシミュレーション算 図 11 1,670 万 粒 子のバンカーショット計 算 15 個別要素法による粉体の大 規模シミュレーション 非球形粒子を用いた DEM 計算 6 複数の粒子を剛体連結させた非球形の粒子モデルを用いることで、 球形粒子よりも粒子間の摩擦を正確に表現でき、より現実の現象 に近い粉 体シミュレーションが可 能となる [6] 。1 つの非 球 形 粒 子 を複数の粒子を用いて表現するため球形粒子を用いたDEMに比べ て多くの粒 子が必 要となり計 算コストが増 大するため、GPU 計 算 の必要性が高まる。1 台のGPUで数十万~数百万個の非球形粒子 ( a ) 球 形 粒 子による計 算 による粉体シミュレーションを実行することができた。 図 12 テトラポッド 型 非 球 形 粒 子 実 問 題への適 用 例として、長 靴の足 跡のシミュレーションを実 ( b ) テトラポッド型の非 球 形 粒 子による計 算 行した。図 12 のように、4 つの粒子をテトラポッド型に連結させた 非球形粒子を約 40 万個用いた。図 13 に( a)球形粒子、 ( b)テト ラポッド型の非球形粒子を用いた場合のシミュレーション結果を 示す。非球形粒子を用いた場合は粒子間のインターロックの影響 が表われ、靴底の溝が確認できるほど明確な足跡が砂に残った。非 球形粒子で計算することで粒子間の摩擦を正確に表現できること を確認した。 16 図 13 長 靴の足 跡のシミュレーション まとめ 7 Miyasaka, Katsuaki Ohdoi, Investigation of elemental shape for 3 D DEM modeling of interaction between soil and a narrow cutting tool, Journal of Terramechanics, Volume 50, Issue 4, August 2013, Pages 265-276,ISSN0022-4898. DEM 計 算に動 的 負 荷 分 散を導 入することにより、大 規 模 粉 体シ ミュレーションをGPUスパコンで実 行することができた。スライ スグリッド法によるGPU 間の動 的 領 域 分 割と近 傍 粒 子 探 索にお けるLinked-list 法の導入により、効率的に粉体計算を実行する手 法を提 案した。複 雑 形 状 物 体を含む問 題や非 球 形 粒 子のDEM 計 算も可 能になり、今 後は流 体と連 成させるなどより実 用 問 題への 展開が期待できる。 謝辞 本 研 究 の 一 部 は、科 学 研 究 費 補 助 金・ 基 盤 研 究( S)課 題 番 号 26220002「ものづくりHPC アプリケーションのエクサスケールへ の進 化」、科 学 技 術 振 興 機 構 CREST「ポストペタスケール高 性 能 計算に資するシステムソフトウェア技術の創出」、学際大規模情報 基盤共同利用・共同研究拠点、および革新的ハイパフォーマンス・ コンピューティング・インフラから支 援を頂いた。記して謝 意を 表す。 参考文献 [1] G. S. Grest, B. D¨unweg, and K. Kremer, “Vectorized link cell Fortran code for molecular dynamics simulations for a large number of particles,” Computer Physics Communications, vol. 55, pp. 269–285, Oct. 1989. [2] Gomez-Gesteira, M., Crespo, A., Rogers, B., Dalrymple, R.,Dominguez, J. and Barreiro, A.: fSPHysicsg development of a free-surface fluid solver Part 2 : Efficiency and test cases,Computers and Geosciences, Vol. 48, No. 0, pp. 300 – 307 (2012). [3] S, Tsuzuki, and T, Aoki: Large-scale granular simulations using Dynamic load balance on a GPU supercomputer, in Poster at the 26th IEEE/ACM International Conference on High Performance Computing, Networking, Storage and Analysis (SC) 2014, New Orleans, US-LA, USA (2014). [4] J. A. Bærentzen and H. Aanæs, “Computing discrete signed distance fields from triangle meshes,” Informatics and Mathematical Modeling, Technical University of Denmark, DTU, Richard Petersons Plads, Building 321, DK-2800 Kgs. Lyngby, Tech. Rep., 2002. [5] 堀井 宏祐 , 小泉 孝之 , 辻内 仲好 , 三木 光範 , 日高 重助 , 折戸 啓太 ,: " 並列粒子要素法によるバンカーショット解析 ", 情報 処 理 学 会 論 文 誌 , 数 理モデル化と応 用 , Vol. 44, No. 14, pp. 91-99 (2003) [6] I k u y a O n o , H i r o s h i N a k a s h i m a , H i r o s h i S h i m i z u , J u r o 17 ● TSUBAME e-Science Journal vol.13 2015 年 3 月 10 日 東京工業大学 学術国際情報センター発行 © ISSN 2185-6028 デザイン・レイアウト:キックアンドパンチ 編集: TSUBAME e-Science Journal 編集室 青木尊之 渡邊寿雄 佐々木淳 仲川愛理 住所: 〒 152-8550 東京都目黒区大岡山 2-12-1-E2-6 電話: 03-5734-2085 FAX:03-5734-3198 E-mail:[email protected] URL: http://www.gsic.titech.ac.jp/ 18 vol. TSUBAME 共同利用サービ ス 『みんなのスパコン』TSUBAME 共同利用サービスは、 ピーク性能 5.7PFlops 、18000CPUコア、4300GPU 搭載 世界トップクラスの東工大のスパコンTSUBAME2.5 を 東工大以外の皆さまにご利用いただくための枠 組みです。 課題公募する利用区分とカテゴリ 共同利用サービスには、 「学術利用」 「産業利用」 、 「社会貢献利用」 、 の3つの利用区分があり、 さらに「成 果公開」と「成 果非公開」のカテゴリがあります。 ご利用をご検 討の際には、下記までお問い合わせください。 他大学や公的研究機関の研究者の 学術利用[有償利用] TSUBAME 民間企業の方の 産業利用[有償・無償利用] 共同利用とは… [有償利用] その他の組織による社会的貢献のための 社会貢献利用 共同利用にて提 供する計算資源 共同 利 用サービスの利 用区 分・カテゴリ別の利 用課 金 表を下 記に示します。TSUBAME における計算 機 資 源の割 振りは口 数を単 位としており、1 口は標 準 1ノード (12 CPUコア, 3GPU, 55.82GBメモリ搭載)の 3000 時間分 (≒約 4 ヵ月)相当の計算 機資 源です。 1000 CPUコアを1.5日利用する使い方や、100 GPUを3.75日利用する使い方も可能です。 利用区分 利用者 制度や利用規定等 カテゴリ 利用課金(税抜)※ 学術利用 他大学または 研究機関等 共同利用の 利用規定に基づく 成果公開 1口:120,000 円 産業利用 民間企業を中心 としたグループ 「先端研究基盤共用・ プラットフォーム形成 事業」に基づく 非営利団体、 公共団体等 共同利用の 利用規定に基づく 社会貢献利用 成果公開 トライアルユース(無償利用) 1口:120,000 円 成果非公開 1口:480,000 円 成果公開 1口:120,000 円 成果非公開 1口:480,000 円 ※ 平成 27 年度の利用課金です。最新の利用課金については、下記 URL をご参照ください。 http://www.gsic.titech.ac.jp/kyodou/kakin 産業利用トライアルユース制度(先端研究基盤共用・プラットフォーム形成事業) 東 工 大のスパコンTSUBAMEを、より多くの企 業の皆さまにご利 用いただくため、初めて TSUBAMEをご利 用いただく際に、無 償にてご試 用いただける制 度です。 (文部 科 学省 先 端 研 究 基 盤 共 用・プラットフォーム形成事業による助成) 詳しくは、下 記までお問い合わせください。 お問い合わせ ●東京工業大学 学術国際情報センター 共同利用推進室 ●e-mail [email protected] Tel. 03-5734-2085 Fax. 03-5734-3198 詳しくは http://www.gsic.titech.ac.jp/tsubame/をご覧ください。 13
© Copyright 2024 ExpyDoc