PowerPoint プレゼンテーション

中国四川の地震
★ES 512PE(64node*8PE)
★1777 GFLPOS (43% of Peak)
★362 GByte
Elapse time
0:29:13
Time spent on Stage in
37:25:48
Time spent on Stage out
0:02:09
Stage in file size
43GB
Stage out file size
919MB
地震波動伝播と強震動のシミュレーション
2.運動方程式の差分計算
○モデル自体は、1980~90年代にほぼ確立
..
U p 
 xp
x
 U

 yp
y
U

 zp
z
U 
 fp
 U
U 
y
p
q
z
 pq   

 pq    x 



x

y

z

q

p




1.地下構造・震源断層モデル
3.大規模 並列計算
・地震断層すべり分布
・表層地盤
・地殻構造
・プレート形状
*地震波の波長(~500m)より
細かくモデル化
領域分割+マルチグリッド
地球シミュレータ
ベクトル計算機の有効性: FDM計算
(a) スカラー計算
-高次FDMよりFFT演算が有効
FDM計算の精度
震源
4th
FDM
媒質1
媒質2
数値分散
(b) ベクトル計算
-FDM計算の加速
-FFT計算効率悪い
8th
FDM
16th
FDM
Spectral
Method
(FFT)
P 波、S 波
地球シミュレータによる並列FDM(差分法)計算
並列計算
並列計算効率
ノード内スレッド並列、ノード間MPI
領域分割
地球シミュレータ
超並列計算機
★マルチコア、スカラー計算機の活用
(参考) 並列FDM計算効率
(従来)地球シミュレータ
・実効性能>50%
・並列化度~5千
(近未来)超並列計算機
・実効性能<5-15%
・並列化度~10万~100万
差分法計算の次数と演算効率(GFLOPS値, 並列化率)
ES 128PE/1024PE
2次精度中央差分
2nd-orderF
Machine
Model
分割
PE数
Time[s]
GFLOPS
Vratio[%]
Time*GFLOPS
Peak性能比[%]
ES
Medium
n8x4x4
128
70.85
465.72
99.59
32995
45.5
ES
Medium
n16x8x8
1024
11.51
2850.81
99.25
32813
34.8
加速率
6.16
並列化率
0.999651
4次精度中央差分
並列化効率
0.
4nd-orderF
Machine
Model
分割
PE数
Time[s]
GFLOPS
Vratio[%]
Time*GFLOPS
Peak性能比[%]
ES
Medium
n8x4x4
128
90.85
503.50
99.61
45742
49.2
ES
Medium
n16x8x8
1024
15.89
3122.94
99.25
49638
38.1
加速率
5.72
並列化率
0.999527
8次精度中央差分
並列化効率
0.
8th-orderF
Machine
Model
分割
PE数
Time[s]
GFLOPS
Vratio[%]
Time*GFLOPS
Peak性能比[%]
ES
Medium
n8x4x4
128
129.55
591.04
99.67
76568
57.7
ES
Medium
n16x8x8
1024
23.05
3843.41
99.40
88591
46.9
加速率
5.62
並列化率
0.999497
並列化効率
0.
差分法計算演算性能、加速率
T2K
-Oss -noparallel
Machine
Model
分割
PE数
Time[s]
T2K
Small
n8x4x4
128
528.08
T2K
Small
n16x8x8
1024
142.72
GFLOPS
Vratio[%]
Time*GFLOPS
仮定
142.86
20389
Peak性能比[%]
1.5
IBM Blue/Gene L
加速率
3.70
並列化率
0.998447
並列化効率
0.463
-O3 -qstarict -qarc=440d -qtune=440
Machine
Model
分割
PE数
Time[s]
BG/L
Small
n8x4x4
128
343.04
BG/L
Small
n16x8x8
1024
50.76
GFLOPS
加速率
仮定
401.71
20389
13.9
6.76
並列化率
0.99979
-Chopt
ES
Machine
Model
分割
PE数
ES
Small
n8x4x4
128
ES
Small
n16x8x8
1024
Time[s]
GFLOPS
Vratio[%]
Time*GFLOPS
Peak性能比[%]
14.37
436.88
99.31
6276
42.7
5.16
3953.58
97.92
20389
48.3
加速率
2.79
並列化効率
0.845
4th-orderFD
並列化率
0.997157
並列化効率
0.348
強震動シミュレーションの高精度化・高速化
強震動の予測から被害の予測・軽減へ:
(1)地下構造モデルの高度化
(2)並列計算コードの高度化
★1995年: 水平成層(+α)モデル
★2005年: 不規則成層モデル
Furumura and Koketsu (1998;2000)
神戸-阪神地下構造モデル(中川・他、
1996)
モデル
計算環
境
備考
Furumura (2005)
大阪平野堆積構造(堀川他・産総研、2003)
1995 年
2005 年
2012年
D=200 m
Vs<550 m/s
f < 0.5 Hz
D=50 m
Vs < 250 m/s
f < 2 Hz
D=10 m
Vs < 120 m/s
f < 5 Hz
CRAY CS6400
地球シミュレータ
1.9 GFLOPS
15.3 TFLOPS
55 時間 8000倍
1 時間 650 倍
強震動分布の再現
震度分布の再現
京速コンピュータ
40 PFLOPS
1 時間
強震動と被害予測
★2012年: 不均質(揺らぎ)モデル
計算結果の可視化(2):3次元波動場
3次元 並列FDM計算
- 50億格子モデル* 4byte
= 1 GB / タイムス
テップ
-200~500 flames /Movie
= 0.2~0.5 TB /
Movie
ESから取り
出せない!
1923 Kanto Earthquake (M7.9)
地球シミュレータ 同時Volume Rendering
GeoFEMの可視化ツール:
Chen, Fujishiro and Nakajima (2003)
FDM計算と
同時に可視化
画像を出力
Furumura and Chen (2005)
Parallel Computing
地震ー津波連成計算
(1) 地震計算
・解像度:500m*500m*250m
・波動伝播: 6分間
・計算: 地球シミュレータ
450GB, 110node * 5 hour
(2) 津波計算
・解像度:1000m*1000m*200m
・津波伝播:2時間
・計算機:地震研SGI Altix 4800
16GB, 32 node * 5 hour
計算効率:地震動計算(高次FDM法)
地球シミュレータ、110ノード計算
地球シミュレータ、MPI Proginf
MPI Program Information:
========================
Note: It is measured from MPI_Init till MPI_Finalize.
[U,R] specifies the Universe and the Process Rank in the Universe.
Global Data of 110 processes:
============================
Real
Time (sec)
User
Time (sec)
System Time (sec)
Vector Time (sec)
Instruction Count
Vector Instruction Count
Vector Element Count
FLOP Count
MOPS
MFLOPS
Average Vector Length
Vector Operation Ratio (%)
Memory size used (MB)
:
:
:
:
:
:
:
:
:
:
:
:
:
Min [U,R]
Max [U,R]
Average
15350.842 [0,0]
15355.543 [0,98]
15353.472
117801.487 [0,109]
118439.545 [0,12]
118361.584
35.955 [0,18]
70.433 [0,102]
39.112
13698.149 [0,10]
14540.029 [0,66]
14484.132
842983311684 [0,6]
880330856475 [0,13] 871386540414
459774857758 [0,0]
468181902692 [0,35] 467786525223
115989259427887 [0,0] 118202275598892 [0,83] 118120702142289
58703361031425 [0,63] 59219130003544 [0,8]
58729906573268
983.268 [0,0]
1003.247 [0,8]
1001.374
495.646 [0,12]
502.393 [0,8]
496.192
252.269 [0,109]
253.173 [0,10]
252.510
99.648 [0,109]
99.681 [0,6]
99.659
4982.980 [0,1]
5097.355 [0,6]
4989.364
ベクトル長さ、ベクトル化率 OK
計算効率:津波計算(SOLA法)
MPI Program Information:
========================
Global Data of 32 processes :
Real
Time (sec)
:
User Time (sec)
:
System Time (sec)
:
Vector Time (sec)
:
Instruction Count
:
Vector Instruction Count
:
Vector Element Count
:
FLOP Count
:
MOPS
:
MFLOPS
:
Average Vector Length
:
Vector Operation Ratio (%) :
Memory size used (MB)
:
MIPS
:
Instruction Cache miss (sec):
Operand
Cache miss (sec):
Bank
Conflict Time (sec):
Min [U,R]
Max [U,R]
Average
2183.324 [0,24]
2183.415 [0,0]
2183.393
17116.160 [0,2]
17122.836 [0,0]
17119.751
6.209 [0,13]
6.940 [0,0]
6.456
535.761 [0,6]
734.783 [0,30]
643.771
720 c-----j=jb1--ht1 (water collumn)--412738657956 [0,31] 480897992913
[0,6] 441968491205
721 !cdir parallel do private (jt1,jb1,dp)
21616612459 [0,7]
24738637640
[0,29] do
23337783362
722
k = 1, nzp
1229025789252 [0,6] 1425835864111
[0,30]do1330604605997
723
i = 2, nx-1
724
jb1 = jb(i,k)
331236084666 [0,11] 386771433923 [0,5] 357927713864
725
jt1102.176
= jt(i,k)
98.168 [0,7]
106.131 [0,30]
726
do j = jb1+1, jt1-1
19.352 [0,11]
22.590
[0,5]
20.907
727
dd(i,j,k) = (u(i,j,k)-u(i-1,j,k))/dx
54.931 [0,4]
62.064
[0,10]
57.045
728
:
+ (v(i,j,k)-v(i,j-1,k))/dy
72.827 [0,6]
78.470
[0,30]
76.042
729
:
+ (w(i,j,k)-w(i,j,k-1))/dz
730
dp
= beta*dd(i,j,k)
314.789 [0,1]
314.914 [0,0]
314.793
731
u(i,j,k)
24.110 [0,31]
28.093 [0,6]
25.816 = u(i,j,k) + dtdx*dp
732
u(i-1,j,k) = u(i-1,j,k) - dtdx*dp
7.647 [0,31]
9.296
[0,6]
8.960 = v(i,j,k) + dtdy*dp
733
v(i,j,k)
354.960 [0,10]
425.021
[0,6]
397.148
734
v(i,j-1,k) = v(i,j-1,k) - dtdy*dp
1.444 [0,31]
1.876
[0,7]
1.7
735
w(i,j,k)
= w(i,j,k) + dtdz*dp
ベクトル長、ベクトル化率 NG
PROG.UNIT
main_$20
main_$21
main_$17
main_$22
FREQUENCY
地球シミュレータ、32ノード計算
EXCLUSIVE
TIME[sec](
% )
1148512 11806.873( 82.4)
1148512 1224.952( 8.5)
57360
370.459( 2.6)
1148512
221.683( 1.5)
AVER.TIME
[msec]
736
737
738
739
740
w(i,j,k-1) = w(i,j,k-1) - dtdz*dp
p(i,j,k)
= p(i,j,k) + dp
end do
end do
end do
call main_$20 (beta, dtdx, dtdy, dtdz, jb, jt, u, w, v, dd, p)
MOPS MFLOPS V.OP AVER. I-CACHE O-CACHE
RATIO V.LEN MISS
MISS
10.280 389.3 109.2 36.23 20.7
1.067 3239.4 753.4 96.44 114.6
6.458 2764.7 1259.6 96.24 24.9
0.193 1415.0 281.3 85.47 202.6
BANK
CONF
0.4960 2870.7837 0.4671 (SOLA LOOP)
0.6151 6.6306 0.2746
0.2192 1.8060 0.2283
0.2994 65.8918 0.4563
海溝型巨大地震による、地殻変動と大津波
断層運動
沈降
陸地
隆起
巨大地震の断層運動:
(1)地震波を放射
(2)地殻変動を生成
津波発生
地震動、地殻変動、津波
の包括的理解の必要性
地震動シミュレーション:1944年東南海地震
地震動シミュレーション並列計算性能
ES
Furumura and Saito (2009)
T2K(東大)
並列化率[E]
0.999946
0.999937
最大並列化数[N]
(並列化効率>50%)
18,442
15,870
理論性能比[%]
49.2%
8.1%
津波シミュレーション:1944年東南海地震
津波シミュレーション並列計算性能
ES
Furumura and Saito (2009)
T2K(東大)
並列化率[E]
0.99980
0.99950
最大並列化数[N]
(並列化効率>50%)
5072
1982
理論性能比[%]
19.5%
4.3%