PowerPoint プレゼンテーション - Home Page of Koji

情報ネットワーク特論
2011年11月22日

スーパーコンピュータの構造

スーパーコンピュータのネットワーク

最新のスーパーコンピュータ事情

多数(数千~数万)の"計算ノード"をネットワークで接続
した大規模並列計算機
CPU
コア
CPU
コア
メイン
メモリ
CPU
コア
CPU
コア
メイン
メモリ
CPU
コア
CPU
コア
メイン
メモリ
CPU
コア
CPU
コア
メイン
メモリ
ネットワーク
ネットワーク

数台~数百台程度の、小~中規模な並列計算機より
ネットワークに対する制約が厳しい


"スーパー"な計算機
= その時点で、一般的な計算機の性能をはるかに
超える性能を持つ計算機
スーパーコンピュータの用途
= 主に科学技術計算
◦ 例えば
 分子構造のシミュレーションによる創薬
 構造シミュレーション等による車の設計
 熱力学シミュレーション等による気候予測
...

稼動開始時点(2002年3月)時点で,
世界最高速のスーパーコンピュータ
◦ 日本の計算機メーカ(主に NEC)が開発

開発目標: 10km四方(赤道近辺)の精度で地球
全体の大気循環をシミュレート

それまでは 100km四方
◦ 例えば台風の発生過程:
100km四方だと台風が
台風に見えない
5

台風進路予測

台風発生予測

CO2の増加に伴う温暖化の予測
◦ 5.5km四方で地球全体をシミュレート(日本近辺は
2.78km四方)
◦ 海底探査船「ちきゅう」に, 台風進路の予測結果を到達予定
の3日前に提供
◦ 過去10年間についてシミュレーションによる台風発生回数
が実際の値とほぼ一致
◦ 2040年には年間の真夏日日数が約20日増加,
平均気温が約2度上昇.
6

非常に高速なCPUを搭載した計算ノード:
ベクトルプロセッサ

5120台の計算ノードによる並列計算

全ノードを接続する高速なネットワーク

命令読み出し → 解釈 → データ読み出し
→ 計算 → 結果の出力
処理装置(CPU)
入出力装置
磁気ディスク,
キーボード,
ディスプレイ等
制御装置
演算装置
メモリ
プログラム
3 100 1
3 200 2
1
1
2
データ
メモリからデータが届くまで計算できない
8


CPU:1回の演算時間:
0.25~0.5ns
メモリ:1回の読み書き時間: 数ns~数十ns

約10~100倍の性能差:
データを待つ間,CPUは仕事ができない

ベクトルプロセッサ,スカラープロセッサ,
それぞれ別の方法で解決
9

パイプラインによる連続アクセスの高速化
◦ パイプライン(=バケツリレー)
→ データが届き始めてからはメモリ遅延の影響なし
CPU
メモリ
a[8]
a[7]
a[6]
a[5]
さらに、
 複数のデータの同時転送

a[4]
a[3]
a[2]
a[1]
a[0]
CPU
メモリ
ベクトル命令で効率良く実行
◦ 一つの命令で複数のデータに対する演算を一括指示
非ベクトル
add
a(1) b(1)
add a(2) b(2)
add a(3)
ベクトル
vadd
a(1~100)
b(1~100)
b(3)
連続データに対する単純な演算の繰り返しに有効
10

利点: 簡単に高速化できる
◦ 強力な自動ベクトル化コンパイラにより,
プログラムをほとんど書き換えずに高性能を達成

欠点 1): 用途が限定
◦ 科学技術計算以外では,ほとんど効果が無い
 メモリをランダムに参照する処理: 探索、ソート等

欠点 2): 高価
◦ 高速なパイプラインの実現には複雑な回路設計が必要
⇒ 開発費が高価
◦ 用途が限定されるため、販売台数が少ない
⇒ スケールメリットが得られにくい

キャッシュメモリの利用
◦ CPUとメモリの間に置く高速メモリ
◦ 高速だが小容量
速度に応じて階層化
階層
遅延時間
容量
1次キャッシュ
1クロック
32KB
2次キャッシュ
5クロック
256KB
3次キャッシュ
12クロック
3MB~9MB
メモリ
数百クロック
数GB~数百GB
CPU
キャッシュメモリ

1次
2次
3次
メモリ
◦ アクセスされた領域をCPUの近くにコピー
 小さい領域内での計算が非常に高速
様々な種類の計算を無難にこなす
12

スカラープロセッサ:
ある程度の性能を安価に提供可能
◦ 構造が比較的簡単
⇒ 開発費が安価
◦ PCやサーバ等にも搭載
⇒ スケールメリット大

プログラムの工夫が重要
◦ キャッシュメモリの有効利用:
一旦キャッシュにコピーしたデータの再利用等

1: プロセッサ単体の性能を上げる
◦ 1.1 クロック周波数(=計算機の基本的な処理速度)の向上
◦ 1.2 プロセッサ内部の演算器を増やす

2: プロセッサの数を増やす
= 並列計算機
14

物理的,経済的な限界
◦ 物理的な限界 = 消費電力と熱
 周波数に対して指数関数的に増加
 例えば x86系 CPU は 2004年の 3.8GHz以降、
頭打ち状態
◦ 経済的な限界 = 開発コスト
 回路の微細化、複雑化
 電流漏れ,熱等の問題が深刻化
今後も、大幅な周波数増は見込めない
15

やはり、物理的、経済的な限界
◦ 集積度(チップに搭載可能な演算器数)の限界
◦ 回路の複雑化にともなう開発コスト

さらに、プログラム側の問題
◦ 演算器の数が増えると、それらを活用できるプログラムは減少
◦ 大幅なアルゴリズム変更が求められる場合もある
理想的な場合でも性能向上は2倍程度

仕事を複数のプロセッサに分担させて高速化
= 並列処理
普通の処理
仕事1
並列処理
仕事1
仕事2
仕事3
仕事2
仕事3
うまく分担できればプロセッサの数に応じて性能向上

並列処理をするには?
⇒ 並列プログラムが必要

並列処理に必要な事項を含むプログラム
◦ 各CPUコアへの仕事の分担のさせ方、
◦ 相互の情報交換、
◦ CPUコアの間の同期
等
普通のプログラム
(=並列じゃないプログラム)とどう違う?
18

0番目から99番目までの要素を順に計算
0
...
99
A
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
B
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
C
プログラム
double A[100], B[100], C[100];
...
for (i = 0; i < 100; i++)
A[i] = B[i] + C[i];
19

スレッド:
同じ記憶空間を共有しながら進行する流れ
スレッド0
0
A
...
スレッド1
24 25
...
スレッド2
49 50
...
スレッド3
74 75
...
99
全スレッドが
同じ配列を
共有
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
B
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
C
double A[100],B[100],C[100];
double A[100],B[100],C[100];
...
double A[100],B[100],C[100];
...
double A[100],B[100],C[100];
for (i=0; i<25; i++)
...
(i=25; i<50; i++)
...
A[i] = B[i] + for
C[i];
for
(i=50;
i<75;
i++)
A[i] = B[i] + C[i];
for (i=75; i<100; i++)
A[i]
=
B[i]
+
C[i];
スレッド0
A[i] = B[i] + C[i];
スレッド1
スレッド2
スレッド3
20

1) コンパイラにおまかせ

2) OpenMP等のスレッド並列化手法
21

コンパイラの「自動並列化」機能を利用
= 「お任せコース」の最適化の一部

最近は、ほとんどのコンパイラで利用可能

簡単なプログラムでは、それなりの効果
複雑なプログラムの並列化は、人間の助けが必要
22

簡単にスレッド並列プログラムを
記述するための手法

基本的に「並列化指示行」を追加するだけ
◦ 例) 前出のスレッド並列処理をOpenMPで記述
#include "omp.h"
double A[100], B[100], C[100];
...
#pragma omp parallel for
for (i = 0; i < 100; i++)
A[i] = B[i] + C[i];
並列化指示行
23

利点: 簡単に並列化
◦ コンパイラにお任せ、
もしくは OpenMPの指示行追加だけ

欠点: 基本的に「共有メモリ型並列計算機」向け
⇒ 「分散メモリ型並列計算機」では使えない
= 大規模な計算機で利用できない
24

1つのメインメモリを複数のCPUコアで共有
◦ マルチCPUコアのPC等
CPU
コア
CPU
コア
CPU
コア
CPU
コア
CPU
コア
CPU
コア
メインメモリ
CPUコアからメインメモリへの経路が共有
⇒ 規模(=CPUコア数)に限界
25

複数の独立したメインメモリで構成
CPU
コア
CPU
コア
メイン
メモリ
CPU
コア
CPU
コア
CPU
コア
メイン
メモリ
CPU
コア
メイン
メモリ
CPU
コア
CPU
コア
メイン
メモリ
ネットワーク
規模に応じて経路の数も増加
⇒ 大規模化が比較的容易
26

分散メモリ型並列計算機における並列処理に必要

プロセス並列
独立した記憶空間をもつ「プロセス」を
単位とした並列処理
27

処理だけでなくデータも分割
プロセス0
A
0
...
プロセス1
24
A
0
...
プロセス2
24
A
24
B
A
...
24
+
+
+
+
+
C
0
B
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
C
...
=
=
=
=
=
B
0
プロセス3
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
B
C
各プロセスが
別の配列を
利用
C
double A[25],B[25],C[25];
double A[25],B[25],C[25];
...
...
for (i=0;i<25;i++)
double A[25],B[25],C[25];
double A[25],B[25],C[25];
(i=0;i<25;i++)...
A[i] = B[i] +for
C[i];
...
A[i] = B[i] + for
C[i];
(i=0;i<25;i++)
プロセス0
(i=0;i<25;i++)
A[i] = B[i] +for
C[i];
プロセス1
A[i] = B[i] + C[i];
プロセス2
プロセス3
28

他のプロセスのデータは直接参照できない

必要に応じてプロセス間通信
プロセス0
A
受信
プロセス1
A
プロセス2
A
プロセス3
A
送信
ネットワーク
29

並列プログラム用に用意された通信関数群の定義

例) プロセス0からプロセス1にデータを転送
MPI_Comm_rank(MPI_COMM_WORLD, &myid);
...
if (myid == 0)
MPI_Send(&(a[5]), 1, MPI_DOUBLE, 1,
0, MPI_COMM_WORLD);
if (myid == 1)
MPI_Recv(&(a[3]), 1, MPI_DOUBLE, 0,
0, MPI_COMM_WORLD, &status);
自分のプロセス番号を取得
プロセス1に送信
プロセス0から受信
30

利用可能な並列化手段
共有メモリ型 分散メモリ型
自動並列化、
OpenMP
MPI
○
×
○
○
MPIプログラムは、
作るのに苦労するがどこでも実行できる
31

利点: 理論的な性能は、比較的容易に向上
◦ 極端な話,単純に数を増やせば向上する

欠点: 実質的な性能向上には工夫が必要
◦ 並列プログラムの作成
 計算の分担
 データの分割
 計算結果の通信
◦ 並列処理のための時間増加
 他のCPUとの同期待ちや通信
スーパーコンピュータの構成は、
今のところ分散メモリ型並列計算機
32

スーパーコンピュータの構造

スーパーコンピュータのネットワーク

最新のスーパーコンピュータ事情

他の通信に邪魔されたくない
⇒ congestion (通信路の競合)が発生しにくい形状

数万~数十万ノードを接続したい
⇒ link や router がノード数に対して爆発的に
増えない形状
topology (= ネットワークの形状)が重要

一本の Busを全ノードで共有。両端をつなげたものが
Ring
◦ CPU内のコア間接続等で使用。



構成が簡単なので bandwidth を大きく、latencyを
低くできる。
link と routerの数はノード数と同じなので理想的。
全ての通信が同じlinkを共有するのでcongestion
が頻発。
大規模並列計算機では、まったく使い物にならない


全ノード間で、congestion 無し、低 latency の通信
を実現。
linkの数や、ノード毎の routerの規模が、ノード数に
応じて爆発的に増加。
大規模並列計算機では、まったく使い物にならない


行列上の switchを介して全ノードを接続
互いに独立した通信であれば congestion 無し
◦ 独立した通信 = 送信ノードも受信ノードも別である通信

ノード数 N の2乗に比例した link と router



多段の crossbar switch による木構造で構成
上位層の link と switch を増やすことにより
単純な木構造よりも congestion を低減
Crossbar に比べ、link数は削減できるが、
congestionは増加



多次元の格子状にノードを配置し、隣接ノード間を直
接接続
ノード数 N に比例した link数
通信のパターンによっては
congestionが頻発


多段全対全結合
DragonFly
出典: http://www.unixer.de/publications/img/ibm-percs-network.pdf
出典: http://research.google.com/pubs/archive/35154.pdf

スーパーコンピュータの構造

スーパーコンピュータのネットワーク

最新のスーパーコンピュータ事情

より高い性能のスーパーコンピュータを持つ

計算技術の向上
◦ 汎用の計算機への応用
◦ ソフトウェア効率化の推進

経済的な競争力の向上:
◦
◦
◦
◦
創薬
新素材の開発
気候予測
製品設計
etc.
「計算機の性能」とは?


一般に1秒間に実行できる演算の数
= OPS (Operations Per Second)
特に実数計算(Floating Operation)の性能の場合
= FLOPS (FLoating Operations Per Second)
FLOPSの計算式:
理論演算性能 = システム全体のプロセッサコア数
x プロセッサコアの周波数
x コア内の同時実行可能実数演算数
◦ 例えば 4演算同時実行可能な1GHzのコア 1000個のシステム
⇒ 4000GFLOPS = 4TFLOPS
 G: Giga, T: Tera(=1000G), P: Peta(=1000T), E: Exa(=1000P)

理論演算性能:
全ての演算器が休むことなく働き続けることが前提

実際のプログラム:
様々な要因で演算器が休止
◦ メモリからのデータ到着待ち
◦ 他のプロセスの計算完了待ち
 プロセス間の負荷の不均衡
◦ 通信の完了待ち
◦ ファイル入出力待ち
理論演算性能による比較は、ほとんど意味が無い

プログラムによって傾向が変わる。 例えば。。。
◦ 行列の連続した要素に対する計算:
ベクトルプロセッサが圧倒的に高速
◦ 不規則なメモリアクセスを行う計算:
スカラープロセッサが高速
◦ たくさんのプロセッサに分担させることができる計算:
大規模並列計算機の効果大
どのプログラムを使って比較するか?

スーパーコンピュータの性能比較サイト
http://www.top500.org
◦ 稼働中のスーパーコンピュータの上位500台を掲載。
◦ 自己申告制

LINPACKベンチマークプログラムを使用
◦ NxNの連立一次方程式の求解計算における実数演算数 2N3 を
所要時間で割った FLOPS値で比較。
◦ Nは任意に決めてよい。
◦ 十分大きな N では理論演算性能に比較的近い性能が出やすい。
 キャッシュヒット率が高い、通信が少ない、負荷が均等

他の計算機との比較や傾向の分析などが容易
◦ 1993年からほとんど同じ条件で更新を継続。
◦ 世界中のほぼ全てのスーパーコンピュータが登録。
スーパーコンピュータ開発競争に利用

35 TFLOPS (Tera Floating Operations Per Second)
= 1秒あたりの 35兆回の実数計算
◦ 断トツの 1位
◦ 2位から10位までの計算機の演算性能の合計を上回る性能(2002
年6月時点)

“Computenik”
= 「計算機分野でのスプートニクだ!」
(in New York Times)
◦ by Jack Dongarra教授
テネシー大学教授、Top500サイトの創始者
米国の開発意欲に火を付けた
47

IBM Blue Gene/L (2004年11月~)
http://www.research.ibm.com/bluegene/
◦ 70TFLOPS
 ちなみに地球シミュレータ(35TFLOPS)は3位に後退
◦ 「まだ完成形ではない」:
2005年前半に、さらに4倍高速化する計画
日本のすべてのスーパーコンピュータを
かき集めても追いつかない規模になる
48

IBM Blue Gene/L (2005年11月)
◦ 理論最高性能 280TFLOPS
 世界で初めて 100TFLOPSを越えた計算機
 地球シミュレータは7位に後退
◦ 本当に日本のすべてのスーパーコンピュータを
かき集めても追いつかない規模に
 世界500位に入った計算機の性能の国別合計:
1位 米国
68.3%
2位 日本
5.68 %
3位 イギリス5.41%
4位 ドイツ 3.10%
5位 中国
2.59%
以下、 オーストラリア、スイス、オランダ、韓国、…
49

~2010年6月 米国の時代
◦ 2004~2007
IBM BlueGene/L 478 TFLOPS
◦ 2008
IBM RoadRunner 1.1 PFLOPS
◦ 2009~2010.6 Cray Jaguar
1.8 PFLOPS

2010年11月 中国の台頭
◦ 2010.11
中国 Tianhe-1A 2.6 PFLOPS
 日本勢は東京工業大学のTSUBAME2.0が
1.2 PFLOPSで4位
50


1位 K computer(日本)
2位 Tianhe-1A (中国)
3位 Jaguar(米国)
国別合計:
1位
2位
3位
4位
5位
米国 42.87%
日本 18.98%
中国 12.11%
ドイツ 5.50%
フランス 5.40%
8.2 PFLOPS
2.6 PFLOPS
1.8 PFLOPS
(25.3 PFLOPS)
(11.2 PFLOPS)
( 7.1 PFLOPS)
( 3.2 PFLOPS)
( 3.2 PFLOPS)
◦ 以下,英国,ロシア,韓国,カナダ,...
51


1位 K computer(日本)
2位 Tianhe-1A (中国)
3位 Jaguar(米国)
10.5 PFLOPS
2.6 PFLOPS
1.8 PFLOPS
国別合計:
1位
2位
3位
4位
5位
米国
42.8% (31.7 PFLOPS)
日本
19.2% (14.2 PFLOPS)
中国
14.2% (10.4 PFLOPS)
フランス
5.1% ( 3.7 PFLOPS)
ドイツ
4.9% ( 3.6 PFLOPS)
◦ 以下,英国,カナダ,ロシア,韓国,...
52

理化学研究所と富士通が開発
http://www.aics.riken.jp
◦ 当初の目標:
出典: http://www.nsc.riken.jp/K/diary.html
2012年までに毎秒1京回の計算(=10PFLOPS)
が可能な計算機を開発する
◦ 例えば...
1km平方で分割したアジア域の雲解像モデル解析(24時間
分)を 1分で計算
 地球シミュレータでは 12時間必要
53

世界最大規模

低消費電力

高信頼性
◦ 約8万ノード x 8CPUコア=約64万CPUコア
◦ 128GFLOPS / 58W
◦ 水冷方式
◦ エラー検出、訂正機能

SPARC64TM VIIIfxチップ
高速ネットワーク
◦ 6次元トーラス
◦ 少ない結線数で全体を
接続
◦ 1台壊れても別ルートを
使って運転を継続
Tofu インターコネクトネットワーク
出典: http://www.ssken.gr.jp/MAINSITE/download/newsletter/2011/20110825-sci-1/lecture-5/ppt.pdf
54

階層構造:
◦ 小~中規模の共有メモリ型並列計算機か
マルチコア計算機で分散メモリ型並列計算機を構成
CPU
CPU
... CPU
メモリ
CPU
CPU
メモリ
... CPU
CPU
CPU
... CPU
...
メモリ
CPU
CPU
... CPU
メモリ
地球シミュレータ BlueGene/L 京
CPUあたりのコア数
1
1
8
ノード当たりCPU数
8
2
1
640
65,536
約8万
ノード数
55



地球シミュレータ: ベクトルプロセッサ
BlueGene/L, 京: スカラープロセッサ
2011年11月時点で、ベクトルプロセッサは
地球シミュレータ2の1台のみ
ベクトルからスカラーへ
56

特定の計算を高速化

特に最近はグラフィックプロセッサの
科学技術計算用途への流用に注目:
GPGPU (General Purpose GPU)
◦ PC用のGPUカードを使用
◦ 2位(中国)、4位(米国)、5位(日本 東工大)で
NVIDIAのGPU搭載
安価かつ低消費電力で性能を大幅に向上
57

実は基本的なグラフィック計算の主要部分は
連続領域に対する演算の繰り返し
◦ ベクトルプロセッサの得意な計算と同じ

基本構造がベクトルプロセッサとほぼ同じ
58

グラフィック処理に特化した簡略化
◦ メモリ量を制限
 1〜2GB程度
◦ 演算の種類を制限
 主に加算,乗算の性能重視
 除算,平方根等はソフトウェアで計算
 複雑な処理は不可

スケールメリット
◦ ほとんどのPCに搭載
59

例) NVIDIA Tesla C2075
演算性能(単精度)
1.03 TFLOPS
演算性能(倍精度)
515 GFLOPS
GPUメモリ容量
消費電力
価格
6GB
215W
22万円前後
地球シミュレータの
1/80 の性能
地球シミュレータの
1/30000 の電力
地球シミュレータの
1/200000
の価格
60

メモリからアクセラレータのメモリへのデータ転送が遅い
◦ Tesla C2015で
515GFLOPSに対して
8GB/sec
 アクセラレータ上のメモリへのアクセスは 144GB/sec
◦ NECのベクトルプロセッサは
◦ 京のスカラープロセッサは

100GFLOPSに対して 256GB/sec
128GFLOPSに対して 64GB/sec
性能に対するメモリ量が少ない
◦ Tesla C2015で
515GFLOPS に対して 6GB
◦ NECのベクトルプロセッサは 100GFLOPS に対して 64GB
◦ 京のスカラープロセッサは
128GFLOPSに対して 16GB

プログラムが複雑
◦ ホストPC側とアクセラレータ側双方のプログラム
◦ データの移動も全てプログラムに明記
性能を活かすためには高度なチューニングが必要
地球シミュレータ BlueGene/L 京
総理論演算性能
(TFLOPS)
Linpack性能
(TFLOPS)
実効性能比
電力
電力対実効性能
TFLOPS/MW
導入コスト
TSUBAME2.0
40
367
8773
2287
35.8
280.6
8162
1192
89.5%
6MW
76.5%
0.2MW
93.0%
10MW
52.1%
1MW
5.96
1400
816
1192
500億円
$1億
1200億円
32億円
電力あたりの性能は高いが、実効性能比が低い
62

プログラムの対応

計算の大規模化への対応
◦ GPGPUは連続単純計算が得意
◦ メモリが小さいので,複数のGPGPU間で
通信しながらの分散並列処理

科学技術計算向け拡張部分のビジネスモデル
◦ ゲームに必要ない部分(倍精度実数演算等)に
どのくらい費用と時間をかけることが出来るか?
63

膨大な開発費:
京の場合,7年間で約1,200億円
◦ 事業仕分けでの指摘
「2番じゃダメなんですか?」

次の目標:
2018年に 1 Exa FLOPS を達成
(1 Exa = 1,000 Peta)
◦ 予算は???
64






富士通: 京の商用機発表
http://www.hpcwire.com/hpcwire/2011-1107/fujitsu_unveils_post-k_supercomputer.html
NEC: SX-9後継のベクトル計算機開発計画を発表
http://www.perfect-abs.info/news/Vector-Processor.html
IBM: BlueGene/Q で 100PFLOPSを狙う
http://www.theregister.co.uk/2011/11/16/ibm_bluegene_q_po
wer_775/
Cray: Blue Water
http://wjbc.com/cray-replaces-ibm-on-u-of-illinoissupercomputer/
Barcelona Supercomputing Center:
Tegra + GPGPUでスーパーコンピュータ開発
http://latimesblogs.latimes.com/technology/2011/11/nvidiasupercomputer.html
中国: 自国製CPU ShenWey SW1600
http://www.hpcwire.com/hpcwire/2011-1101/china_s_indigenous_supercomputing_strategy_bears_first_fru
it.html

PCAST (President’s Council of Advaisors on
Science and Technology) の指摘
http://insidehpc.com/2010/12/22/pcast-report-supercomputing-arms-race-maybe-the-wrong-path-forward/
“an arms race that is very expensive and may not
be a good use of funds.”
ゲームのルールが変わる可能性

HPC Challenge
http://icl.cs.utk.edu/hpcc/
◦ 複数の部門でそれぞれ順位づけ
 Linpack, Matrix Multiply, Memory Bandwidth,
Matrix Transpose, Random Access, Fast Fourier Trans,
Communication Bandwidth and Latency

Graph500
http://www.graph500.org
◦ 組み合わせ最適化問題の計算性能比較

Green500
http’//www.green500.org
◦ Top500の性能を消費電力で割った電力対性能比を比較

Gordon Bell賞
◦ 実プログラムでの性能競争
◦ 2011年: 京を用いたシリコンナノワイヤのシミュレーション
で理化学研究所、筑波大、東大、富士通のチームが受賞
http://ajw.asahi.com/article/economy/biz_briefs/AJ
201111180034
 東工大もTSUBAME2.0を用いた新素材形成のシミュレーション
で特別賞を受賞
http://cloud.watch.impress.co.jp/docs/news/2011111
8_492092.html



米国
http://www.exascale.org
ヨーロッパ
http://www.prace-project.eu
日本
http://www.open-supercomputer.org/workshop/purpose.html

予算が問題
http://sankei.jp.msn.com/politics/news/111116/plc11111611240003-n1.htm