全二重通信と半二重通信の混在環境における問題

10Gbit Ethernetの
性能評価に関する論文調査
九州大学 システム情報科学府
情報知能工学専攻
岡村研究室 修士1年
林 健太朗
目次



背景
発表者の研究
準備
 データの分割
 Window




Size
文献1の紹介
文献2の紹介
文献3の紹介
発表者の今後の研究
2
背景

10GbEthernet(10GbE)の登場によりワイドエリアネット
ワーク(WAN)においても、イーサネットが用いられる
ようになってきた。
以前
LAN:イーサネット (コストが安い、扱いやすい、信頼性は低い)
WAN:SONET/SDH, ATM (コストが高い、扱いにくい、信頼性は高い)
現在
LAN:イーサネット(100Mbps,1Gbps)
WAN:SONET/SDH, イーサネット(10Gbps, 1Gbps)
この移行により、今までのネットワークでは経験しなか
ったような未知の問題の発生が考えられる
3
発表者の研究



発表者はフューチャーインターネットに関する研究を
行っている
大容量のデータを、いままでに存在しなかった高速
な通信路で送信した場合、どのような問題が起こる
のか、それをどのように解決できるか、ということを研
究している
将来の高速な通信路のひとつとして10Gbit Ethernet
の性能評価に関する文献を3つ紹介する
4
準備:データの分割

大きなデータを送信するときそのデータは各プロトコ
ルにより分割される
データ
TCP
IP
Eth
MSS
TCPによりMSSごとに分割
TCPヘッダ20byte付加
TCP20
下位層のイーサネットに合わ
せて1480byteごとに分割
IPヘッダ20byte付加
IP20
eth14
MSS
TCP20
1480 1480 1480
1480
1500
IP20
eth4
MSS
1480
eth14
MSS
1480 1480 1480
IP20
1500
1480
eth4
イーサネットヘッダ14byte、フッター4byte付加
5
準備:データの分割
データ
プロトコル
ペイロード(byte)
TCP
MSS(可変)
MSS
MSS
IP
0~65535
TCP20
MSS
イーサネット(標準)
46~1500
イーサネット(拡張ジャンボフレーム)
8000~16000
eth14

16000
eth4
Maximum Transmission Unit (MTU)




15980
IP20
データリンク層の最大ペイロードサイズ
イーサネット標準:1500byte
拡張ジャンボフレーム:8000~16000byteで可変
拡張ジャンボフレーム

イーサネットを拡張し、より大きなデータを格納できるようにしたもの。
通信路上のすべての機器が対応していなければならない。
6
準備:Window Size

TCP通信では複数のパケットを同時に送信する。そ
の総データサイズをWindow Sizeとよぶ。
1パケットの最大容量はMTU
Round Trip Time
(RTT)
Segment
ACK
1度に送信するデータサイ
ズをWindow Sizeとよぶ。
(MTU×1度に送信するパ
ケット数)
7
準備:Window Size

送信したデータは再送などの処理のために保持し
ておく必要がある。そのためのバッファをウィンドウ
バッファと呼ぶ。
理論上Window Sizeの
最大値はRTT×帯域で
あるためウィンドウバッ
ファもそれだけ必要とな
る
Segment
ACK
受信側でも同じ
サイズのバッ
ファが必要
8
文献1の紹介
タイトル:“Performance evaluation of TCP/IP in
pseudo network environment”
著者:Makoto Nakamura, Junji Tamatsukuri,
Yutaka Sugawara, Mary Inaba, Kei Hiraki,
概要:疑似ネットワーク環境上で、3種類の10GbEネットワークア
ダプタについてTCP/IP通信の性能評価実験を行い、それぞ
れの環境で10GbEの性能を最大限引き出す方法を求めた論
文
9
10Gbpsの通信における未知の問題

CPU処理の増加
 1秒間に80万パケットを送受信(MTU
1500byte)
 受信割り込みが1秒間に80万回発生し、CPUを占有してし
まう恐れがある

メモリ領域の占有
 500msの遅延があり帯域が10Gbpsの場合
 理論上
0.5s*10Gbps/8bit = 625Mbyte のウィンドウバッフ
ァが必要になる
10
CPU処理の軽減技術

NAPI (New API)
 アイドル時は通常通り受信割り込み許可
 受信を開始すると受信割り込みを禁止し、ポーリングによる
受信に切り替える

ポーリング:一定時間間隔ごとにデータがないか確認する方法
 アダプタのバッファに受信データがなくなると受信割り込み
を許可しアイドル状態に戻る
①受信割り込み
アイドル時
受信時
カーネル
カーネル
②受信処理
ネットワークアダプタ
①定期的に監視
②たまったデー
受信割り込み
タを受信処理
ネットワークアダプタ
11
CPU処理の軽減技術

本来CPUが行う処理を、ハードウェア上で行う機能を
もつネットワークアダプタが市販されている
 TSO(TCP

TCPパケットの分割処理やヘッダ付加などの一部の処理をアダプ
タ上で行う機能
 TOE(TCP

Segment Offloading)機能
Offloading Engine)機能
TCP/IP層のすべての処理をアダプタ上で行う機能
12
目的

10GbEでは頻繁な割り込み処理のため、送受信処理
がままならないと考えられる。そのため高いスループ
ットを得られないのではないか。

疑似ネットワーク環境におけるTCP/IPの通信実験に
より、CPU処理削減機能の効果や、10GbEの性能を
最大限引き出す方法を明確にする。
13
実験の構成

3種類のネットワークアダプタ
 Chelsio製

TOE機能を持ったアダプタ。TOEを使用しない場合も実験した。
 Chelsio製


N110 Server Adapter
TCP/IPを支援するようなハードウェアを持たない
 Intel製

T110 Protocol Engine
PRO/10GbE SR Server Adapter
TSO機能とNAPI機能を持つ。
実験は遅延発生装置を介した、同システムのホスト
による1:1通信で行う
14
結果:TOE使用時

Window Size






RTT
RTT
RTT
RTT
RTT
0ms
100ms
200ms
300ms
400ms
– 1Mbyte
– 94Mbyte
– 190Mbyte
– 285Mbyte
– 375Mbyte
開始から20秒までの
間、スループットが
得られていない。
アダプタが処理中で
受信できないという
振る舞いをしているため、TOE
機能のACKパケットの受信動作
に問題があると考えられる
図1:TOE使用時の転送速度
(MTU1500byte, RTT 400ms)
15
結果:ソフトウェアに取る場合
表1:

Intel PRO/10GbEはChelsioのアダプタよりも低いスループット
であった。TSOの使用は如何は結果に影響しなかったので、
アダプタ自体にボトルネックがあると考えられる。
16
結果:ソフトウェアによる場合



Chelsio製の2つのアダプ
タは似た振る舞いをし、
MTU1500byteでは安定し
て動作しなかった
ジャンボフレームでは高い
スループットを得られた
デバイスドライバにより1秒
間の割り込み回数を指定
できる(最大2万回)機能を
持つ
図2:ピークバンド幅
(RTT 400ms)
17
性能評価




ウィンドウサイズは理論値の少なくとも2.5倍以上必
要であった
遅延の大小により割り込み回数の変化はなかった
受信割り込み軽減技術により、割り込みによる通信
性能への影響はなかった
実験の結果、適切なウィンドウサイズ、ユーザバッフ
ァを用いて通信することで最大7.2Gbpsの通信をする
ことが可能であると分かった
18
文献2の紹介
タイトル:“End-to-End Performance of 10-
Gigabit Ethernet on Commodity Systems”
著者:Justin (Gus) Hurwitz, Wu-chun Feng,
概要:遅延が小さい環境において、コンピュータアーキテクチャ
ーの観点からTCP/IP通信の性能評価を行った論文
19
背景と目的



WANにおいて10GbEの移行が進んでいるが、今後遅
延が小さいようなLANにおいても普及することが考え
られる。
この論文では何も手を加えていない環境から少しず
つ最適化を行い、システムに依存しない最適化方法
を考えていく。
遅延が小さい場合での、どのような環境でも10GbE
の性能を引き出せる事を示す
20
テスト環境

Dell PowerEdge 2650 (PE2650)
 CPU:
Xeon 2.2GHz 400MHz-FSB
 メモリ:1Gbyte
 133MHz-PCI-Xバス
 CPU帯域幅25.6Gbps、メモリ帯域幅25.6Gbps、ネットワーク
帯域幅8.5Gbps
図3:ネットワーク図
21
結果:基準



これ以降、この結果を基準に最適化を進める
6272byteー7436byteー8948byteにおいて山谷がある
次に、カーネルをSMP(Symmetric Multi Processor)非対応の
ものに変更する
22
結果:最適化1


どちらのMTUサイズにおいてもおよそ20%のスループット向上
がみられる
次に、Window Sizeを64kbyteから256に変更する
23
結果:最適化2


山谷が消え平均スループットは1500byteのMTUでは7%、
9000byteのMTUでは31%向上している
最後にMTUサイズを8160byteと16000byteに変更する
24
結果:最適化3
25
結果:最適化3



Linuxではメモリのブロックサイズを2倍ごとに確保す
る(ex:32, 64 ・・・8192, 16384byte)
9000byteのデータは16384byteの領域に書き込まれ
るため、メモリの読み書き時、余計に処理をかけてし
まう
8160byteのMTUでは8192byteの領域に書き込まれ
るため効率がよい
26
さらなる最適化



これまでの最適化手法はすべてのシステムにおいて
適用可能な方法である
さらなる最適化はシステムによって異なる。システム
が変わればスループットは当然変わってくる
2.0GHz AMD Opteron 246の場合
 MTU-9000byte
6.0Gbps
 MTU-16000byte 7.3Gbps

手を加えていないIntel Itanium2
 MTU-9000byte
5.14Gbps
 MTU-16000byte 6.0Gbps
27
スループットの考察

初めの実験で、スルー
プットのピークが
4.11Gbpsであった原因
の考察
図4:受信時の振る舞い


ボトルネックの候補は図4よりネットワークアダプタ、PCI-Xバ
ス、メモリバス、FSB、CPUの五つ
考察の結果、特定の箇所の問題ではなく、パケット受信時の
非効率なメモリ読み込み手順こそが原因であると結論づけて
いる。
28
SFNについての考察

Short Fat Network(SFN)


Long Fat Network(LFN)




遅延が小さく帯域が広い
遅延が大きく帯域が広い、研究が盛ん
SFN固有の問題というものも存在する
本論文ではSFNにおいて大きなMTUと小さなWindow Sizeを使
ったとき問題が起きることを示し、その解決法も示した。
今後SFNはさらに小さな遅延、さらに大きな帯域、さらに大き
なMTUになるであろう
29
文献3の紹介
タイトル:“Native 10 Gigabit Ethernet
experiments over long distances”
著者:Catalin Meirosu, Piotr Golonka, Andreas
Hirstius, Stefan Stancu, Bob Dobinson, Erik
Radius, Antony Antony, Freek Dijkstra,
概要:10GbEをWANに用いることができるか、実環境で実験を行
いその評価を行った論文である
30
背景と目的



10GbEはLANに向けてだけではなくWANにも用いら
れるように開発された
現在WANにおいての普及が進んでいるが、10GbEの
WANへの適用は本当に有効なのだろうか
実環境で実験を行うことにより、10GbEをWANに用い
る有効性を明らかにする
31
10Gbit Ethernet

10GbEはLAN向けの規格とWAN向けの規格に分か
れている
 LAN
PHY 10.3125Gbps
 WAN PHY 9.95328Gbps


WAN PHY は SONET/SDH のOC-192に直接接続で
きる
WAN PHYの帯域がやや小さいのはSONET/SDHと
の接続性のためである
 SONET/SDH
OC-192 9.95328Gbps
32
実験項目

DWDM機器との接続性のテスト
 DWDM(Dense



Wavelength Division Multiplexing)
波長の異なる光は互いに干渉しないという性質を利用することで、
光ファイバーを多重利用する方式
OC-192との接続性のテスト
スループットの測定
33
実験の構成

DWDMとの接続性
テスト環境

OC-192との接続
性テスト環境

スループット測定
のための環境
34
結果:シングルTCPストリーム
図5:シングルTCPストリームのスループット


MTUとWindow Sizeを様々に変えて実験を行った
通信性能を引き出すには、ジャンボフレームを用い
る必要があることが分かる
35
結果:マルチTCPストリーム
図6:マルチTCPストリームのスループット


ストリームの数はスループットに影響しない
つまり1ストリームあたりのオーバーヘッドが小さいと
言える
36
まとめ




実環境のWAN上において10GbEの接続性、および
TCP通信の評価実験を行った。
DWDMとの接続性、OC-192との接続性を確認できた
TCP通信において5.4Gbps以上のスループットを得ら
れた
マルチストリームの実験によりストリームの数はスル
ープットに影響しないことが分かった。
37
発表者の今後の研究

今回の論文調査により10GbEを用いるときは、適切
なWindow Size・ユーザバッファの設定、またはカーネ
ル・ネットワークアダプタなどを考慮しなければ、
10GbEが持つ性能を引き出せないことが分かった。

今後の研究のなかで、10GbEに限らず、帯域の測定
実験を行うときや、ネットワークの評価を行う際など
には参考にしたい
38
ご清聴ありがとうございました
39