実環境でのワークロード特性

プレゼンテーションタイトルがここに入る
実環境でのワークロード特性
ストレージネットワーキング・インダストリ・アソシエーション日本支部
教育委員会
資料利用に関する注意事項
本プレゼンテーションに含まれる資料は、SNIA
もしくはSNIA日本支部に著作権があります。
会員企業は、以下の条件でこの資料を
プレゼンテーション及び文書の中で利用できます。
スライドを利用する場合は、変更せずに複製しなければ
なりません。
本資料を含む文書では、使用した資料の提供元が
SNIA日本支部であることを明示しなければなりませ
ん。
このプレゼンテーションは、 SNIA日本支部 ・
教育委員会のプロジェクトによるものです。
© 2014 Storage Networking Industry Association. All Rights Reserved.
2
はじめに
本プレゼンテーションは、実動作環境、特にVM環境下でのワークロードの特性を把
握し、その知識を容量や性能の決定に適用することにより、最適サイジングを行うた
めの一助として作成した。
すなわち、実際に運用を行っているIT部門の担当者、
クラウドやコロケーション事業者でサイジング管理担当者、
ベンダーでサーバーやストレージの性能測定を行う担当者、
装置や部品の特性を測定する担当者、認証機関
の方々に最適と思われる。
- ディスクのワークロードはシーケンシャルまたはランダムのどちらか?
- どの程度の並列度があるのか?
- ワークロードの特性を把握する方法は? 使用可能なツールやテクニックは?
- どこが ボトルネックなのか?
- ワークロードをストレージ(SSD)、CPU、メモリおよびネットワークの適切な組み合
わせに合わせる方法は?
などを実例を使って説明する。
© 2014 Storage Networking Industry Association. All Rights Reserved.
3
データセンター&クラウドインフラストラクチャ
パブリック・クラウド・プロバイダー
エンタープライズ仮想データセンタ
オンプレミス・クラウド
垂直統合型
クラウド
サーバ
IaaS、PaaS、
SaaS
サプライヤー/パートナー
ISP
ISP インターネット
ISP
光
ISP
ISP
エッジ
ISP
Web 2.0
ソーシャルネットワーク
セルラー
無線
FC/ IPSAN
コア
ISP
リモート/支店
スイッチ:レイヤ4~7、
レイヤ2、10GbE、FCストレージ
VPN
Facebook、
Twitter、YouTube…
ケーブル/DSL…
ホーム・ネットワーク
キャッシング、プロキシ、
FW、SSL、IDS、DNS、LB、
Webサーバ
階層1
エッジ・ア
プリケーション
データベースサーバ、
ミドルウェア、データ管理
アプリケーションサーバ
HA、ファイル/印刷、ERP、
SCM、CRMサーバ
階層3
データベース
サーバ
階層2アプリケーション
ディレクトリ
セキュリティ
ポリシー
ミドルウェアプラットフォーム
© 2014 Storage Networking Industry Association. All Rights Reserved.
管理
4
仮想化: ITインフラへの浸透
サーバ投資(WW)
複数VMによるI/O混合効果
電力/冷却 & データ管理
メモリを共有する物理サーバのボトルネック
Time
仮想化: TCO削減
仮想化以前のサーバ:995
仮想サーバの普及
仮想化(VZ)サーバ:78
3年間のコスト
2011年は全サーバの50% 、2016年には85%まで増加
VZ SW &
Support
© 2014 Storage Networking Industry Association. All Rights Reserved.
5
仮想化の進展
© 2014 Storage Networking Industry Association. All Rights Reserved.
6
しかし、予想通りにはいかない…
© 2014 Storage Networking Industry Association. All Rights Reserved.
7
新たな問題
SLAを確実に
満たすには
どうすれば
良いか?
統合を進めると、性
能に悪影響が
あるか?
コストの高い
SSDキャッシュに本当
にメリットはあるの
か?
翌年のIT予算を正
しく計画するには、
どうすれば良い
か?
© 2014 Storage Networking Industry Association. All Rights Reserved.
8
データセンタで出来てないこととは…
土木工学設計
•
CADソフトウェア
は、構築前のイン
フラストラクチャの
設計やコストのモ
デリングに役立つ。
•
航空会社運用
チップ設計と予測
物流管理ソフト
ウェアは、効率を
最大限高める。
•
設計自動化ソフト
ウェアによって、コ
ストの高い製造の
前にテストを実行で
きる。
その他の大規模な業務には、設計と管理のための強力なツールが用意さ
れているが、データセンタには用意されていない?
© 2014 Storage Networking Industry Association. All Rights Reserved.
9
…もちろんある!
例:ストレージの性能
SSD設計が発揮する性能を予測する。
運用コストとROIのモデリングは?
現在、データセンタの設計、予測および運用のためのツールが、
存在する。これは、ワークロードの特性が鍵である。
© 2014 Storage Networking Industry Association. All Rights Reserved.
10
心理的には、フラッシュが追い抜くが...
フラッシュ・メモリへの興味が大幅に上昇しているが、
コストが高いため、すべての人にメリットがあるわけではない。
11
© 2014 Storage Networking Industry Association. All Rights Reserved.
SSDが多くの注目(hype)を獲得
「フラッシュ・メモリの経済性は驚くべきものである。SSDを使用していな
いならば、それは誤りである。 」 –High Scalability
Solid-state drive
SSD
出典: Google Trends、2014年3月
しかし、現実に注目に応えられているか?
© 2014 Storage Networking Industry Association. All Rights Reserved.
12
SSDの失敗事例
企業概要
•
•
某自動車会社
•
上場企業
•
1950年代に設立
•
4,000人を超える従業員
•
30億ドル超の売上額
大規模SSDキャッシュ・プロジェクト
POCを実施
本番環境にデプロイ済み
•
ただし、VMは簡単な計算で選択
VMはアプリケーション種別に基づいてのみ選択
•
プロジェクトは大失敗に終わる。
VMはとうてい利点をもたらすことができなかった(多大な浪費)。
© 2014 Storage Networking Industry Association. All Rights Reserved.
13
重要な質問
・SSDは自社のデータセンタに利点をもたらすのか?
・どのVM/アプリケーション?
・どの程度のキャッシュが必要なのか?
© 2014 Storage Networking Industry Association. All Rights Reserved.
14
VMのSSDからの利点は以下に依存する …
そもそもボトルネックはディスクなのか
(あるいは、CPU、メモリか)?
VMがキャッシングから利点を得られるかどうかを、
どのように判断するか?
詳細なワークロードの特性評価
突出したI/Oの分析
読み取り/書き込み比率の分析
レーテンシー分析
キャッシュ・ヒット率の分析
簡単な経験則はない!
万能なサイズはない。
© 2014 Storage Networking Industry Association. All Rights Reserved.
15
ワークロードの特性を表す手法
ヒストグラムは、単一の数値(平均値、中央値、および平均からの
標準偏差など)よりも、多くの情報をもたらす。
例:多様な挙動は、ヒストグラムで表すと簡単に特定できるが、
平均値では不明瞭になる。
ヒストグラムは実際にオンラインで効率的に計算できる。
Made up Example
2000
1500
1000
500
10
9
8
7
6
5
4
3
2
Frequency
0
1
平均値は5.3!
2500
Latency of an operation (microseconds)
© 2014 Storage Networking Industry Association. All Rights Reserved.
16
ワークロードの特性を表す手法 (続き)
ESXディスクI/Oワークロードの特性解析
は、仮想ディスク単位で行われる。
ワークロードをタイプごとに分けてその固有
のコンテナに入れ、トレンドを観察できる。
手法
ESXの仮想マシンのI/O要求毎に、
値をヒストグラムに挿入する。
例:I/O要求のサイズ → 4 KB
仮想ディス
ク毎に収集
されたデー
タ
6
4
8192
4096
2048
1024
2
0
© 2014 Storage Networking Industry Association. All Rights Reserved.
17
ワークロードの特性を表す手法 まとめ
読み取り/書き込み分布の
ヒストグラムが利用可能
I/Oサイズ
読み取り/書き込みの
全体的な比率は?
シーク距離
このワークロードでは、
書き込みは読み取りよりも
大きいのか、小さいのか?
読み取りは書き込みよりも
シーケンシャルか?
どのタイプのI/Oが
より長いレーテンシーを
引き起こしやすいか?
全て、読み取り、書き込み
全て、読み取り、書き込み
最新の16個のうちで最短のシー
ク距離
突出したI/O
全て、読み取り、書き込み
I/Oインターバル時間
全て、読み取り、書き込み
Filebenchツール
http://filebench.sourceforge.net/wiki/index.php/Main_Page
レーテンシー
全て、読み取り、書き込み
© 2014 Storage Networking Industry Association. All Rights Reserved.
18
I/Oサイズ
Filebench OLTP
I/O Length Histogram
3500
3000
2500
Frequency
UFS
2000
1500
1000
500
>524288
524288
262144
131072
81920
65536
65535
49152
32768
16384
16383
8192
8191
4096
4095
2048
4KBおよび 8KB
のI/Oは、ZFSに
よって128KBに変
1024
512
0
Length (bytes)
I/O Length Histogram
>524288
524288
262144
131072
81920
65536
65535
49152
32768
16384
16383
8192
8191
4096
4095
2048
512
Frequency
ZFS
1024
換されている
1600
1400
1200
1000
800
600
400
200
0
Length (bytes)
ZFSは、主にOracle Solaris上で実装されている128ビット・アドレッシングを特徴とするファイルシステム。今ま
で Solaris (SunOS) で用いられてきた Unix File System (UFS) の次世代ファイルシステム
© 2014 Storage Networking Industry Association. All Rights Reserved.
19
シーク距離
Filebench OLTP
Seek Distance Histogram
1400
1200
UFS
800
600
400
200
尺度
500000
50000
5000
500
64
16
6
2
0
-2
-6
-16
-64
-500
-5000
-50000
Distance (sectors)
Seek Distance Histogram
300
250
Frequency
ランダムなワーク
ロードが、ZFSに
よってシーケンシャ
ルなワークロードに
変換されている!
ZFS
より詳細情報が
必要
-500000
0
200
150
100
50
© 2014 Storage Networking Industry Association. All Rights Reserved.
500000
5000
500
64
50000
Distance (sectors)
16
6
2
0
-2
-6
-16
-64
-500
-5000
-500000
0
-50000
シーケンシャル性
対 ランダム性の
Frequency
シーク距離:
ワークロードの
1000
20
シーク距離
Filebench OLTP - 詳細
読み取りと書き込みを分割
Seek Distance Histogram (Writes)
600
1000
500
800
400
Frequency
Frequency
UFS
Seek Distance Histogram (Reads)
1200
600
400
300
200
200
100
500000
5000
50000
500000
50000
500000
16
6
2
0
-2
-6
Distance (sectors)
16
6
2
0
-2
-6
-16
-64
-500
500000
5000
50000
500
64
16
6
2
0
-2
0
-6
50
0
-16
50
-5000
100
-50000
100
150
-500000
150
-64
5000
200
-500
500
200
-5000
500
250
-50000
64
250
Frequency
Frequency
300
-500000
-16
Seek Distance Histogram (Reads)
300
Distance (sectors)
-64
-500
-5000
Distance (sectors)
Seek Distance Histogram (Writes)
ZFS
64
Distance (sectors)
-50000
0
-500000
50000
5000
500
64
6
16
2
0
-2
-6
-16
-64
-500
-5000
-50000
-500000
0
ランダムからシーケンシャルへの変換:主に書き込み用
読み取り:シーク距離は減少(ヒストグラムの形と目盛を参照)
© 2014 Storage Networking Industry Association. All Rights Reserved.
21
Filebench OLTP
まとめ
Filebench OLTPから何がわかるか?
I/Oは主に4KBと、8KB(~30%):8KBが主力ではない 。
アクセス・パターンはほぼランダムである。
読み取りは完全にランダムである。
書き込みは前傾(forward-leaning)パターンである。
ZFSはランダムな書き込みをシーケンシャルに変換する。
I/Oスケジューリングをダイナミックに管理
コピーオンライト(COW)技術(ディスクのブロックが置き換えられない)
アプリケーション書き込みによるブロックへの変更は、別の場所に書き込まれる。
ランダムなデータ書き込みを、ディスク上のシーケンシャル・パターンにして流す。
© 2014 Storage Networking Industry Association. All Rights Reserved.
22
OSDLデータベース・テスト2
(Linux 2.6.17-10)分析
250
200
Frequency
150
100
50
Distance (sectors)
500000
50000
5000
500
64
16
6
2
0
-2
-6
-16
-64
-500
-5000
-50000
-500000
0
I/O Length Histogram
> 524288
524288
262144
131072
81920
65536
65535
49152
32768
16384
16383
8192
8191
4096
4095
2048
1024
1800
1600
1400
1200
1000
800
600
400
200
0
512
Frequency
ワークロードは主にランダムで
ある(グラフの左右の端に大きな
突出がある)。
多くのI/Oは、前のコマンドから
500セクタ以内(20%)または
5,000セクタ以内(33%)にある。
ワークロードは、読み取りと書き
込みの両方でほぼ例外なく8KB
である。
Seek Distance Histogram (Writes)
300
Length (bytes)
OSDL(OpenSource Development Labs)は
現在はLinux Foundationとなっている
© 2014 Storage Networking Industry Association. All Rights Reserved.
23
OSDLデータベース・テスト2
(Linux 2.6.17-10)分析(2)
Outstanding I/Os Histogram (Reads, Writes)
1000
Frequency
Writes
700
600
500
400
300
200
100
> 64
64
32
28
24
20
16
12
8
6
4
2
0
1
このワークロードでは、突出した
I/O数は読み取りと書き込みの
間で大きく異なる。
PostgreSQLは、32の書き込み
I/Oを同時に発行する。
---まとめ書き
このワークロードのI/O速度は計
時すると、2分間で最大15%変
化する。
Reads
900
800
I/Os Outstanding at Arrival time
1200
Outstanding I/Os Histogram over Time
1000-1200
1000
800-1000
600-800
400-600
800
200-400
0-200
600
Frequency
400
200
S16
S11
S6
> 64
32
24
16
8
4
0
S1
1
Time (in 6
sec
intervals)
I/Os Outstanding
at Arrival time
© 2014 Storage Networking Industry Association. All Rights Reserved.
24
OSDLデータベース・テスト2
(Linux 2.6.17-10)まとめ
集計上、ワークロードはランダムに見える。
ただし、I/Oの20%は250 KB以内で、33%が2.4 MB以内にある。
I/Oサイズは、読み取りと書き込みの両方共、8 Kである。
突出したI/O数は、読み取りと書き込みで大きく異なる。
PostgreSQLは、ほとんどの場合32の書き込みI/Oを同時に発行す
る。
I/O速度は時間の経過とともに変化する(最大15%)。
すべてのデータベースのワークロードが同じように動作する
と見なしてはいけない。自身で測定および判断すること。
© 2014 Storage Networking Industry Association. All Rights Reserved.
25
ワークロード特性のユースケース
新しいディスクの性能に敏感なワークロードの分析
下層のディスク・サブシステムのチューニング
解釈の方法
分布特性と大きさの変化に注意する。
開始時に使用する値
I/Oサイズ
読み取り/書き込み比率
突出したI/O数
補正措置
ディスク・サブシステムをチューニングし、再度測定する。
レーテンシー・ヒストグラムに注目する。
© 2014 Storage Networking Industry Association. All Rights Reserved.
26
ワークロードの特性が重要
集中的な書き
込み
安定した読み取りトラフィック
8KBの読み取り
および書き込み
バイモーダル(二
極性)な空間的局
所性
読み取り/書き込み比
率は、読み取りに大きく
偏っている。
アプリケーションのI/Oパターンを把握することが
© 2014 Storage Networking Industry Association. All Rights Reserved.
SSDの利点を予測する第一歩である。
27
簡単な特性解析の限界
長所:ワークロードを各仮想ディスクに分割することにより、
各VMのワークロードの違いを深く分析できる。
DB再実行ログをDBテーブルスペースではなく、個別の仮想ディスクに置く。
短所:ストレージ・アレイに対するI/Oの全体像を提供できない。
多くのVMは同一のESXホストからI/Oを実行している可能性がある。
異なるESXホストのVMがI/Oを実行している場合もある。
通常、それを解明するのは難しい。
おおまかな規則:異なるアプリケーションからのLUNに対するI/Oは、
事実上ランダムである。
+ストレージ・アレイはかなり賢いため、個々のシーケンシャル・
ストリームを見出して、ストリームごとにI/Oをスケジュールしている。
© 2014 Storage Networking Industry Association. All Rights Reserved.
28
ディスク・アクセスのトレースがさらに重要
(Source: USENIX ’06)
パターンを把握するだけでは十分ではない。
© 2014 Storage Networking Industry Association. All Rights Reserved.
正確なI/Oシーケンスが必要である。
29
アルゴリズムが有用
⊕
⇓
ヒット率曲線
⊕
シミュレーション予測アルゴリズム
約500 MBと2,200 MBで大きく上昇するが、その間の変化はほとんどない。
データ・アクセス・パターン、I/Oシーケンスの解析により、
© 2014 Storage Networking Industry Association. All Rights Reserved.
SSDキャッシュのROIを最大化できる。
30
SSDの成功事例
企業概要
•
ボストン地域のヘッジ・ファンド
•
国際的な事業
•
200億ドル超の資産
•
1980年代に設立
•
50人以上の従業員
• 分析済みの数百台のVM
• 16%のVMでSSDキャッシュの利点を示した。
• 応答時間を50~200%の範囲で改善
• ヒット率曲線は1~512 GBのキャッシュ・サイズの推奨値を導き出した
(VM1台ごとで違う)
SSDキャッシュから利点を得られるVMの特定に成功。
31
© 201416%のVMをSSDに。
Storage Networking Industry Association. All Rights Reserved.
成功事例もう一つ:3%のVMのSSD
企業概要
•
公立大学(ボストン地域)
•
1850年代に設立
•
10,000人の学生数
•
1,300人を超える従業員
• シミュレーション済みの数百台の仮想マシン
• 3%のVMに50%以上の改善が見られた。
• ヒット率曲線は1~512 GBの推奨値を導き出した(VM1台ご
と)。
• 顧客は戦略的実装を通じて最大限の利点を得るために、
2枚のPCIeフラッシュ・カードを実装した。
小規模構成でも利点を得ることができる。
© 2014 Storage Networking Industry Association. All Rights Reserved.
32
参考:NVDIMM
メモリ・チャンネル(DDR3/DDR4)に常駐
予期しない停電時にデータを保持
成熟したメモリ技術を結合(DRAMおよびフラッシュ)
永続性を確保するための独立電源が必要
NVMプログラミング・モデルに適合(次世代メモリの前身として)
新たなレベルのストレージ性能を提供
データベースのより迅速な実行と回復が可能
SSDの耐久性と信頼性の両方を向上可能
33
© 2014 Storage Networking Industry Association. All Rights Reserved.
ここからはSSDを使った実測ベースの例
:システムによって値は大きく異なることに注
意
© 2014 Storage Networking Industry Association. All Rights Reserved.
34
Demand Intensity (DI)
:要求度解析 SSD使用
異なった要求度のワークロードループ
SSD A:
T4, T8, T16
SSD B:
T2, T4, T8
T2-T16はCarypso社設定のワークロードセグメント
© 2014 Storage Networking Industry Association. All Rights Reserved.
35
800 GB Enterprise class 2.5” SATA
SSD A
© 2014 Storage Networking Industry Association. All Rights Reserved.
36
SSD A – Testプロファイル: IOPS v Time
ワークロードセグメント T4, T8, T16
ランダムW/R
集中点
ステディステート
期間
T4
T8
T16
Workload
Segments
SEQ 128K PC
PC:Plot Compare
DI(要求度)解析
© 2014 Storage Networking Industry Association. All Rights Reserved.
37
SSD A: SEQ128K pc
© 2014 Storage Networking Industry Association. All Rights Reserved.
38
SSD A性能とステディポイント
© 2014 Storage Networking Industry Association. All Rights Reserved.
39
SSD A T4: ヒストグラム
IOPS Saturationなし
OIO追加可能
(Outstanding I/O)
Response Time
Saturationなし
RT
Ceiling
© 2014 Storage Networking Industry Association. All Rights Reserved.
40
SSD A T8: ヒストグラム
IOPS & RT
Sweet Spot
IOPS Saturation
出始め
Response Time
Saturation ??
RT
Ceiling
© 2014 Storage Networking Industry Association. All Rights Reserved.
41
SSD A T16: ヒストグラム
Response Time
Saturation あり
IOPS
Saturation あり
RT
Ceiling
© 2014 Storage Networking Industry Association. All Rights Reserved.
42
200 GB Enterprise class 2.5” SATA
SSD B
© 2014 Storage Networking Industry Association. All Rights Reserved.
43
SSD B – プロファイル: IOPS v Time T2, T4, T8
T8
RND WDPC
SS Convergence
SEQ 128K
WIPC
Steady State
Rounds
T4
T2
DI 解析
Workload
Segments
© 2014 Storage Networking Industry Association. All Rights Reserved.
44
SSD B T2: ヒストグラム Compare
IOPS & RT
Sweet Spot
Showing Lower
OIO
RT
Ceiling
© 2014 Storage Networking Industry Association. All Rights Reserved.
45
SSD B T4: ヒストグラム
IOPS & RT
T4 Sweet Spot
RT
Ceiling
© 2014 Storage Networking Industry Association. All Rights Reserved.
46
SSD B T8: ヒストグラム
IOPS & RT
T8 Sweet Spot
RT
Ceiling
© 2014 Storage Networking Industry Association. All Rights Reserved.
47
SSD比較
最適な運用ポイントは?
© 2014 Storage Networking Industry Association. All Rights Reserved.
48
SSD A: ヒストグラム T4 T8 T16
RT
Ceiling
© 2014 Storage Networking Industry Association. All Rights Reserved.
49
SSD B: ヒストグラム T2 T4 T8
RT
Ceiling
© 2014 Storage Networking Industry Association. All Rights Reserved.
50
結論
アプリケーションが性能を決める
ドライブ性能がアプリケーションを制限する
SSD’s の動作を見つけることは
システムデザインに有効。
© 2014 Storage Networking Industry Association. All Rights Reserved.
51
このチュートリアルに関するご意見は以下にご連絡く
ださい :
SNIA日本支部 教育委員会 [email protected]
SNIA-J推薦図書 :
■ 「よくわかるストレージネットワーキング」
喜連川優編 : オーム社
■SNIAストレージネットワーキング用語集
© 2014 Storage Networking Industry Association. All Rights Reserved.
52