ストレージネットワーク概要 DCネットワークとFCoEの動向 2015.1.28 ストレージネットワーキング・インダストリ・アソシエーション日本支部 SNIA-J教育委員会 親泊肇 © 2015Storage Networking Industry Association. All Rights Reserved. 1 資料利用に関する注意事項 本プレゼンテーションに含まれる資料は、SNIAも しくはSNIA日本支部に著作権があります。 会員企業は、以下の条件でこの資料をプレゼンテー ション及び文書の中で利用できます。 スライドを利用する場合は、変更せずに複製しなければなりま せん。 本資料を含む文書では、使用した資料の提供元がSNIA日本支部 であることを明示しなければなりません。 このプレゼンテーションは、 SNIA日本支部 教育委 員会のプロジェクトによるものです。 © 2015Storage Networking Industry Association. All Rights Reserved. 2 要約目次 ストレージネットワークの概要 1. 2. 3. 4. 5. ストレージネットワークの特徴 各インターフェース概要 FC、iSCSI、FCoE+DCB、IB SSDインターフェース PCI-e、NVMe ネットワークとワークロード 各インターフェースのロードマップ 6. SNIA紹介、電力効率測定とSSD PTS紹介 7. SNIA-Jトレンドセミナーへのお誘い ---OSDとpNFS(抜粋) © 2015Storage Networking Industry Association. All Rights Reserved. 3 1.ストレージネットワークの特徴 サーバ HBA1 FCスイッチ1 port1 HBA2 FCスイッチ2 port2 ストレージ装置 ストレージネットワークは、管理系のネットワー クとデータ転送系のネットワークに大きく分けられ る。例えば、ファイバチャネルはOS上のドライバや HBA(Host Bus Adapter)、およびスイッチでFC-SAN (Fibre Channel Storage Area Network)を構成し、 データ転送を主に司るデータプレーンである。SANは 一般的にはデータプレーンをさす場合が多い。 一方SMI-Sなどに代表される装置管理や障害検出に はイーサネットを主体としたIPネットワーク:LANと 管理ソフトが主に使われ、広義のコントロールプレ ーンとなっている。どちらも運用としては必須であ り、ストレージ装置を構築、運用、維持していくた めにはサーバや他の機器と同じ管理ネットワークに つなげる必要がある。 FC-SANの例 © 2015Storage Networking Industry Association. All Rights Reserved. 4 SNIA共有ストレージモデル アプリケーション ファイルシステム (FS) ホスト ネットワーク ブロック アグリゲーション デバイス ストレージデバイス(ディスクなど) ディスカバリ、モニタリング リソース管理、構成 セキュリティ、課金 冗長管理(バックアップなど) 高可用性(フェイルオーバーなど) 容量計画 データベース (dbms) サービス ストレージ領域 ファイル/レコードレイヤ ブロックレイヤ © 2015Storage Networking Industry Association. All Rights Reserved. 5 SNIAストレージ分類法 オンライン ストレージ ニアライン ストレージ 最も重要なストレージ。最 小遅延でランダムワークロ ードとシーケンシャルワー クロードの両方を処理でき る。 オンラインストレージの後 ろに控える二番手のストレ ージとしての位置付け。ラ ンダムワークロードとシー ケンシャルワークロードの 両方を処理できるが、最初 のデータアクセス時に認識 可能な遅延が発生する場合 がある。 最大ストレージ デバイス数 最大ストレージ デバイス数 ストレージ分類法の要約 リムーバブル メディアライブ ラリ 仮想メディア ライブラリ シーケンシャルアクセスモ ードで使用されるアーカイ ブストレージ。代表的な例 として、テープベースのア ーカイブ用のスタンドアロ ンライブラリとロボット支 援ライブラリがある。 リムーバブルメディアラ イブラリをシミュレート するストレージ。その多 くが非テープベースのス トレージを使用している ため、より迅速にデータ 要求に対応できる。 アプライアンス スイッチ ストレージSANまたは1つ以上 の専用ストレージ強化を通して 価値を付加するネットワーク内 に配置されたデバイス。例とし て、SAN仮想化、圧縮、重複 除去などがある。 SANまたはその他のストレージ ネットワークのデータ切り替え またはルーティングを可能にす るデバイス。 最大容量ガイダンス 注:最大容量ガイダンスは特定の製品を購入または現場アップグレードでき る最大容量を反映している。この目的は、絶対値とは対照的にガイドライン として使用することである。デバイスの容量が大き過ぎるまたは小さ過ぎる 場合があるが、それ以外はその他の基準(冗長性機能など)に従って特定の 分類に適合する。 サポートされている 最大ストレージ デバイス数* 最大テープドライブ 数 注* :定義によるインフラスト ラクチャアプライアンスは、デ ータのローカル処理および/ま たはローカルキャッシングに使 用されているものを除く固有の ストレージを 持たない。 グループ1:SOHOと消費者 主に家庭(消費者)やSOHO向けに設計されたストレージ - 直接接続されることが多い(USB、IPなど) - 冗長性オプションはない(SPOFが装備されるようになるだろう) スタンドアロンドラ イブ 4台以下の デバイス (ロボット機構なし) この場合のストレージデバイス サポートは、アプライアンスの ダウンストリームを制御可能な ストレージデバイスの台数を 意味する。 グループ2:エントリ、DAS、またはJBOD 1台のサーバまたはごく限られた台数のサーバ専用のストレージ。 その多くはコントローラが内蔵されていないが、その機能をサ ーバホストに依存している。 最大ポートカウント 4台を超える デバイス 4台以下の デバイス 4台以下の デバイス 20台を超える デバイス 4台を超える デバイス 4台を超える デバイス 100台以下の デバイス 最大20台の デバイスのサポート 128以下 100台を超える デバイス 100台を超える デバイス 24台を超える ドライブ 100台を超える デバイス 20台を超える デバイスのサポート 128超 11台を超える ドライブ 100台を超える デバイス 100台を超える デバイスのサポート 32以下 - 直接接続されることが多い(SATA、IPなど) - ごく限られた数の冗長性機能を提供する場合もある グループ3:エントリ/ミッドレンジ スケーラビリティや性能よりも価格に重点が置かれたSANまた はNAS接続ストレージ。「エントリレベル」ストレージと呼ば れることが多い。 - ネットワークに接続される(IP、SANなど) - 冗長性機能用のオプションがある グループ4:ミッドレンジ/エンタープライズ 性能と機能のバランスを取るSANまたはNAS接続ストレージ。 よりハイレベルな管理だけでなく、スケーラビリティ機能と信 頼性機能も提供する。 - ネットワークに接続される(IP、SANなど) - 冗長性用のオプションがあり、完全な冗長性を備えていることが多い (SPOFなし) グループ5:エンタープライズ/メインフレーム メインフレーム展開に関連した(ただし、メインフレーム展開 のみに限定されていない)高いスケーラビリティと特別な堅牢 さを示すストレージ。 1000台を超える デバイス - オプションネットワーク接続経由でメインフレームに接続(IP、SANなど) - 常時完全な冗長性を装備(SPOFなし) - 無停止サービス性を提供できる場合が多い © SNIA 2009 © 2015Storage Networking Industry Association. All Rights Reserved. 6 2.各ネットワークインターフェースの概要 2.1ファイバーチャネル (FC) 定義:スイッチドファブリック(Switched fabric)、スイッチングファブリ ック、あるいは単にファブリックとは、一つあるいは複数のネットワークス イッチ(特にクロスバースイッチ)を介し、ネットワークノードが相互に接 続されたネットワークトポロジーのことである。この用語は通信、ファイ バーチャネルストレージエリアネットワークや、その他InfiniBandを含 む、高速ネットワークにおいて用いられる。 © 2015Storage Networking Industry Association. All Rights Reserved. 7 ファイバチャネルレイヤ ストラクチャ SCSI SNMP IP 802.2 SCSI-FCP SNMP IPFC FC-LE ULP FC-4 (マッピング) FC- 3 コモンサービス, マルチキャスト, etc. FC- 2 アッパレベル FC-UL フローコントロール, フレーミング, サービスクラス FC- 1 8B/10B エンコーディング, リンクコントロール, エラー検知 物理& シグナリング 層 FC- 0 オプティカル&エレクトリック・インターフェース, トランスミッタ&レシーバ FC- 0 メディア, コントロールタイプ © 2015Storage Networking Industry Association. All Rights Reserved. FC-PH FC-PI 8 主要メディアの伝送距離 FC-0 メディア コア/クラッド Φ mm 伝送速度 400 MB/sec 800 MB/sec 1600 MB/sec 10km 10km 10km 150m 50m 35m 70m 21m 15m シングルモードファイバ 9/125 マルチモードファイバ 50/125 マルチモードファイバ 62.5/125 © 2015Storage Networking Industry Association. All Rights Reserved. 9 FC ネットワークトポロジー FC-0 ・ポイントツーポイント ポイントツーポイント ・アービトレーテッドループ – リング共有型 1ファブリックポートで最大126デバイス N-port FCスイッチ ・スイッチファブリック – Any-to-any 1600万コネクション E-port E-port F-port N-port N-port スイッチファブリック アービトレーテッドループ NL-port N-port E-port NL-port FL-port E-port E-port FCスイッチ FCスイッチ E-port F-port ハブ NL-port NL-port F-port N-port N-port F-port N-port F-port N-port N-port N-port © 2015Storage Networking Industry Association. All Rights Reserved. 10 FC のフレームフロー FC-2 ポイントツーポイント、対向のポート間でR_RDYをやり取り ACKはエンドツーエンド R_RDY :フレームを受け取ったという応答 ACK :受け取ったフレーム内容に対する肯定応答 スイッチファブリック FCPコマンド・データ スイッチ N R_RDY F FC スイッチ E R_RDY E F R_RDY N ACK R_RDY R_RDY R_RDY © 2015Storage Networking Industry Association. All Rights Reserved. 11 FC のフロー制御 FC-2 ファイバーチャネルの2つのフロー制御機構 E2E(エンドツーエンド)フロー制御 EE_クレジット(ACKフレーム交換用) B2B(バッファツーバッファ)フロー制御 BB_クレジット(R_RDYフレーム交換用) FC スイッチ N F B2B クレジット スイッチ E スイッチファブリック B2B クレジット E F N B2B クレジット E2E クレジット © 2015Storage Networking Industry Association. All Rights Reserved. 12 フレーム・シーケンス・エクスチェンジ FC-2 アプリケーション (SCSI) ULP FCP IU FCP IU FC-4 エクスチェンジ #1 OX_ID + RX_ID FC-2 SEQ SEQ_ID SEQ FC-2 1 2 N-1 N フレーム OX/RX_IDは送信側と受信側の組を定義 SEQ_IDは同一エクスチェンジ内のシーケンス順を定義 SEQ_CNTは同一シーケンス内のフレーム順を定義 SEQ_CNT IU: インフォメーションユニット OX_ID: オリジネータエクスチェンジ ID RX_ID: レスポンダエクスチェンジ ID SEQ_ID: シーケンス ID SEQ_CNT: シーケンスカウント © 2015Storage Networking Industry Association. All Rights Reserved. 13 FC フレームフォーマット FC-1 FC フレーム (~2148 Bytes) フレームコンテント アイドル オプション ヘッダー ヘッダー SOF (4) データ (0-2112) (24) CRC EOF (4) (4) アイドル 0-528 トランスミッションワード Word 0 Byte 3 R_CTL Byte 2 Byte 1 D_ID 1 CS_CTL S_ID 2 TYPE F_CTL 3 SEQ_ID 4 5 DF_CTL Byte 0 SEQ_CNT RX_ID OX_ID Parameter R_CTL: ルーティンコントロール D_ID: 宛先 FCID CS_CTL: クラスユニークコントロール S_ID: 送信元 FCID TYPE:転送データのプロトコル F_CTL: フレームコントロール SEQ_ID: シーケンスオーダ ID DF_CTL:データフィールドコントロール SEQ_CNT: フレームオーダ ID OX_ID: オリジネータエクスチェンジ ID RX_ID: レスポンダエクスチェンジ ID © 2015Storage Networking Industry Association. All Rights Reserved. 14 ファイバチャネルアドレッシング FC-2 World Wide Name(WWN) FCノード or ポートを一意に識別する、HBA焼き付けアドレス 複数のポートを標準で持つFC-SANデバイスには有効 16文字64bitの16進数アドレス Node World Wide Name(nWWN, WWNN) Port World Wide Name(pWWN, WWPN) nWWN=20:00:00:0c:30:a1:b1:00 Port 1 pWWN=21:00:00:0c:30:a1:b1:00 ノード単位で識別 Port 2 pWWN=22:00:00:0c:30:a1:b1:00 ポート単位で識別 © 2015Storage Networking Industry Association. All Rights Reserved. 15 ゾーン FC-2 ZoneA: hostA, diskA, diskB ZoneB: hostB, diskC, diskB hostA⇔diskA ○ hostA⇔diskB ○ hostA⇔diskC × hostA hostB hostB⇔diskA × hostB⇔diskB ○ hostB⇔diskC ○ hostA⇔hostB × FCスイッチ ZoneA ZoneB diskBのN_portは複数ゾーンの メンバーとして設定可能 FC スイッチはネームサーバを経由して(⇒ソフト) アクセス可能なディスクへのパスを提供 diskA FC diskB © 2015Storage Networking Industry Association. All Rights Reserved. FC diskC 16 ゾーンセット 複数ゾーンの集合=ゾーンセット hostA hostB ZoneA: hostA, diskA, diskB ZoneB: hostB, diskC, diskB ZoneC: hostA, hostB, diskB, tapeA ZoneC Zoneset1: ZoneA, ZoneB Zoneset2: ZoneC tapeA FCスイッチ ZoneA ZoneB FC diskA FC diskB FC 昼:Zoneset 1 がactive 夜:Zoneset 2 がactive 夜間は共有するディスクBのデータのみを テープAに書き出す diskC という風にゾーンを組み合わせて 使用可能 © 2015Storage Networking Industry Association. All Rights Reserved. 17 2.2 IP-SAN IP-SAN 2.2.1 FCIP 2.2.2 iFCP 2.2.3 iSCSI © 2015Storage Networking Industry Association. All Rights Reserved. 18 IP-SANのプロトコル FCIP, iFCP 地理的に分散した FC-SAN を、IP 網を通して接続するための TCP/IP ベースのプロトコル 既に導入実績も多い実用技術 IP 網を通して、離れた拠点間で複製やバックアップなどを行える iSCSI ストレージの世界で標準となっている SCSI プロトコルを、 IP ネットワークで使えるようにしたもの 2004 年 4 月に RFC 化された技術 (RFC3720) IP 機器だけでSAN を構築できる IP 網を通して、離れた拠点間で複製やバックアップなどを行える FC を iSCSI に変換し、IP 機器を用いて既存の FC-SAN を 補強、拡張することができる © 2015Storage Networking Industry Association. All Rights Reserved. 19 2.2.1 FCIP FCのパケットをそのままIPでトンネリング サーバ サーバ FCIP ゲートウェイ FC IPネットワーク FCIP ゲートウェイ FC-SAN FC ストレージ FC FC-SAN FC IP IP FC FCIPの接続形態 © 2015Storage Networking Industry Association. All Rights Reserved. FC ストレージ 20 FCIP 全体が1つの巨大なFC-SANに見える 1つのFC-SANに見える サーバ サーバ SCSI SCSI FC FC-SAN FC FCP FCP FCIP FCP SCSI IP IP IP FC ストレージ FCIP ゲートウェイ FC FC TCP FC-SAN IPネットワーク FCIP ゲートウェイ FC SCSI SCSI ストレージ あるFC-SANで障害が発生すると,FCIPで接続されたFC-SAN全体に影響が及ぶ ⇒ 最近は、VSAN(Virtual SAN)を用いて分離して、影響を回避できるようになった © 2015Storage Networking Industry Association. All Rights Reserved. 21 2.2.2 iFCP あたかも巨大なFCスイッチのイメージ サーバ サーバ ストレージ ストレージ 巨大なFCスイッチのイメージ FC iFCP ゲートウェイ iFCP ゲートウェイ FC-SAN FC FC-SAN FC IP IP FC IPネットワーク FC-SAN FC-SAN FC FC ストレージ iFCPの接続形態 © 2015Storage Networking Industry Association. All Rights Reserved. ストレージ 22 iFCP 離れた拠点が独立したFC-SANに見える 独立したFC-SANに見える サーバ サーバ SCSI FC FC-SAN IPネットワーク IP FCP iFCP IP SCSI FC FC-SAN IP TCP FCP FC ストレージ iFCP ゲートウェイ FC SCSI FC FCP iFCP ゲートウェイ FC SCSI SCSI ストレージ © 2015Storage Networking Industry Association. All Rights Reserved. 23 2.2.3 iSCSI SCSIコマンドをカプセル化してTCP/IPで通信 プロトコル層 ストレージ SCSI SCSI SCSI SCSI iSCSI iSCSI SCSI TCP TCP SCSI IP IP SCSI iSCSI iSCSI iSCSI iSCSI iSCSI iSCSI TCP TCP IP サーバ データ TCP TCP プロトコル層 IP データ SCSI SCSI SCSI IPネットワーク © 2015Storage Networking Industry Association. All Rights Reserved. 24 iSCSI の適用形態 IP 機器のみの SAN や、FC-SAN との相互接続を想定 サーバ サーバ サーバ クライアント IP ネットワーク 機器のみで構 成した SAN FC-SAN と の相互接続 IPネットワーク FC-SAN iSCSI ゲートウェイ iSCSI 対応 テープ装置 iSCSI 対応 ストレージ iSCSI 対応 ストレージ FC ストレージ © 2015Storage Networking Industry Association. All Rights Reserved. 25 iSCSI: データ転送の RDMA 化 データ転送を RDMA 化してメモリ帯域への負荷を軽減 SCSI iSCSI RDMA (Remote DMA) RDMA コンソーシアムにて規格化 iSER (iSCSI Extensions for RDMA:RFC5046) iWARP (RDMA over TCP/IP:RFC5040) iSER RNIC RDMAP DDP 通信速度が速い と、メモリ帯域が 不足 iWARP MPA サーバ TCP IP TOE RNIC RNIC Remote DMA により、内部バッ ファ間のコピーを 無くす LAN RNIC iSCSI ストレージ SCSI : Small Computer Systems Interface iSCSI : SCSI over the Internet iSER : iSCSI Extensions for RDMA RDMAP : Remote Direct Memory Access Protocol DDP : Direct Data Placement Protocol MPA : Marker PDU Aligned Framing for TCP TCP : Transmission Control Protocol IP : Internet Protocol © 2015Storage Networking Industry Association. All Rights Reserved. 26 2.3 FC over Ethernet (FCoE) 5年ほど前からFibre Channel規格(ANSI T11-3委員会) より、Fibre Channel over Ethernet standards (FCoE)とい う概念が標準化された。 FCoE標準では、イーサネットフレームへのファイバチャ ネルフレームのカプセル化と、ファイバチャネルプロト コルおよびTCP/IP、UDP/IPその他のプロトコルをサポー トできるネットワークファブリックへのこれらの技術の 融合が定められている。 © 2015Storage Networking Industry Association. All Rights Reserved. 27 FCoEファブリックとは(従来のイーサネットではない) FCoEでは、特定のイーサネット拡張仕様を実装する必要がある ロスレススイッチとファブリック(例:IEEE 802.3 PAUSEのサポート)構成が必要 Jumboフレームのサポートを強く推奨(標準ではないが、広く入手可能) FCoEの実装では、特に以下のような、現在IEEE 802.1で議論され ているイーサネットの新しい仕様を使用することを推奨 Priority-based Flow Control(PFC)802.1Qbb Enhanced Transmission Selection(ETS) 802.1Qaz DCB (capability) eXchange (DCBX) Protocol802.1Qaz 将来的に輻輳通知(802.1Qau)とマルチパス指定(IETF– TRILL) 上記の802.1の新しい仕様は、統合フロー(メッセージング、クラ スタ化、格納)にとって重要である この機能セットはCEE(Converged Enhanced Ethernet)(データセンタ環境向け)またはDCB( Data Center Bridging)(IEEEでの呼称)と呼ばれる FCoEファブリックは、以下のようなFCoE/DCBスイッチを使用し て構築する必要がある FCF(FC Forwarder)と呼ばれる ロスレスイーサネットファブリックの一部で、DCB ロスレスイーサネットポートを持つ 従来のFCスイッチの機能(機能とサービス)も提供する © 2015Storage Networking Industry Association. All Rights Reserved. 28 FC接続を行うFCF(FCoE Switch) 実装では、DCBスイッチの特徴と機能を以下のようなFCスイッチの 特徴と機能と組み合わせている • スイッチング、パス指定、ルーティングについて、 イーサネットとIPの標準をサポートする • ス イ ッ チ ン グ 、 パ ス 指 定 、 ル ー テ ィ ン グ に つ い て 、 DCBイーサネットポート (IP、FCoE VF port、VEポート FCの標準をサポートする FC FC FC 機能を装備) • 現行の標準とDCB標準をサポートする • FCoEとFCの間で調整を行う FCoEポートには、VF portおよびVEポートと呼ばれる FポートまたはEポート機能がある (多くの論理(仮想)ポートが1つの物理ポートを共有できるため) © 2015Storage Networking Industry Association. All Rights Reserved. 29 DCB統合スイッチへの接続 • ロスレスイーサネットでは、ファイバチャネルはL3プロトコルで扱われる カスタマアプリケーション SCSI iSCSI ネットワークアプリケーション TCP UDP IP ファイバチャネル FCoE ロスレスイーサネットのMAC(DCB) IPアドレス123.45.67.89 (FCoE VN port) IPおよびFCoE VF port機能を備えた イーサネットポート FCoEスイッチ(FCF)機能を備えた ロスレスイーサネット(DCB)統合スイッチ © 2015Storage Networking Industry Association. All Rights Reserved. 30 FCoEファブリックとはⅡ(従来のイーサネットではない) FCoE対応ファブリックにはDCB専用のイーサネットスイッチが 存在する場合もあるが、FCoE機能付きのスイッチも1つ以上必要 である FCoEファブリックは、実際のFCファブリックとシームレスに同 時に使用できる FCサービスは、FCoEファブリックとファイバチャネルファブリ ックで同じように動作する FCoEは、ファイバチャネルのすべての機能(例:仮想ファブリ ック、IFR(Inter Fabric Routing)、セキュリティ)をサポートす る FCoEでは、FCソフトウェア(アプリケーション、カーネルドラ イバなど)の変更は必要ない ただし、ベンダは新しい機能を活用するためにドライバと管理を強化する FCoEはFCIPの代わりに使用するものではない FCIPは、データセンタの枠を越えたスイッチ間のリンクに使用される FCIPではTCP/IPを使用する© 2015Storage Networking Industry Association. All Rights Reserved. 31 FCoEの価値はサーバ側で発揮(特に仮想サーバ) OS1 Webサーバ OS3 DBサーバ OS2 Appサーバ FC HBA メッセージング イーサネット TCP/IP FC SAN 仮想サーバ OS1 Webサーバ OS2 Appサーバ CNA (DCB) OS3 DBサーバ データセンタ DCBネットワー ク 現在 OS1 Webサーバ • NIC • TCPの高速化 • MPI、RDMA over Ethernet • FCoE CNA (DCB) MPI RDMA IB/イーサネッ トクラスタ OS2 Appサーバ DCBを 使用した場合 OS3 DBサーバ CNA (DCB) データセンタ DCBネットワー ク Data Center Bridging(DCB) (優先順位ベースのフロー制御とスケジューリングを行う(「ロスレス(損失のない)」イーサネット) インタフェースの大幅な削減により、アダプタ、スイッチポート、ケーブル接続、電力、冷却も削減 • 4~6本のケーブルをサーバ1台当たり2つのインタフェースとケーブルに削減可能 既存のSANおよびLANの設置基盤へのシームレスな接続 高帯域リンクの効果的な共有 © 2015Storage Networking Industry Association. All Rights Reserved. 32 イーサネットパケットへのFCのカプセル化 (2種類のFCoE関係パケット) FC-4 FC-4 FC-3 FC-3 FC-2V FC-2V FC-2M FC-2P FC-2 FCoEマッピング FC-1 MAC FC-0 PHY イーサネット ヘッダ Fibre Channel over Ethernet(FCoE)パケッ ト FCヘッダ FCoE ヘッダ SCSIコマンド/データ 内にある*) IEEE 802.3レイ ヤ *後のスライドで説明 FCS フレームチェックシーケンス (CRC) イーサネットヘッダは、「Ethertype」など、 物理ネットワークで必要な情報を提供する Ethertype 「FIP」 (8914h) (「FCエンティティ」 内にある*) (「FCoEエンティティ」 FC埋め込みフレーム: 物理FCと同じ プロトコル制御情報:バージョン、SOF、EOFなど Ethertype 「FCoE」 (8906h) イーサネット ヘッダ 変更されていない FCレベル FCoE Initialization Protocol(FIP)パケ ット FIP ヘッダ 記述子 FCS 検出、リンク確立、維持、切断(ログインやログアウトなど)パラメータ プロトコル制御情報:バージョン、オペレーションコードなど © 2015Storage Networking Industry Association. All Rights Reserved. 33 FIPプロトコルとFCoEプロトコル 検出フェーズ FCFは互いおよびVLAN(存在する場合)を検出し、ファブリックを 形成する ENodeがVLAN(存在する場合)を検出した後、ENodeとFCFが検出 を行う VN portとVF portのペアリングの候補 ペアリング候補の機能 ログインフェーズ ENodeが検出したFCFのポートのいずれかを選択する ENodeポートとFCFポートの関連付けを行う VN port VF portの論理FCリンク ENodeのMACアドレス指定に使用できる2つの方法 FPMA(Fabric Provided MAC Address) - ファブリックによって割り当てられる ???SPMA(Server Provided MAC Address) - サーバによって割り当てられる??? FCFが(各サイドの機能に基づき)FPMAによる方法かSPMAによる方法を選択する FCoE Initializati on Protocol (FIP) FLOGI、FLOGI ACC、LOGO、ELSなどを使用する • エンドツーエンドなパス制御およびデータ転 送フェーズ FCoE プロトコル PLOGI/PRLI その他のすべてのFCプロトコルフレーム(FC4 ULPなど) © 2015Storage Networking Industry Association. All Rights Reserved. 34 イーサネット(FCoE)でのFCのカプセル化 ワー ド 31-24 23-16 1 さまざま Ver(4b) ET=FCoE(16ビット) 4 reserved 5 reserved 6 7 … イーサネットフレームの サイズは64バイト~ 2220バイト 送信元MACアドレス(6バイト) 2 3 このフィールドのサイズは 7-0 宛先MACアドレス(6バイト) 0 オプションのIEEE 802.1q 4バイト タグはここに入る 15-8 n n+1 n+2 reserved(12ビット) reserved SOF(8ビット) カプセル化されたFCフレーム FCフレーム = 最小28バイト(7ワード) 最大2180バイト(545ワード) (FC-CRCを含む) EOF(8ビット) reserved イーサネットFCS © 2015Storage Networking Industry Association. All Rights Reserved. 35 FIPオペレーションフォーマット ワード 0 31-24 23-16 15-8 7-0 宛先MACアドレス(6バイト) 1 オプションのIEEE 802.1q 4バイト タグはここに入る 2 3 4 5 記述子リスト のサイズは さまざま イーサネットフレームの サイズは 64バイト~2220バイト 送信元MACアドレス(6バイト) Ver(4b ET=FIP(16ビット) reserved(12ビット) ) FIPオペレーションコード reserved FIPオペレーションコード 記述子リスト長 FIPサブコー reserved ド FP FIPサブコード フラグ フラグ 記述子リスト 6 A S F 記述子リスト長 F P S P S F … n 最小長またはmini-Jumbo長までパディング n+1 イーサネットFCS ケーパビリティビット(FPMA) 使用可能ビット ソリシティドビット © 2015Storage Networking Industry Association. All Rights Reserved. FCFビット 36 FCFモデル FCファブリック インタフェース FCスイッチングエレメント FC エンティティ または PCoE エンティティ FC エンティティ PCoE エンティティ FCoE コントローラ ロスレスイーサネットMAC ロスレスイーサネット ブリッジエレメント Link End Point (LEP) MACアドレス MACアドレス FC エンティティ または PCoE エンティティ FC エンティティ PCoE エンティティ FCoE コントローラ ロスレスイーサネットMAC ロスレスイーサネット ブリッジエレメント © 2015Storage Networking Industry Association. All Rights Reserved. 37 CNA (ENode) モデル FC エンティティ FC エンティティ PCoE エンティティ PCoE エンティティ FCoE コントローラ ロスレスイーサネットMAC Link End Point (LEP) FC エンティティ FC エンティティ PCoE エンティティ PCoE エンティティ FCoE コントローラ ロスレスイーサネットMAC 各ENode(CNA)には、複数の物理イーサネットポートを搭載可能 各物理ポートには、複数の論理VN portを搭載可能 © 2015Storage Networking Industry Association. All Rights Reserved. 38 単純なDCBファブリック DCB スイッチ FC DCB(統合)スイッチは、FC E-Port経由で従来のFCスイッチやファブリックに接続 できる イーサネット FC © 2015Storage Networking Industry Association. All Rights Reserved. 39 シナリオ1:FCoEとIPのフロー インターネット 従来の イーサネット ネットワーク DCB ネットワーク FCoE スイッチ DCB ネットワーク FCファブリック FCoE スイッチ FCoEのフロー IPのフロー © 2015Storage Networking Industry Association. All Rights Reserved. 40 シナリオ2:FCoEの良いフローと悪いフロー インターネット 従来の イーサネット ネットワーク DCB ネットワーク FCoE スイッチ FCファブリック FCoE スイッチ DCB ネットワーク FCoEのフロー FCoEの無効なフロー © 2015Storage Networking Industry Association. All Rights Reserved. 41 FCoEまとめ FCoEは、T11(2009年6月)に完成したFC-BB-5の一部である。この文書は現在INCITSの管理下にあ り公開販売されている。量産製品の生産・販売は既に開始。 FCoEは、イーサネットタイプの新しいネットワークでファイバチャネルをイーサネットフレームにカ プセル化するためのシンプルで効率的なメカニズムである 従来のイーサネットインタフェースやファブリックではない 新しいネットワーク – DCBネットワーク DCB(CEEとも呼ばれる)は、IEEE 802.1標準規格の作業部会によって定義された FCプロトコルフレームは、イーサネットフレームに単に挿入される FCoEには漸進的な配備モデルが組み込まれている FCからFCoEに設置をアップグレードできる仕様である FCとFCoEのファブリックをどのように組み合わせてもよい 統合インタフェースを備えたサーバエッジではFCoEで十分な場合もある ただし、総合FCoE SANも可能(FCFを使用) サーバエッジのケーブル、アダプタ、電力、冷却の量を削減できる すべてのFCoEデバイスは、実際のFCデバイスと同時に使用できる必要がある FCoEはデータセンタファブリック向けで、外部接続ネットワークには適用できない。 © 2015Storage Networking Industry Association. All Rights Reserved. 42 2.4 DCB(データセンタブリッジング)の概要 - FCoEに関連して データセンタ内で使用される各種ネットワークにおいて、I/O統合 とコンバージドネットワーク展開が広がっている。データセンタ ー管理者として、このようなネットワークの振る舞いや機能を十 分理解することが重要視されはじめている。 ここでは、データセンタネットワークを構築して運用するために 使用されるテクノロジとプロトコルについて説明する。特に、 IEEEデータセンタブリッジング(DCB)プロトコル(ETS、QCNな ど)、ネットワーク管理プロトコルとしてのSDN、およびトラフ ィック管理などを取り上げる。 © 2015Storage Networking Industry Association. All Rights Reserved. 43 デ複雑なデータセンタネットワーク L2イーサネット: L3/L4: VLAN STP DHCP LAG(Link Aggregation) ブロードキャスト/ マルチキャスト DCB PFC ETS QCN DCBX FC: IP TCP NAS iSCSI UDP ICMP ECN 各種アプリケーションの転送 TRILL(TRansparent Interconnection of Lots of Links) オーバーレイネットワーク VXLAN/NVGRE(Network Virtualization using Generic Routing Encapsulation) ネットワークの管理と監視 従来のネットワーク管理 SDN(Software Defined Network):OpenFlow SANプロトコル 転送としてのFC クレジットフロー制御 FCoE FCサービス データセンタのトラフィックに関 する留意点: キュー + バッファ ヘッドオブラインブロッキング インキャスト/マイクロバースト 持続輻輳 遅延とスループットの関係 © 2015Storage Networking Industry Association. All Rights Reserved. 44 データセンタネットワークの要件と機能 要件 高スループット 高可用性 十分な拡張性 低遅延 堅牢さ 機能 帯域幅 サーバからの10Gが急速に普及している 40G/100Gは使用可能なネットワーク帯域幅を意味する トラフィック分離 DCBプロトコルは同じネットワーク内に複数の平面を構築す る トラフィック間干渉なしで帯域幅を共有できる 大規模なL2ドメイン ファブリック実装によって実現される 遅延の改善 転送経路が最適化されたスイッチとファブリック ネットワーク輻輳管理 物理インフラストラクチャ上で同時に複数のフロー制御スキ ームが機能する © 2015Storage Networking Industry Association. All Rights Reserved. 45 ネットワークコンバージェンス コンバージェンスは2つの重要なテーマに沿って発生 する これらは同時に発生している 階層の崩壊 SAN SANAB インフラストラクチャの 集中 © 2015Storage Networking Industry Association. All Rights Reserved. 46 あらゆるものの仮想化 アグリゲーションと仮想化 ストレージアレイやサーバなどの多くの例 偶発的パーティショニングの回避 意図的パーティショニングの受け入れ アグリゲーション 物理的なものとソフトウェアによるもの 柔軟な接続を利用して容量をまとめてプールする 仮想化 実要件を満たすために集約されたシステムの論理パーティション 柔軟性 どこにでもある代替可能リソース ジャストインタイムプロビジョニングとシンプロビジョニングによる ユーティリティインフラストラクチャ これらがネットワークにも起こっている! © 2015Storage Networking Industry Association. All Rights Reserved. 47 仮想化がマルチプロトコル接続を促進 …その理由はデータセンタが常に流動的だから アプリケーションのライフサイクル サービスの導入、更新、廃止 サーバとネットワーク上の負荷は絶えず変化している 予測不可能 リソース管理の課題 余分な容量の最小化 再構成 再生/再利用 リソースの追加は最終手段 動的共有リソースプールがこれらの課題を解決する 仮想化 + ネットワークによって可能になる サーバは潜在的に各種プロトコルを介してデバイスにアクセスする必要がある ストレージはSANアタッチが20%から100%近くにまで進む © 2015Storage Networking Industry Association. All Rights Reserved. 48 プロトコルの分類 DCBプロトコル •802.1P •802.1Q •802.1AB •802.3X •802.3bd I/O統合と ネットワーク コンバージェンス ネットワーク規模の 輻輳管理 物理/仮想 サーバ/スイッチ相互作用 © 2015Storage Networking Industry Association. All Rights Reserved. 49 ファイバチャネルオーバーイーサネット(FCoE) ファイバチャネルの観点から イーサネットクラウドと呼ばれる新種のケーブルを介したFC接続 イーサネットの観点から 単なるもう1つの転送すべきULP(上位レイヤプロトコル)、 しかし…魅力的なプロトコル! FCoEの要件を満たすように設計されたDCB FC-BB-5: VE-VE & VN-VF、FC-BB-6 + VN2VN FCoE経由で伝送されるクラス2、3、およびF イーサネットサポート ロスレス ― つまり、輻輳を理由にした破棄が許されない、転送要素あたり500 ms以下 の伝送遅延、順序正しい配信を保証する必要がある コンポーネント FCoE/FCスイッチ(またはFCF) FCoE/FCゲートウェイ(NPIVベース) FCoEトランジットスイッチ(DCB + FIPスヌーピング) © 2015Storage Networking Industry Association. All Rights Reserved. 50 2.4.1 リンクレベルフロー制御 ロスレスネットワークから得られるトラフィックの利点 ・欠点? テクニック ポーズ 優先度フロー制御 ポーズとクレジット リンクレベルフロー制御を中心とした複雑さ ヘッドオブラインブロッキング 輻輳拡散 リンクレベル構成とエンドツーエンド損失動作 内部転送経路と外部リンク エンドツーエンドでvswitchが必要な場合 © 2015Storage Networking Industry Association. All Rights Reserved. 51 ロスレスネットワークの恩恵を受けるのは? ロスレスが不可欠 FCoE その他のロスレス候補 iSCSIローカルトラフィック LANバックアップ 仮想マシンモビリティ クラスタ HPC ロッシー候補 管理 キャンパス © 2015Storage Networking Industry Association. All Rights Reserved. 52 クレジットベースとポーズベースのフロー制御 フレーム フレーム フレーム R_RDY R_RDY FCクレジットベースのリンクレベルフロー制御 サイズに関係なく、1クレジットが1フレームに対応する (2G FCの場合は、1 kmおきに1クレジットが必要) 送信側は受信側からクレジット(R_RDY)を受け取っていれば、フレームを送信するだけで済む 平均フレームサイズが考慮されたポートでサポートされるクレジット数によって、伝送可能な最大距 離が決定される クレジット帯域幅遅延が最大可能値を超えると、持続スループットが低減される フレーム フレーム ポーズ ポーズフレームベースのリンクレベルフロー制御 送信側を停止させる必要がある場合は、受信側が送信側に通知するためのフレームを送信する ロスレス動作では、受信側がすべての移動中データを取り込む必要がある この場合は、受信側のバッファに基づくハードリミットが、直接接続イーサネット上のストレージトラフィッ クの距離に課される バッファがオーバーランした場合は、フレームがドロップされる可能性がある © 2015Storage Networking Industry Association. All Rights Reserved. 53 リンクレベルポーズの複雑さ ヘッドオブラインブロッキングと輻輳拡散 ロスレスネットワークでは、FCベースのSANが常にこのような振 る舞いをする CNA CNA CNA CNA CNA CNA QCN使用しないロスレス 輻輳拡散 QCNを使用しないロッシー 輻輳が損失を招く TCP輻輳制御が支配的に振る 舞う © 2015Storage Networking Industry Association. All Rights Reserved. 54 2.4.2 トラフィック管理 トラフィック管理とは、ネットワーク全体の帯域幅と輻輳の制御を 試みるプロトコルとアルゴリズムの総称である これはリンクレベルフロー制御との重要な相互作用であることに注意 アプリケーションでもこのような特性を直接管理できるが、ここでは省略する 発信制限 速度制限 ETS( Enhanced Transmission Selection) 発信速度リミッタの構成を表すDCBX内部の設定 エンドツーエンド輻輳制御 TCP/IP特有 WRED(Weighted Random Early Detection/Discard)と関連アルゴリズム( policers)によって意図的に駆動される QCN ECN © 2015Storage Networking Industry Association. All Rights Reserved. 55 発信速度制限とETS 発信速度制限 クラス/グループ/キュー単位で帯域幅制限を設定する 特定のリンク上でのトラフィック量の制御を可能にする ETS 発信速度リミッタの構成を表すDCBX内部の設定 グループを定義し、各グループに帯域幅を割り当てる手段 グループに優先度を割り当てる © 2015Storage Networking Industry Association. All Rights Reserved. 56 ETSの詳細 要件 リンクの観点から 3つ以上で8つ以下のトラフィッククラスをサポー ト ETSが帯域幅を制御する クラスグループ単位で適用される – – PFCが有効な場合の優先度用の1つ PFCが無効な場合の優先度用の1つ 厳密優先度用の1つ クラスグループは1つ以上のクラスからなる 特定のグループ内部は通常の公正さ 他のアルゴリズムで使用された残りの帯域幅から 1%以上の粒度で割り当てる帯域幅割り当てをサポ ート トラフィッククラスの1つで割り当てられた帯域 幅を消費できなかった場合に、使用されなかった 帯域幅を他のトラフィッククラスで使用できる( 使用しなくてもよい)ような送信選択ポリシーを サポート ロッシーとロスレスの両方に適用 される ロスレスの場合は、結果がポーズのタイミン グに影響する ロッシーの場合は、フレームがドロップされ るタイミングに影響する 厳密優先度トラフィックの処理後に適用され る 1 クラスグループ1 クラスグループ 3 3 1 TXキュー0 TXキュー1 クラスグループ 2 2 6 TXキュー2 物理 TXキュー3 10 GE TXキュー4 TXキュー5 ポート TXキュー6 TXキュー7 2 2 4 5 3 T1 T2 T3 供給されたトラフィック 2 2 2 2 5 5 3 3 T1 T2 認識されたトラフィック T3 © 2015Storage Networking Industry Association. All Rights Reserved. 57 TCPのフロー制御 ストレージネットワーキングにとってTCPは不可欠(FCIP、iSCSI) 接続指向 全二重バイトストリーム(アプリケーション宛て) ポート番号でIPアドレス内のアプリケーション/サービスエンドポイントを識別 接続識別:IPアドレスペア + ポート番号ペア(4タプル) 一部のサービスの既知のポート番号 信頼できる接続のオープンとクローズ 接続初期化でネゴシエートされる機能(TCPオプション) 信頼できる 順序正しい配信が保証される セグメントがシーケンスと確認応答情報を伝送する 送信側がデータを受信されるまで維持する 必要な場合は送信側がタイムアウトしてから再送信する チェックサムで保護されたセグメント フロー制御と輻輳回避 フロー制御はエンドツーエンドで行われる(単一リンク上のポートツーポ ートではない) 送信側輻輳ウィンドウ パケットドロップと並べ替えに対処する 受信側スライディングウィンドウ © 2015Storage Networking Industry Association. All Rights Reserved. 58 輻輳制御:QCN(Quantized Congestion Notification) QCNはポート単位で構成されたポイントで、ある優先度に基づいて動作する… 「いわば、L2とDC用距離を除いたTCP輻輳管理のようなものである」 事前対処的 デバイスはパケットをドロップしてホストを減速させる必要がない 代わりに、輻輳に基づいて圧力をかけることができる 送信デバイスが輻輳を認識して減速する QCNの実際の効果はどのくらいか トラフィックフローはどのくらい早く変化するか 実際のイベントからフロー速度調節までの反応時間はどのくらいか 粒度はどのくらいか ロスレスQCNの使用 輻輳拡散を低減する ロッシーQCNの使用 パケット損失を低減する CNA CNA CNA CNA CNA CNA © 2015Storage Networking Industry Association. All Rights Reserved. 59 輻輳制御:ECN ECN(Explicit Congesion Notification) これはIPまたはTCPに対する拡張である ヘッダ内のビットを使用して機能を伝達し、輻輳検出を指摘する IPv4ヘッダでは、DiffServフィールド内のビットが使用される – – – – 00:ECNでは未サポート 10:ECNで転送可能 01:ECNで転送可能 11:輻輳検出 TCPヘッダビットも使用される – – – NS(Nonce Sum) ECE(ECN-Echo) CWR(輻輳ウィンドウ減少) 次のように動作する エンドポイントが対応可能なことを伝達する 輻輳発生に伴ってドロップされた可能性のあるパケットをマークするための経路に沿った中 間ホップ TCP/IP受信側が、回線上で送信するパケットのECEフラグをセットすることにより、輻輳 が発生したという事実を伝達する TCP/IP送信側は、自分の輻輳ウィンドウを下げて、自分の要求が履行されたことを受信側 に知らせるためにCWRを設定することにより、ECEの取得に対処して、ECEフラグのセッ トを中止することができる エンドポイントのECN機能だけでなく、中間ネットワークのECN機能も必60 © 2015Storage Networking Industry Association. All Rights Reserved. 要なことに注意 DCBXアプリケーションの例 アプリケーション TCP/UDP/イーサネット ポート/Ethertype HPC – RoCE (RDMA over イーサネット 8915 NAS – NFS(既存) UDP 2049 NAS – NFS(新規) TCP 2049 NAS – CIFS/SMB TCP 445 Converged Ethernet) HPC – iWARP(Internet Wide Area RDMA Protocol) FCoE 8906 FIP 8914 iSCSI TCP 3260 © 2015Storage Networking Industry Association. All Rights Reserved. 61 SDNの例:OpenFlowプロトコル パケット転送機能と経路制御機能をフロー制御プロトコルにより分離 通信トラフィックをフロー単位に制御することで、 経路制御の高度化、ネットワーク仮想化、可視化等を実現 フロー単位の パケット転送機能 (フロースイッチング) 経路制御機能 (障害回復、負荷分散、最適化 OpenFlowコントローラ OpenFlowスイッチ Rule Rule Action Action Statistics Statistics Flow Table ■フローテーブルにない通信を受信した場合は、そのス イッチがコントローラに対し問合せを実施。■コントローラ は宛先までの最適経路を計算し、その計算結果に基づい たフローテーブルを経路上の各スイッチに登録する。 © 2015Storage Networking Industry Association. All Rights Reserved. 62 インタフェースのレイヤー © 2015Storage Networking Industry Association. All Rights Reserved. 63 FibreChannel と Ethernet ■10GEではDC内でもiSCSIの適用が先行する。 ■40GEの適用によってFCoEの帯域や速度の利点が出てくる。 (TCP/IP処理のオーバーヘッド) © 2015Storage Networking Industry Association. All Rights Reserved. 64 FCoEとiSCSI ■DC内、DC間での適用領域が違う。 ■FC-SANへのgatewayとしてFCoEの利便性 © 2015Storage Networking Industry Association. All Rights Reserved. 65 2.5 InfiniBand(IB) IBは本来クラスター接続、RDMA用インターフェースであ ったが、HPC領域をはじめとして、ストレージ接続にも使わ れている。 © 2015Storage Networking Industry Association. All Rights Reserved. 66 IBプロトコル © 2015Storage Networking Industry Association. All Rights Reserved. 67 IBにおける接続 1)Module-to-Module コンピュータシステムの追加スロットでサポートされるI/Oモ ジュール(NICやHBA)に間の接続 2)Chassis-to- Chassis コンピュータ同士、外部ストレージシステム、データセンター 環境におけるスイッチやルータ等の外部LAN/WANのアクセスデ バイスとの相互接続 IBではプロセッサノード(プラットフォーム)のホストバスア ダプタをHCA(Host Channel Adapter)と呼び、I/O ノード(デ バイス)上のアダプタをTCA(Target Channel Adapter)と呼ぶ 。I/OChassisのスイッチとプロセッサノード間スイッチを含む 構成もあり、I/OChassisの中にスイッチは持たず、TCAとRAID システムのみのストレージサブシステムが外部スイッチを介し てプロセッサノードに接続する形もある。 © 2015Storage Networking Industry Association. All Rights Reserved. 68 IBの接続 © 2015Storage Networking Industry Association. All Rights Reserved. 69 IBのIO制御 -IBスイッチファブリックはエンドノード間でキューイングされたメッセー ジを配信することに関して信頼性の高いトランスポートメカニズムを有す る。一般的には、メッセージのコンテンツと意味はIBA(Infini Band Architecture)では定義されていないが、設計者がエンドノードデバイスや エンドノードデバイスにホストされるプロセスに組み込む。 -IBはデータ転送路上でソフトウエアの介入なしでメッセージング(送受信 )及びリモートDMAのようなメモリ操作をサポートするハードウエアトラン スポート層を定義している。 -IBは旧来のI/O、通信をサポートするカーネル特権モードや最新のプロセ ス間通信をサポートするユーザスペースから、IBトランザクション開始及 び終了させる際のエラー検出・保護メカニズムを定義している。 © 2015Storage Networking Industry Association. All Rights Reserved. 70 3.SSDインターフェース PCI-e NVMe © 2015Storage Networking Industry Association. All Rights Reserved. 71 PCIe PCIeはIntel社がPCIバス、PCI-Xバスのより高速化を目 指し、第3世代のI/O規格として策定した3GIO(3rd Generation I/O)を元にPCI-SIG(PCI Special Interest Group)により規格化されたものである。従来のPCのバ スとは違いpoint-to-pointのシリアルリンクであり、送信 と受信の2つのリンクを1つのペアとして全二重の1 Laneを構成する 伝送路はCopperもしくはFiberが利用される。2004年に 発表されたPCIe1.0では一つのシリアルリンクでそれぞ れ2.5Gbpsのビットレートを持ち、8b/10bエンコードを 採用することでデータレートは250MB/sとなっている。 PCIeではLaneを複数持つことができ、x1, x4, x8, x16と いった表現でLane数を表記することが一般的である © 2015Storage Networking Industry Association. All Rights Reserved. 72 PCIeの構造 © 2015Storage Networking Industry Association. All Rights Reserved. 73 NVMe - NVMeはPCI-eベースの SSDコントローラの仕様で伝 送路はPCI-e。元々は SATA/SCSIexpressで検討 していた。 - AHCIはAdvanced Host Controller Interfaceの略 でATAシリアル化に伴って機 能を向上させた。 © 2015Storage Networking Industry Association. All Rights Reserved. 74 NVMe利用例:PCIe SSD 搭載アレイ SASインタフェースでなく、PCIe インタフェースを利用 SFF-8639(コネクタの仕様) 2.5インチドライブにPCIeイン タフェースを追加するためのコ ネクタ仕様 多機能コネクタ SATA/SASのレーンもあり互換 性維持 NVM Express(NVMe) コントローラの仕様 AHCIに代わる SSD向けの最適化されたレジス タ・コマンドセット定義 コネクタバックプレーン 汎 用 コ ネ ク タ 汎 用 コ ネ ク NVMe タ SASデバイス または 多 機 能 コ ネ ク タ SATA SAS SCSI Express 多 機 能 コ ネ ク タ または デバイス SATA © 2015Storage Networking Industry Association. All Rights Reserved. 75 4. ワークロード 業務の運用にはワークロードの検証が不可欠 ネットワークはワークロードにどのように影響するか 使い方、構成、SSD/HDD 特にVM環境下での振る舞い © 2015Storage Networking Industry Association. All Rights Reserved. 76 SSDの失敗事例 企業概 要 • • 某自動車会社 • 上場企業 • 1950年代に設立 • 4,000人を超える従業員 • 30億ドル超の売上額 大規模SSDキャッシュ・プロジェクト POCを実施 本番環境にデプロイ済み • ただし、VMは簡単な計算で選択 VMはアプリケーション種別に基づいてのみ選択 • プロジェクトは大失敗に終わる。 VMはとうてい利点をもたらすことができなかった(多大な浪費)。 © 2015Storage Networking Industry Association. All Rights Reserved. 77 VMのSSDからの利点は以下に依存する … そもそもボトルネックはディスクなのか (あるいは、CPU、メモリか)? VMがキャッシングから利点を得られるかどうかを、 どのように判断するか? 詳細なワークロードの特性評価 突出したI/Oの分析 読み取り/書き込み比率の分析 レーテンシー分析 キャッシュ・ヒット率の分析 簡単な経験則はない! 万能なサイズはない。 © 2015Storage Networking Industry Association. All Rights Reserved. 78 ワークロードの特性を表す手法 ヒストグラムは、単一の数値(平均値、中央値、および平均からの 標準偏差など)よりも、多くの情報をもたらす。 例:多様な挙動は、ヒストグラムで表すと簡単に特定できるが、 平均値では不明瞭になる。 ヒストグラムは実際にオンラインで効率的に計算できる。 Made up Example 2000 1500 1000 500 © 2015Storage Networking Industry Association. All Rights Reserved. 10 Latency of an operation (microseconds) 9 8 7 6 5 4 3 2 Frequency 0 1 平均値は5.3! 2500 79 ワークロードの特性を表す手法 ESXのディスクI/Oワークロードの特 性解析は、仮想ディスク単位で行わ れる。 ワークロードをタイプごとに分けてそ の固有のコンテナに入れ、トレンド を観察できる。 手法 ESXの仮想マシンのI/O要求毎に、 値をヒストグラムに挿入する。 仮想ディス ク毎に収集 されたデー タ 例:I/O要求のサイズ → 4 KB 6 4 8192 4096 2048 1024 2 0 © 2015Storage Networking Industry Association. All Rights Reserved. 80 ワークロードの特性を表す手法 読み取り/書き込み分布の ヒストグラムが利用可能 I/Oサイズ 読み取り/書き込みの 全体的な比率は? シーク距離 このワークロードでは、 書き込みは読み取りよりも 大きいのか、小さいのか? 読み取りは書き込みよりも シーケンシャルか? どのタイプのI/Oが より長いレーテンシーを 引き起こしやすいか? 全て、読み取り、書き込み 全て、読み取り、書き込み 最新の16個のうちで最短のシー ク距離 突出したI/O 全て、読み取り、書き込み I/Oインターバル時間 全て、読み取り、書き込み レーテンシー 全て、読み取り、書き込み © 2015Storage Networking Industry Association. All Rights Reserved. 81 ワークロードの特性が重要 集中的な書き 込み 安定した読み取りトラフィック 8KBの読み取り および書き込み バイモーダル(二 極性)な空間的局 所性 読み取り/書き込み比 率は、読み取りに大きく 偏っている。 アプリケーションのI/Oパターンを把握することが © 2015Storage Networking Industry Association. All Rights Reserved. SSDの利点を予測する第一歩である。 82 5. 今後のロードマップ © 2015Storage Networking Industry Association. All Rights Reserved. 83 © 2015Storage Networking Industry Association. All Rights Reserved. 84 6. SNIAとは 1997年米国設立の業界団体で現在約400社が加盟。ストレージに関係する仕様 の標準化、教育、出版などを行い、ベンダー間の協調、ユーザの啓蒙を図るこ とを目的としている。 主な標準化仕様 SMI-S:ストレージ装置の管理API CDMI:クラウドストレージの管理 セキュリティマネジメント仕様:ISO27040 グリーンストレージの省電力効率測定:Emerald Program SSDに関する測定方法の標準:PTS SNIA-Jは日本支部として米国と協調し、上記の情報をユーザに広く伝え、ま た日本発の技術を米国と検討することを主目的として活動している。 © 2015Storage Networking Industry Association. All Rights Reserved. 85 米国SNIA InitiativeとTWG © 2015Storage Networking Industry Association. All Rights Reserved. 86 SNIA-J 2014年度 組織 理事会・総会 運営会議 監事 会長・副会長・ 理事/運営理事(会計担当含) 事務局長 事務局 技術 委員会 ・書籍WG(2014-2015) 教育 委員会 マーケティング 委員会 委員長・副委員長 委員長・副委員長 個別WG 委員長・副委員長 Cold Storage分科会 9社 32名参加 次世代不揮発メモリ分科会 6社 13名参加 グリーン分科会 5社 7名参加 © 2015Storage Networking Industry Association. All Rights Reserved. 87 SNIA-J 2014年度 会員 お陰様で2014年度に新たに7社新規加入いただきました。 新たな市場、新たな技術を常にウォッチし、新規会員を増やしていきます 正会員 分科会会員 2014年12月より募集開始 EMCジャパン株式会社 ティントリジャパン合同会社 株式会社東芝 日本電気株式会社 ネットアップ株式会社 株式会社日立製作所 富士通株式会社 個人会員 2014年12月より募集開始 特別会員 賛助会員 株式会社 HGSTジャパン テュフ ラインランド ジャパン株式会社 東京エレクトロン デバイス株式会社 パナソニック株式会社 富士フィルム株式会社 SONY株式会社 アドバンスデザイン株式会社 IDEMA JAPAN グリーン・グリッド ジャパンデータストレージフォーラム 北陸先端科学技術大学院大学 情報社会基盤研究センター 大阪大学サイバーメディアセンター © 2015Storage Networking Industry Association. All Rights Reserved. 88 88 SNIA-J 2014年度主要活動 DSE(Data Storage Expo Tokyo 2014) 基調講演 David Dale(SNIA International 会長) Japan IT week参加者 総数 74,823 名 新会員 新たに6社が加入 (正会員 +1, 賛助会員 +5) 技術分科会立ち上げ、書籍プロジェクト開始 3 分科会 (コールドストレージ, 次世代不揮発メモリ, グリーン) 書籍プロジェクト(よくわかるストレージ・ネットワーク改訂) SDC 2014(サンタクララ)で2論文 SNIA Japan ストレージトレンドセミナー(夏) 東京・大阪で合計172 名参加 © 2015Storage Networking Industry Association. All Rights Reserved. 89 グリーンストレージ分科会 活動方針 Energy Star for Data Center Storage v1.0の施行(2013年12月) 省エネ法基準見直しに向けてJEITAでストレージサブシステムの適用範囲、区分、 基準式等を検討中。これら日米欧の動向を正確に把握する。 •SNIA Emerald v2.x仕様の詳細、測定法・測定ノウハウの習得 •Energy Star v2.0(2015年末?)のベースとなるEmerald v3.x仕様策定貢献 活動内容 日米欧の動向調査と調査結果のSNIA日本支部主催セミナーでの発表など広報活動 第2回Emeraldトレーニング実施、Emerald v3.x仕様策定への貢献 分科会メンバ 6社 11名 富士通株式会社 株式会社東芝 株式会社日立製作所 東京エレクトロンデバイス株式会社 テュフ・ラインランド・ジャパン 日本電気株式会社 © 2015Storage Networking Industry Association. All Rights Reserved. 90 90 グリーンストレージの必要性 ストレージとIT予算ーー平均15から20% 4つの基本戦略 機器の電力効率を高める 電源、ファン、HDD回転数、等 物理的冗長を抑える デルタスナップショット、パリティRAID 容量コミットを少なくする シンプロビジョニング 利用可能容量にできるだけデータを詰め込む デデュプリケーション、圧縮 © 2015Storage Networking Industry Association. All Rights Reserved. 91 冗長性のニーズ RAID 10 - 複数のディスク障害に対する保護 DRミラー - サイト全体に及ぶ災害に対する保護 バックアップ - 障害および意図しない削除や変更に 対する保護 コンプライアンスアーカイブ - 罰則に対する保護 テスト/開発コピー - 未熟なコードによる障害から ライブデータを保護 オーバープロビジョニング - ボリューム不足による アプリケーションクラッシュに対する保護 スナップショット - より迅速でより効率的なバック アップ © 2015Storage Networking Industry Association. All Rights Reserved. 92 冗長性の結果 - エネルギー消費はデータの単純(フル) コピーの数にほぼ比例する テスト テスト 10 TB テスト テスト テスト アーカイブ アーカイブ バックアップ バックアップ バックアップ スナップショット 「増加」 スナップショット 「増加」 スナップショット 「増加」 スナップショット 「増加」 RAID10 RAID10 RAID10 RAID10 データ データ データ データ スナップショット 「増加」 スナップショット 「増加」 スナップショット 「増加」 スナップショット 「増加」 スナップショット 「増加」 5 TB 「増加」 1 TB データ RAID10 RAID10 RAID10 RAID10 RAID10 RAID10 RAID10 データ データ データ データ データ データ データ アプリケーション RAID 10 データ オーバーヘッド オーバー プロビジョン スナップ ショット DR ミラー ディスク コンプライアンス バックアップ アーカイブ © 2015Storage Networking Industry Association. All Rights Reserved. 最大 10倍強 テスト/開発 コピー 93 グリーン技術の影響 - テスト 10 TB テスト テスト テスト テスト テスト テスト テスト テスト テスト テスト テスト アーカイブ テスト テスト テスト テスト バックアップ アーカイブ テスト テスト テスト テスト テスト バックアップ アーカイブ バックアップ アーカイブ バックアップ スナップショット 「増加」 スナップショット 「増加」 スナップショット 「増加」 スナップショット 「増加」 データ データ データ データ スナップショット 「増加」 スナップショット 「増加」 スナップショット 「増加」 スナップショット 「増加」 データ データ データ データ 仮想 クローン 重複削除 & 圧縮 テスト スナップショット 「増加」 RAID10 データ スナップショット 「増加」 1 TB テスト テスト テスト 5 TB グリーンストレージ技術は、同じデータセットを格納および使用 するのに必要なストレージの生の容量を減らすことができる これに伴い、エネルギー消費量も減少する (ただし、アクティブなディスクが少ない場合に限られる) RAID10 データ バックアップ スナップショット 「増加」 RAID DP データ スナップショット 「増加」 RAIDDP データ RAID 5/6 アーカイブ RAID DP RAIDDP RAID DP RAIDDP シン 多目的 プロビジョニング バックアップ RAID DP RAIDDP アーカイブ バックアップ RAID DP RAIDDP © 2015Storage Networking Industry Association. All Rights Reserved. 94 SNIA Emerald™ Program SNIA エメラルドプログラム 公正なテスト結果を集めるEPA Energystar のスーパセットプログラム SNIA/GSIに入る必要はないが、認証されればロゴとTMが表示でき る。 独立なテストラボ、テスト認証者(現状はセルフテスト) IT購入決定者、ストレージシステム製造者、EndUserに推奨 GSI Voteing Member $375 +8free NonVote $500+4free SNIA $750 Non $1500 http://www.sniaemerald.com/ © 2015Storage Networking Industry Association. All Rights Reserved. 95 SNIA Emerald™ Program © 2015Storage Networking Industry Association. All Rights Reserved. 96 SNIA-Jとしてam © 2015Storage Networking Industry Association. All Rights Reserved. 97 次世代不揮発メモリ分科会 活動目的 PCIe SSDやDIMM SSD等のハイパフォーマンスSSDやMRAM等の次世代不揮 発メモリの技術動向およびアプリケーション動向を調査し、ストレージシステム全体へ のインパクトや、新たなアプリケーション・市場創出の可能性を探る 活動内容 •不揮発メモリ技術・アプリケーションの動向調査・情報収集 •論文・WhitePaper(SNIA,IEEE)、標準化動向(SNIA,NVMe,PCISIG,T10) •新規アプリケーションの検討 •SNIA日本支部主催セミナーでの発表、White Paperの作成・公開 分科会メンバ 6社 15名 富士通株式会社、富士通研究所 株式会社東芝 株式会社日立製作所 株式会社HGSTジャパン 東京エレクトロンデバイス株式会社 東芝ソリューション株式会社 日本電気株式会社 © 2015Storage Networking Industry Association. All Rights Reserved. 98 98 SSDパフォーマンス状態 Performance States for Various SSDs NM (MLC) NS (SLC) JS (SLC) PSM (MLC) JM (MLC) FOB 1.2 Transition 1 Normalized IOPS (IOPS/Max(IOPS)) 定常状態 (desirable test range) 0.8 0.6 0.4 0.2 0 0 50 100 150 200 250 300 Time (Minutes) © 2015Storage Networking Industry Association. All Rights Reserved. 99 ワークロード依存性 - ベンダーA SSD Mfg A ステップ 1: HD Tune Pro シ ーケンシャル Write テスト ステップ 2: IOMeter ランダム Write テス ト ステップ 3: HD Tune Pro シー ケンシャル Write テスト © 2015Storage Networking Industry Association. All Rights Reserved. 100 ワークロード依存性 - ベンダーB SSD Mfg B ステップ 1: HD Tune Pro シ ーケンシャル Write テスト ステップ 2: IOMeter ランダム Write テス ト ステップ 3: HD Tune Pro シー ケンシャル Write テスト © 2015Storage Networking Industry Association. All Rights Reserved. 101 データ・コンテンツとの関連性 3D IOPS Surface Profile (IOMETER 2008) 30,000 - 35,000 IOPS 25,000 - 30,000 35,000 20,000 - 25,000 30,000 15,000 - 20,000 10,000 - 15,000 25,000 5,000 - 10,000 20,000 0.5 0 - 5,000 15,000 2 10,000 8 5,000 32 Transfer Size (KB) 3D IOPS Surface Profile (IOMETER 2006) 0 128 512 65/35 35/65 20/80 10/90 0/100 80/20 90/10 100/0 30,000 - 35,000 25,000 - 30,000 R/W Mix % IOPS 20,000 - 25,000 35,000 15,000 - 20,000 10,000 - 15,000 30,000 5,000 - 10,000 25,000 0 - 5,000 20,000 0.5 1 15,000 2 4 10,000 8 16 5,000 32 0 64 Transfer Size (KB) 128 256 512 80/20 1024 90/10 100/0 65/35 35/65 R/W Mix % 20/80 10/90 0/100 © 2015Storage Networking Industry Association. All Rights Reserved. 102 SSDパフォーマンス測定標準化の必要性 SNIAの技術作業部会(SSS:Solid State Storage TWG) 2009年初頭にパフォーマンス仕様の定義を制定 SSSパフォーマンスの比較可能なテスト(PTS)とレポート を可能にするテスト・スイーツとテスト手順の仕様 非依存性 – どんな一つのテクノロジーにも肩入れしない 関連性 – エンドユーザに意味がある 再現性 – デバイス間の容易な比較 実用的 – リーズナブルな時間と作業で終わる アクセス性 – オープンな仕様、3rd パーティーによる検証 ---2011・4月に第一版のリリースを完了 © 2015Storage Networking Industry Association. All Rights Reserved. 103 PTS仕様 © 2015Storage Networking Industry Association. All Rights Reserved. 104 © 2015Storage Networking Industry Association. All Rights Reserved. 105 7. SNIA-Jトレンドセミナーへのお誘い © 2015Storage Networking Industry Association. All Rights Reserved. 106 KVS(Key Value Store)概要 ユニークなキー(64-128bit長が一般 的)とデータが関係づけられたフラット なデータ管理・保存方法 フラットな名前空間で高い拡張性 ファイルシステム階層や属性管理(inode) など不要 独自のQuery方法 SQLは用いないデータベースという意味で NoSQLと呼ぶこともある 代表的な実装例 Amazon DynamoDB Apache Hbase Apache Cassandra 実装例 © 2015Storage Networking Industry Association. All Rights Reserved. 107 オブジェクト ストレージとは? KVSを拡張したアーキテクチャ オブジェクト = データ(ファイル) + メタデータ ユーザがメタデータを自由に追加定義可能 多くのオブジェクト ストレージがKVSをベースに実装 コモディティハードウエアをベースとしたスケールアウト アーキテクチャ 単一の名前空間をデータセンターや国/地域を跨いで構築可 能 容量やオブジェクト数などの拡張性制限なし HTTP/HTTPS(RESTful API)によるアクセス 代表的な実装例 Amazon S3, OpenStack Swift © 2015Storage Networking Industry Association. All Rights Reserved. 108 オブジェクト ストレージ アーキテクチャ概要 インターネット ロードバランサー オブジェクト ストレージ Webサービス Webサービス ネーム サービス ネーム サービス コンテナ サービス コンテナ サービス Webサービス Webサービス コンテナ サービス Webサービス ネーム サービス コンテナ サービス コンテナ サービス メタデータの同期 データ複製 リモートサイト © 2015Storage Networking Industry Association. All Rights Reserved. 109 オブジェクト ストレージのデータ保護 ローカル/リモートでのデータ保護 ローカル ストレージ(ドライブ),ノード,ラックを意識した保護 同期書き込みによる保護が一般的 リモート 他のサイトへの複製の作成(リモート複製の数指定可能) 非同期書き込みによる保護が一般的 データ保護方式 データ複製(ミラー) オブジェクトを2つ以上で任意の複製数を指定し保護 処理の負荷は低いが容量効率が悪い Erasure Code オブジェクトを指定のサイズ/個数のチャンクに分割し、リード・ソロモン符 号などデータ部分消失時に復元できるデータ(パリティ)を付加し、複数ノー ド(ストレージ)へ分散配置する (9データ+3パリティなど1.2 – 1.6程度の 容量効率が一般的) 容量効率が良いが処理の負荷は単純な複製に比べ高い 110 © 2015Storage Networking Industry Association. All Rights Reserved. オブジェクト ストレージ利用 RESTful API現状と課題 オブジェクト ストレージとして世界で最も利用されている Amazon S3 APIについては、様々なプログラミング言語向 けのクラスやライブラリがインターネットやコミュニティ を通じ容易に入手可能で開発に関するノウハウなど情報量 も多い オープンソースのOpenStack Swiftを含め、各オブジェクト ストレージ製品は独自のAPIを実装しつつも、Amazon S3 API互換機能を併せて提供するケースが多い →Amazon S3 APIがデファクト スタンダードになりつつあ る一方で、私企業に依存しない標準化されたAPIも必要 →CDMI © 2015Storage Networking Industry Association. All Rights Reserved. 111 SNIA CDMI (www.snia.org/CDMI) SNIAにより標準化されたオブジェクト ストレージ(クラウド ストレージ)のデ ータ管理インタフェースで、バージョン1.0.2,2012年にISO/IEC(17286)で国 際標準として認定されている RESTful APIとして様々なクライアントからの利用を想定 いくつかのベンダー製品に加えOpenStack SwiftもCDMIをサポート © 2015Storage Networking Industry Association. All Rights Reserved. 112 Parallel NFS with NFSv4.1 (pNFS) pNFSはNFSv4.1で標準化され たNFSサーバのボトルネックを 解消しスループット向上を目指し たアーキテクチャ 他にもSANをデータパスとして 利用する同様のファイルシステ ムはいくつか存在 NFSv4.1のクライアントは透過 的にファイルシステムを利用 これまでのNFSと変わらずアプ リケーションの変更は不要 pNFSはNFSv4プロトコルを拡 張しNFSサーバはデータの位置 情報のみ クライアントと通信 クライアントはデータをSAN( FC, FCoE, iSCSIなど)経由で 読み書き www.pnfs.com … NFSv4.1 クライアント pNFS プロトコル ストレージ アクセス プロトコル メタデータ サーバ* NFSサーバ 制御 プロトコル データ/ストレージ サーバ * メタデータサーバと データサーバ機能の同居は可能 © 2015Storage Networking Industry Association. All Rights Reserved. 113 NASの仮想化 – OOB(Out of Band) クライアント クライアント クライアント クライアント メタデータ サーバ (MDS) IP ファイル サーバ ファイル サーバ ファイル サーバ ファイル サーバ ファイルA ファイルG ファイルB ファイルD ファイルF ファイルH ファイルC ファイルE ファイル K_1 ファイル K_2 ファイル K_3 ファイル K_4 ファイルA' ファイル B'' ファイルC' ファイルB' 分散ファイル ストライプ化されて いるファイル 複製ファイル グローバルネームスペース 個々のファイルやファイルセグメン トは、1つのファイルサーバに固定さ れる 複数のファイルサーバでファイルを 分散することや複製することができ る-ファイルの並列アクセス 複数のファイルサーバでファイルを ストライプ化できる-ストライプ単 位の並列アクセス 正しいファイルサーバを検索する責 任はクライアントが負う 例:NFSv4.1 pNFS、MS DFS © 2015Storage Networking Industry Association. All Rights Reserved. 114 NASの仮想化 – NFS4.1 pNFS NAS:InBand NAS:OOB アプリケーション サーバ アプリケーション サーバ アプリケーション サーバ NFSv4クライアント NFSv4クライアント NFSv4クライアント IP NASアプライアンス アプリケーション サーバ NFSv4.1クライアント (pNFSあり) アプリケーション サーバ アプリケーション サーバ NFSv4.1クライアント NFSv4.1クライアント (pNFSあり) (pNFSあり) IP ストレージプロトコル: SCSI(FCP、iSCSI、SRP、SAS)、 NFSv4.1、OSD NASアプライアンス (NFSv4.1あり) pNFS拡張 データ データ SN SN データパスは 制御パスおよび メタデータパスから切り離されている © 2015Storage Networking Industry Association. All Rights Reserved. 115 NASの仮想化 – NFS4.1 pNFS詳細 NAS:OOB アプリケーション サーバ アプリケーション サーバ アプリケーション サーバ NFSv4.1クライアント NFSv4.1クライアント NFSv4.1クライアント (pNFSあり) (pNFSあり) (pNFSあり) IP ストレージプロトコル: SCSI(FCP、iSCSI、SRP、SAS)、 NFSv4.1、OSD NASアプライアンス (NFSv4.1あり) pNFS拡張 データ ストレージネットワーク ... ブロックデバイス NFS NFS ... NAS OSD OSD ... OSD オブジェクトベース・ストレージ・デバイス © 2015Storage Networking Industry Association. All Rights Reserved. 116 NASの仮想化 – NFS4.1 pNFS NFSv4.1クライアント (pNFSあり) NFSv4.1クライアント (pNFSあり) NFSv4.1クライアント (pNFSなし) NFS4.1 + pNFS MDSは、pNFSに 対応していない クライアントの プロキシとして機能 NFS ストレージ プロトコル 制御プロトコル ファイル:NFSv4.1 ブロック:iSCSI、FCP、SRP、SAS オブジェクト:OSD NAS アプライアンス NAS アプライアンス NAS アプライアンス NAS アプライアンス NASアプライアンス (NFSv4.1あり) pNFS拡張 NAS アプライアンス MDSが グローバルネーム スペースを作成 データ 1対1、ストライプ、ミラー、連結 グローバルネームスペース © 2015Storage Networking Industry Association. All Rights Reserved. 117 このチュートリアルに関するご意見は以下にご連絡く ださい : SNIA日本支部 教育委員会 [email protected] SNIA-J推薦図書 : ■ 「よくわかるストレージネットワーキング」 喜連川優編 : オーム社 ■SNIAストレージネットワーキング用語集 © 2015Storage Networking Industry Association. All Rights Reserved. 118
© Copyright 2025 ExpyDoc